統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型 量測得到的資料可分為 : i .質性資料,ii. 數量資料,因資料的屬性不同,選擇的分析方法不同。 i 類目資料 (Categorical Data) -- 文字,代號 或分類資料 (SAS: 字串, SPSS: 名義 nominal) ii 數量資料 ( Quantitative Data) -- 有序的,或量測的,又分為 離散型 Discrete type : 次數、排名、測量時間點 連續型 Continuous type : 如:血壓、測量值、時間、指數
nominal , ordinal, interval, ratio 若以測量尺度分類:資料分類為 nominal , ordinal, interval, ratio 注意:Categorical data 可能是 nominal 尺度,或是 ordinal 尺度, 若是 ordinal 尺度,則可以 1, 2, 3 …代替之。連續型資料歸屬於 interval 尺度。不同類型資料使用的統計值不同,解釋上也不同。 二、實作資料 原始測值 – 血壓、體重、等 比例值 -- 血清中鉻濃度 轉換資料 – 指數,如:BMI(經驗式) 多變量 --老化: (代謝功能,免疫功能,抗氣化效力)
三、資料的統計值 ( 質性資料不考慮下列統計值 ) 中心位置 -- 平均數(mean),中位數(median) 參考位置 – quantile, percentile, 四分位數(quartile) ,五分位數(quintile) 變化程度 -- 標準差(SD) ,變異係數 (CV) ( CV= 標準差 / 平均數 ) 其他 -- 偏態係數(skewness),峰態係數(kurtosis)
資料中心位置的指標 變化程度的指標 資料對稱性的指標 資料常態性的指標
質性資料以長條圖或圓餅圖來表現它的統計分佈 四、資料分佈圖 質性資料以長條圖或圓餅圖來表現它的統計分佈 一般數量資料的統計分佈類型有 1.對稱型:常態型 長尾型 短尾型 2.偏斜型:右偏型 或 左偏型 1、直方圖 (histogram) 表現資料位置,變化度 ,分佈型態,離群個案
2、盒鬚圖 (box plot) 以最小值,25%,50% ,75%,最大值表現資料位置,分散度,分佈型態,離群個案。常用於數組資料的比較。
3、一般論文上的統計描述
貳、常態分佈在統計上的角色 一、特性: 資料標準化後為標準常態分佈。 偏態係數 = 0,峰態係數 = 0。 資料的分佈,可由均值及標準差來推估 若一組資料接近常態分配,可推估約 二、重要性: 自然界中許多資料呈現常態分佈。 大樣本之平均數接近常態分佈(中央極限定理) 基本統計方法通常假設資料來自於常態母體,故需檢測資料的常態性,以確保分析的結果是可信的。
三、與常態相關之分佈 理論上,資料是常態分佈,則樣本變異數屬於 χ2 分配。 由此推導出 t-分佈與 F-分佈,它們是統計推論上常用之分佈。 用於平均數檢定或 兩組資料比較 (自由度與樣本數有關,會影影響均值的分布) 用於兩組變異數比較 或 多組均值比較的變異數分析
四、如何判斷資料是否屬於常態資料? 偏態係數和峰態係數皆接近 0,則資料可能取自常態母體。 常態機率圖 : 若圖形接近直線, 則資料可能取自常態母體。 Wilk-Shapiro test 或 Komogorov-Smirov test : H0 : 資料取自常態母體, p-值大小表示母體資料為常態之可信度。
多數測量值呈現常態分佈,大樣本情況下可忽略常態假設的要求 若有離群個案,會使資料偏離常態 利用數學式可將資料轉換成接近常態分佈 如: 五、 多數測量值呈現常態分佈,大樣本情況下可忽略常態假設的要求 若有離群個案,會使資料偏離常態 利用數學式可將資料轉換成接近常態分佈 如: 對數轉換後分佈 原資料分佈 注意:尋找一合適的轉換式,需要依據研究者之經驗
參、基本統計推論 一、抽樣誤差 實際母體 估計之母體 統計推論必產生差異,稱為抽樣誤差; 抽樣誤差的大小與樣本數有關。 樣 本 例: 抽樣25位受感染者測得其白血球平均值 = 4767,標準差SD= 3200,估計誤差 SEM=640
二、估計 點估計 分類資料:以樣本比例估計母體比例 (如 抽煙比例) 數量資料:以樣本平均數估計母體平均數、 以樣本標準差估計標準差 估計之精確度: 說明:Mean ± SD 呈現資料的變化程度 Mean ± SEM 呈現以均值估計的準確度
1. Weight gain = 20.06 ± 2.25 (mean ± SEM) n=5 以 95% 的信心水準估計 2.25) 區間估計 以一區間估計參數可能落入的範圍。 例: 1. Weight gain = 20.06 ± 2.25 (mean ± SEM) n=5 以 95% 的信心水準估計 2.25) 2. 在 95% 的信心水準下,抽樣錯誤差為正負3.1個百分點; 資料支持的比例 = 24%,則估計支持率在 20.9% 到 27.1% 之間。 註:t 0.025(4) = 2.785,可用excel tinv 求得。
檢定: 對某一研究主題作成假說(hypothesis),根據資料來判斷是否接受此假說。 三、檢定 檢定: 對某一研究主題作成假說(hypothesis),根據資料來判斷是否接受此假說。 p-值 資料顯示 H0 為真的可能性 p-值 < α,結論為 H1,即研究主題顯著 (significant)。 p-值 大時,結論為資料不足以証實研究的主題; 即研究主題不顯著 (non-significant)。 檢定法 選擇適當的方法,利用統計軟體得到 p-值, 做出結論。
骰子60次,得到50次的6點,這是機運或是假骰子? 甲在10次考試中,有8次成績都比乙好,是機運或是甲的程度比乙好? 觀念: 骰子60次,得到50次的6點,這是機運或是假骰子? 甲在10次考試中,有8次成績都比乙好,是機運或是甲的程度比乙好? 先設 甲=乙 成立 根據資料算出 p-值 = 0.001 若甲=乙,只有0.1%的機率得到此結果。 判斷甲顯然不等於乙。p-值 小於 0.05 以α=0.05水準檢定,甲和乙的程度差異是顯著的
檢定的顯著p-值 不顯著的情況 顯著的情況
四、兩變數之相關性 兩變數相關強度由相關係數,ρXY,量測,-1 ≦ ρ ≦ 1。 樣本相關係數: 上式稱為 Pearson 相關係數,用來估計相關強度;若 r 不等於 0,並不表示ρ不等於 0。檢定法可讓我們判斷二變數是否相關。
檢定: H0: ρ =0 (無關) vs. H1: ρ ≠0 (相關) 用 t-test, Q:相關係數多大時,才能結論二變數是顯著相關? 其 r 的絕對值必須大於下列表值,則二變數是顯著相關的;由此知當樣本小時,資料不容易達到顯著相關。 n 10 15 20 25 30 40 50 100 α=0.05 .632 .514 .444 .396 .361 .312 .279 .196 α=0.01 .585 .411 .315 .255 .214 .162 .130 .066