CH13 超越描述統計:推論統計
CH 13 13.1 常態曲線 當我們想根據樣本提供的資訊估計母群體的情況時,推論統計就進入了我們的視野。 從本質上說,推論統計就是從樣本跳躍到母群體。說得具體一些,就是從樣本統計值跳躍到母群體參數值。 (統計值代表樣本的觀測值;參數值代表總體的實際值。) 13.1 常態曲線 常態曲線(normal curve)是對某個變數的觀測值或得分的分布的形象描述。
CH 13 需要注意的是,常態曲線並不常見。 我的意思是,常態曲線僅僅只是一個理論「發明」,它是數學方程式建構的結果。 儘管常態曲線僅僅只是一個假設的統計工具,但是它和現實情況卻十分吻合。 比如,一般認為,人類的IQ值分布就呈現出常態曲線的形狀。 記憶、閱讀能力和工作滿意度的測量結果也呈常態分布。諸如人類的身高、體重等變數的分布形狀也接近常態曲線。
CH 13 常態曲線是19世紀兩個研究人員〔一個是比利時的數學家,叫蘭伯特‧阿道夫‧雅克(Lambert Adolphe Jacques),一個是英國科學家,名叫弗朗西斯‧高爾頓爵士(Sir Francis Galton)〕在分析人類一些基本特徵(身高、體重、胸腔容量、視力等等)的觀測值分布情況時發現的。 常態曲線有許多顯著的獨特性質。除了形狀像一個鐘之外,常態曲線還是一條單峰曲線,也就是只有一個最高點。這個最高點正好位於常態曲線的中點。同時,這個最高點也正是平均數、中位數和眾數所在的位置。
CH 13 常態曲線是左右對稱的,平均數的左邊區域和右邊區域是完全一致的。最後,曲線下方的區域具有可預測的特點。 根據常態曲線,研究人員可以對呈常態分布的變數進行預測。 如果我們知道(或假設)某個變數呈常態分布,那麼統計學家告訴我們,我們可以預測該變數有百分之幾的個案會落在曲線下方的某個固定區域裡。這些固定的標準區域是根據曲線的中心點(即平均數)劃定的。通常情況下,常態曲線會在平均數的左右各定三個標準距離,標出六個區域。這些固定的距離被稱為標準差,也就是統計學家所說的「Z分數」或標準分數。
CH 13 如果我們知道某些變數(像身高一樣)呈常態分布,那麼我們就可以放心地對這些變數的觀測值在其平均數附近的分布情況進行預測。 圖13.2表示的是常態分布變數的預測(發生概率)情況。注意,有34.13%的個案的觀測值(如身高)會落在平均數左邊一個標準差之間的區域內。 由於常態曲線是左右對稱的。 68.26%的個案將會落在距該變數平均數-1到+1個標準差之間。
CH 13 如果一個變數呈常態分布,那麼它將有95.44%的個案會落在距該變數平均數-2到+2個標準差之間。 事實上幾乎所有(99.74%)的個案會落在距該變數平均數-3到+3個標準差之間。 一般認為,IQ是一個呈常態分布的變數。 一旦假設某個群體的觀測值或得分呈常態分布,那麼我們就可以對母群體情況做出如下預測:有百分之幾的個案將落在離該母群體平均數的固定距離之內。
CH 13
CH 13 13.2 重複抽樣 如果能從同一個母群體中抽出足夠多的樣本,然後取所有樣本平均數的平均數(如把所有樣本的平均數加起來,再除以樣本的個數),那麼得出的結果就應該接近母群體的真實值。 13.3 抽樣分布 抽樣分布(sampling distribution)指的是樣本統計值的分布,這個分布是重複抽樣的結果。例如,從同一個母群體中不斷重複抽樣,把每個樣本的平均數在坐標系上表示出來,那麼我們就可以得到一個平均數的抽樣分布。
CH 13 在平均數抽樣分布裡,所有樣本平均數的均值(平均數的平均數)等於母群體的真實平均數。 如果抽樣的次數足夠多,那麼我們就可以假設抽樣分布呈常態分布。 假設我們要根據樣本的平均年齡推論母群體的平均年齡。根據常態曲線的性質,我們可以說,樣本均值落在抽樣分布均值(又稱為母群體真實均值)±1個標準單位之間的可能性為68.26%;某個樣本均值落在總體均值±2個標準單位之間的可能性為95.44%;某個具體的樣本均值落在總體均值±3個標準單位之間的可能性為99.74%。
CH 13 13.4 彙總 根據樣本的資訊以及常態曲線的性質,我們可以計算出用抽樣調查取代普查的誤差程度。 13.4 彙總 根據樣本的資訊以及常態曲線的性質,我們可以計算出用抽樣調查取代普查的誤差程度。 如何根據抽樣統計值推論母群體的參數值?比如,如何根據抽樣平均數估計相應的母群體平均數?這個問題的答案可以從信賴區間(confidence interval)的計算過程中找到。信賴區間指的是我們為了捕捉母群體真實值而附加在樣本統計值上下的一個修正值的範圍(即「修正幅度」)。我們一般用下面這個方程表示信賴區間:CI=X ±(SE×Z)
CH 13 X上面加上一個短槓,這個符號代表樣本平均數。公式中的X意味著,估計母群體參數值最好的起點是樣本中相應的平均數。 ±符號代表,為了接近真實的母群體參數值,樣本平均數會被加上或減去一個數。 SE(標準誤)乘以Z(信賴水準的Z分數)表示信賴區間的誤差範圍(margin of error。 這個誤差範圍就是為了讓估計值接近真實的母群體參數值應該增減的具體數量。
CH 13 媒體一般會在±3 %的誤差範圍之內估計選民的投票傾向。 這意味著,如果媒體預測候選人A的得票率為45%(±3),那麼他們的意思是,支持該候選人的全國選民可能高達48%(45%+3%),也可能只有42%(45% -3%)。 換句話說,媒體拒絕對最後的實際結果做正面的精確預測,他們給出的觀點閃爍其辭,只要最後的結果落在這6個百分點的範圍之內,那麼他們就宣稱自己的預測是準確的。類似的,如果你留意一下蓋洛普民意測驗的結果,你會發現他們的研究結論一般也帶有±3個百分點誤差範圍。
CH 13 這個方程式所需的資料都是現成的。X可以從樣本中獲得。根據標準差(SD)和樣本規模(n)這兩個資料,我們可以非常容易地算出標準誤SE的值。最後,根據常態曲線的性質,我們可以毫不費力地確定Z的取值。 13.4.1 SE-標準誤分數 標準誤(standard error)可以被看成根據樣本推斷母群體過程中出現的誤差。 抽樣也有侷限。樣本在通常情況下都不能準確地代表母群體的情況。因此,我們必須假定抽樣存在一些誤差。SE可以幫助我們計算抽樣誤差的具體大小。
CH 13 13.4.2 Z分數 我們根據樣本的標準差和樣本規模這兩個資訊來計算SE。 我們用來計算標準誤的另一個關鍵資訊是樣本規模。 標準誤的計算方法是,標準差除以n-1的開平方根。(這裡使用n-1的原因和前面一章提到的原因相同,即這樣得出的標準誤更保守、更穩妥。) 13.4.2 Z分數 Z分數(Z values)就是常態曲線下方面積。
CH 13 當我們討論常態曲線及其距離平均數的標準單位時,我們說的就是Z分數。 Z分數為±1包含了平均數附近68.26%的區域;Z分數為±2包含了平均數附近95.44%的區域;Z分數值為±3包含了平均數附近99.74%的區域。 如果信賴水準是95%(大多數社會研究人員採用這一水準),那麼Z分數就是1.96。 提高信賴水準會增加誤差範圍,但與此同時,母群體的真實值落在某個區間的可能性也會增加。(只要給出信賴水準,我們就可以通過Z分數分布表查到相應的Z值。一般的統計學書籍都附有Z分數分布表。)
CH 13 13.5 幾個具體的例子 假設從你所在的大學中抽取一個包含100個學生的樣本,根據這個樣本提供的資訊,你計算出學生的平均年齡是24歲,年齡的標準差(SD)是5。此時,能否說你們學校所有學生的平均年齡也是24歲? 要回答這個問題,我們必須先算出信賴區間。我們拿出信賴區間的計算公式,然後把各個數值代入這個公式: CI=X ±(SE×Z) 從樣本資料我們瞭解到,等於24。再根據樣本資訊計算標準誤SE的值。
CH 13 我們用標準差5除以(100-1)的平方根(即9.9):5/9.9=0.5 接下來,把SE和Z乘起來。如果我們想取95%的信賴水準,那麼就應該把Z=1.96代入公式: CI=24 ± (0.5×1.96) CI=24 ± (0.98) 這樣,我們就可以說,在允許的誤差範圍(上下加減0.98歲)之內,我們有95%的信心保證總體的平均年齡為24歲。
CH 13 最近有人對社會學專業的學生進行了抽樣調查,樣本規模是100個學生,結果顯示,社會學專業學生的成績平均GPA為3.1,標準差為0.5。在99%的信賴水準上,所有社會學專業學生的成績平均GPA應該是多少? 通過解信賴區間方程式,我們就可以得到答案。 從樣本資料中我們得知X等於3.1。再根據樣本資訊計算SE的取值。 我們用標準差0.5除以(100-1)平方根(即9.9): 0.5/9.9=0.05 接下來,把SE和Z乘起來。如果我們想取99%的信賴水準,那麼就應該把Z=2.56代入公式: CI=3.1 ± (0.05×2.56) CI=3.1 ± (0.13)
CH 13 這樣,我們就可以說,我們有99%的信心保證總體學生的成績平均GPA在3.1±0.13之間,即母群體的平均GPA在2.97到3.23之間。