Testing Goodness of Fit 適合度檢定 觀念 The Chi-Sqaure Goodness-of-Fit Test 在前幾章中,我們學會了以卡方分配來檢定母體變異數,也學會了如何檢定母體的比例,或兩母體比例是否有差異。在本節中,我們將介紹對於整組比例分佈的統計檢定,由於本節所檢定的檢定統計量依循卡方分配,因此我們將他們稱為卡方配適度檢定。 社會統計(下) ©蘇國賢2007
卡方檢定的用途 卡方檢定主要用來檢定類別資料的分佈與關聯,常用的卡方檢定有: 配合(適合)度檢定(test of goodness of fit):檢定資料的次數分配是否合乎某種特定的分配。 獨立性檢定(test of independence):檢定兩類別變數之間是否有關連。 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 觀念 我們經常想要知道樣本在某些性質上的比例分佈是否與母體相同,例如台南市居民的年齡分佈是否與全台灣的人口年齡分佈相同?民意測驗調查的樣本中,受訪者的教育程度分佈是否能正確反映台灣人口的教育分佈? H0:母體在某性質上呈現某種比例分配H1:母體不為某種比例分配 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 觀念 將母體分成K類別,每部份的比例分別為p1, p2, p3…pk。虛擬假設為觀察到的樣本中,各類別的比例是否恰巧為p1, p2, p3…pk。如果我們抽取樣本數為n的樣本,在假設為真的情況下,我們可以先算出樣本在各類別的預期分佈,再與實際上觀察到的樣本分佈來比較,我們用英國統計學家Karl Pearson所發明的chi-square goodness-of-fit來進行統計檢定。 配合度檢定是利用樣本資料檢定母體分配是否為某一特定分配或理論分配的統計方法。 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 例題 美國商業司以收入來將家戶分類。人口統計資料顯示美國的家庭收入有下列的分佈: 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 例題 Joliet市的市長想要知道該市的收入分佈是否與全美國的情況相當: H0:p1=.2, p2=.3, p3=.4, p4=.1 H1:H0中至少有一個比例不正確 在Joliet市中抽取200戶人家來驗證上述假設,並算出每層級收入中,實際上觀察到的次數分配(observed frequencies)分別為o1, o2, o3, o4。 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 例題 如果我們的虛擬假設為真,則200戶預期的分佈為: 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 例題 第i組的期望分配值以ei來表達,如果樣本數為n,則: ei = npi , i = 1,2,3,…,k 各組期望分配的加總等於n 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 例題 將實際上觀察到的次數分配與預期的分配作比較,如果兩個次數十分接近,則虛擬假設為真的機率很大,但如果兩者差距很大,則我們虛擬假設為真的機率不高。 社會統計(下) ©蘇國賢2007
The Chi-Sqaure Goodness-of-Fit Test 卡方適合度檢定 例題 如何知道兩組數字的差距是否夠大? 為了方便檢驗兩者的差距是否很大,我們以一個簡要的指標來衡量,稱為Chi-square statistics: 社會統計(下) ©蘇國賢2007
Chi-Square Test Statistics 卡方檢定統計 例題 設所有的觀察值剛好完全分佈於k類別中,且每一組的觀察值至少有五個,則Chi-square Goodness-of-Fit Test: 社會統計(下) ©蘇國賢2007
Chi-Square Test Statistics 卡方檢定統計 例題 設所有的觀察值剛好完全分佈於k類別中,且每一組的觀察值至少有五個,則Chi-square Goodness-of-Fit Test: 社會統計(下) ©蘇國賢2007
Chi-Square Test Statistics 卡方檢定統計 例題 社會統計(下) ©蘇國賢2007
Chi-Square Test Statistics 卡方檢定統計 Critical value = 11.34 社會統計(下) ©蘇國賢2007
Testing Goodness of Fit 適合度檢定 由上述的討論可知,卡方適合度檢定的步驟為: (1) 對於母體的分配作了一些假設, (2) 然後找出在假設為真的前提下,我們預期得到的樣本分配 (3)比較實際觀察到的分配與預期分配之間是否一致,以此來驗證我們對於母體分配的假設是否合理。 我們可以用適合度檢定來檢驗隨機變數X是否具有某種機率分配 社會統計(下) ©蘇國賢2007
FBI公佈1995美國暴力犯罪的類型分佈 500件去年犯罪的隨機樣本 請問暴力犯罪型態從1995以來是否已經發生變化? ©蘇國賢2007 社會統計(下) ©蘇國賢2007
請問暴力犯罪型態從1995以來是否已經發生變化? H0: last year’s violent-crime distribution is the same as the 1995 distribution H1: last year’s violent-crime distribution is different from the 1995 distribution. 社會統計(下) ©蘇國賢2007
如果暴力犯罪的型態分佈沒有改變,則500件隨機樣本的預期期望值 社會統計(下) ©蘇國賢2007
社會統計(下) ©蘇國賢2007
Testing Goodness of Fit 適合度檢定 Critical value = 7.815 社會統計(下) ©蘇國賢2007
Page 647, Procedure 13.1A 社會統計(下) ©蘇國賢2007
Page 647, Procedure 13.1A (cont.) 社會統計(下) ©蘇國賢2007
Page 648, Procedure 13.1B 社會統計(下) ©蘇國賢2007
Page 648, Procedure 13.1B (cont.) 社會統計(下) ©蘇國賢2007
例題 一次執四個銅板,共擲160次,此160次中出現正面的情形如下表,試問此硬幣是否對稱? 社會統計(下) ©蘇國賢2007
例題 列出題目所欲檢驗的假設及方法: 假設銅板為對稱,擲四次銅板,其機率分配為? 社會統計(下) ©蘇國賢2007
The Binomial Distribution二項分配 定義 若間斷r.v X的機率分配函數為: n為完全相同且獨立之試驗的次數。 每次試驗只有「成功」「失敗」兩種互斥可能 p為每次試行成功之機率,失敗的機率為q = 1 – p, 其中 0<p<1。 隨機變數X表示n次獨立試驗中成功之次數。 社會統計(下) ©蘇國賢2007
Combination組合 R個元素有R!種排列方式 社會統計(下) ©蘇國賢2007
The Binomial Distribution二項分配 定義 若H0為真,及銅板為對稱,則正面出先次數的機率分配: Binomial distribution, n=4 p=.5 社會統計(下) ©蘇國賢2007
The Binomial Distribution二項分配 定義 若H0為真,即銅板為對稱,則正面出現次數的機率分配: 社會統計(下) ©蘇國賢2007
某研究者正在研究一種廠牌輪胎的平均壽命,在研究的第一階段首先需要驗證該輪胎的磨損公里數是否呈常態分配,其實驗結果如下: Testing Whether a Population Has a Normal Distribution with Given Means and Variance 某研究者正在研究一種廠牌輪胎的平均壽命,在研究的第一階段首先需要驗證該輪胎的磨損公里數是否呈常態分配,其實驗結果如下: 此一廠牌輪胎的磨損公里數是否常態分配?請以α=.05來檢定 社會統計(下) ©蘇國賢2007
檢定常態分配的適合度 由次數分配表中可以算出: 用估計量取代未知母數的個數 H0: 輪胎磨損公里數為常態分配 H1:輪胎磨損公里數不為常態分配 社會統計(下) ©蘇國賢2007
檢定常態分配的適合度 修正 社會統計(下) ©蘇國賢2007
檢定常態分配的適合度 如果假設為真,即母體為常態分配,請問各組的機率為何? 社會統計(下) ©蘇國賢2007
檢定常態分配的適合度 如果假設為真,及母體為常態分配,請問各組的機率為何? 社會統計(下) ©蘇國賢2007
檢定常態分配的適合度 社會統計(下) ©蘇國賢2007
二元隨機變數(Bivariate Random Variables) 複習 社會中大多數的事件是同時發生或互相關連的: 如教育程度與薪資 人口密度與犯罪率 市場中廠商的數目與商品價格 二元隨機變數描述兩個隨機變數X與Y共同發生的的數值組合(X,Y),其發生的機率可用聯合機率函數來表達 社會統計(下) ©蘇國賢2007
Joint Probability Tables 聯合機率表 複習 如果兩個變數都屬於間斷型的類別變數,則可以用聯合機率表來表示其發生的機率 社會統計(下) ©蘇國賢2007
Contingency Tables 聯立表為兩個或兩個以上類別變數所形成的聯合機率表。 表中列出各變數所有可能的數值之交叉各格內的觀察次數。 two-way table three-way table 社會統計(下) ©蘇國賢2007
tests of independence and contingency tables獨立性檢定 社會統計(下) ©蘇國賢2007
聯立表有三種類型 兩個解釋變項之間的關係(身高與體重)。 一個解釋變項與一個結果變項之間的因果關係(如是否抽煙與罹患肺癌的關係)。 兩個結果變項之間的關係(墮胎的態度與婚前性行為的態度)。 社會統計(下) ©蘇國賢2007
tests of independence and contingency tables獨立性檢定 交叉表的閱讀法: 社會統計(下) ©蘇國賢2007
tests of independence and contingency tables獨立性檢定 Row percentage 列百分比 社會統計(下) ©蘇國賢2007
tests of independence and contingency tables卡方獨立性檢定 Column percentage 行百分比 社會統計(下) ©蘇國賢2007
社會統計(下) ©蘇國賢2007
聯合機率函數 複習 設X,Y為二元間斷隨機變數,X之值為x1,x2,x3,…xn,Y之值為y1,y2,y3…ym,若f(xi, yj)滿足下列兩條件: 則f(xi, yj)成為聯合機率函數 社會統計(下) ©蘇國賢2007
邊際機率函數 設X,Y為二元間斷隨機變數,其機率函數為f(x,y),則X, Y的邊際機率函數分別為fx(xi)與fy(yj) 複習 社會統計(下) ©蘇國賢2007
X,Y的聯合機率分配表 複習 社會統計(下) ©蘇國賢2007
X,Y的聯合機率分配表 大陸沿海城市居民(n = 2863),15歲以前居住地與換工作次數之聯合機率分配表 複習 ©蘇國賢2007 社會統計(下) ©蘇國賢2007
X,Y的聯合機率分配表 複習 社會統計(下) ©蘇國賢2007
X,Y的聯合機率分配表 複習 出生於鄉村背景的機率=? 出生於小鎮且至少換過兩次以上工作的機率=? 社會統計(下) ©蘇國賢2007
條件機率 設f(x,y)為二元機率函數,則 在Y= yj的條件下,xi發生的條件機率為: 在X= xi的條件下,yj發生的條件機率為: 複習 社會統計(下) ©蘇國賢2007
X,Y的聯合機率分配表 在所有出生於城市背景的人之中,至少換過兩次以上工作的機率=? 複習 在所有出生於城市背景的人之中,至少換過兩次以上工作的機率=? 在所有出生於鄉村背景的人之中,至少換過兩次以上工作的機率=? 社會統計(下) ©蘇國賢2007
二元間斷隨機變數的期望值與變異數 複習 X的期望值 社會統計(下) ©蘇國賢2007
二元間斷隨機變數的期望值與變異數 複習 X的變異數 社會統計(下) ©蘇國賢2007
兩變數獨立 兩變數彼此沒有關連,稱為獨立(independent): 設X,Y為二元隨機變數,若X,Y滿足下列任一條件,則X,Y為獨立: 社會統計(下) ©蘇國賢2007
例題 廣告公司想要了解觀眾的所得收入與電視節目收視是否相關,其虛擬假設為: H0: 電視節目的選擇與收入無關 H1: 收入與選擇電視節目有關 該公司抽取500戶為樣本,先用收入將樣本區分成高、中、低三類,再以收看電視的種類分成「運動」、「電影」、「新聞」三類。 社會統計(下) ©蘇國賢2007
例題 以交叉表方式呈現資料 傳統上以oij表示第i列第j行的觀察值。如o32=13 社會統計(下) ©蘇國賢2007
例題 計算期望次數: 設列聯表有H列K行,則共有H×K個觀察值(次數)。 如果K行的類別可以用C1, C2, C3, …Ck來表示,H列的類別可以用R1, R2, R3…RH來表達,並以小寫字母cK及rH分別代表各類別的總次數。如果Ri 和Cj為獨立事件,則 P(Ri ∩ Cj) = P(Ri) ‧P(Cj) 雖然我們不知道母體中各類別發生的真正機率,但我們根據各類別所觀察到總次數來計算其相對次數, 即以ri/n來估計P(Ri) ,cj/n來估計P(Cj) 。 社會統計(下) ©蘇國賢2007
例題 我們想要驗證下列的虛擬假設: H0:P(Ri ∩ Cj) = P(Ri) ‧P(Cj) for all i and j H1:P(Ri ∩ Cj) ≠ P(Ri) ‧P(Cj) for at least one i and j 令eij為i列j行的期望次數: eij= n‧P(Ri ∩ Cj) 社會統計(下) ©蘇國賢2007
例題 如果虛擬假設為真: eij= n‧P(Ri ∩ Cj)= n ‧ P(Ri) ‧P(Cj) 如果我們用(ri/n)(cj/n)來估計母體中未知的機率P(Ri) P(Cj)則期望次數可以表為: eij = n (ri/n)(cj/n) = ricj/n 社會統計(下) ©蘇國賢2007
例題 根據觀察到的次數與預期次數是否一致,我們可以檢證兩變數為獨立的假設是否合理。我們用下列的卡方統計量來做檢證: ©蘇國賢2007 社會統計(下) ©蘇國賢2007
例題 計算下表的期望次數 250*250/500=125 150*50/500=15 社會統計(下) ©蘇國賢2007
例題 計算χ2 Critical value = 9.49 社會統計(下) ©蘇國賢2007
例題 1772全國性的樣本調查婚姻狀態與喝酒行為的關連 社會統計(下) ©蘇國賢2007
社會統計(下) ©蘇國賢2007
例題 計算χ2 Critical value = 12.592 社會統計(下) ©蘇國賢2007
Page 666, Procedure A 社會統計(下) ©蘇國賢2007
Page 666, Procedure A (cont.) 社會統計(下) ©蘇國賢2007
Page 667, Procedure B 社會統計(下) ©蘇國賢2007
Page 667, Procedure B (cont.) 社會統計(下) ©蘇國賢2007
卡方檢定的幾個限制 (1)每一格內期望次數應大於等於5 (2) 樣本數很大時,χ2檢定經常會推翻虛擬假設,結果的意義不大。 (3) 無法告訴我們兩個變數之間「如何」相關 社會統計(下) ©蘇國賢2007
Class Mobility-General questions How industrialization and economic growth affect social mobility in Taiwan? How does the effect of social background on social mobility change over time? I am going to divide the presentation in two parts. In the first part of the presentation, We are going to show very roughly how the fast-growing economy has changed the occupational structure, which in turn, increases the fluidity of social mobility in Taiwan. In the second part of the presentation, We would like to talk about the changing effects of social background variable on social mobility. In particular, We will focus on the issue of ethnic inequality in Taiwan and examine the mechanisms through which the parent’s ethnic background affects children's’ educational and occupational status. 社會統計(下) ©蘇國賢2007
Mobility Intergeneration Mobility代間流動 Intra-generation mobility代內流動 Class mobility階級流動 Intra-generation mobility代內流動 Career mobility職業流動 社會統計(下) ©蘇國賢2007
EGP Class classifications I+II專業人員 – Service class: 專業人士、經理人、高階技術人員、辦公室監督人員等。 IIIab經常性行政人員 – Routine non-manual workers: 辦公室行政及商務人員、業務員等。 IVab小雇主階級– Petty Bourgeoisie: 小雇主及自雇人員 IVc+VIIb務農階級 – Farmers & Agricultural labor務農人口 V+VI技術工 – Skilled workers 低階技術人員、現場監督、技術勞工 VIIa非技術工– non-skilled workers: 社會統計(下) ©蘇國賢2007
Six class categories 社會統計(下) ©蘇國賢2007
Socioeconomic inequality & social mobility 「不平等」測量同一時間點內的資源分佈不均的情形(variances of a distribution)。 「流動」測量一個人在不平等的空間中移動的過程(intertemporal correlations)。 「不平等」與「流動」有何關連? 社會統計(下) ©蘇國賢2007
Socioeconomic inequality & social mobility 一個社會的不平等程度與其流動程度沒有必然關係: 不平等阻礙流動:資源較多者具有競爭優勢,可以再製不平等。 不平等刺激流動:不平等提供向上努力的誘因,報酬差異越大,動機越高。 社會統計(下) ©蘇國賢2007
代間流動(intergeneration mobility) 代間流動表 子女階級 專業 行政 小雇主 務農 技術工 非技術工 父 親 階 級 不流動 下 上 下 上 、 社會統計(下) ©蘇國賢2007
Total mobility rate, 1992-2002 The total mobility rate – proportion of people who changed class position Total mobility rate is higher for women Male + Female = 0.74 The total mobility rate, that is, the percentage f people who change class position is higher for women. The rate is fairly similar to the figures of Japan.
代間流動(intergeneration mobility) 絕對流動率 (absolute mobility) 大多是因為結構性的所造成,如教育擴張、產業升級等 相對流動率(social fluidity) 不同階級背景對於流動機會所造成的淨影響。 社會統計(下) ©蘇國賢2007
Total Mobility Rate by Gender by Cohort 社會統計(下) ©蘇國賢2007
Agriculture Service Manufacturing The Trend of Industrial Structure in Taiwan (1951-2004) Agriculture Service Manufacturing 社會統計(下) ©蘇國賢2007
Class composition by birth-cohort, Taiwanese male (1990 census) 專業 行政 自雇 技術 非技 The census data also show a similar trend of rise and fall for the self-employed class. 務農 社會統計(下) ©蘇國賢2007
Class composition by birth-cohort, Taiwanese female (1990 census) 專業 行政 自雇 技術 The 1990 census data also show that routine non-manual class has the highest growth rate for women. 非技 務農 社會統計(下) ©蘇國賢2007
Mobility Table 社會統計(下) ©蘇國賢2007
Mobility Table
Mobility Table When we have no information about the marginal distribution, the best guess of each cell is the grand average: There are total 7865 respondents, equally divided into 6×6 = 36 cells. Each cell = 7865/36=218.5 社會統計(下) ©蘇國賢2007
Mobility Table If we assume that numbers in cells only affected by the row and column marginal distribution, we have independence model: 社會統計(下) ©蘇國賢2007
Mobility Table 社會統計(下) ©蘇國賢2007
Mobility Table 社會統計(下) ©蘇國賢2007
Observed Independence Does the independence model “fit” the observed data? Independence
observed expected Chi-squar = (582-288.7)2/288.7 = 298 ©蘇國賢2007 社會統計(下) ©蘇國賢2007
表示父親階級與兒子階級不獨立。但這代表社會流動如何變化? 社會統計(下) ©蘇國賢2007