第十五單元:交叉列表和卡方檢定 授課老師:國立臺灣大學農藝學系 劉仁沛 教授 統計與生活 第十五單元:交叉列表和卡方檢定 授課老師:國立臺灣大學農藝學系 劉仁沛 教授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」臺灣3.0版授權釋出】
交叉列表和卡方檢定 捲舌 (Tongue Rolling)
捲舌 老師女兒: 小小咪
捲舌
捲舌
捲舌 老師女兒: 小小咪 OH,YES!!!!
捲舌 師母: 公衛系 季瑋珠 教授
捲舌
捲舌 師母: 公衛系 季瑋珠 教授 YES!!!!
捲舌 老師
捲舌
捲舌 老師 哎#@&
問題:人類舌頭捲舌遺傳 是否由簡單孟德爾遺傳定律 單一顯性基因控制?
問題:人類舌頭捲舌遺傳 遺傳分離比的檢定: 人類舌頭捲舌性狀是否由單一基因控制? 一對夫婦:妻為捲舌,夫不為捲舌。 捲舌:顯性 不捲舌:隱性 一對夫婦:妻為捲舌,夫不為捲舌。 下一代(F1)小孩均為捲舌。 第二代(F2)8個小孩中,4個為捲舌, 4個為不捲舌。
問題:人類舌頭捲舌遺傳 第一代(F1):捲舌 第二代(F2):4個為捲舌, 4個為不捲舌。 捲舌與不捲舌分離比是否符合3:1
問題:抗生素與生病的關係 2×2列聯表 (2x2Contingency Table or Two-way Table) 雞隻注射抗生素與生病是否有關?
問題:抗生素與生病的關係 2×2列聯表 (2x2Contingency Table or Two-way Table) 雞隻注射抗生素與生病是否有關?
問題:某公司某年度錄用員工性別之交叉表 2×2列聯表 (2x2Contingency Table or Two-way Table) 男女工作權的平等
問題:某公司某年度錄用員工性別之交叉表 2×2列聯表 (2x2Contingency Table or Two-way Table) 男女工作權的平等
問題:教師升等與性別 4×2列聯表 (4x2Contingency Table or Two-way Table) 台灣大學:女性與男性在升等是否不同? 級別 女性 男性 和 講師 28 37 65 助理教授 128 237 365 副教授 153 317 470 教授 177 847 1024 和 486 1438 1924
問題:教師升等與性別 4×2列聯表 (4x2Contingency Table or Two-way Table) 台灣大學:女性與男性在升等是否不同? 級別 女性 男性 和 講師 28(5.8%) 37(2.6%) 65 助理教授 128(26.3%) 237(16.5%) 365 副教授 153(31.5%) 317(22.0%) 470 教授 177(36.4%) 847(58.9%) 1024 和 486 1438 1924
問題:人類舌頭捲舌遺傳 遺傳分離比的檢定: 人類舌頭捲舌由單一基因控制 對偶基因(alleles) 捲舌:顯性(A) 不捲舌:隱性(a)
適合度檢定(Goodness-of-fit) 捲舌與不捲舌分離比 虛無假說Ho:捲舌與不捲舌分離比符合3:1 對立假說Ha:捲舌與不捲舌分離比不符合3:1 觀測到第二代F2捲舌與不捲舌人數各為4 O1=4;O2=4 此項數據的經驗証據是否支持捲舌與不捲舌分離比符合3:1的虛無假說?
適合度檢定(Goodness-of-fit) 捲舌與不捲舌分離比 虛無假說Ho為真時:捲舌與不捲舌分離比為3:1 第二代(F2)8個小孩中3/4應為捲舌,1/4應為不捲舌 捲舌期望數E1:8 × 3/4 = 6 不捲舌期望數E2:8 × 1/4 = 2
適合度檢定(Goodness-of-fit) (實際觀測值 - 期望值)
適合度檢定(Goodness-of-fit)
適合度檢定(Goodness-of-fit) 實際觀測值的和=期望值差的和 直接用實際觀測值與期望值差的和為零 無法表示實際觀測值與期望值之間的整體差異
適合度檢定(Goodness-of-fit) (實際觀測值 - 期望值)2
適合度檢定(Goodness-of-fit) 實際觀測值的和=期望值差的和 直接用實際觀測值與期望值差的和為零 無法表示實際觀測值與期望值之間的整體差異 故建議採用實際觀測值與期望值差的平方和 但實際觀測值與期望值差平方是絕對差的平方
適合度檢定(Goodness-of-fit)
適合度檢定(Goodness-of-fit) 實際觀測值的和=期望值差的和 直接用實際觀測值與期望值差的和為零 無法表示實際觀測值與期望值之間的整體差異 故建議採用實際觀測值與期望值差的平方和 但實際觀測值與期望值差平方是絕對差的平方 以期望值為尺度
適合度檢定(Goodness-of-fit) 最後採用 (實際觀測值 − 期望值)2 期望值
Chi-square statistic
適合度檢定(Goodness-of-fit)
適合度檢定(Goodness-of-fit) 自由 Freedom
適合度檢定(Goodness-of-fit) Four Freedoms freedom of speech(言論自由) freedom of religion(宗教自由) freedom from fear(免於恐懼自由) freedom from want(免於缺乏自由)
適合度檢定(Goodness-of-fit) Degrees of Freedom 自由度?
適合度檢定(Goodness-of-fit) 自由度(Degrees of Freedom: df) 實際觀測值的和=期望值差的和 實際觀測值與期望值差的和為零(所有類別) 捲舌與不捲舌:兩個類別 捲舌:實際觀測值-期望值=4-6=-2 因實際觀測值與期望值差的和為零 不捲舌:0-(-2)=2 可自由變動的類別數=總類別數-1 捲舌與不捲舌分離比的自由度=2-1=1
適合度檢定(Goodness-of-fit) Degrees of Freedom 自由度: 類別數自由變動的個數
適合度檢定(Goodness-of-fit) 原來數字也有自由!
卡方分配(Chi-square distribution) 卡方分配:標準常態變數平方和之分配 均為非負數 右偏分配 與自由度有關
當資料為k組 推翻拒絕Ho 決策方法:
適合度檢定(Goodness-of-fit)
決策:無法推翻Ho
獨立性檢定(Test of Independence) 觀測值
獨立性檢定(Test of Independence) 還是要算期望值: (行的和)(列的和) 總和
獨立性檢定(Test of Independence) (1,1)位置的期望值: 第一行(column)的和=65 第一列(row)的和=486 總和=1924 期望值=(486)(65)/1924=16.4
獨立性檢定(Test of Independence) 台灣大學:女性與男性在升等是否不同?
獨立性檢定(Test of Independence) 虛無假說(H0):性別與教師級別的升等是無關的 對立假說(Ha):性別與教師級別的升等是有關的 若性別與教師級別的升等無關,無論是哪種教師級別其中性別的比例會是相同的。
獨立性檢定(Test of Independence) (1,1)位置的卡方值: (28-16.4)2 16.4 = 8.2
獨立性檢定(Test of Independence)
獨立性檢定(Test of Independence) 自由度 = (列數-1)(行數-1) = (r-1)(c-1) = (3-1)(2-1) = 2
r × c列聯表(rxc Contingency Tables) r個列(rows) c個行(columns)
Chi-square statistic
獨立性檢定(Test of Independence) 台灣大學:女性與男性在升等是否不同? 2 = 77.3 > 20.05,3 = 7.81 (p-value<0.05) 2 = 77.3 > 20.01,3 = 11.34 (p-value<0.01) 2 = 77.3 > 20.001,3 = 16.27 (p-value<0.001) 顯著水準=0.05推翻Ho 顯著水準=0.01推翻Ho 顯著水準=0.001推翻Ho
Cell counts required for the chi-square test 使用卡方檢定需要注意: 1. 少於20%的期望數<5 2. 個別期望數大於等於1 方可使用
交叉列表和卡方檢定 計算可真複雜,像外星人所想出的公式,真是@#&*^# ORZ! Do NOT worry 統計分析軟體: SAS (Statistical Analysis System) SPSS (Statistical Package for Social Sciences) Excel 統計教學中心提供教材 www.statedu.ntu.edu.tw
交叉列表和卡方檢定 辛普遜矛盾 (Simpson’s Paradox) 辛普遜家庭的矛盾?
問題:某公司某年度錄用員工性別之交叉表 2×2列聯表 (2x2Contingency Table or Two-way Table) 男女工作權的平等
問題:性別與某公司單位錄取與否之關係 辛普遜矛盾(Simpson’s Paradox)
問題:性別與某公司單位錄取與否之關係 辛普遜矛盾(Simpson’s Paradox) 整體而言,男性錄取的比例約略高於女性求職者。 但加入申請單位類別這個變數之後,申請單位為業務性質的單位,女性錄用的比例為41.8%高於男性的40.9%;而申請非業務單位,依然是女性求職者錄用的比例26.5%高於男性的22.7%。 整體分析的結果與分層分析矛盾。
統計歷史人物小傳 Jerome Cornfield (1912-1979)
Jerome Cornfield (1912-1979) 1933:B.A. in history from New York University 1936-38:Training in statistics at the USDA Graduate School 1935-46:Statistician at Bureau of Labor Statistics 1947-1958:National Institute of Health 1958-1960:Chairman, Dept. of Biostatistics, Johns Hopkins Univ. 1961-1967:NIH 1967-1972:Univ. of Pittsburgh 1973-1976:George Washington Univ.
Jerome Cornfield vs. R.A. Fisher: The Famous Debate Criticisms by Fisher, Berkson and Neyman In 1959, a 30-page paper by Cornfield and 5 leading cancer experts from NCI, American Cancer Society, and Sloan-Kettering Institute was published in the Journal of National Cancer Institute In this paper, they addressed the issues raised by Fisher, Berkson, Neyman, and Tobacco Institute and showed that the evidence is overwhelming that smoking is a causative factor in the rapidly increasing incidence of human epidermoid carcinoma of the lung
Jerome Cornfield vs. R.A. Fisher: The Famous Debate Issues with studies in smoking Bias with retrospective studies and non-randomized observational studies Opportunity samples Toxicological proof A classical example of how cause is proved in epidemiological studies Although each study is flawed, the evidence keeps mounting, as one study after another reinforces the same conclusion
總結(Summary) 1. 類別資料推論 2. 適合度檢定 3. 獨立性檢定 4. 自由度 5. 卡方分配 6. 辛普遜矛盾
交叉列表和卡方檢定 預祝大家期末考 考試順利
交叉列表和卡方檢定 暑假愉快
版權聲明 4 5 8 11 16 頁碼 作品 版權標示 作者 / 來源 國立臺灣大學 農藝學系 劉仁沛 教授。 《生物統計學入門》, 沈明來 編著,九州圖書文物有限公司,2007 年第 5 版,頁 237。 依據著作權法第 46、52、65 條合理使用。
17 18 20 頁碼 作品 版權標示 作者 / 來源 19、62 21、47 《生物統計學入門》, 沈明來 編著,九州圖書文物有限公司,2007 年第 5 版,頁 237。 依據著作權法第 46、52、65 條合理使用。 18 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏 合著, 國立臺灣大學出版中心,2010 年第 1 版,頁 314。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 19、62 20 國立臺灣大學出版中心,2010 年第 1 版,頁 315。 21、47
26 30 34 42 43 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏 合著, 國立臺灣大學出版中心,2010 年第 1 版,頁 317。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 30 34 國立臺灣大學出版中心,2010 年第 1 版,頁 318。 42 國立臺灣大學出版中心,2010 年第 1 版,頁 319。 43 國立臺灣大學出版中心,2010 年第 1 版,頁 320。
45 46 48 51 54 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏 合著, 國立臺灣大學出版中心,2010 年第 1 版,頁 318。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 46 48 國立臺灣大學出版中心,2010 年第 1 版,頁 322。 51 國立臺灣大學出版中心,2010 年第 1 版,頁 323。 54 國立臺灣大學出版中心,2010 年第 1 版,頁 324。
63 65 頁碼 作品 版權標示 作者 / 來源 66-68 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏 合著, 國立臺灣大學出版中心,2010 年第 1 版,頁 328。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 65 The Johns Hopkins University (http://www.biostat.jhsph.edu/newsEvent/history/cornfield.shtml), 瀏覽日期 2012/06/15。依據著作權法第 46、52、65 條合理使用。 66-68 1933:B.A. in history……the same conclusion. 《LIVE STATISTICS》(http://ntur.lib.ntu.edu.tw/bitstream/246246/20060927123046507443/1/live%20statistics.pdf),Jen-pei Liu, PhD,July 9, 2006,頁 78-82。 依據著作權法第 46、52、65 條合理使用。