Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chi-Square Distribution

Similar presentations


Presentation on theme: "Chi-Square Distribution"— Presentation transcript:

1 Chi-Square Distribution
第四章 卡平方( )测验 Chi-Square Distribution 一、χ2 的定义与分布 二、方差同质性的卡方(χ2)测验 test for homogeneity among variances 三、适合性测验 test for goodness of fit 四、独立性测验 test for independence

2 1、卡平方检验(Chi-square test); 2、符号检验(Sign test);
卡平方检验属于非参数方法,即不依赖于总体基础分布进行的统计检验方法,称做非参数方法(Nonparametric)或分布不定方法( Distribution-free methods)测验。 非参数检验方法主要包括: 1、卡平方检验(Chi-square test); 2、符号检验(Sign test); 3、秩和检验(Sum of ranks test)。 2

3 一、χ2 的定义与分布 卡平方(χ2 )定义为n个独立的U2之和,或称作相互独立的多个正态离差平方值的总和: 即: 为标准正态离差。
若研究的对象为同一总体,ui=u,σi=σ ,则 当ν1 =1或ν1=2时,F分布曲线呈反向“J”型; 当ν1≥3时,曲线呈偏态。

4 (1)其概率密度函数图是非对称的,与自由度有关。 (2)函数曲线与χ2轴间的面积为1。
一、χ2 的定义与分布 卡平方分布的几个特点: (1)其概率密度函数图是非对称的,与自由度有关。 (2)函数曲线与χ2轴间的面积为1。 (3)χ2值落在区间【a,+∞】中的概率为α。最小为0,最大为+∞。 (4)自由度小时呈偏态,随着自由度增加,偏度降低,至∞时呈对称分布。 4

5 由于所研究的总体 µ 未知,需对μ由样本来估计:
一、χ2 的定义与分布 由定义: 由于所研究的总体 µ 未知,需对μ由样本来估计: 因为: 因此, v=n-1,自由度为独立的正态离差个数。 χ2、u、t、F 的比较: 依定义 ,当只有一个正态离差时u2=χ2, , 。当S的自由度无限增大时, 此时χ2的v=1。 ,当S22的自由度无限增大, ν为S22自由度。 5

6 K.Pearson(1900)根据χ2定义的从属性状导出了用于次数资料分析的χ2计算公式。
一、χ2 的定义与分布 K.Pearson(1900)根据χ2定义的从属性状导出了用于次数资料分析的χ2计算公式。 式中O为观察次数,E为理论次数,i=1……K,为计数资料的分组数,自由度为ν,依分组数及其相互独立的程度而定。 χ2为 ui2 或 (O-E)2/E 之和,所以χ2所以具有可加性。 6

7 二、 方差同质性的卡方( )测验 2.1 一个样本方差与给定总体方差比较的假设测验 χ2多应用于多个样本间方差的比较。
二、 方差同质性的卡方( )测验 χ2多应用于多个样本间方差的比较。 2.1 一个样本方差与给定总体方差比较的假设测验 可应用于检验单个样本方差(S2)所代表的总体方差与给定总体方差值C是否有显著差异。 做两尾测验时, H0:σ2=C; HA:σ2≠C。 显著大于或小于C的χ2值是 或 例7.3:水田表层施硫酸铵,4个小区的产量517、492、514、522Kg,欲测验这些样本是否从方差为50Kg2的总体中抽出。 7

8 查附表6:v=4-1=3时,α/2和(1-α/2 )水平χ2的临界值为:
4个产量517、492、514、522Kg,是否来自总体方差为50的群体。 依据: 计算样本方差S2为: [(5172+4922+5142+5222)-20452/4]÷(4-1)=175.58 设 H0:σ2=50 ; HA:σ2≠50,α=0.05。 计算卡方得: 查附表6:v=4-1=3时,α/2和(1-α/2 )水平χ2的临界值为: 现计算χ2=10.54,在0.22~9.35范围外,所以,H0被否定,即所取样本与方差为50的总体不同。 8

9 一个样本方差与给定总体方差比较的特点 ① 上例是测验样本方差是否来自给定总体方差,即是否从该总体中抽出。用两尾假设检验:即:H0: σ2=C, HA: σ2≠C; ②如果要测定样本总体方差>给定总体方差C,则要做一尾反假设测验:即:H0:σ2≤C HA: σ2>C 算得, 则否定H0,用右尾; ③如果要测定样本总体方差<给定总体方差C,也要做一尾反假设测验:即:H0:σ2≥C HA: σ2<C 算得, 则否定H0,用左尾; 如检验上例结果的总体方差是否真大于50kg2? H0:σ2≤50 HA: σ2>50 查附表6, 算得的 P<0.05 则否定H0,即总体方差大于50. 9

10 一个样本方差与给定总体方差比较的特点 ④ 应用卡方分布可以由样本方差S2给出一个总体σ2的置信区间,此区间内所有总体σ2的概率为1-α,进而可推出其置信区间的关系式; 例7.3 求上例资料总体方差σ2的95%置信限. 各项已知,代入上式: 因为: 即:56.3≤σ2≤ (不对称) 10

11 一个样本方差与给定总体方差比较的特点 ⑤ 利用置信限也可作显著性测定; 即7.5≤σ≤48.
由于v=3 太小,方差置信区间较大. 一般: n≤30时,单个样本方差用卡方分布测验显著性和估计置信区间n≥30时,卡方分布近似对称,近似服从N(0,1) 分布。因此用u 测验和估计置信区间 ⑥ 两样本间方差的比较,用卡方测验,不如 F 测验方便。 11

12 2.2 几个样本方差的同质性测验 Bartlett测验--一种近似的χ2测验
当多于3个以上样本时,每一个样本均可估得一方差,用卡方可测验各样本方差是否来自相同方差的总体的假设。 若有 k个独立的方差估计值. 即: H0: 各具有v1,v2,v3个自由度,需计算合并均方: Bartlett卡方: 上式中: vi =ni -1, ni 为样本容量(vi =k) c为校正数 校正数 12

13 求得的χ2 不论矫正与否,均v =k-1; 若不显著,不必矫正,接受H0 ,若χ2与χ2α,v 接近,则应矫正
校正数 若用常用对数计算: 求得的χ2 不论矫正与否,均v =k-1; 若不显著,不必矫正,接受H0 ,若χ2与χ2α,v 接近,则应矫正 ,否定H0 即这些样本所属总体方差不同质。 13

14 例7.4: 3个样本方差为4.2, 6.0, 3.1 ,自由度为4,5,11,测验其是否同质。
例7.4: 3个样本方差为4.2, 6.0, 3.1 ,自由度为4,5,11,测验其是否同质。 与 t 测验对比:测定冬小麦品种东方红3号的蛋白质含量(%)10次,得其平均数为14.3,方差为1.621;测定农大139号的蛋白质含量5次,得其平均数为11.7,方差为0.135。试测验两品种蛋白质含量的差异显著性。 H0:3个样本的总体相等,HA:不全相等(不要用不等号表示) 数据计算 I Si2 vi viSi2 lnSi2 vi lnSi2 1 4.2 4 16.8 2 6.0 5 30.0 3 3.1 11 34.1 20 80.9 由上表计算合并方差: 14

15 查表6,当v =k-1=3-1=2时, 0.744在0.5~0.75之间,P>0.05,接受H0。 说明本例的几个方差是同质的。
I Si2 Vi ViSi2 lnSi2 Vi lnSi2 1 4.2 4 16.8 2 6.0 5 30.0 3 3.1 11 34.1 20 80.9 校正数 查表6,当v =k-1=3-1=2时, 在0.5~0.75之间,P>0.05,接受H0。 说明本例的几个方差是同质的。 本例的核心是,对于非正态总体的资料,必须对原始数据进行对数转换,否则,所测验的是非正态性的,而不一定是方差的异质性。 15

16 三、适合性测验 test for goodness of fit
3.1 适合性测验的方法 例1:玉米花粉的碘染色反应中,F1代花粉经碘染色后有3437粒呈蓝色,3482粒呈非蓝色。如果等位基因的复制是等量的,在配子中的分配也是随机的,那么F1代碘反应的比例应该是1:1,问实际观察值是否符合理论假设。回顾 计算: 目的:欲求观察次数与理论次数是否一致,故可用χ2测验。 理论分布值应该为(3437+3482)÷2=3459.5。 花粉粒碘反应的观察次数与理论次数 碘反应 观察次数 理论次数 O-E (O-E)2/E 蓝色 3437(O1) 3459.5(E1) -22.5 0.1463 非蓝色 3482(O2) 3459.5(E2) +22.5 总数 6919 0.2926 16

17 (1)、设立无效假说,即观察次数与理论次数差异是由抽样误差所引起,即H0:花粉粒碘反应比例为1:1与花粉粒碘反应比例不成1:1。
(O-E)2/E 0.1463 0.2926 (1)、设立无效假说,即观察次数与理论次数差异是由抽样误差所引起,即H0:花粉粒碘反应比例为1:1与花粉粒碘反应比例不成1:1。 (2)、确定显著水平α=0.05 (3)、在无效假设为正确的前提下,计算超过观察χ2值的概率。试验观察的χ2值愈大,观察次数与理论次数之间的差异程度也愈大,两者符合程度的概率就愈小。 (4)、依据计算概率值的大小,决定接受或否定无效假设。 实际应用时通常不需要计算具体的概率值,若实得 时,则H0发生的概率小于或等于α属于小概率事件。H0 被否定;相反H0则被接受。 计算结果∑[(O-E)2/E]= =0.2926。 查表:卡方表(附表6),当ν=k-1=2-1=1时, 0.2926<3.84,所以接受H0。即认为观察次数与理论次数相符,接受F1代花粉粒反应比例为1:1的假设。 17

18 碘反应 观察次数 理论次数 O-E (O-E)2/E 蓝色 3437(O1) 3459.5(E1) -22.5 0.1463 非蓝色 3482(O2) 3459.5(E2) +22.5 总数 6919 0.2926 连续校正 依据卡方测验的定义,卡方(χ2)分布是连续性的,而次数资料是非连续性的,由间断性资料计算的数值有偏大的趋势(尤其在ν=1时),因此需要作连续校正。校正的方法是将各偏差的绝对值均减0.5,校正后的卡方值用χc2表示。 即: = =0.2798 计算结果卡方值仍然小于χ20.05,1 =3.84。结论与原计算结果相同。 18

19 3.2 次数分布的适合性测验 例7.7: 分析大豆品种单株粒重的变异是否符合正态分布。调查数据如表。 一般的计算方法:
3.2 次数分布的适合性测验 例7.7: 分析大豆品种单株粒重的变异是否符合正态分布。调查数据如表。 一般的计算方法: (1)、提出理论分布的可能类型; (2)、计算理论分布次数(E); (3)、实际频次与理论次数比较(计算χ2 值); 19

20 表 大豆单株粒重观察分布与理论正态分布的适合性测验
表 大豆单株粒重观察分布与理论正态分布的适合性测验 单株产量 次数(o) P 理论次数(E=n×p) χ2 组 限 组中值 0.5~5.5 3 7 -26.43 -2.065 0.0195 4.5 1.389 5.5~10.5 8 5 -21.43 -1.674 0.0277 6.3 0.268 10.5~15.5 13 -16.43 -1.284 0.0525 12.0 2.083 15.5~20.5 18 -11.43 -0.893 0.0863 19.8 0.164 20.5~25.5 23 32 -6.43 -0.502 0.1219 27.9 0.603 25.5~30.5 28 41 -1.43 -0.112 0.1477 33.8 1.534 30.5~35.5 33 37 3.57 0.279 0.1545 35.4 0.072 35.5~40.5 38 25 8.57 0.670 0.1386 31.7 1.416 40.5~45.5 43 22 13.57 1.060 0.1068 24.5 0.255 45.5~50.5 48 19 18.57 1.451 0.0712 16.3 0.447 50.5~55.5 53 6 23.57 1.841 0.0405 9.3 1.171 55.5~60.5 58 28.57 2.232 0.0201 4.6 0.426 60.5~65.5 63 33.57 2.623 0.0084 1.9 0.637 65.5~70.5 68 1 38.57 3.013 0.0044 1.0 0.00 14组 n= = S= v =14-3=11 χ2=10.393 20

21 (1)、提出理论分布的可能类型;(本题为测试正态分布) (2)、计算理论分布次数(E);
n= S= v =14-3=11 χ2=10.393 (1)、提出理论分布的可能类型;(本题为测试正态分布) (2)、计算理论分布次数(E); 或由附表2得 第一组 E=0.0195×229=4.47 χ2=(7-4.5)2/4.5=1.389 第二组 E=0.0276×229= χ2=(5-6.3)2/6.3=0.268 第三组 E=0.0525×229= χ2=(7-12)2/12≈2.083 21

22 (3)、实际次数与理论次数比较(计算χ2 值);
n= S= v =14-3=11 χ2=10.393 (3)、实际次数与理论次数比较(计算χ2 值); = …… =10.393 (4)、自由度ν=14-1-2=11,因扣去组数的自由度1,估计2个参数µ和σ的自由度2个,查附表6,当ν=11,χ2= 的概率p在0.25~0.50之间值(或当ν=11时0.05水平的χ2值为19.68,10.39<19.68) ,说明观察分布与理论分布无明显差异。接受,大豆单株粒重的差异符合正态分布。 为保证χ2的准确性,一般应注意: ①、总观察次数一般不少于50, ②、分组数最好不少于5组, ③、每组理论次数(尤其是首尾组)一般不应少于5, 22

23 四、独立性测验 test for independence
独立性测验主要是探求两个变数间是否相互独立,是次数资料的一种相关研究。例如种子灭菌与否和麦穗发病两变数之间,若相互独立,表示发病与灭菌高低无关,若不相互独立,表示有关。 无效假说是H0: 两变数相互独立, HA:两变数彼此相关。 将所得次数资料按两变数做两项分组,排成纵横相依表。 ② 根据假说算出每一组格的理论次数, ③ 其自由度随两个变数各自分组数而不同,横行分r组,纵行分c组,则:v=(r-1)(c-1) ④ 观察的 接受H0; 否定H0。 23

24 4.1 2×2表的独立性测验 例7.8 从右表中资料分析灭菌与不灭菌的发病穗数有无相关? 分析:这是2×2表,纵横行各为
处理 病穗数O(E) 健穗数 总数 种子灭菌 26(34.7) 50(41.3) 76 未灭菌 184(175.3) 200(208.7) 384 210 250 460 例7.8 从右表中资料分析灭菌与不灭菌的发病穗数有无相关? 分析:这是2×2表,纵横行各为 两组资料:v =(r-1)(c-1)=1,须做矫正。 假设:H0: 两变数相互独立,灭菌与发病数量无关, HA:两变数有关; α=0.05 计算: 各组格的理论次数=该组格的横行总和×纵行总和÷总观察次数 Q1,1=26 (E1,1=76×210÷460=34.7), Q1,2=50 (E1,2=76×250÷460=41.3), Q2,1=184(E2,1=384×210÷460=175.3), Q2,2=200 (E2,2=384×250÷460=208.7) 24

25 P<0.05, 否定H0 , 灭菌与否和发病数量不独立,有相关。
处理 病穗数O(E) 健穗数 总数 种子灭菌 26(34.7) 50(41.3) 76 未灭菌 184(175.3) 200(208.7) 384 210 250 460 查附表6:v =1 为 即: P<0.05, 否定H0 , 灭菌与否和发病数量不独立,有相关。 25

26 4.2 2×c表的独立性测验 2×c为:横行为2,纵行≥3,v =(2-1)(C-1)=C-1。一般不需矫正。
(例7.9)共分析193份野生大豆,223份栽培大豆,求大豆Aph等位基因是否因物种而不同。表7.9 物种 等位基因型 O(E) 总计 1 2 3 野生大豆 29(23.66) 68(133.87) 96(45.47) 193 栽培大豆 22(27.34) 119(143.13) 2(52.53) 223 51 267 98 416 H0:等位基因频率与物种无关, HA:两者有关。 求各组格理论次数,代入 26

27 依据假设计算各组格观察次数的相应理论次数, 与29相应的E=(193×51)/416=23.66、
等位基因型 O(E) 1 2 3 总计a 野生大豆 29(23.66) 68(123.87) 96(45.47) 193 栽培大豆 22(27.34) 199(143.13) 2(52.53) 223 总计b 51 267 98 416(T) 依据假设计算各组格观察次数的相应理论次数, 与29相应的E=(193×51)/416=23.66、 与22对应的E=(223×51)/416=27.34、 与68对应的E=(193×267)/416=123.87 与2相应的E=(223×98)/416=52.53 分析: v=(2-1)(3-1)=2。查附表6,χ20.05,2=5.99<154, 由于χ2>χ20.05,2(154>5.59),P<0.05,否定H0,接受HA。 即:不同物种等位基因频率有显著相关。 27

28 4.3 r×c表的独立性测验 横行r≥3,纵行c≥3, v =(r-1)(c-1),v ≥4,不需做矫正。
例7.10 下表列出了不同灌溉方式下水稻叶片衰老情况的资料,试测水稻叶片衰老情况是否与验灌溉方式有关。 灌溉方式 绿叶数O(E) 黄叶数O(E) 枯叶数O(E) 总计 深灌 146(140.69) 7(8.78) 7(10.53) 160 浅灌 183(180.26) 9(11.24) 13(13.49) 205 湿润 152(160.04) 14(9.98) 16(11.98) 182 481 30 36 547 H0: 稻叶衰老情况与灌溉方式无关,HA: 稻叶衰老情况与稻叶片衰老情况有关。α=0.05。 28

29 结果χ2=5.62<χ20.05,4,P>0.05,故接受H0,即不同灌溉方式对水稻叶片的衰老没有影响。
绿叶数O(E) 黄叶数 枯叶数 总计a 深灌 146(140.69) 7(8.78) 7(10.53) 160 浅灌 183(180.26) 9(11.24) 13(13.49) 205 湿润 152(160.04) 14(9.98) 16(11.98) 182 总计 b 481 30 36 T=547 依据假设计算各组格观察 次数的相应理论次数, 与146相应的E=(481×160)/547=140.69、 与183对应的E=(481×205)/547=180.26… 与7对应的E=(30×160)/547=8.78…… 与16对应的E=(36×182)/547=11.98 ν=(3-1)(3-1)=4,查附表6,χ20.05,4=9.49, 结果χ2=5.62<χ20.05,4,P>0.05,故接受H0,即不同灌溉方式对水稻叶片的衰老没有影响。 =547-{[1462/(160×481)+1832/(205×481)+ ……132/(205×36) +162/(182×36)]-1}=5.62 29

30 8, 9,15, 17, 22, 25, 27

31

32 -2. 065查表:-2. 07得0. 01923,-2. 06得0. 01970,因为2. 065介于2. 07与2. 06之间,所以(0
-2.065查表:-2.07得 ,-2.06得 ,因为2.065介于2.07与2.06之间,所以( )÷2≈0.0195 -1.674查表:-1.67得 ,-1.68得 ,因为1.674 较1.67大0.004,所以 -[( )×0. 4]= - = ≈0.0471 -1.284查表:-1.28得 ,-1.29得 ,因为1.284 较1.28大0.004,所以 -[( )×0. 4]= - = ≈0.0996

33

34

35 1、单个样本百分数的假设测验 测试百分数β所属总体百分数与某一理论值或期望值p0的差异显著性。 样本百分数的标准误为: 故有
Test of percent hypothesis 1、单个样本百分数的假设测验 测试百分数β所属总体百分数与某一理论值或期望值p0的差异显著性。 样本百分数的标准误为: 故有 例1.1:紫花与白花大豆杂交,在F2代共得到289株,其中紫花208株,白花81株。如果花色受一对等位基因控制,根据遗传学原理,F2代紫花与白花分离的比例应为3:1,即紫花理论数为p=0.75,白花为q =1-p =0.25。问该试验是否符合一对等位基因的的遗传规律? 6

36 推断:接受H0:p=0.75,即该试验中大豆花色符合一对等位基因的遗传规律。试验中的p=0.7197与p=0.75的差别属于随机误差。
单个样本百分数的假设测验 假设:H0:p=0.75;HA:p≠0.75。α=0.05, 作两尾测验u.05=1.96。 样本百分数的标准误 计算: 查附表 3 得:u.05=1.96,│u│(1.19)<u0.05,所以p>0.05。 推断:接受H0:p=0.75,即该试验中大豆花色符合一对等位基因的遗传规律。试验中的p=0.7197与p=0.75的差别属于随机误差。 返回

37 参数估计-最小二乘法


Download ppt "Chi-Square Distribution"

Similar presentations


Ads by Google