Download presentation
Presentation is loading. Please wait.
1
第三章 区间估计与假设检验 3.1 区间估计与假设检验的基本概念 3.2 总体均值的区间估计与假设检验的SAS实现
第三章 区间估计与假设检验 3.1 区间估计与假设检验的基本概念 3.2 总体均值的区间估计与假设检验的SAS实现 3.3 总体比例的区间估计与假设检验的SAS实现 3.4 总体方差的区间估计与假设检验的SAS实现 3.5 分布检验
2
3.1 区间估计与假设检验的基本概念 区间估计 假设检验
3
3.1.1 区间估计 1. 点估计和区间估计 参数的估计方法主要有两种:点估计和区间估计。
区间估计 1. 点估计和区间估计 参数的估计方法主要有两种:点估计和区间估计。 点估计是用样本的观测值估计总体未知参数的值。由于样本的随机性,不同样本观测值计算得出的参数的估计值间存在着差异,因此常用一个区间估计总体的参数,并把具有一定可靠性和精度的估计区间称为置信区间。利用构造的统计量及样本观测值,计算得出参数的置信区间的方法称为参数的区间估计。
4
2. 参数的置信区间 在区间估计中,对于总体的未知参数θ,需要求出两个统计量θ1(X1,X2,...,Xn)和θ2(X1,X2,...,Xn)来分别估计总体参数θ的上限和下限,使得总体参数在区间(θ1,θ2)内的概率为 P{θ1 <θ <θ2} = 1 – α 其中1 – α称为置信水平,而(θ1,θ2)称为θ的置信区间,θ1,θ2分别称为置信下限和置信上限。置信水平为1 – α的含义是随机区间(θ1,θ2)以1 – α的概率包含了参数θ。
5
3. 正态总体均值和方差的置信区间 参数的区间估计大多是对正态总体的参数进行估计,如对单总体均值、方差的估计、两总体均值差的估计和两总体方差比的估计等。 正态总体参数的各种置信区间见表3-1。 被估参数 条件 枢轴量及其分布 参数的置信区间 单正态总体 μ 2已知 2未知 2 μ已知 μ未知
6
正态总体参数的各种置信区间见表3-1。 被估参数 条件 枢轴量及其分布 参数的置信区间 两正态总体 μ1 -μ2
两样本独立,12, 22已知 两样本独立,12= 22 = 2 未知 两样本独立,μ1, μ2未知 其中
7
4. 总体比例与比例差的置信区间 实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记π和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1 – P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表3-2所示。 待估参数 枢轴量及其分布 参数的置信区间 总体比例 π 两总体比例差 π1-π2 其中P1,P2为两个样本比例
8
假设检验 1. 假设检验的基本原理 对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。
9
2. 假设检验的步骤 1) 根据问题确立原假设H0和备选假设H1;
2) 确定一个显著水平,它是衡量稀有性(小概率事件)的标准,常取为0.05; 3) 选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。 4) 由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。
10
注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p < ,拒绝原假设H0;p,不能拒绝原假设H0。
11
p值通常由下面公式计算而得到。 ● p = P{|W| ≥ |W0|} = 2 P{ W ≥ |W0|} (拒绝域为两边对称的区域时) ● p = min{P{W ≥ W0},P{W W0}} (拒绝域为两边非对称区域时) ● p = P{W ≥ W0} (拒绝域为右边区域时) ● p = P{W W0} (拒绝域为左边区域时) 只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。
12
3. 正态总体均值和方差的假设检验 对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表3-3至表3-5。 表3-3 单正态总体N(μ,2)均值μ的检验法 检验名称 条件 检验类别 H0 H1 检验统计量 分布 拒绝域 Z检验 已知 双边检验 μ = μ0 μ ≠ μ0 N(0,1) | Z | ≥ Zα/2 左边检验 μ ≥ μ0 μ < μ0 Z ≤ - Zα 右边检验 μ ≤ μ0 μ > μ0 Z ≥ Zα t检验 未知 t(n– 1) | t | ≥ tα/2(n – 1) t ≤ – tα(n – 1) t ≥ tα(n – 1)
13
表3-4 单正态总体N(μ,2)方差2的检验法 检验名称 条件 检验类别 H0 H1 检验统计量 分布 拒绝域 χ2检验 μ已知
或 检验名称 条件 检验类别 H0 H1 检验统计量 分布 拒绝域 χ2检验 μ已知 双边检验 左边检验 右边检验 μ未知
14
表3-5 两正态总体的均值差与方差比的检验 名称 条件 类别 H0 H1 检验统计量 分布 拒绝域 Z检验
表3-5 两正态总体的均值差与方差比的检验 名称 条件 类别 H0 H1 检验统计量 分布 拒绝域 Z检验 两样本独立,12=22=2未知 双边检验 μ1-μ2=0 μ1-μ2≠0 t(n1 + n2 –2) 左边检验 μ1-μ20 μ1-μ2<0 右边检验 μ1-μ20 μ1-μ2>0 t检验 成对匹配样本,12,22未知 μd=0 μd≠0 μd0 μd<0 μd0 μd>0 F检验 两样本独立,μ1, μ2未知 F(n1–1,n2–1)
15
4. 总体比例与比例差的检验 当样本容量n很大时,可根据表3-6对总体比例与比例差进行假设检验。 表3-6 总体比例与比例差的检验 检验名称
表3-6 总体比例与比例差的检验 检验名称 检验类别 H0 H1 检验统计量 分布 拒绝域 比例检验 双边检验 = 0 0 N(0,1) | z | zα/2 左边检验 0 < 0 | z | ≤ – zα 右边检验 0 > 0 | z | zα 两总体比例差检验 1 = 2 1 2 1 2 1 < 2 1 2 1 > 2
16
3.2 总体均值的区间估计与假设检验的SAS实现
使用INSIGHT模块 使用“分析家” 使用TTEST过程
17
3.2.1 使用INSIGHT模块 1. 总体均值的区间估计
【例3-1】某药材生产商要对其仓库中的1000箱药材的平均重量进行估计,药材重量的总体方差未知,随机抽取16箱样本称重后结果如表3-7所示。 表 箱药材重量(单位:千克) 设药材重量数据存放于数据集Mylib.yczl中,其中重量变量名为weight。求该仓库中每箱药材平均重量在95%置信水平下的置信区间。 50 56 51 49 53 47 52 55 48
18
步骤如下: 1) 启动INSIGHT模块,并打开数据集Mylib.yczl; 2) 选择菜单“Analyze”→“Distribution(Y)”; 3) 在打开的“Distribution(Y)”对话框中进行区间估计的设置(如图)。
19
结果包括一个名为“95%Confidence Intervals(95%置信区间)”的列表,表中给出了均值、标准差、方差的估计值(Parameter)、置信下限(LCL)和置信上限(UCL),如图3-2所示。结果表明,根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。
20
2. 单样本总体均值的假设检验 【例3-2】一家食品厂以生产袋装食品为主,每天的产量大约为8000袋,每袋重量规定为100克。为了分析每袋重量是否符合要求,质检部门经常进行抽检。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如表3-8所示。 表 袋食品的重量(单位:克) 试从抽检的样本数据出发,检验变量WEIGHT的均值与100克是否有显著差异。假定表3-8数据存放在数据集Mylib.spzl中,重量变量名为WEIGHT。 112.5 101.0 103.0 102.0 100.5 102.6 107.5 95.0 108.8 115.6 100.0 123.5 101.6 102.2 116.6 95.4 97.8 108.6 105.0 136.8 102.8 101.5 98.4 93.3
21
设变量WEIGHT的均值为μ,问题是希望通过样本数据检验变量WEIGHT均值的如下假设:
H0:μ = 100, H1:μ 100。 使用INSIGHT对均值进行检验的步骤如下: 1) 首先启动INSIGHT,并打开数据集Mylib.spzl; 2) 选择菜单“Analyze”→“Distribution(Y)”; 3) 在打开的“Distribution(Y)”对话框中选定分析变量WEIGHT; 4) 单击“OK”按钮,得到变量的描述性统计量;
22
5) 选择菜单“Tables(表)”→“Tests for Location(位置检验)”;在弹出的“Tests for Location”对话框中输入100,单击“OK”按钮得到输出结果如图所示。
23
结果显示,观测值不等于100克的观测有24个,其中19个观测值大于100。
图中第一个检验为t检验(Student's t),需要假定变量服从正态分布,检验的p值为0.0105,这个检验在0.05水平下是显著的,所以可认为均值与100克有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0066,在0.05水平下也是显著的,结论不变。第三个检验(Sgned Rank)是叫做符号秩检验的非参数检验,其p值为0.0048,在0.05水平下是显著的,结论不变。
24
3. 两样本总体均值的比较:成对匹配样本 在INSIGHT中比较成对样本均值是否显著差异,可以计算两变量的差值变量,再检验差值变量的均值是否显著为0。 【例3-3】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如表3-9所示。 表 名学生两套试卷的成绩 试从样本数据出发,分析两套试卷是否有显著差异。 试卷A 78 63 72 89 91 49 68 76 85 55 试卷B 71 44 61 84 74 51 60 77 39 差值 7 19 11 5 17 -2 13 16 8
25
步骤如下: 1) 首先生成差值变量: 启动INSIGHT,并打开数据集Mylib.sjdf。选择菜单“Edit”→“Variables”→“Other”,打开“Edit Variables”对话框,选择A为Y变量,B为X变量,然后选择变换(Transformation):Y – X,如图,生成新的差值变量d;
26
2) 然后对变量d的均值做如下假设: H0:μd = 0, H1:μd 0。 3) 选择菜单“Analyze”→“Distribution(Y)”;在打开的“Distribution(Y)”对话框中选定分析变量:选择变量差值d,单击“Y”按钮,将变量d移到右上方的列表框中; 4) 单击“Output”按钮,在打开的对话框中选中“Tests for Location(位置检验)”复选框; 5) 两次单击“OK”按钮,得到变量的描述性统计量;
27
6) 选择菜单“Tables(表)”→“Tests for Location(位置检验)”;在弹出的“Tests for Location”对话框中输入0,单击“OK”按钮得到输出结果如图所示。
结果显示三个检验的结论都是p值小于0.05,所以应拒绝原假设,即总体的均值与0有显著差异。所以两套试卷有显著差异。 虽然SAS给出三个检验结果,其实作结论时只需其中一个。如果可以认为分析变量服从正态分布只要看t检验结果;否则只须看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。
28
3.2.2 使用“分析家” 1. 总体均值的置信区间 【例3-4】在“分析家”中求例3-1中每箱药材平均重量在95%置信水平下的置信区间。
使用“分析家” 1. 总体均值的置信区间 【例3-4】在“分析家”中求例3-1中每箱药材平均重量在95%置信水平下的置信区间。 步骤如下: 1) 在“分析家”模块中打开数据集Mylib.yczl; 2) 选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“One Sample t – test for a Mean(单样本均值t - 检验)”; 3) 在打开的“One Sample t – test for a Mean”对话框中设置均值的置信区间(如图3-6)。
29
3) 在打开的“One Sample t – test for a Mean”对话框中设置均值的置信区间(如图3-6)。
结果表明(下图),根据抽样样本,该仓库中药材的平均重量以95%的可能性位于50.08千克至52.92千克之间。
30
2. 单样本总体均值的假设检验 【例3-5】使用“分析家”检验例3-2中食品重量是否符合要求。希望通过样本数据检验变量WEIGHT均值的如下假设: H0:μ = 100, H1:μ 100。 由于此时的方差未知,所以使用t检验法。步骤如下: 1) 在“分析家”中打开数据集Mylib.spzl; 2) 选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“One Sample t – test for a Mean(单样本均值t - 检验)”,打开“One Sample t – test for a Mean”对话框;
31
4)按图3-8所示设置均值检验,单击“OK”按钮,得到结果如图左所示。;
显示结果(图右)表明t统计量的p值为0.0105<0.05,所以拒绝原假设,即认为总体的均值不等于100。
32
3. 两样本总体均值的比较:成对匹配样本 【例3-6】使用“分析家”对例3-3中两套试卷检验有无显著差异。
这是一个(成对匹配)双样本均值检验问题,若μ1和μ2分别表示两套试卷的平均成绩,则检验的是: H0:μ1 – μ2 = 0, H1:μ1 – μ2 0; 分析步骤如下: 1) 在“分析家”中打开数据集Mylib.sjdf; 2) 选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“Two Sample Paired t - Test for a Mean(均值的成对双样本t - 检验)”;
33
3) 在打开的“Two Sample Paired t - Test for a Mean”对话框中,按图左所示设置双样本均值检验,单击“OK”按钮,得到结果如图右所示
结果显示,无论两总体的方差是否相等,t统计量的p值 = < 0.05,所以在95%的置信水平下,拒绝原假设,两总体的均值有显著差异。 结果表明可以95%的把握认为两套试卷有显著差异。
34
4. 两样本总体均值的比较:独立样本 【例3-7】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排一些个工人进行操作试验,每个工人组装一件产品所需的时间如表3-10所示。试以95%的置信水平推断两种方法组装产品所需平均时间有无差异。 表3-10 两种方法组装产品所需的时间(单位:分钟) 这是一个(独立)两样本均值检验问题,若μ1和μ2分别表示两种方法组装一件产品所需的平均时间,则检验的是:H0:μ1 – μ2 = 0,H1:μ1 – μ2 0; 方法1 28.3 30.1 29.0 37.6 32.1 28.8 36.0 37.2 38.5 34.4 28.0 30.0 方法2 27.6 22.2 31.0 33.8 20.0 30.2 31.7 26.0 32.0 31.2
35
假定表3-10数据存放在数据集Mylib.zzcpsj中,将两个样本中被比较均值的变量的观测值记在同一分析变量F下,不同的样本用一个分类变量g的不同值加以区分,而且分类变量g只能取两个值,否则无法进行。 分析步骤如下: 1) 在“分析家”中打开数据集Mylib.zzcpsj; 2) 选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“Two Sample t - Test for Mean(两样本均值的t - 检验)”;
36
3) 在打开的“Two Sample t - Test for a Mean”对话框中,按图3-12所示设置双样本均值检验,单击“OK”按钮,得到结果如图3-13所示
结果显示,由于t统计量的p值 = ,所以在95%的置信水平下,应该拒绝原假设,即两种方法所需时间有差异。表明有95%的把握认为两种方法所需时间有差异。
37
3.2.3 使用TTEST过程 1. 语法格式 TTEST过程可以执行单样本均值的t检验、配对数据的t检验以及双样本均值比较的t检验。
PROC TTEST <选项列表>; [CLASS <分组变量名>;] [VAR <分析变量名列表>;] [PAIED <变量名列表>;] [BY <分组变量名>;] RUN; 其中,PROC TTEST和RUN语句是必须的,其余语句都是可选的,而且可调换顺序。
38
CLASS语句所指定的分组变量是用来进行组间比较的;而BY语句所指定的分组变量是用来将数据分为若干个更小的样本,以便SAS分别在各小样本内进行各自独立的处理。
VAR语句引导要检验的所有变量列表,SAS将对VAR语句所引导的所有变量分别进行组间均值比较的t检验。
39
PAIED语句用来指定配对t检验中要进行比较的变量对,其后所带的变量名列表一般形式及其产生的效果见表3-11。
表3-11 选项及其含义 变量名列表形式 产生的效果 a*b a – b a*b c*d a – b, c – d (a b)*(c d) a – c, a – d, b – c, b – d (a b)*(c b) a – c, a – b, b – c
40
PROC TTEST语句后可跟的选项及其表示的含义如表3-12所示。
表3-12 选项及其含义 选项 代表的含义 data = 等号后为SAS数据集名,指定ttest过程所要处理的数据集,默认值为最近处理的数据集 alpha = 等号后为0~1之间的任何值,指定置信水平,默认为0.05 ci = 等号后为“equal, umpu, none”中的一个,表示标准差的置信区间的显示形式,默认为ci = equal cochran 有此选项时,ttest过程对方差不齐时的近似t检验增加cochran近似法 h0 = 等号后为任意实数,表示检验假设中对两均值差值的设定,默认值为0
41
2. 总体均值的置信区间 【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。 data sjcj; input A cards; ; run;
42
【例3-8】仍然考虑例3-3中的样本数据。假定其中数据使用如下数据步存放在数据集sjcj中,两套试卷得分的变量名分别为A和B。
使用最简代码求均值、标准差的置信区间: proc ttest data = sjcj; run; 代码运行结果给出两个变量在95%置信水平下的均值、标准差的置信区间,以及对原假设μ0= 0所作的t检验的p值,如图所示。
43
3. 单样本总体均值的假设检验 在例3-8中增加原假设选项以及置信水平,代码如下:
proc ttest h0=70 alpha = 0.01 data=sjcj; var A; run; 代码运行结果除了给出变量A在99%置信水平下的均值、标准差的置信区间外,还给出对假设μ0 = 70,所作的t-检验的p值,如图3-15所示。 结果显示t统计量的p值 = ,不能拒绝(57.34%的把握)原假设:均值 = 70。
44
4. 配对两样本均值的假设检验 在例3-8中检验两套试卷有无显著差异,代码如下:
proc ttest data=sjcj; paired A*B; run; 代码运行结果给出了对原假设μ1 – μ2 = 0所作的t检验的p值,如图3-16所示。 结果显示t统计量的p值 = < 0.05,因此拒绝原假设。说明两套试卷有显著差异。
45
5. 独立两样本均值的假设检验 过程TTEST还可以用于进行独立双样本均值比较的t检验法。它的用法为
PROC TTEST DATA = <数据集名>; CLASS <分组变量名>; VAR <分析变量名列>; RUN; 使用这一格式要求将两个样本中被比较均值的变量的观测值记在同一分析变量下,不同的样本用另一个分类变量的不同值加以区分,而且分类变量只能取两个值,否则将报错。
46
【例3-9】仍然考虑例3-7中的样本数据。假定其中数据使用如下数据步存放在数据集zzcpsj中:
data zzcpsj; input f cards; ; run;
47
将两批工人的测量结果看作两个样本,但其数据都放在一个数据集之中,所需的时间值是记录在同一分析变量f之下,而两种方法的差别是由变量g的值加以区分的,所以g可作为分类变量。检验代码如下:
proc ttest data=zzcpsj; class g; var f; run; 检验结果如图所示。
48
在检验中,先看其最后关于方差等式的检验结果,检验方差相等是用的F '统计量,其数值为1. 29,相应的p值为0. 6779>0
在方差相等的前提下,检验均值差异使用Pooled方法,对应统计量的t值为2.16,相应的p值为0.0433<0.05 = α,所以两种方法所需的时间是有显著差异的。 在异方差的情况下,使用Satterthwaite法检验均值的差异。
49
3.3 总体比例的区间估计与假设检验的SAS实现
总体比例的置信区间 单样本总体比例的假设检验 两总体比例的比较
50
总体比例的置信区间 【例3-10】2004年底北京市私家车拥有量已达到129.8万辆,位居全国之首,据业内人士分析其中国产中低档汽车的比例较大,为了估计目前北京市场个人购车的平均价格,调查人员于某日在北京最大的车市随机抽取36位私人消费购车者,得到他们所购汽车的价格,见下表。 表3-13 年底购车价格(单位:万元) 根据以上调查数据,试以95%的置信水平推断该地区购买私家车在15万元以上的消费者占有的比例。 6.88 11.28 19.98 13.6 10.6 14.8 11.78 20.98 24.4 12.3 13.68 30.3 14.6 8.28 14.98 14.7 9.6 17.4 15.68 15.8 12.9 5.38 10.18 20.5 7.38
51
设购车价格数据存放在数据集Mylib.gcjg中,价格变量名为price。这是一个单样本比例的区间估计问题。由于在SAS中只能对两水平的分类变量作比例的区间估计与检验,所以首先要按变量price生成一个新的分类变量。步骤如下: 1) 在“分析家”中打开数据集Mylib.gcjg; 2) 选择主菜单“Edit(编辑)”→“Mode(模式)”→“Edit(编辑)”,使数据集可以被编辑(修改);
52
3) 选择主菜单“Data(数据)”→“Transform(变换)”→“Recode Ranges(重编码范围)”,打开“Recode Ranges Information”对话框并按图3-18(左)设置有关内容; 4) 单击“OK”按钮,打开“Recode Ranges”对话框,按图3-18右所示生成新变量price_f;
53
6) 选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“One Sample Test for a Proportion(单样本比例检验)”;
54
分析结果中包括变量的置信区间:按95%的置信水平变量price取值为“>15”的比例在区间(0. 109,0
55
3.3.2 单样本总体比例的假设检验 【例3-11】考虑例3-10中的数据,试检验总体中购买车辆在15万元以上者所占比例是否超过30%。
单样本总体比例的假设检验 【例3-11】考虑例3-10中的数据,试检验总体中购买车辆在15万元以上者所占比例是否超过30%。 这是一个单样本比例检验问题,若表示总体中购买车辆在15万元以上者所占比例,则检验的是: H0: ≥ 0.3, H1: < 0.3;
56
步骤如下: 1) 选择菜单“Statistics”→“Hypothesis Tests”→“One Sample Test for a Proportion”,打开并按图左设置“One Sample Test for a Proportion”对话框;检验结果如图右所示。
57
显示的结果表明样本中购买车辆在15万元以上者的比例为25%,检验用的Z统计量的p值为0.2563 > 0.05,所以不能拒绝原假设。
结果表明购买车辆在15万元以上者所占比例在95%的置信水平下超过30%。
58
两总体比例的比较 【例3-12】2004年底很多类型的国产轿车价格都比年中有所下降,为了对比2004年底与年中私家购车族购车价格的差异,在年中新购车者中随机抽取32人,调查得到的价格数据如表3-14。 表3-14 年中购车价格(单位:万元): 综合表3-13与表3-14的调查数据,试以95%的置信水平推断该地区年底与年中购买私家车在15万元以上的消费者占有比例有无差异。 5.38 10.78 12.88 14.7 18.88 30.3 7.38 11.2 13.6 15 19.98 15.28 7.98 11.78 13.65 15.8 20.5 9.99 9.38 14.6 15.9 20.98 9.36 10.3 12.3 17 24.4 8.99 11.38 10.28
59
这是一个双样本比例检验问题,若1和2分别表示总体中年底和年中购买私家车在15万元以上的消费者所占的比例,则检验的是假设:
H0:1 –2 = 0, H1:1 –2 0; 首先将3-7与表3-8的调查数据存入一个数据集Mylib.gcjgQ中,价格变量名为price,使用变量period以区别年中数据(2)与年底数据(1)。按例3-10中的步骤由price生成两水平分类变量price_F。图3-23所示即为数据集Mylib.gcjgQ中的部分数据。
60
然后,对上面假设进行检验,步骤如下: 1) 在分析家中打开数据集Mylib.gcjgQ后,选择菜单“Statistics”→“Hypothesis Tests”→“Two Sample Test for Proportion(双样本比例检验)”,在对话框中,按图左设置双样本比例检验,分析结果如图右所示。 结果显示,由于Z统计量的p值为0.5664,所以在95%的置信水平下,不能拒绝原假设。即该地区2004年底与年中私家购车价格在15万元以上者所占比例无明显差异。
61
3.4 总体方差的区间估计与假设检验的SAS实现
总体方差的置信区间 单样本总体方差的假设检验 两样本总体方差的比较
62
3.4.1 总体方差的置信区间 【例3-13】表3-15所示为某中学1980年模拟高考数学的部分学生成绩,试估计本次模拟考试成绩的方差。
总体方差的置信区间 【例3-13】表3-15所示为某中学1980年模拟高考数学的部分学生成绩,试估计本次模拟考试成绩的方差。 表3-15 部分学生成绩 假定表3-15数据存放在数据集Mylib.kscj中,成绩变量名为score。分析步骤如下: 1) 在“分析家”中打开数据集Mylib.kscj; 2) 选择菜单“Statistics(统计)”→“Hypothesis Tests(假设检验)”→“One Sample Test for a Variance(方差的单样本检验)”; 100 96 90 92 99 98 97 95 94
63
3) 在打开的“One Sample Test for a Variance”对话框中设置方差的置信区间(如图3-26)。
分析结果中包括方差的置信区间估计,如图3-27所示。 结果表明,本次模拟考试成绩方差在置信水平95%下的置信区间为(7.1692,28.614)。
64
3.4.2 单样本总体方差的假设检验 【例3-14】考虑例3-13中的模拟考试成绩,检验考试成绩是否太集中。
单样本总体方差的假设检验 【例3-14】考虑例3-13中的模拟考试成绩,检验考试成绩是否太集中。 这是一个单样本方差检验问题,若表示总体方差,则检验的是: H0:2 ≤ 52, H1:2 > 52; 步骤如下: 1) 选择菜单“Statistics”→“Hypothesis Tests”→“One Sample Test for a Variance(单样本方差检验)”,打开“One Sample Test for a Variance”对话框并按图设置; 2) 单击“OK”按钮,得到结果。
65
结果(图左)显示,样本方差为12.732,由于2检验的p值 = 0.9504,所以不能拒绝方差 ≤ 25的原假设。
结果表明有95%的把握可以认为该模拟考试的成绩太过集中。
66
两样本总体方差的比较 【例3-15】已知两只股票深发展(000001)和万科A(000002)在2004年6月21个交易日的收益率如表3-16所示。试在0.05的显著水平下判断深发展的风险是否高于万科A? 表3-16 深发展和万科A在2004年6月21个交易日的收益率 day 深发展 万科A 0.0031 0.0099 0.0041 0.0131 0.0301 0.002 0.0033 0.028 0.006 0.0461 0.0186 0.0085 -0.008 -0.002 0.0043 0.0111 0.0226 0.0319
67
这是一个双样本方差检验问题,若1和2分别表示深发展和万科A两只股票收益率的方差,则检验的是:
H0:1 ≥ 2, H1:1 < 2; 检验步骤如下: 1) 首先,将表3-8中的数据生成数据集mylib.gupiao,深发展和万科的收益率可以用同一变量表示,另加一个分类变量以区别;也可用两个变量表示,如分别用s和w表示。本例用第二种方法。
68
2) 在分析家中打开数据集mylib.gupiao后,选择菜单“Statistics”→“Hypothesis Tests”→“Two-Sample Test for Variance(双样本方差检验)”,打开“Two-Sample Test for Variance”对话框并按图左设置;单击“OK”按钮,得到分析结果。 结果显示(图右),在0.05的显著性水平下不能拒绝原假设,说明深发展的股票风险要高于万科A。
69
3.5 分布检验 3.5.1 数据的分布研究 3.5.2 在INSIGHT模块中研究分布 3.5.3 在“分析家”中研究分布
3.5 分布检验 数据的分布研究 在INSIGHT模块中研究分布 在“分析家”中研究分布 使用UNIVARIATE过程
70
数据的分布研究 1. 分布拟合图 由于密度直方图中矩形的面积是数据落入对应区间中的频率,根据大数定理,数据量很大时,频率近似于概率。所以,如果数据来自一个具有概率密度f(x)的连续型随机变量,密度直方图就可以作为概率密度f (x)的一个估计。
71
直方图顶端的形态为折线,而常用的一些分布的密度曲线如正态分布等都是光滑曲线,所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。
图3-31所示为分布拟合图,左图为正态分布拟合图,右图为对数正态分布拟合图。
72
在SAS系统中提供的参数分布类型有:正态(Normal)分布—最为常用的分布、对数正态(Lognormal)分布、指数分布、Gamma分布、Weibull分布,它们的分布密度分别为:
1) 参数为(μ,)的正态分布 2) 参数为(,μ,)的对数正态分布
73
3) 参数为(,)的指数分布的密度为 4) 参数为(,c,)的指数分布的密度为 5) 参数为(,α,)的Gamma分布的密度为 6) 参数为(,c,)的Weibull分布的密度为
74
2. QQ图 不论密度直方图还是分布拟合图,要从图上鉴别数据的分布是否近似于某种类别的分布是较困难的。QQ图可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。 QQ图是一种散点图。对应于正态分布的QQ图由点 构成,其横坐标为标准正态分布的分位 数,纵坐标x(i)(i = 1,2,…,n)是将x1,…,xn从小到大排序后的数列,为总体i/n分位点的估计。若观测数据近似正态分布N(μ,2),则QQ图上这些点近似在直线y = x +μ附近。
75
图3-32所示为居民家庭收入情况的QQ图,分别为对应于正态分布与对数正态分布的QQ图。
同样,也可以作对应于对数正态分布、指数分布、Gamma分布、Weibull分布的QQ图,以鉴别样本数据是否来自某一类型的总体分布。
76
3.5.2 在INSIGHT模块中研究分布 1. 绘制分布拟合图
选择菜单“Analyze”→“Distribution (Y)”,打开“Distribution (Y)”对话框并按如图3-33所示设置。
77
变量Income的密度拟合图和参数密度估计如图3-34右与图3-35所示。
78
2. 绘制QQ图 如果在图3-33右所示的“Distribution (Y)”对话框中选中“Normal QQ Plot(正态QQ图)”复选框,如图左所示,则可以得到QQ图,如图右所示。
79
选择菜单“Curves(曲线)”→“QQ Ref Line(QQ参 考线)”,打开“QQ Ref Line”对话框。选择 “Method(方法)”栏下的“Least Squares(最小二 乘)”,如图左,单击“OK”按钮得到带参考线的QQ 图(图右)。
80
选择菜单“Graphs(图形)”→“QQ Plot(QQ图)”,打开“QQ Plot”对话框。选择“Distribution(分布)”栏下的“Lognormal QQ Plot(对数正态QQ图)”,如图左,单击“OK”按钮得到对数正态QQ图,如图右所示。 虽然从分布拟合图中似乎得到居民家庭收入情况的样本数据接近于对数正态分布,但从QQ图可以看出,样本数据更接近于正态分布。
81
3. 正态性检验 上述结论是一种直观的检验,更为严格的检验如下所示。
在INSIGHT中继续上述操作:选择菜单“Curves(曲线)”→“Test for Distribution(分布检验)”,打开“Test for Distribution”对话框,如图左所示。单击“OK”按钮,得到变量income的经验分布和拟合的正态累计分布曲线图(图右)。
82
检验结果汇总在分布检验表(图)中,其中列举了拟合正态分布的均值2316. 1000(即样本均值)和标准差697
检验结果汇总在分布检验表(图)中,其中列举了拟合正态分布的均值 (即样本均值)和标准差 (即样本标准差),并提供了Kolmogorov D统计量的数值0.1377,而相应的p值 > 0.15 > 0.05 = α,所以不能拒绝原假设,可以认为变量income总体分布为正态分布。
83
3.5.3 在“分析家”中研究分布 1. 绘制分布拟合图和QQ图
在“分析家”中研究分布 【例3-17】在“分析家”中研究例3-10~例3-12中北京市场个人购车价格变量price的正态性。 1. 绘制分布拟合图和QQ图 首先在“分析家”中打开数据集Mylib.gcjg; 选择主菜单“Statistics”→ “Descriptive”→ “Distributions…”,打开“Distributions”对话框。
84
按图(上图)设置分析选项,三次单击“OK”按钮,得到直方图和QQ图如图(下图)所示。
85
2. 分布检验 继续上述步骤。 在分析家窗口的项目管理器中双击“Fitted Distributions of Gcjg”项,得到检验结果如图3-44~3-45所示。
86
年底数据的分布检验结果如图,其含义说明如下:
其中第一部分为检验拟合分布的结果。首先指明拟合的是正态分布,均值为 ,标准差为 ;接着有三种经验分布的检验结果 三种检验基本上都认为变量price的分布与正态分布有差异,因此拒绝变量price为正态分布的假设。
87
年中数据的分布检验结果如图3-45所示。结果表明:
均值为 ,标准差为 ;三种检验基本上都认为变量price的分布与正态分布无显著差异,因此不能拒绝变量price为正态分布的假设。 综上,应拒绝年底数据中变量price的分布为正态分布的假设,而不能拒绝年中数据中变量price的分布为正态分布的假设。
88
3.5.4 使用UNIVARIATE过程 在PROC UNIVARIATE语句中加上NORMAL选项可以进行正态性检验。
【例3-18】检验例3-1药材仓库中的1000箱药材的重量是否服从正态分布。 使用如下UNIVARIATE过程: proc univariate data = Mylib.yczl normal; var weight; run;
89
【例3-18】检验例3-1药材仓库中的1000箱药材的重量是否服从正态分布。
结果(部分)如图3-46所示。 这里给出了weight变量的四种正态性检验结果,其中Shapiro-Wilk检验是首选的。可以看到p值很大,所以在0.05水平下不能拒绝原假设,即认为weight服从正态分布。
Similar presentations