Download presentation
Presentation is loading. Please wait.
1
第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。
第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。 了解:t变换。
2
第一节 均数的抽样误差与标准误 一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数 往往不等于总体均数 ,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究,抽样误差不可避免。
3
样本均数 样本n1 样本n2 样本nk 总体 各样本均数不相同,为什么? 假定某年某地所有13岁女学生身高服从
N(155.4,5.32),在该总体中作100次随机抽样,ni = 30 样本均数 样本n1 样本n2 样本nk 各样本均数不相同,为什么? 153.6 153.1 ···· 157.7 总体
4
从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布
组段(cm) 频数 频率(%) 152.6~ 1 1.0 153.2~ 4 4.0 153.8~ 154.4~ 22 22.0 155.0~ 25 25.0 155.6~ 21 21.0 156.2~ 17 17.0 156.8~ 3 3.0 157.4~ 2 2.0 158.0~158.6 合计 100 100.0
5
二、抽样误差的分布 理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 ,样本均数的标准差为 。 抽样分布 抽样分布示意图
6
当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。
中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。 抽样分布 抽样分布示意图
7
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小: 实际中总体标准差 往往未知,故只能求得样本均数标准误的估计值 :
8
例4.1 在某地随机抽查成年男子140人,计算得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。
标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。
9
标准差与标准误的区别与联系 意义 标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。
标准误:描述统计量的抽样误差,标准误 较小,表示样本统计量与参数较 接近。说明样本均数的可靠性。
10
标准差与标准误的区别与联系 区别 随样本含量的增多,逐渐趋于稳定。 标准差:表示变量值离散程度的大小, 结合均数估计参考值范围。
标准误:表示抽样误差的大小, 估计参数的可信区间。 随样本含量的增多逐渐减小。
11
标准差与标准误的区别与联系 联系 (1)标准差与标准误都是变异指标,说明个体值之间的差异时用标准差,说明统计量之间的差异时用标准误。
(2)当样本含量不变时,标准差越大,标准误亦越大。
12
t 分布 中心极限定理 总体 样本均数 变量变换 变量变换 未知 标准正态分布 服从自由度 = n 1的t分布
13
标准正态分布 图4-2 不同自由度的 t 分布图 1.单峰分布,以0为中心,左右两侧对称
14
2. t 分布只有一个参数ν,曲线形状与样本含量有关。是一簇曲线。
标准正态分布 图4-2 不同自由度的 t 分布图 2. t 分布只有一个参数ν,曲线形状与样本含量有关。是一簇曲线。
15
标准正态分布 图4-2 不同自由度的 t 分布图 3. 当自由度逼近∞,t分布则逼近u分布, 故标准正态分布是t分布的特例。
16
标准正态分布 图4-2 不同自由度的 t 分布图 4. t分布曲线下的面积为1(100%)。
17
①自由度相同时,│t│值越大,概率P越小; ② t值相同时,t0.05/2,22 = t0.025,22 =2.074。
自由度 双侧 ν 单侧 ①自由度相同时,│t│值越大,概率P越小; ② t值相同时,t0.05/2,22 = t0.025,22 =2.074。
18
一、可信区间的概念(Confidence Interval)
第二节 总体均数的估计 一、可信区间的概念(Confidence Interval) 参数估计 点估计:不考虑抽样误差,如 区间估计:考虑抽样误差 point estimation Parameter estimation interval estimation
19
总体均数的估计 1. 点(值)估计(point estimation): 用样本统计量直接作为总体参数的估计值。
例 为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取1岁婴儿25人,测得血红蛋白的平均数为123.7g/L,标准差为11.98g/L。试估计该地1岁婴儿血红蛋白的平均 浓度。
20
2. 区间估计(interval estimation):
指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取 可信度(置信率、置信度): 由样本信息推断总体特征时,估计正确的概 率,用1-α表示。 α: Ⅰ类错误的概率
21
可信区间(confidence interval CI):
按预先给定的概率确定的包含未知总体参数的可能范围。 可信限(confidence limit CL): 构成可信区间的两个点值 上限值:较大的值 下限值:较小的值
22
模拟实验 模拟抽样成年男子红细胞数。设定:
产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数 ,只有6个可信区间没有包含总体参数(用星号标记)。
23
* * * * * * 图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图
24
二、可信区间的计算 (一) 已知 可信区间: 一般情况 其中 为标准正态分布的双侧界值。
25
(二) 未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布。
(二) 未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布。 计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即 可信区间:
26
需要注意: 在小样本情况下,应用这一公式的条件是原始变量服从正态分布。 在大样本情况下(如n>50), 也可以用 替换 近似计算。
27
例4. 2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3. 32 g/L,标准差为0
例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 g/L,标准差为0.57 g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。 下限: 上限:
28
例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。
下限: 上限:
29
(三) 单侧可信区间 对于轻度原发性高血压患者进行治疗,一般病人接受治疗后可使舒张压平均降低10mmHg。现提出一种新的治疗方法,对100名患者进行治疗,平均降压12.7mmHg,血压治疗前后变化的标准差为5.6mmHg,能否说新疗法优于标准疗法?
30
均数可信区间与参考值范围的区别 参考值范围 均数可信区间 意义 按预先给定的概率 “正常人”的各项生 估计未知参数的可 理、生化数据,组
意义 按预先给定的概率 “正常人”的各项生 估计未知参数的可 理、生化数据,组 能范围。其含义是 织或排泄物中各种 该可信区间有(1 成分的含量等指标 -α)的可能性包 的波动范围 含了总体均数 公式 用标准误 用标准差 用途 估计总体参数 判断观察对象的某 项指标正常与否
31
某地调查100人得收缩压均数为18.62kPa,标准差为1.33kPa。试估计:
该地95%的人收缩压在什么范围? 该地所有人收缩压的均数可能在什么范围?
32
掌握:假设检验的基本思想和基本步骤,样本均数与总体均数的比较,配对资料的比较,两个样本均数的比较,假设检验应注意的问题。
假设检验的意义和步骤 (Hypothesis Test) 要求: 掌握:假设检验的基本思想和基本步骤,样本均数与总体均数的比较,配对资料的比较,两个样本均数的比较,假设检验应注意的问题。 了解:假设检验中的两类错误。
33
假设检验(hypothesis test)
亦称显著性检验(significant test),是先对总体的参数或分布作出某种假设,然后用适当的方法,根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。 统计推断的另一个重要内容,目的是通过样本数据比较总体参数之间有无差别。
34
一、假设检验的基本思想 例4.4 使用黑加仑油软胶囊治疗高脂血症,30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为1.38±0.76 (g/L),问治疗后血清甘油三酯是否有所改善?
35
对上面问题可以作如下考虑: 问题归纳: 样本疗效 药物作用 + 机遇 问题: 究竟多大能够下“有效”的结论? 治疗前后甘油三
酯的变化(差值) 样 本 问题归纳: 样本疗效 药物作用 + 机遇 问题: 究竟多大能够下“有效”的结论?
36
根据 t 分布能够计算出有如此大差异的概率P ,如果P 值很小,即计算出的t 值超出了给定的界限,则倾向于拒绝H0,认为治疗前后有差别。
37
假设检验的基本思想—利用反证法的思想 利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为α的错误。
38
二、假设检验的基本步骤 1.建立假设和确定检验水准
无效假设H0(null hypothesis)指需要检验的假设,备择假设H1(alternative hypothesis)指在H0成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为
39
[说明] :备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验水准则拒绝H0, 即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0 ,如治疗后血清甘油三酯下降的假设可表示为 双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。
40
二、假设检验的基本步骤 1.建立假设和确定检验水准 检验水准 (size of a test)
显著性水准(significant level) 是预先规定的拒绝域的概率值,实际中一般取 。
41
根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法
2.选择检验方法和计算检验统计量 根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法 不同检验方法各有其相应的检验统计量及计算公式。 许多假设检验方法是以检验统计量来命名的,如 t 检验、u 检验、F 检验和 检验等。
42
3.确定P 值并做出统计推断结论 P 值含义:指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。 查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P 值。如对双侧 t 检验 ,则 ,按检验水准 拒绝H0。 P 值越小,越有理由拒绝H0,认为总体之间有差别的统计学证据越充分。
Similar presentations