第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
7.1 假设检验 1. 假设检验的基本原理 2. 假设检验的相关概念 3. 假设检验的一般步骤 4. 典型例题 5. 小结.
第十七章 分类资料的统计推断.
第四章 假设检验 第4.1节 假设检验的基本概念 第4.2节 正态总体均值与方差 的假设检验 第4.3节 非参数假设检验方法
第六章 样本及抽样分布 简单随机抽样: 代表性: 中每一个与所考察的总 体有相同的分布。 2.独立性: 是相互独立的随机变量。
第四章 概率、正态分布、常用统计分布.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第五讲 抽样分布与参数估计.
完全随机设计多样本资料秩和检验.
第 8 章 假设检验 作者:中国人民大学统计学院 贾俊平 PowerPoint 统计学.
计数资料的统计推断 (2 学时) 吴成秋 公共卫生学院预防医学系
§6.3 假设检验的基本概念 我们将讨论不同于参数估计的另一类重要的统计推断问题. 这就是根据样本的信息检验关于总体的某个假设是否正确.
第 八 章 t 检 验.
第八章 假设检验 本章重点: 1、正确建立零假设和备择假设 2、理解第一类错误和第二类错误 3、大样本情况下单个总体的假设检验
定积分的换元法 和分部积分法 换元公式 分部积分公式 小结 1/24.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
本讲义可在网址 或 ftp://math.shekou.com 下载
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三节 参数估计 参数估计就是用样本统计量来推算总体参数,有点估计和区间估计两种方法。 一、参数估计的理论基础
线性相关分析.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 3 主讲人 陶育纯 医学统计分析 医学统计学方法.
区间估计 Interval Estimation.
统计学期末复习
t 检验——问题提出 假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来推断他们相应的总体参数是否相同;
Business Statistics Topic 6
第6章 统计量及其抽样分布 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布
复习引入 数据 统计学的核心思想是 根据样本的情况对总体的相应情况作出估计和推断 2.统计学研究问题的步骤
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第十章 方差分析.
正态分布.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
第四章 缺 氧 概念:组织得不到氧气,或不能充分 利用氧气时,组织的代谢、功 能,甚至形态结构都可能发生 异常变化,这一病理过程称为 缺氧。
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第八章 假设检验 8.1 假设检验的基本概念.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第八章 假设检验 8.3 两个正态总体参数的假设检验.
Sampling Error and Hypothesis Test
单样本检验.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
贝叶斯估计 Bayes Estimation
FH实验中电子能量分布的测定 乐永康,陈亮 2008年10月7日.
二、配对样本t检验 配对设计(paired design)定义:将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。
7.3 参数的区间估计 一、区间估计基本概念 二、正态总体均值与方差的区间估计 三、小结.
假设检验.
Presentation transcript:

第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。 第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。 了解:t变换。

第一节 均数的抽样误差与标准误 一、均数的抽样误差 在医学研究中,绝大多数情况是由样本信息研究总体。由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数 往往不等于总体均数 ,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究,抽样误差不可避免。

样本均数 样本n1 样本n2 样本nk 总体 各样本均数不相同,为什么? 假定某年某地所有13岁女学生身高服从 N(155.4,5.32),在该总体中作100次随机抽样,ni = 30 样本均数 样本n1 样本n2 样本nk 各样本均数不相同,为什么? 153.6 153.1 ···· 157.7 总体

从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布 组段(cm) 频数 频率(%) 152.6~ 1 1.0 153.2~ 4 4.0 153.8~ 154.4~ 22 22.0 155.0~ 25 25.0 155.6~ 21 21.0 156.2~ 17 17.0 156.8~ 3 3.0 157.4~ 2 2.0 158.0~158.6 合计 100 100.0

二、抽样误差的分布 理论上可以证明:若从正态总体 中,反复多次随机抽取样本含量固定为n 的样本,那么这些样本均数 也服从正态分布,即 的总体均数仍为 ,样本均数的标准差为 。 抽样分布 抽样分布示意图

当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。 中心极限定理: 当样本含量很大的情况下,无论原始测量变量服从什么分布, 的抽样分布均近似正态。 抽样分布 抽样分布示意图

三、标准误(Standard Error) 样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确,因此可以用标准误表示抽样误差的大小: 实际中总体标准差 往往未知,故只能求得样本均数标准误的估计值 :

例4.1 在某地随机抽查成年男子140人,计算得红细胞均数4.77×1012/L,标准差0.38 ×1012/L ,试计算均数的标准误。 标准误的用途: 标准误是抽样分布的重要特征之一,可用于衡量抽样误差的大小,更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。

标准差与标准误的区别与联系 意义 标准差:描述个体值间的变异,标准差较 小,表示观察值围绕均数的波动较小。 说明样本均数的代表性。 标准误:描述统计量的抽样误差,标准误 较小,表示样本统计量与参数较 接近。说明样本均数的可靠性。

标准差与标准误的区别与联系 区别 随样本含量的增多,逐渐趋于稳定。 标准差:表示变量值离散程度的大小, 结合均数估计参考值范围。 标准误:表示抽样误差的大小, 估计参数的可信区间。 随样本含量的增多逐渐减小。

标准差与标准误的区别与联系 联系 (1)标准差与标准误都是变异指标,说明个体值之间的差异时用标准差,说明统计量之间的差异时用标准误。 (2)当样本含量不变时,标准差越大,标准误亦越大。

t 分布 中心极限定理 总体 样本均数 变量变换 变量变换 未知 标准正态分布 服从自由度 = n  1的t分布

标准正态分布 图4-2 不同自由度的 t 分布图 1.单峰分布,以0为中心,左右两侧对称

2. t 分布只有一个参数ν,曲线形状与样本含量有关。是一簇曲线。 标准正态分布 图4-2 不同自由度的 t 分布图 2. t 分布只有一个参数ν,曲线形状与样本含量有关。是一簇曲线。

标准正态分布 图4-2 不同自由度的 t 分布图 3. 当自由度逼近∞,t分布则逼近u分布, 故标准正态分布是t分布的特例。

标准正态分布 图4-2 不同自由度的 t 分布图 4. t分布曲线下的面积为1(100%)。

①自由度相同时,│t│值越大,概率P越小; ② t值相同时,t0.05/2,22 = t0.025,22 =2.074。 自由度 双侧 0.10 0.05 0.02 0.01 ν 单侧 0.05 0.025 0.01 0.005 21 1.721 2.080 2.518 2.831 22 1.717 2.074 2.508 2.819 23 1.714 2.069 2.500 2.807 24 1.711 2.064 2.492 2.797 25 1.708 2.060 2.485 2.787 26 1.706 2.056 2.479 2.779 27 1.703 2.052 2.473 2.771 ①自由度相同时,│t│值越大,概率P越小; ② t值相同时,t0.05/2,22 = t0.025,22 =2.074。

一、可信区间的概念(Confidence Interval) 第二节 总体均数的估计 一、可信区间的概念(Confidence Interval) 参数估计 点估计:不考虑抽样误差,如 区间估计:考虑抽样误差 point estimation Parameter estimation interval estimation

总体均数的估计 1. 点(值)估计(point estimation): 用样本统计量直接作为总体参数的估计值。 例 为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取1岁婴儿25人,测得血红蛋白的平均数为123.7g/L,标准差为11.98g/L。试估计该地1岁婴儿血红蛋白的平均 浓度。

2. 区间估计(interval estimation): 指按预先给定的概率,计算出一个区间, 使它能够包含未知的总体均数。事先给定的概率 称为可信度,通常取 可信度(置信率、置信度): 由样本信息推断总体特征时,估计正确的概 率,用1-α表示。 α: Ⅰ类错误的概率

可信区间(confidence interval CI): 按预先给定的概率确定的包含未知总体参数的可能范围。 可信限(confidence limit CL): 构成可信区间的两个点值 上限值:较大的值 下限值:较小的值

模拟实验 模拟抽样成年男子红细胞数。设定: 产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从图可以看出:绝大多数可信区间包含总体参数 ,只有6个可信区间没有包含总体参数(用星号标记)。

* * * * * * 图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图

二、可信区间的计算 (一) 已知 可信区间: 一般情况 其中 为标准正态分布的双侧界值。

(二) 未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布。 (二) 未知 通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服从著名的 t 分布。 计算可信区间的原理与前完全相同,仅仅是两侧概率的界值有些差别。即 可信区间:

需要注意: 在小样本情况下,应用这一公式的条件是原始变量服从正态分布。 在大样本情况下(如n>50), 也可以用 替换 近似计算。

例4. 2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3. 32 g/L,标准差为0 例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 g/L,标准差为0.57 g/L,试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。 下限: 上限:

例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。 下限: 上限:

(三) 单侧可信区间 对于轻度原发性高血压患者进行治疗,一般病人接受治疗后可使舒张压平均降低10mmHg。现提出一种新的治疗方法,对100名患者进行治疗,平均降压12.7mmHg,血压治疗前后变化的标准差为5.6mmHg,能否说新疗法优于标准疗法?

均数可信区间与参考值范围的区别 参考值范围 均数可信区间 意义 按预先给定的概率 “正常人”的各项生 估计未知参数的可 理、生化数据,组 意义 按预先给定的概率 “正常人”的各项生 估计未知参数的可 理、生化数据,组 能范围。其含义是 织或排泄物中各种 该可信区间有(1 成分的含量等指标 -α)的可能性包 的波动范围 含了总体均数 公式 用标准误 用标准差 用途 估计总体参数 判断观察对象的某 项指标正常与否

某地调查100人得收缩压均数为18.62kPa,标准差为1.33kPa。试估计: 该地95%的人收缩压在什么范围? 该地所有人收缩压的均数可能在什么范围?

掌握:假设检验的基本思想和基本步骤,样本均数与总体均数的比较,配对资料的比较,两个样本均数的比较,假设检验应注意的问题。 假设检验的意义和步骤 (Hypothesis Test) 要求: 掌握:假设检验的基本思想和基本步骤,样本均数与总体均数的比较,配对资料的比较,两个样本均数的比较,假设检验应注意的问题。 了解:假设检验中的两类错误。

假设检验(hypothesis test) 亦称显著性检验(significant test),是先对总体的参数或分布作出某种假设,然后用适当的方法,根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。 统计推断的另一个重要内容,目的是通过样本数据比较总体参数之间有无差别。

一、假设检验的基本思想 例4.4 使用黑加仑油软胶囊治疗高脂血症,30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为1.38±0.76 (g/L),问治疗后血清甘油三酯是否有所改善?

对上面问题可以作如下考虑: 问题归纳: 样本疗效 药物作用 + 机遇 问题: 究竟多大能够下“有效”的结论? 治疗前后甘油三 酯的变化(差值) 样 本 问题归纳: 样本疗效 药物作用 + 机遇 问题: 究竟多大能够下“有效”的结论?

根据 t 分布能够计算出有如此大差异的概率P ,如果P 值很小,即计算出的t 值超出了给定的界限,则倾向于拒绝H0,认为治疗前后有差别。

假设检验的基本思想—利用反证法的思想 利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为α的错误。

二、假设检验的基本步骤 1.建立假设和确定检验水准 无效假设H0(null hypothesis)指需要检验的假设,备择假设H1(alternative hypothesis)指在H0成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为

[说明] :备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差,若显著地超出检验水准则拒绝H0, 即为双侧检验;单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0 ,如治疗后血清甘油三酯下降的假设可表示为 双侧检验和单侧检验应如何选择,需根据研究目的和专业知识而定。一般情况下,双侧检验更为稳妥,因为对相同的样本,双侧检验得出有显著性差别的结论,单侧检验也一定是显著的。

二、假设检验的基本步骤 1.建立假设和确定检验水准 检验水准 (size of a test) 显著性水准(significant level) 是预先规定的拒绝域的概率值,实际中一般取 。

根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法 2.选择检验方法和计算检验统计量 根据资料类型、研究设计方案和统计推断的目的,选择适当的检验方法 不同检验方法各有其相应的检验统计量及计算公式。 许多假设检验方法是以检验统计量来命名的,如 t 检验、u 检验、F 检验和 检验等。

3.确定P 值并做出统计推断结论 P 值含义:指在原假设成立的条件下,观察到的样本差别是由于机遇所致的概率。 查表得到检验用的临界值,然后将算得的统计量与拒绝域的临界值作比较,确定P 值。如对双侧 t 检验 ,则 ,按检验水准 拒绝H0。 P 值越小,越有理由拒绝H0,认为总体之间有差别的统计学证据越充分。