第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。

第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。
第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。了解：t变换。

第一节均数的抽样误差与标准误一、均数的抽样误差在医学研究中，绝大多数情况是由样本信息研究总体。由于个体存在差异，因此通过样本推论总体时会存在一定的误差，如样本均数往往不等于总体均数，这种由抽样造成的样本均数与总体均数的差异称为抽样误差。对于抽样研究，抽样误差不可避免。

样本均数样本n1 样本n2 样本nk 总体各样本均数不相同，为什么？假定某年某地所有13岁女学生身高服从
N（155.4，5.32），在该总体中作100次随机抽样，ni = 30 样本均数样本n1 样本n2 样本nk 各样本均数不相同，为什么？ 153.6 153.1 ···· 157.7 总体

从正态总体N（155.4，5.32）抽样得到的100个样本均数的频数分布
组段（cm）频数频率（％） 152.6～ 1 1.0 153.2～ 4 4.0 153.8～ 154.4～ 22 22.0 155.0～ 25 25.0 155.6～ 21 21.0 156.2～ 17 17.0 156.8～ 3 3.0 157.4～ 2 2.0 158.0～158.6 合计 100 100.0

二、抽样误差的分布理论上可以证明：若从正态总体中，反复多次随机抽取样本含量固定为n 的样本，那么这些样本均数也服从正态分布，即的总体均数仍为，样本均数的标准差为。抽样分布抽样分布示意图

当样本含量很大的情况下，无论原始测量变量服从什么分布，的抽样分布均近似正态。
中心极限定理: 当样本含量很大的情况下，无论原始测量变量服从什么分布，的抽样分布均近似正态。抽样分布抽样分布示意图

三、标准误（Standard Error）
样本均数的标准差称为标准误。样本均数的变异越小说明估计越精确，因此可以用标准误表示抽样误差的大小：实际中总体标准差往往未知，故只能求得样本均数标准误的估计值：

例4.1 在某地随机抽查成年男子140人，计算得红细胞均数4.77×1012/L，标准差0.38 ×1012/L ，试计算均数的标准误。
标准误的用途：标准误是抽样分布的重要特征之一，可用于衡量抽样误差的大小，更重要的是可以用于参数的区间估计和对不同组之间的参数进行比较。

标准差与标准误的区别与联系意义标准差：描述个体值间的变异，标准差较小，表示观察值围绕均数的波动较小。说明样本均数的代表性。
标准误：描述统计量的抽样误差，标准误较小，表示样本统计量与参数较接近。说明样本均数的可靠性。

标准差与标准误的区别与联系区别随样本含量的增多，逐渐趋于稳定。标准差：表示变量值离散程度的大小，结合均数估计参考值范围。
标准误：表示抽样误差的大小，估计参数的可信区间。随样本含量的增多逐渐减小。

标准差与标准误的区别与联系联系（1）标准差与标准误都是变异指标，说明个体值之间的差异时用标准差，说明统计量之间的差异时用标准误。
（2）当样本含量不变时，标准差越大，标准误亦越大。

t 分布中心极限定理总体样本均数变量变换变量变换未知标准正态分布服从自由度 = n  1的t分布

标准正态分布图4-2 不同自由度的 t 分布图 1.单峰分布，以0为中心，左右两侧对称

2. t 分布只有一个参数ν，曲线形状与样本含量有关。是一簇曲线。
标准正态分布图4-2 不同自由度的 t 分布图 2. t 分布只有一个参数ν，曲线形状与样本含量有关。是一簇曲线。

标准正态分布图4-2 不同自由度的 t 分布图 3. 当自由度逼近∞，t分布则逼近u分布，故标准正态分布是t分布的特例。

标准正态分布图4-2 不同自由度的 t 分布图 4. t分布曲线下的面积为1（100％）。

①自由度相同时，│t│值越大，概率P越小； ② t值相同时，t0.05/2,22 = t0.025,22 =2.074。
自由度双侧 ν 单侧 ①自由度相同时，│t│值越大，概率P越小； ② t值相同时，t0.05/2,22 = t0.025,22 =2.074。

一、可信区间的概念(Confidence Interval）
第二节总体均数的估计一、可信区间的概念(Confidence Interval）参数估计点估计：不考虑抽样误差，如区间估计：考虑抽样误差 point estimation Parameter estimation interval estimation

总体均数的估计 1. 点(值)估计（point estimation）：用样本统计量直接作为总体参数的估计值。
例为了解某地1岁婴儿的血红蛋白浓度，从该地随机抽取1岁婴儿25人，测得血红蛋白的平均数为123.7g/L，标准差为11.98g/L。试估计该地1岁婴儿血红蛋白的平均浓度。

2. 区间估计（interval estimation）：
指按预先给定的概率，计算出一个区间，使它能够包含未知的总体均数。事先给定的概率称为可信度，通常取可信度（置信率、置信度）：由样本信息推断总体特征时，估计正确的概率，用1－α表示。 α： Ⅰ类错误的概率

可信区间（confidence interval CI）：
按预先给定的概率确定的包含未知总体参数的可能范围。可信限（confidence limit CL）：构成可信区间的两个点值上限值：较大的值下限值：较小的值

模拟实验模拟抽样成年男子红细胞数。设定:
产生100个随机样本，分别计算其95%的可信区间，结果用图示的方法表示。从图可以看出：绝大多数可信区间包含总体参数，只有6个可信区间没有包含总体参数（用星号标记）。

* * * * * * 图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图

二、可信区间的计算（一）已知可信区间：一般情况其中为标准正态分布的双侧界值。

（二）未知通常未知，这时可以用其估计量S 代替，但已不再服从标准正态分布，而是服从著名的 t 分布。
（二）未知通常未知，这时可以用其估计量S 代替，但已不再服从标准正态分布，而是服从著名的 t 分布。计算可信区间的原理与前完全相同，仅仅是两侧概率的界值有些差别。即可信区间：

需要注意：在小样本情况下，应用这一公式的条件是原始变量服从正态分布。在大样本情况下（如n>50), 也可以用替换近似计算。

例4. 2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3. 32 g/L，标准差为0
例4.2 某医生测得25名动脉粥样硬化患者血浆纤维蛋白原含量的均数为3.32 g/L，标准差为0.57 g/L，试计算该种病人血浆纤维蛋白原含量总体均数的95%可信区间。下限：上限：

例4.3 试计算例4.1中该地成年男子红细胞总体均数的95%可信区间。
下限：上限：

（三）单侧可信区间对于轻度原发性高血压患者进行治疗，一般病人接受治疗后可使舒张压平均降低10mmHg。现提出一种新的治疗方法，对100名患者进行治疗，平均降压12.7mmHg，血压治疗前后变化的标准差为5.6mmHg，能否说新疗法优于标准疗法？

均数可信区间与参考值范围的区别参考值范围均数可信区间意义按预先给定的概率 “正常人”的各项生估计未知参数的可理、生化数据，组
意义按预先给定的概率 “正常人”的各项生估计未知参数的可理、生化数据，组能范围。其含义是织或排泄物中各种该可信区间有（1 成分的含量等指标－α）的可能性包的波动范围含了总体均数公式用标准误用标准差用途估计总体参数判断观察对象的某项指标正常与否

某地调查100人得收缩压均数为18.62kPa，标准差为1.33kPa。试估计：
该地95％的人收缩压在什么范围？该地所有人收缩压的均数可能在什么范围？

掌握：假设检验的基本思想和基本步骤，样本均数与总体均数的比较，配对资料的比较，两个样本均数的比较，假设检验应注意的问题。
假设检验的意义和步骤 (Hypothesis Test) 要求：掌握：假设检验的基本思想和基本步骤，样本均数与总体均数的比较，配对资料的比较，两个样本均数的比较，假设检验应注意的问题。了解：假设检验中的两类错误。

假设检验（hypothesis test）
亦称显著性检验（significant test），是先对总体的参数或分布作出某种假设，然后用适当的方法，根据样本对总体提供的信息，推断此假设应当拒绝或不拒绝。统计推断的另一个重要内容，目的是通过样本数据比较总体参数之间有无差别。

一、假设检验的基本思想例4.4 使用黑加仑油软胶囊治疗高脂血症，30名高脂血症患者治疗前后血清甘油三酯检测结果的差值为1.38±0.76 (g/L)，问治疗后血清甘油三酯是否有所改善？

对上面问题可以作如下考虑：问题归纳：样本疗效药物作用 + 机遇问题：究竟多大能够下“有效”的结论？治疗前后甘油三
酯的变化（差值）样本问题归纳：样本疗效药物作用 + 机遇问题：究竟多大能够下“有效”的结论？

根据 t 分布能够计算出有如此大差异的概率P ，如果P 值很小，即计算出的t 值超出了给定的界限，则倾向于拒绝H0，认为治疗前后有差别。

假设检验的基本思想—利用反证法的思想利用小概率反证法思想，从问题的对立面（H0）出发间接判断要解决的问题（H1）是否成立。然后在H0成立的条件下计算检验统计量，最后获得P值来判断。当P小于或等于预先规定的概率值α，就是小概率事件。根据小概率事件的原理：小概率事件在一次抽样中发生的可能性很小，如果他发生了，则有理由怀疑原假设H0，认为其对立面H1成立，该结论可能犯大小为α的错误。

二、假设检验的基本步骤 1.建立假设和确定检验水准
无效假设H0(null hypothesis)指需要检验的假设，备择假设H1(alternative hypothesis)指在H0成立证据不足的情况下而被接受的假设。例如建立治疗前后血清甘油三酯疗效的无效假设和备择假设分别为

[说明] ：备择假设有双侧和单侧两种情况。双侧检验指不论正方向还是负方向的误差，若显著地超出检验水准则拒绝H0，即为双侧检验；单侧检验指仅在出现正方向或负方向误差超出规定的水准时则拒绝H0 ，如治疗后血清甘油三酯下降的假设可表示为双侧检验和单侧检验应如何选择，需根据研究目的和专业知识而定。一般情况下，双侧检验更为稳妥，因为对相同的样本，双侧检验得出有显著性差别的结论，单侧检验也一定是显著的。

二、假设检验的基本步骤 1.建立假设和确定检验水准检验水准 (size of a test)
显著性水准（significant level）是预先规定的拒绝域的概率值，实际中一般取。

根据资料类型、研究设计方案和统计推断的目的，选择适当的检验方法
2.选择检验方法和计算检验统计量根据资料类型、研究设计方案和统计推断的目的，选择适当的检验方法不同检验方法各有其相应的检验统计量及计算公式。许多假设检验方法是以检验统计量来命名的，如 t 检验、u 检验、F 检验和检验等。

3.确定P 值并做出统计推断结论 P 值含义：指在原假设成立的条件下，观察到的样本差别是由于机遇所致的概率。查表得到检验用的临界值，然后将算得的统计量与拒绝域的临界值作比较，确定P 值。如对双侧 t 检验，则 ,按检验水准拒绝H0。 P 值越小，越有理由拒绝H0，认为总体之间有差别的统计学证据越充分。

第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。

Similar presentations

Presentation on theme: "第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第四章 抽样误差与假设检验 要求： 掌握：均数的抽样误差与标准误，t分 布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。

Similar presentations

Presentation on theme: "第四章 抽样误差与假设检验 要求： 掌握：均数的抽样误差与标准误，t分 布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。"— Presentation transcript:

Similar presentations

About project

反馈

第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。

Presentation on theme: "第四章抽样误差与假设检验要求：掌握：均数的抽样误差与标准误，t分布的特征，t界值表，总体均数可信区间及其与参考值范围的区别。"— Presentation transcript: