第七章 计量资料的统计分析.

Slides:



Advertisements
Similar presentations
20-Opening 統計學 授課教師:楊維寧 10Simple-R-Commands.
Advertisements

首师大数学专业 教改调研与建言 1. 师范大学的教学理念 2. 师范大学的教学定位 3. 教学计划的三点建议.
聖若翰天主教小學 聖若翰天主教小學歡迎各位家長蒞臨 自行分配中一學位家長會 自行分配中一學位家長會.
第十三章 医学统计学方法的基本概念和基本步骤
第八章 互换的运用.
中医类专业本科专用课件 补 益 剂 方剂学教研室.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
医学科研设计与统计学思维.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
國立中正大學勞工研究所 黃良志 副教授 中 華 民 國 九 十 四 年 九 月
概率论与数理统计 课件制作:应用数学系 概率统计课程组.
第一章 建筑工程造价概述 分部分项工程量清单的编制及工程实例.
如何定义和确定参考区间 郭健 卫生部北京医院.
第十章 树脂类中药.
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
管理统计学 主讲人: 北京理工大学 管理与经济学院 李金林 电话: 办公室: 中心教学楼1012房间
統計學 授課教師:林志偉 Tel:5021.
Population proportion and sample proportion
Descriptive statistics
一元线性回归(二).
第十四章 数值变量的统计描述.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
第 3 章 敘述統計:數值方法.
第 5 章 樣本資料的數值分布.
Sampling Theory and Some Important Sampling Distributions
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
第11章 抽樣設計 本章的學習主題 1.抽樣的基本概念 2.抽樣的程序 3.機率抽樣 4.非機率抽樣 5.電話抽樣
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
第 4 章 分散量數.
Interval Estimation區間估計
第五章 数理统计的基本知识 §5.3 数理统计中的某些常用分布.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
Workshop on Statistical Analysis
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
課程七 假設檢定.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
生物統計 1 課程簡介 (Introduction)
第五章 三角比 二倍角与半角的正弦、余弦和正切 正弦定理、余弦定理和解斜三角形.
Introduction to Basic Statistics
EXCEL+ORIGN+SPSS的描述统计
抽樣分配 Sampling Distributions
相關統計觀念復習 Review II.
Introduction to Basic Statistics
Dr. C. Hsieh College of Informatics Kao yuan University
八、假設檢定 I (Hypothesis Testing Ⅱ)
CH13 超越描述統計:推論統計.
计量资料的统计描述 赵耐青 复旦大学卫生统计教研室.
第二部分:统计推断 Chp6:统计推断概述 Chp7:非参数推断 Chp8:Bootstrap Chp9:参数推断 Chp10:假设检验
Review of Statistics.
医学统计学 (Medical Statistics)
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
第四章 常用概率分布 韩国君 教授.
品質管理與實習 : MIL-STD-105E 何正斌 國立屏東科技大學工業管理學系.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
生物统计学 Biostatistics 第一章 统计数据的收集与整理
现代统计分析方法概述 2019/5/20 知识管理与数据分析实验室.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
抽樣分配.
几个容易误解的 土力学问题 河海大学 殷宗泽.
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

第七章 计量资料的统计分析

医学统计分析 统计描述 统计推断 2019/7/7

第一节 计量资料的统计描述 一、频数分布 二、集中趋势指标 三、离散趋势指标 四、正态分布应用

7.1.1 频 数 分 布 收集到的原始资料多是杂乱无章的,为了了解数据的分布规律特征,有必要对数据进行整理,描述数据的频数分布(frequency distribution)以及直方图(histogram)。 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。 就个体而言:变异是随机的(random)。 就总体而言:个体变异是有规律的。

7.1.1 定量资料的频数分布 例: 某市 1997 年 12 岁男童 120 人的身高 (cm) 资料 142.3 156.6 142.7 7.1.1 定量资料的频数分布 例: 某市 1997 年 12 岁男童 120 人的身高 (cm) 资料 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8 134.4 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1 150.3 133.1 143.9 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 141.2 141.5 140.1 150.6 139.5 146.4 143.8 143.5 139.2 144.7 139.3 147.8 140.5 138.9 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1 142.9 134.9 143.6 125.9 132.7 152.9 141.4 140.9 160.9 154.2 139.9 149.7 147.5 136.9 148.1 138.5 137.7 139.6 129.4 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 135.5 144.4 143.4 150.0 146.5 149.0 142.1 142.4 138.7 从120个原始数据很难看出规律,为找出分布规律,将其整理成频数表。 如何编制频数表?

为什么需要分组? 频数分布表的制作步骤 P95 ( 1 )计算全距( R ) R= Xmax – Xmin=160.9-125.9=35 ( cm ) ( 2 )确定组数k、组距i 组数: 8 ~ 15 组距:i= R/ 组数 =35 / 10 =3.5 ≈ 4 ( cm ) 为什么需要分组?

频数(frequency)是指资料中相同数值或同类属性的观察单位的个数。由于定量资料连续性的特点,因此在对定量资料编制频数分布表时需要分段汇总,否则频数分布表就特别长。 在对原始数据分段后,计数不同组段观察值的个数就得到数据的频数分布,将频数分布用表格的形式表示就是频数分布表,简称频数表(frequency table)。

( 3 )划分组段 界值明确 :含下限,不含上限 不重叠或空缺: 第一组段下限≤ Xmin 最后一组上限 >Xmax ( 4 )汇总频数:计算频数、频率

男童身高向中央部分集中,即中等身高者居多—集中趋势 表 1 1997 年某市 120 名 12 岁男童的身高 (cm) 频数分布 组段 频数 频率 男童身高向中央部分集中,即中等身高者居多—集中趋势 124~ 1 0.0083 128~ 2 从中央部分到两侧的频数分布逐渐减少、男童的身高值参差不齐——离散趋势 0.0167 132~ 10 0.0833 136~ 22 0.1834 140~ 37 0.3083 144~ 26 0.2167 148~ 15 0.1250 ①最末组上、下限均写。 ②频数分布特点:以该组段频数分布最多,以此为中心,两侧逐渐减少,并基本对称。 152~ 4 0.0333 156~ 2 0.0167 160~164 1 0.0083 合计 120 1.0000

频率直方图 124 132 140 148 156 164 10 20 30 40 人 数 身高(cm) 图1 某市 120 名 12 岁男童身高的频数分布

频数分布表和频数分布图的用途 1、描述分布类型 2、描述分布的特征 3、便于发现特大、特小的可疑值 4、便于计算有关指标、统计分析与处理

对称分布:频数以中间最多,两侧逐渐减少,基本对称 右偏态(正偏态):高峰在左侧,尾部拖在右侧 左偏态(负偏态):高峰在右侧,尾部拖在左侧 7.1.2 数据的分布类型 对称分布: 非对称分布(偏态分布) 对称分布:频数以中间最多,两侧逐渐减少,基本对称 右偏态(正偏态):高峰在左侧,尾部拖在右侧 左偏态(负偏态):高峰在右侧,尾部拖在左侧 单峰分布: 双峰或多峰分布: 正偏态(右) 分布的对称 负偏态(左) 峰的多少 不同类型的资料其分布类型不同;同类型的资料分布也不一定相同,而不同分布的资料,要用不同的指标描述,用不同的统计分析方法进行统计分析,所以,了解数据的分布类型对与进行正确的统计分析是重要的。

124 132 140 148 156 164 10 20 30 40 人 数 身高(cm) 某市 120 名 12 岁男童身高的频数分布

70 3 5 7 9 11 13 15 17 19 21 10 20 30 40 50 60 1 人 数 发汞含量( ) 239 人发汞含量的频数分布

10 20 30 40 50 60 70 80 90 100 200 300 400 人数 自评分 某城市 892 名老年人生存质量自评分的频数分布

人 数 生存时间 (月) 102 名黑色素瘤患者的生存时间频数分布 5 10 15 20 25 30 35 40 45 1 2 3 4 人 数 生存时间 (月) 102 名黑色素瘤患者的生存时间频数分布

集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。 集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。 对称 分布 频数 分布 集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。 正偏 集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。 偏态 分布 负偏

(tendency of dispersion) 由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。 2.描述资料的分布特征 7 9 11 13 15 17 19 21 23 25 27 29 集中趋势 (central tendency) 分布特征 离散趋势 (tendency of dispersion) 离散趋势或变异程度是指观察值之间参差不齐的程度。 集中趋势与离散趋势结合能全面反映频数的分布特征

7.1.3 计量资料的统计指标 描述数值变量资料分布特征的指标 集中趋势指标 离散程度指标 平均数 R、Q、S、CV 2019/7/7

又称平均数(集中位置描述) 集中趋势的描述 是描述一组变量值的集中趋势或平均水平的统计指标。是一组变量值的集中水平的代表值。 种类:算术均数、几何均数、中位数

  加权系数 例:某门功课的成绩:平时占 0.2 ,期中占 0.3,期末占 0.5。则平均成绩为: 利用了所有数值,但易受极大值影响。

②频数表法: 各组段的频数 各组段的组中值

1997 年某市 120 名 12 岁男童的身高 (cm) 124~ 1 0.0083 128~ 2 0.0167 132~ 10 0.0833 136~ 22 0.1834 140~ 37 0.3083 144~ 26 0.2167 148~ 15 0.1250 152~ 4 0.0333 156~ 组 段 频 数 频 率 160~164 合计 120 1.0000 组中值 126 130 134 138 142 146 150 154 158 162

(一)算术均数(均数) 样本均数用 表示,总体均数用μ表示 适用范围 对称分布,尤其是正态分布的资料 新生儿出生体重分布 直方图/频数分布图 样本均数用 表示,总体均数用μ表示 适用范围 对称分布,尤其是正态分布的资料 新生儿出生体重分布 2019/7/7

看一个实例 例:五人血清抗体滴度: 1:10, 1:100 , 1:1000 , 1:10000, 1:100000 ?

(二)几何均数 G (geometric mean ) 1 适用条件:各变量值为等比数列或对数正态分布的资料 如抗体滴度、抗体效价、细胞计数 2 公式: 3 计算

对数正态分布

例、有 5 份血清的抗体效价分别为 1:10 , 1:20 , 1:40 , 1:80 , 1:160 , 求平均抗体效价? 此 5 人血清的平均抗体效价为 1 : 40 。

所以,这 25 份血清的平均效价是 1:44.7 。 有 25 份血清的抗体效价分别为 抗体效价 1:10 , 1:20 , 1:40 , 1:80 , 1:160 , 人数 2 5 8 7 3 所以,这 25 份血清的平均效价是 1:44.7 。

使用注意: (1)变量值中不能有 0; (2)同一组变量值不能同时存在正、负值; (3)若变量全为负值,计算时将负号除去,算完后再加上。

将一组变量值从小到大排列,位次居中的数值。 1. 适用条件:任何分布(偏态、分布不明、两端无界限、有特大、特小值) 2 .计算公式: (三)中位数 M (median)及百分位数(percentile) 将一组变量值从小到大排列,位次居中的数值。 1. 适用条件:任何分布(偏态、分布不明、两端无界限、有特大、特小值) 2 .计算公式: 小样本: 当 n 为奇数: 当 n 为偶数:

发汞值(μg/g) 人数 〈0.3 3 0.3- 17 偏态分布资料 0.7- 66 1.1- 60 1.5— 48 1.9— 18 〈0.3 3 0.3- 17 0.7- 66 1.1- 60 1.5— 48 1.9— 18 2.3— 16 2.7— 6 3.1— 1 3.5— 1 ≥3.9 2 合计 238 开口资料 偏态分布资料 某市238名健康人发汞含量 2019/7/7

例、有 10 人的发汞值( ) 1.1,1.8,3.5,4.2,4.8,5.6,5.9, 7.1,10.5,16.3

(2)频数表法: L=M所在组段的下限 i=M所在组段的组距 fx=M所在组段的频数 =小于L各组段的累计频数

甘油三脂 频数 累积频数 累积频率(%) 0.10~ 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 -

1. 特定的百分位数(p50),在全部观察值中有一半比它大,有一半比它小。应用最广。 中位数的特点 1. 特定的百分位数(p50),在全部观察值中有一半比它大,有一半比它小。应用最广。 2. 不是由全部观察值计算出来的,因此不受特大值、特小值的影响,抗极端值的影响好,适用于描述偏态资料的集中位置。

中位数的特点 3. 只受居中观察值波动的影响,因而不敏感。 4. 理论上,正态分布资料的均数等于中位数,对数正态分布的几何均数等于中位数。但用中位数代替均数、几何均数会减低灵敏度,进一步统计处理的方 法较少,应尽量使用均数和几何均数。

(二)百分位数(percentile) 是指在一组数据中找到这样一个值,在一组从小到大排序的数据中,全部观察值的X%小于Px,而其余(100-X)%大于Px。 Px (100-X)% X% P50分位数也就是中位数

频数表法 M=P50=

甘油三脂 频数 累积频数 累积频率(%) 0.10~ 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 -

(三)中位数(M)和百分位数(Px) 中位数和百分位数的用途: (1)中位数描述一组偏态资料的集中趋势; 百分位数描述一组资料在某百分位置的水平 在对称分布资料中,M= (2)百分位数用于确定医学参考值范围。 双侧:95%参考值范围:P2.5 - P97.5 单侧: 95%参考值范围>P5 95%参考值范围<P95 2019/7/7

7.1.4离散趋势的描述 有甲、乙、丙三组同性别同年龄儿童体重 (kg) : 甲组 26 , 28 , 30 , 32 , 34 甲组 26 , 28 , 30 , 32 , 34 乙组 24 , 27 , 30 , 33 , 36 丙组 26, 29, 30, 31, 34 上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值与均数的的差值不同

离散趋势又称为变异程度指标,用于描述一组同质数值变量资料的变异程度大小的指标 平均数并不能使我们全面地认识事物 上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值与均数的的差值不同 离散趋势又称为变异程度指标,用于描述一组同质数值变量资料的变异程度大小的指标 2019/7/7

只用平均数描述资料的弊病 It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable ON AVERAGE !

四分位数间距( interquartile range Q ) 离散趋势的描述指标 全距(range) 四分位数间距( interquartile range Q ) 方差、标准差(variance and standard deviation) 变异系数(coefficient of variation)

(1)全距(极差) R=Xmax- Xmin 反映资料的分布范围 R 大→变异程度大, R 小→变异程度小 优点:简单明了 缺点:不灵敏,只考虑了最大、最小值 抽样误差大,不稳定

(2)四分位数间距(quartile range)(简记QR) 1、计算公式: 四分位数间距Q=QU-QL GXMU (2)四分位数间距(quartile range)(简记QR) 1、计算公式: 四分位数间距Q=QU-QL P25:下四分位数,简记QL P75:上四分位数,简记QU 2、意义:中间一半观察值的极差,意义与R相似。 3、特点:(1) 比R稳定,但仍未考虑每一个观察 值的变异; (2) Q与M配合使用(M±Q),常用于描述偏态资,分布的一端或两端无确切数值资料的离散程度 2019/7/7 极差不稳定,主要是受两端的极值影响,所以有人建议将两端数据截去一定比例,如各去掉25% P75 P25 M P0 P100 2019/7/7

(3)方差与标准差 离均差总和 离均差平方和 方差 标准差 自由度

例: 1 、 2 、 3 、 4 、 5 、 6 、 7 对于对称分布或正态分布资料其离均差总和恒等于 0 。 =( 1-4 )+( 2-4 )+( 3-4 )+( 4- =-3-2-1+0+1+2+3 = 0 4 )+( 5-4 )+( 6-4 )+( 7-4 )

计算公式: 甲组: 26 , 28 , 30 , 32 , 34 乙组: 24 , 27 , 30 , 33 , 36 丙组 26, 29, 30, 31, 34 标准差表示一组变量值与均数的平均距离 直接、全面、平均地描述一组变量值的离散程度。

标准差的意义 标准差是描述变量值变异程度的指标。 标准差大 变异程度大 均数的代表性差 标准差小 变异程度小 均数的代表性好 用途 标准差大 变异程度大 均数的代表性差 标准差小 变异程度小 均数的代表性好 用途 1、表示变异程度的大小 2、计算标准误、变异系数 3、估计正常值范围

一个实例 例:某地 20 岁男子 100 人,身高均数为 166.06 cm ,标准差为 4.95 cm ;体重均数为 53.7 kg ,标准差为 4.96 kg,问:体重和身高,哪个变异大?

(4)变异系数 使用条件: 均数相差较大时,比较各组资料的变异度; 度量衡单位不同时,比较各组资料的变异程度。

绝对变异受平均水平的影响 相对变异排除了平均水平的影响 某地 6 岁以下儿童身高 (cm) 的变异 年龄组 人数 均数 标准差 CV(%) 1~2月 100 56.3 2.1 3.7 5~6月 120 66.5 2.2 3.3 3~3.5岁 300 96.1 3.1 3.2 5~5.5岁 400 107.8 绝对变异受平均水平的影响 相对变异排除了平均水平的影响

描述离散程度的指标 种类 应用条件 计算公式 R 任何资料 R= Xmax- Xmin Q 偏态分布资料 S2 ( S ) 正态,单位同 均数相差不大 CV 单位不同,均数差大

(normal distribution ) 7.4正态分布 (normal distribution )

高斯 (Carl Friedrich Gauss)(1777年4月30日—1855年2月23日),德国著名数学家、物理学家、天文学家、大地测量学家。高斯被认为是最重要的数学家,有数学王子的美誉,并被誉为历史上伟大的数学家之一,和阿基米德、牛顿、欧拉并列,同享盛名。 高斯

高斯的肖像已经被印在从1989年至 2001年流通的10德国马克的纸币上。

正态分布的特征

高 尔 顿 钉 板 试 验 这条曲线就近似我们将要介绍的正态分布的密度曲线。

正态分布的重要性 又称Gauss分布( Gaussian distribution )是一个 重要的连续型概率分布。 医学研究中的某些观察指标服从或近似服从 正态分布; 很多统计方法是建立在正态分布的基础之上 的; 很多其他分布的极限为正态分布。因此,正 态分布是统计分析方法的重要基础。

频率

正态分布的数学形式 记作: X ~ N(μ,σ2) 例如: X ~ N(120,8.22) X ~ N(5,32) 正态分布曲线是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线,该曲线的函数表达式如上。

(二)主要特征: 1、集中性 单峰分布,最高点在均数附近 2、对称性 正态分布以均值μ为中心,左右对称。 1、集中性 单峰分布,最高点在均数附近 2、对称性 正态分布以均值μ为中心,左右对称。 3、正态分布曲线在 处各有一个拐点,表现为钟形曲线

4、正态分布曲线完全由参数μ和σ决定。 μ是位置参数,决定分布曲线在横轴的偏移位置。 σ是变异参数,决定分布曲线的形态。

方差相等、均数不等的正态分布图示 3 2 1

均数相等、方差不等的正态分布图示 2 1 3 

5、正态分布曲线下的面积分布是有规律的。 (1) 正态分布曲线下横轴上面积恒等于100%或1 (2)曲线下对称于均数的区间面积相等

正态曲线下的面积规律 X轴与正态曲线所夹面积恒等于1 。 对称区域面积相等。 S(-,-X) S(X,)=S(-,-X) 

正态曲线下的面积规律 对称区域面积相等。 S(x1,x2)=S(-x2,-x1) S(-x1, -x2) -x1 -x2 x2 x1 

正态曲线下的面积规律 正态曲线下的面积规律 -  + 68.27% 15.87% 15.87%

正态曲线下的面积规律  5% 90% -1.64 +1.64

正态曲线下的面积规律  95% 2.5% 2.5% +1.96 -1.96

正态曲线下的面积规律  99% 0.5% 0.5% -2.58 +2.58

正态曲线下的面积规律 正态曲线下面积总和为1; 正态曲线关于均数对称;对称的区域内面积相等; 对任意正态曲线,按标准差为单位,对应的面积相等; -1.64~ +1.64内面积为90%; -1.96~ +1.96内面积为95%; -2.58~ +2.58内面积为99%。

X ~ N(μ,σ2),则对x进行如下变换 标准正态离差 u(或Z)服从标准正态分布, X ~ N(0,1) 标准正态变换 标准正态离差 u(或Z)服从标准正态分布, X ~ N(0,1) 标准正态分布的均数为0,标准差为1 概率密度函数

统计中常用尾部面积为α的u值,记 ,称为u界值。

曲线下总面积为100%或1。 正态分布 标准正态 区间面积 ±1 68.3% ±1.96 95% ±2.58 99%

-u 0

正态曲线下面积的意义?  5% 90% -1.64 +1.64 1、估计该区间例数占总例数的百分数(频率分布) 或变量值落在该区间的概率p 2、制定医学参考值范围

1、估计数据的频率分布 例3-1 某社区256名常住居民的空腹血糖值(mmol/L)的均数为5.09,标准差为0.71,试估计该社区居民中: ①低血糖(<3.9)的比例 ②血糖正常(3.9-6.1)的比例 ③高血糖(>6.1)的比例

u 0 空腹血糖值x服从正态分布,利用u变换

2、制定医学参考值范围 reference interval 又称正常值范围(normal range) 正常人的形态、功能、生化等各种指标的波动范围。简称正常值。 为什么波动? “个体变异 同一指标的数据因人而异 同一个体的数据随环境、时间等改变而变 为什么要确定一个范围?  既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如WBC:4000~10000个/mm3 “正常”是一个相对的概念 “正常人”是指排除了影响所研究指标的疾病和有关因素的人。

正态分布法 适于正态或近似正态分布的资料 公式 双侧 单侧 (低侧) (高侧) 95%参考值范围,取

该地成年男子血红蛋白 95 %的参考值范围: 12.06 ~ 14.84 ( g/100ml)。 例:某地调查了 360 名成年男子的平均血红蛋白 如何估计该地成年男子血红蛋白 95 %的参考值范围?  95 %的参考值范围: 该地成年男子血红蛋白 95 %的参考值范围: 12.06 ~ 14.84 ( g/100ml)。

百分位数法 适用于偏态资料   百分比 双侧 单侧 95% P2.5 ~ P97.5 99% P0.5 ~ P99.5

95% 正常值范围: 某市 239 名正常人发汞值 发汞值 (g/g) 男性 女性 合计 频数 1~ 8 12 20 3~ 31 35   男性 女性 合计 频数 1~ 8 12 20 3~ 31 35 66 86 5~ 28 32 60 146 7~ 23 25 48 194 9~ 11 7 18 212 11~ 4 16 228 13~ 3 6 234 15~ 1 235 17~ 236 19~21 2 239 合 计 120 119 -- 95% 正常值范围:

常用参考值范围的制定 概率(%) 正态分布法 百分位数法 双侧 单侧 下限 上限 90 95 99

正态分布应用的生活实例 公共汽车车门的高度是按男子与车门顶头碰头机会在0.01以下来设计的,设男子身高x~N(170,62),问车门高度应如何确定?

回顾上一节内容: 集中趋势指标: 算术均数、中位数、几何均数 离散趋势指标: 全距、四分位数间距、 方差、标准差、变异系数 正态分布:概念、特征、面积规律、应用 医学参考值估计:步骤、估计方法 今天我们要来学习抽样误差或者说是另外一种变异,他跟我们所学过的个体变异既有联系也有区别,最大的区别就是层面上的区别,我们说个体变异是个体层面上的,而抽样误差是群体层面上的。

7.4 抽样误差与参数估计 (一)均数的抽样误差与标准误

举例 不一致的原因?   某地成年男 性血红蛋白 μ=137.68g/L σ=10.8g/L  

抽样误差的定义 两次抽到了不同的结果,原因何在? 不同成人的血红 蛋白水平不同 每次抽到的人 几乎不同 随机抽样 个体变异 抽样误差

1、抽样误差 (sampling error of mean) 抽样误差:由于个体变异和随机抽样造成的样本统计量之间及样本统计量与总体参数之间的差别 产生条件:个体变异、抽样研究 注意:各种参数都有抽样误差,我们以均数为研究对象

1、均数的抽样误差 (sampling error of mean) 均数的抽样误差:由于抽样造成的样本均数与总体均数、样本均数之间的差别 产生条件:个体变异、抽样研究 两种表现形式 样本统计量与总体参数间的差异 样本统计量与样本统计量之间的差异

统计学思维 随机抽样 样本 代表性 抽样误差 总体 个体、个体变异 × 总体参数 未知 样本统计量 已知 统计推断 风险 2019/7/7

http://onlinestatbook.com/stat_sim/sampling_dist/index.html

样本均数的分布规律: 1、从正态总体N(,2)中反复抽样,所得样本均数的分布为正态分布。 2、从任意总体中进行随机抽样,当样本含量足够大时,其样本均数的分布逐渐逼近正态分布。 3、样本均数的均数始终在总体均数附近且 4、随着样本量的增加,样本均数的离散程度越小,表现为样本均数的分布范围越来越窄,高峰越来越尖。即抽样误差随着样本含量变化而变化。

当样本含量较小的时候,抽样误差看上去比较大,因为样本均数之间取值很分散,用样本统计量直接估计总体参数越不可靠 当样本含量较大的时候,抽样误差看上去比较小,因为样本均数之间取值比较集中,用样本统计量直接估计总体参数越可靠

μ=4.83 σ=0.52 S 正态总体 例如,从总体均数μ为4.83× /L、标准差 为 0.52× /L的正态分布总体N(4.83,0.522)中,随机 抽取10人为一个样本 (n=10),并计算该样本的均数、 标准差。如此重复抽取100次(g=100),可得到100份 样本,可得到100对均数 和标准差S 。 S 1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49 ┆ 99. 4.87, 0.59 100. 4.79, 0.39 正态总体 μ=4.83 σ=0.52 100个样本均数的离散程度如何体现?

将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。 可算得这100个样本均数的均数为4.827× /L 、标准差为0.1× /L 。 图9-1 随机抽样所得100个样本均数的分布

2、标准误(standard error, SE) 均数的标准差简称标准误,表示均数抽样误差大小,用符号 表示,反映了样本均数的离散程度,也反映了样本均数与总体均数之间的抽样误差。 总体计算公式   实质:样本均数的标准差

3个抽样实验结果图示 n=5 n=10

标准误的特点: 通过增加样本含量n来降低抽样误差。 误与标准差呈正比; 当标准差一定时,标准误与 样本含量n的平方根呈反比。

标准误的用途 衡量抽样误差的大小(标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大) ; 估计总体均数的置信区间; 用于假设检验。

     

区别: 联系:当n一定时标准差大,标准误也大 标准误与标准差的区别与联系 定义 反映抽样误差 反映个体变异    标准误 标准差 定义  反映抽样误差 反映个体变异 用途  总体均数可信区间 医学参考值范围     进行假设检验 计算标准误、CV 随n增大 渐趋于0 渐趋于稳定 联系:当n一定时标准差大,标准误也大

戈塞特(William Sealey Gosset),英国统计学家 (二)t 分布(t-distribution) W.S.Gosset于1908年在《生物统计》杂志上发表该论文时用的是笔名“Student”,故t 分布又称Student t 分布。 “正态总体下t统计量的精确分布,开创了小样本理论的先河。” ──摘自《中国大百科全书》  戈塞特(William Sealey Gosset),英国统计学家

t 分布概述 抽样误差的分布规律 ↓ 样本 → 总体 ↑ t分布 理论 ↑ 手段 (桥梁) 目的

个体变量的分布 均数的分布 变换 抽样 u与t分布 样本均数的分布

均数 标准正态分布 N(0,12) Student t 分布 自由度υ :n-1

t分布特征 以0为中心,左右对称的单峰分布的一簇曲线 T分布曲线形态变化与自由度有关。自由度越小,t值越分散,曲线低平,两侧尾部越高;自由度越大,峰型越接近u分布,两尾越低;ν=∞,t分布成为u分布 t分布曲线下面积分布有一定规律(见P121 t界值表)

t界值表示方法: ν:[nju],自由度 α:t值相对应的单侧或双侧面积或概率p 单侧t界值: P(t ≤ -tα,υ)=α 或 P(t ≥ tα,υ)=α 双侧t界值:在自由度为υ时,双侧尾部面积为α时横轴上对应的t值 P(t ≤ -tα/2,υ)+ P(t ≥ tα/2,υ)=α P(-tα/2,υ≤t ≤ tα/2,υ)=1-α

t分布的分位数(单侧t界值) 1-2  t,

t分布的分位数(双侧t界值) 1- /2 /2 -t/2, t/2,

t界值表示方法: t界值表特征: 例:双侧t0.05/2,10=2.228,单侧t0.025,10=2.228(见t界值表) 相同自由度, p值越小, 越大 相同 p值,自由度越小, 越大

-t t

总体均数的估计

前 言 例:某地120名12岁男孩身高均数为142.67cm,标准误为0.5477cm,问该地12岁男孩平均身高均数是多少?

实际工作:抽样研究,从总体到样本 研究目的:由样本推断总体 统计推断(statistical inference)就是根据样本所提供的信息,以一定的概率推断总体的性质。包括两方面的内容:参数估计和假设检验 。

参数估计(parameter estimation) 由样本信息估计总体参数 点估计(point estimation) 区间估计(interval estimation)

4.1.1 点估计 (point estimation) 直接用样本统计量作为总体参数的估计值 方法简单,但未考虑抽样误差的大小 无法评价参数估计的准确度 该地12岁男孩平均身高均数是142.67cm。

4.1.2 区间估计(interval estimation) 按一定的概率或可信度(1- )用一个区间估计总体参数所在范围,这个范围称作可信度为1- 的可信区间,又称置信区间 。 常取的可信度100(1- )%为 95% 或 99%,即95%可信区间或99%可信区间。 可信区间由两个数值界定的可信限(confidence limit,CL)构成,较小的数值为下限(lower limit,L ) ,较大的数值为上限(upper limit,U ),一般表示为L~U 。

可信区间的确切涵义 可信度为95% 的可信区间的确切涵义是:每100个样本所算得的100个可信区间,平均有95个包含了总体参数 。 实际工作中,只能根据一次实验结果估计可信区间,我们就认为该区间包含了总体均数μ

总体均数的区间估计 σ已知 设X~N (μ, σ2 ),则 ~N (μ, σ2/n)。 通过z变换,则 ~N (0, 1) 根据标准正态分布原理,则 总体均数的可信度为(1-α)的可信区间为

总体均数的区间估计 σ未知,样本较小(n<40) 未知,用 代替,则 服从自由度为ν=n-1的t 分布。 根据t 分布原理,则 总体均数的可信度为(1-α)的可信区间为

总体均数的(1- )可信区间定义为:

95%可信区间定义为: 99%可信区间定义为:

总体均数的区间估计 σ未知,大样本(n>100) 按照中心极限定理,同时t 分布逼近标准正态分布,则总体均数的可信度为(1-α)的可信区间为

95%可信区间定义为: 99%可信区间定义为:

【例】随机抽取某地健康男子20人,测得该样本的收缩压均数为118. 4mmHg,标准差 为10 【例】随机抽取某地健康男子20人,测得该样本的收缩压均数为118.4mmHg,标准差 为10.8mmHg,试估计该地男子收缩压总体均数的95%可信区间。 本例ν=20 -1=19,α=0.05,t0.05,19=2.093 代入 =(118.4 -2.093×10.8/ ,18.4+2.093×10.8/ ) =(113.3,123.5) 该地健康男子收缩压总体均数的95%可信区间为(113.3,123.5) mmHg。

例4. 1 随机抽取12名口腔癌患者,检测其发锌含量,得均数为253. 05g/g,标准误为27 例4.1 随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05g/g,标准误为27.18g/g,求发锌含量总体均数95%的可信区间。 本例自由度 =12-1=11,经查表得t0.05/2,11=2.201,则

即口腔癌患者发锌含量总体均数的95%可信区间为:193. 23~321 即口腔癌患者发锌含量总体均数的95%可信区间为:193.23~321.87(g/g)。用该区间估计口腔癌患者发锌含量总体均数的可信度为95%。

-t t

例4.2 某地120名12岁男孩身高均数为142.67cm,标准误为0.5477cm,计算该地12岁男孩身高总体均数90%的可信区间。 因n=120>100,故可以用标准正态分布代替 t 分布,u0.10/2=1.64

即该地12岁男孩平均身高的90%可信区间为: 141.77~143.57(cm),可认为该地12岁 男孩平均身高在141.77~143.57(cm)之间。

-t t

小 结 区别点 总体均数的可信区间 参考值范围 含义 按预先给定的概率确定的未知参数μ的可能范围。 总体均数的波动范围 “正常人”的解剖,生理,生化等某项指标的波动范围。 个体值的波动范围 计算 公式 σ未知: σ已知或σ未知但n>60: 正态分布: ±zα/2S (双侧) 偏态分布:Px ~ P100-x (双侧) 样本量 的作用 n越大,CI越小;n→∞,CI→0 n越大,参考值范围越稳定 用途 估计总体均数 估计绝大多数观察对象某项指标的分布范围

小 结 区别点 总体均数的可信区间 参考值范围 含义 按预先给定的概率确定的未知参数μ的可能范围。 总体均数的波动范围 “正常人”的解剖,生理,生化等某项指标的波动范围。 个体值的波动范围 计算 公式 σ未知: σ已知或σ未知但n>60: 正态分布: ±zα/2S (双侧) 偏态分布:Px ~ P100-x (双侧) 样本量 的作用 n越大,CI越小;n→∞,CI→0 n越大,参考值范围越稳定 用途 估计总体均数 估计绝大多数观察对象某项指标的分布范围

可信区间与参考值范围的区别 可信区间用于估计总体参数,总体参数只有一个 。 参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。 95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95% 95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。

假设检验 Hypothesis test

统计推断(statistical inference) 总体参数的估计 (parameter estimation) Where is the parameter? 假设检验 (hypothesis test) Are these samples come from one population?

主要内容(Content) 假设检验的一般思想 假设检验的意义 基本思想与一般步骤 t检验 样本均数与总体均数比较的t检验 配对样本的t检验

总体Α是100例正常成年男子的红细胞数(1012/L,以下省略),从中随机抽取样本a1 和样本 a2 ;总体B是另外100例正常成年男子的红细胞数,从中随机抽取样本b ;三个样本的含量均为10例,有关数值如下: µ σ a1/b a2 A 5.00 0.43 5.135 4.949 B 5.50 0.45 5.442

在已经知道A和B总体的参数时 抽样误差 a1≠a2 a1≠ b1 本质差别

? 抽样误差 本质差别 A=B a1 ≠ b1 A≠B 假如事先不知道A和B是不是同一个总体 假设检验的基本目的就是 分辨样本是否来自于某一个特定的总体 分辨两个样本是否属一个总体或两个不同的总体,并对总体作出适当的结论。

5.1 假设检验的意义 判断对比统计量的差别是由抽样误差引起的,还是由本质差别引起的。

5.2 假设检验概念、基本思想 假设检验就是依据样本提供的信息,对样本所代表的总体是否与特定总体相等做出推断性结论的决策过程。 假设检验的基本思想包括 小概率原理 反证法思想

Ronald Aylmer Fisher,英国著名的统计学家,遗传学家,现代数理统计的奠基人之一。 他在抽样分布理论、相关回归分析、多元统计分析、最大似然估计理论,方差分析和假设检验有很多的建树。

假设检验的基本思想:女士品茶 20世纪20年代后期在英国剑桥一个夏日的下午,一群大学的绅士和他们的夫人以及来访者,正围坐在户外的桌旁享用下午的奶茶。 奶茶一般是由牛奶和茶混合而成的,调制时候可以先倒茶后倒牛奶,也可以先倒牛奶后倒茶。这时候,一名女士说她能区分这两种不同做法的调制出来的奶茶。 那么如何检验这位女士的说法?为此Fisher进行了研究,从而提出了假设检验的思想。 “那是20 世纪20 年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:先把茶加进奶里,或先把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。 他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验…”

假设:她没有这个本事,是碰巧猜对的! 连续猜对10个杯子的可能性 P 是多少? P=0.510=0.00097656 你认为原假设 H0 成立吗? 推断结论她真的有这个本事! (不是碰巧猜对的。) 依据:小概率原理。 P ≤ 0.05为小概率。

假设检验的基本思想 1、提出一个假设 2、计算概率 如果假设成立,得到现有样本的可能性多大 3、推断结论 可能性很小(小概率事件),在一次试验中本不该得到,居然得到了,说明我们的假设有问题,拒绝之。 有可能得到手头的结果,故根据现有的样本无法拒绝事先的假设(没理由)

例 样本:随机抽查280名健康男性的血红蛋白,求得其均数为136g/L,标准差为6g/L。

从资料提供的信息来看,样本均数136与总体均数140不相等,其原因可有以下两个方面: 样本对应的总体均数等于140,差别仅仅是由于抽样误差所致;(偶然的、随机的、较小的) 除抽样误差外,两者存在本质上的差异。(必然的、大于随机误差) 两种情况只有一个是正确的,且二者必居其一,需要我们作出推断。

5.3 假设检验的一般步骤 I 步骤1:建立假设 在假设的前提下有规律可寻 零假设(null hypothesis),记为H0,表示目前的差异是由于抽样误差引起的。 备择假设(alternative hypothesis),记为H1,表示目前的差异是主要由于本质上的差别引起

假设检验的一般步骤 H0:=140,该地健康男性血红蛋白总体均数与正常人相同 H1:≠140,该地健康男性血红蛋白总体均数与正常人不同 H0假设比较单纯、明确,且在该假设的前提下就有规律可寻。而H1假设包含的情况比较复杂。因此,检验是针对H0的。

假设检验的一般步骤 II 步骤2:确立检验水准α(significance level) 用于确定何时拒绝H0 。 一般取0.05。

假设检验的一般步骤 III 步骤3:计算检验统计量 即计算样本与所假设总体的偏离 ; 样本均数与总体均数 0 间的差别可以构建标准t离差:

假设检验的一般步骤 统计量 t 表示,在标准误的尺度下,样本均数与总体均数 0 的偏离。这种偏离称为标准 t 离差(standard t deviation)。 根据抽样误差理论,在H0的假设前提下,统计量t服从自由度为n-1的t分布,即t值在0的附近的可能性大,远离0的可能性小,离0越远可能性越小。

本例中已知 n=280, =136(g/L),s=6(g/L),0=140(g/L),则检验统计量 t:

假设检验的一般步骤 IV 步骤4:计算概率P 即与统计量t值对应的概率 ; 从H0所规定的总体中进行随机抽样,获得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。

-1.96 1.96 0.025 P=P(| t | ≥11.16)<0.05 -11.16 -11.16

P值:即在H0成立的前提下,获得现有这么大的标准t离差以及更大离差 | t | ≥11.16的可能性; P=P(| t | ≥11.16)<0.05

-t t

假设检验的一般步骤 V 步骤5:结论 根据小概率原理作出推断; 根据t分布曲线下面积的分布规律(抽样分布规律),在H0成立的前提下出现现有差别或更大差别的可能性P(| t | ≥11.16)小于0.05,是小概率事件,这在一次试验中是不太可能发生的。然而不太可能发生的事件在一次试验中居然发生了,即现有样本信息不支持H0。因此,拒绝H0。

本例P<0.05,按 =0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为该地健康成年人血红蛋白不等于正常人。

若P>0. 05,说明在H0成立的前提下出现现有差别或更大差别的可能性P(| t | ≥11 若P>0.05,说明在H0成立的前提下出现现有差别或更大差别的可能性P(| t | ≥11.16)不是小概率事件,因此,没有理由拒绝H0。可见,抉择的标准为: 当P≤ 时,拒绝H0,接受H1; 当P> 时,不拒绝H0。(为什么不是接受H0 ?)

假设检验的步骤 全部 建立假设(在假设的前提下有规律可循); 确定检验水准(确定最大允许误差); 计算检验统计量(样本与总体有多大的偏离); 计算概率P (该样本是否支持零假设); 结论(根据小概率原理)。

例 样本:随机抽查280名健康男性的血红蛋白,求得其均数为136g/L,标准差为6g/L。

H0:=140,该地健康男性血红蛋白总体均数与正常人相同 H1:<140,该地健康男性血红蛋白总体均数低于正常人 α=0 H0:=140,该地健康男性血红蛋白总体均数与正常人相同 H1:<140,该地健康男性血红蛋白总体均数低于正常人 α=0.05 单侧t0.05,279 =1.64, 11.16> t0.05,279 , P<0.05 按 =0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为该地健康成年人血红蛋白低于正常人。

H0:=140,该地健康男性血红蛋白总体均数与正常人相同 H1:≠140,该地健康男性血红蛋白总体均数与正常人不同 α=0 H0:=140,该地健康男性血红蛋白总体均数与正常人相同 H1:≠140,该地健康男性血红蛋白总体均数与正常人不同 α=0.05 双侧t0.05/2,279 =1.97, 11.16> t0.05,279 , P<0.05 按 =0.05的水准,拒绝H0,接受H1,差别有统计学意义。认为该地健康成年人血红蛋白与正常人不同。

-1.64 1.64 0.05 P=P(| t | ≥11.16)<0.05 -11.16 -11.16

医学统计学分析流程简介 频数表 集中趋势(x、M、G) 统计描述 离散趋势(s、Q 、 CV) 数值变量 t-检验(2组) 假设检验 ANOVA(≥2组) 秩和检验(非正态、方 差不齐) 相关与回归 相关回归分析(1对1) 多元线性回归(1对多)

主要内容 一、 样本均数与总体均数的比较 二、 配对设计均数的比较 三、 两样本均数的比较

t检验和z检验 t 检验的应用条件: z 检验应用条件: ⑴ 总体标准差 未知; ⑵ 样本含量n 较小; ⑶ 样本来自正态总体; ⑴ 总体标准差 未知; ⑵ 样本含量n 较小; ⑶ 样本来自正态总体; ⑷ 两样本均数比较时方差齐, 即 t 检验的应用条件: 样本含量n 较大 (2) n 虽小但总体标准差 已知 (不常见)。 z 检验应用条件:

T检验:亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。 Z检验:是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。

应用类型: 样本均数与总体均数的比较 配对设计资料的假设检验 成组设计两样本均数的比较

( 单样本t检验 One-sample test ) 一、样本均数与总体均数的比较 ( 单样本t检验 One-sample test ) 目的:推断样本均数代表的未知总体均数 µ 与已知总体均数 µ0 (一般为理论值、 标准值或经大量观察所得的稳定值等) 有无差别 条件:理论上要求资料来自正态分布总体

在 H0 成立的前提条件下,检验统计量计算公式: ① σ已知或σ未知但n足够大: ② σ未知且n较小:

[案例8-1] 通过以往大量研究显示汉族足月正常产男性新生儿临产前双顶径(BPD)均数为9 [案例8-1] 通过以往大量研究显示汉族足月正常产男性新生儿临产前双顶径(BPD)均数为9.3cm。某医生记录了某山区12名汉族足月正常产男性新生儿临产前双顶径(BPD)资料如下:9.95、9.33、9.49、9.50、10.09、9.15、9.52、9.33、9.16、9.37、9.60、9.27。试问该地区男性新生儿临产前双顶径(BPD)是否大于一般新生儿?

(1)建立假设,确定检验水准 H0 :该地区男性新生儿临产前双顶径(BPD)与一般新生儿无差别,即 H1 :该地区男性新生儿临产前双顶径(BPD)大于一般新生儿,即 (单测)

(2)计算检验统计量 t 值 已知 n =12,

(3)确定P 值,作出统计推断 以 查t 界值表,得单测t0.05,11= 1.796, 本案例的统计量t = 2.15>1.796,因此P < 0.05, 按 水准,拒绝H0,接受H1,差别有统计学意义,即根据现有资料可认为该地区男性新生儿临产前双顶径(BPD)大于一般新生儿。

例8-3 为了解医学生的心理健康问题,随机抽取了某医科大学在校学生208名,用SCL-90量表进行测定,经统计得因子总分的均数为144

已知 :μ0 = 130 x = 144.9, n = 208>100,为大样本 ⑴ 建立检验假设,确定检验水准 与全国水平相同 H0:µ=µ0=130,即该医科大学在校生的总分 与全国水平相同 H1:µ≠µ0=130,即该医科大学在校生的总分 与全国水平不同 α= 0.05,双侧检验

⑵ 选定检验方法,计算检验统计量 根据题目资料类型,可见,该资料是样本与总体之间的比较,且为大样本,可用样本-总体的u检验。依公式计算检验统计量: ⑶ 确定P值,作出推断结论 z=5.999>1.96,P<0.05, 拒绝H0,接受H1 差异有统计学意义,可认为该医科大学在校生的总分与全国水平不同

二、配对t 检验(paried t-test ) 配对设计:控制非处理因素的影响 两组观察对象除了研究因素不同外,其它的可能影响研究结果的因素相同或相似。

配对设计均数比较的t检验 研究因素水平1 Why matched? 研究因素水平2 干扰因素 ? =

配对设计均数比较的t检验 当个体间的差异不均匀时,将差异较小的个体配成对子,分别给予不同的处理,以保证两组间的均衡可比性。这样的设计称为随机化配对设计 。 排除了由个体变异性带来的干扰,在比较两种处理效应时,增加可比性。 自身配对:对称器官;服药前后;手术前后 异体配对:双胞胎;品系;来自相同的区域

配对设计主要有以下四种情况: ⑴ 两个同质受试对象分别接受两种不同的处理 ⑵ 同一受试对象分别接受两种不同的处理 ⑶ 同一受试对象接受某种处理的前后数据 ⑷ 同一受试对象的两个不同部位的数据

配对设计均数比较的t检验 对子 新药组 安慰剂 1 4.4 6.2 2 5.0 5.2 … 9 4.3 5.8 10 5.1 差值 -1.8 -0.2 … -1.5 -1.1

即μ1=μ2 ,则μ1 - μ2 =0 (即已知总体均数μd = 0),检验 差数的样本均数 d 与所代表的未知 基本原理: 假设两种处理的效应相同, 即μ1=μ2 ,则μ1 - μ2 =0 (即已知总体均数μd = 0),检验 差数的样本均数 d 与所代表的未知 总体均数μd 与 0 的比较

目的 :推断配对组间的总体均数有无差别 应用条件:差值d服从正态分布 上式中d 表示差值,υ=n-1 (n 为对子数) 公式:

例8-3 某医生用A、B两种血红蛋白测定 仪器检测了16名健康男子的血红蛋白含 量(g/L)检验结果见下表,问两种血红 蛋白测量仪器检测结果是否有差别?

表8-3 两种仪器检测16名男青年血红蛋白含量(g/L)结果 被检测者号 仪器A 仪器B d d2 (1) (2) (3) (4)=(2)-(3) (5) 1 113 140 27 725 2 125 150 25 625 3 126 138 12 144 4 130 120 - 10 100 5 150 140 -10 100 6 145 145 0 0 7 135 135 0 0 8 105 115 10 100 9 128 135 7 49 10 135 130 -5 25 11 100 120 20 400 12 130 133 3 9 13 110 147 37 1369 14 115 125 10 100 15 120 114 -6 36 16 155 165 10 100 合计 Σd=130 Σd2=3882

根据题目资料类型,可见,该资料差值构成样本与总体0之间的比较,可用样本-总体的t检验。υ=对子数-1 ⑴ 建立检验假设,确定检验水准 H0:µd=0,即两方法检测结果相同 H1:µd≠0,即两方法检测结果不同 α= 0.05 ,双侧检验 ⑵ 选定检验方法,计算检验统计量 根据题目资料类型,可见,该资料差值构成样本与总体0之间的比较,可用样本-总体的t检验。υ=对子数-1 依公式计算检验统计量:

⑶ 确定P值,作出推断结论 以υ=15,t=2.367,查t值表 t 0.05/2(15)=2.131, t>t 0.05/2(15),则P <0.05。拒绝H0,接受H1,差异有统计学意义。可认为两种方法检查结果不同。

例8-4 某医生在研究肾动脉成形术后血流动力血的改变中,观察了10名患者手术前后舒张压的变化,见下表,问手术前后舒张压有无变化?

表5-5 手术前后舒张压变化情况(Kpa) 患者号 舒张压 治疗前后之差 手术前 手术后 d d2 (1) (2) (3) (4)=(2)-(3) (5) 1 16.0 12.0 4.0 16.00 2 12.0 13.3 -1.3 1.69 3 14.6 10.6 4.0 16.00 4 13.3 12.0 1.3 1.69 5 12.0 12.0 0.0 0.00 6 12.0 10.6 1.4 1.96 7 14.6 10.6 4.0 16.00 8 14.6 14.6 0.0 0.00 9 12.0 12.7 -0.7 0.49 10 12.3 13.3 0.00 0.00 合 计 Σd =12.7 Σd2 =53.83

根据题目资料类型,可见,该资料差值构成样本与总体之间的比较,可用样本-总体的t检验。依公式计算检验统计量: ⑴ 建立检验假设,确定检验水准 H0:µd=0,即手术前后舒张压无变化 H1:µd≠0,即手术前后舒张压有变化 α= 0.05 ,双侧检验 ⑵ 选定检验方法,计算检验统计量 根据题目资料类型,可见,该资料差值构成样本与总体之间的比较,可用样本-总体的t检验。依公式计算检验统计量:

⑶ 确定P值,作出推断结论 以υ=9,t=1.96,查t值表 t 0.05/2(9)=2.262, t<t 0.05/2(15),则P >0.05。不拒绝H0,差异无统计学意义。可认为手术前后舒张压无变化。

三、成组设计两样本均数的比较 (two-sample test) 样本均为随机抽样得到的样本 或采用随机分组得到的样本。 成组设计:亦称为完全随机设计,即两个 样本均为随机抽样得到的样本 或采用随机分组得到的样本。

(t-test) (一)t 检验 目的:推断两样本均数分别代表的总体 均数μ1 与μ2 有无差别 适用条件 : 独立性 正态 方差齐性

两样本t检验的统计量在 H0 : μ1 = μ2 的条件下为:

合并标准误的计算为: 两组的共同方差—合并方差sc2计算为:

H1:µ1≠ µ2,即男女的GSH-PX含量两总体均数不同 α= 0.05 ,双侧检验 例5-6 : 表5-6 男女大学生的血清谷胱甘肽过氧化酶(GSH-PX) 性别 例 数 均 数 标准差 男 48 96.53 7.66 女 46 93.73 8.23 ⑴ 建立检验假设,确定检验水准 H0:µ1= µ2,即男女的GSH-PX含量两总体均数相同 H1:µ1≠ µ2,即男女的GSH-PX含量两总体均数不同 α= 0.05 ,双侧检验

由于两组样本量<100,且方差齐,故选用t检验。 ⑵ 选定检验方法,计算检验统计量 由于两组样本量<100,且方差齐,故选用t检验。 已知:

⑶ 确定P值,作出推断结论 以υ= 48 +46 - 2 = 92查t 界值表, t =1.708 < t 0.05/2(92)= 2.000, P > 0.05, 按α=0.05水准,不拒绝H0 , 即差异无统计 学意义。可认为男女的GSH-PX含量相同。

(二)、z检验 应用条件: n 较大(n>100); 总体标准差 已知 z 检验是 t 检验的特例,其检验方法与 量可以看作无穷大,这时,其样本均数的分 布已由t分布转为正态分布。依此,确定P 值 时,理论上t0.05/2,v (或t0.01/2,v)可以用 1.96( 或 2.58 )来代替。

②在大样本的情况下,两样本均数比较的合并 标准误,可以简化为 。 即为:

例5-7: 某地抽查了25~29岁正常人群的红细胞数,测得其结果如下表,问该人群男、女红细胞数是否不同? 某地240名正常人群红细胞数(×1012/L) 组别 n x s 男 156 4.65 0.55 女 74 4.22 0.44

由于两样本样本量均>100,故符合z 检验的条件,计算z 值 ① 建立检验假设,确定检验水准 H0 :µ1 = µ2,即该地男、女红细胞数相同 H1:µ1≠ µ2,即该地男、女红细胞数不同 α=0.05,双侧检验 ② 选定检验方法,计算检验统计量 由于两样本样本量均>100,故符合z 检验的条件,计算z 值

③ 确定P 值,作出推断结论 u = 6.37 > 1.96, 故P < 0.05, 拒绝H0 ,接受H1,差异有统计学意义。即可认为该人群男、女红细胞数不同。

t 检验适用条件 独立性 正态性 方差齐性

两样本方差的齐性检验 1.基本思想 正态分布可以表示为 N (µ,σ2),要比较两个正态总体是否一致,需分别比较 µ,σ2,通过 t 检验,我们可以对分布的位置进行比较,但对分布的形态进行比较则需进行方差齐性检验,这是我们进行t 检验和方差分析的基础。 2. 适用条件 两样本均数均来自正态分布的总体

方差齐性检验的计算公式为: 若两样本是来自同一个正态总体,则它们的方差 不应相差过大,其F≥→1。由于抽样误差的存在, 误差所能引起的范围,则表明方差不齐。

方差不齐 解决方法 数据变换 非参数检验方法 t′检验 — 近似t检验

两总体均数比较 前提:来自正态总体 大样本 u检验 方差齐性检验 方差齐 方差不齐 t 检验、u检验