Presentation is loading. Please wait.

Presentation is loading. Please wait.

Http://cc.jlu.edu.cn/ms.html 医学统计学 1 主讲人 陶育纯 2013.3.3.

Similar presentations


Presentation on theme: "Http://cc.jlu.edu.cn/ms.html 医学统计学 1 主讲人 陶育纯 2013.3.3."— Presentation transcript:

1 医学统计学 1 主讲人 陶育纯

2 第一讲 课程名称:医学统计学 主要教材: «卫生统计学» 第7版 方积乾 主编 人民卫生出版社 年级、专业:2010级医学试验班
方积乾 主编 人民卫生出版社 年级、专业:2010级医学试验班 授课时间:2013年3月5日 授课时数:4h

3 目录 第一章 绪论 第一节 医学中统计思维的进化 第二节 统计学与公共卫生互相推动 第三节 统计学的若干概念★ 第四节 目标与方法

4 目录 第二章 定量变量的统计描述 第一节 频率分布表与频率分布图 第二节 描述平均水平的统计指标★ 第三节 描述变异程度的统计指标★

5 第一章 绪论 特点:针对不确定性数据进行分析和推断。 不确定性:又称随机性(random) 。
Statistics is the study of the collection, organization, analysis, and interpretation of data. 统计学(statistics)是运用概率论与数理统计的原理和方法研究数字资料的搜集、整理、分析与推断,从而揭示事物内在客观规律的一门学科。 特点:针对不确定性数据进行分析和推断。 不确定性:又称随机性(random) 。 不确定性数据:人的血压、体温、脉搏等;小麦亩产 量;气温;地震发生的时间、地点等。 确定性数据:人的骨骼数、牙齿数等;水的沸点;企 业商品生产量等。 statistics, the science of collecting, analyzing, presenting, and interpreting data.

6 例1: 张三心跳68次/min 偶然性 李四心跳72次/min 正常成人心率60~100次/min 必然性
我们知道事物的发展是偶然性与必然性并存的,而实际当中往往偶然性掩盖了必然性,妨碍了我们正确认识事物的必然性(即规律性)。 例1: 张三心跳68次/min 偶然性 李四心跳72次/min 正常成人心率60~100次/min 必然性 (正常值范围) 医学上绝大多数生理、生化指标的正常值范围都可 利用统计学方法求得。

7 例2: 在同等条件下,用同一种药物治疗某病, 甲病人 痊愈 偶然性 乙病人 死亡 该药物在绝大多数病人中的 治愈率 必然性
医学上治愈率可利用统计学方法求得。 必然性是不可避免地通过大量的偶然性为自己开辟道路的。统计学是找出这种必然性的重要工具。

8 统计学在不同领域的应用形成了不同的应用统计学科,如人口统计、经济统计等等,在医学中应用,就产生了医学统计学(medical statistics)。
卫生统计学(health statistics)是以预防医学的理论为指导,用统计学的原理和方法研究公共卫生领域的数据的搜集、整理、分析与推断的一门应用学科。 第三节 统计学的若干概念 一、变量

9 ㈠ 数值变量(numerical variable)
变量值(value of variable)指变量的观察结果。 变量值可以分为: 定量(qualitative)和定性(quantitative)两种类型。 ㈠ 数值变量(numerical variable) 又称测量变量(measurement data)。用定量的 方法测定观察对象的某项特征值。如身高(cm)、 脉搏(次/min)、红细胞数(×1012/L)、孕妇的产 前检查次数等。

10 离散型变量(discrete variable) 定量变量 连续型变量(continuous variable)
离散型变量只能取整数值。例如,一月中的手术病人数,一年里的新生儿数。 连续型变量可以取实数轴上的任何数值。例如,血压、身高、体重等。 当离散型变量的取值非常大时,可以视为连续型变量。例如红细胞记数(×1012/L)。

11 ㈡ 分类变量(categorical variable)
又称名义变量(nominative variable)。将观察对象按某种属性或类别分组计数值。根据属性的特点又可分为: 1. 无序分类(unordered categories)属性之间 无程度上的差别。如性别、阴性与阳性、血型等。 所得资料常称计数资料(enumeration data)。 2. 有序分类(ordinal categories)属性之间有 程度上的差别。如某检验结果表达为-、±、+、

12 ㈢ 变量间的转化 ++;临床疗效分为治愈、显效、好转、无效四级 等。所得资料常称等级资料(rank data)。
根据统计分析需要,各类变量间可相互转化。 成人(≥20岁) (定性) 年龄(定量) 非成人(<20岁) 0(男) (定量代码) 性别(定性) 1(女)

13 二、同质与变异 重度贫血 中度贫血 血红蛋白含量 (等级) 轻度贫血 (定量) 正 常 血红蛋白增高
同质(homogeneity)指观察对象的共同特征。 变异(variation)指观察对象之间的差异。

14 三、总体与样本 总体(population)是根据研究目的确定的同质观察对象某项变量值的全体集合。 有限总体 总体 无限总体
直接研究无限总体是不可能的,即使对于有 限总体,当观察对象过多,直接研究常常是不现 实的。

15 样本(sample)是从总体中随机抽取的部分观察 对象某项变量值的集合。
实际中,我们往往抽取总体中有代表性的一 部分进行研究,来推断总体的特征。 样本(sample)是从总体中随机抽取的部分观察 对象某项变量值的集合。 抽样必须遵循随机化原则(randomization), 即保证总体中每一个体都有均等的机会被抽取。 统计学中有很多随机抽样方法可供使用。

16 四、参数与统计量 五、误差 六、概率 参数(parameter)总体的特征值。
统计量(statistic)由样本计算出来的用于反映总体特征的值。通常称样本指标。 五、误差 六、概率 频率(frequency)是指某事件实际发生的强度或频度。

17 概率(probability)是描述随机事件发生可能性大小的数值。
我们知道,投掷一枚硬币,其落地出现哪一面是一个随机事件。若做一个投币实验,共投50次,结果出现某面20次。这里20次是一个频数,40%(=20/50)就是一个频率,它代表了这次投币实验中该面实际出现的强度。概率则是硬币未投之前应知道的某面可能出现的强度数值。我们都知道,投掷一枚硬币,其落地出现某一面的概率是0.5 (=1/2)。 概率(probability)是描述随机事件发生可能性大小的数值。

18 概率用P表示,其值介于0到1之间。P越接近1,表示该事件发生的可能性越大,反之越小。 P=1为必然事件,P=0为不可能事件。
统计学中统计推断结论就是利用小概率事件原理。

19 第四节※ 医学统计工作的基本步骤 资料、分析资料四个步骤。四步紧密联系,缺一不可。 设计 收集资料 整理资料 分析资料
医学统计工作分为:设计、收集资料、整理 资料、分析资料四个步骤。四步紧密联系,缺一不可。 设计 收集资料 整理资料 分析资料 ※ 附加内容

20 一、设计 设计(design)是医学统计工作中最重要的一步。设计的好坏直接关系到下三步的工作。设计的不合理可导致错误的结论,也可导致浪费过多的药品、经费、时间等。 确定研究目的和研究假说 确定研究对象和观察单位 设计 确定资料的收集方法、整理方法 确定统计分析方法

21 二、收集资料 调查设计 医学科研设计 实验设计 设计的目的是尽可能用较少的人力、物力和时间获得准确可靠的结论。
收集资料(collection of data)任务是取得准确、可靠的原始数据。 医学统计资料主要来自以下四个方面:

22 三、整理资料 ① 统计报表 ② 报告卡 ③ 经常性工作记录 ④ 专题调查或实验研究
整理资料(sorting data)任务是以统计学的思想去净化原始数据。错误的更正,缺少的补上;去粗取精,去伪存真,使数据系统化、条理化,便于下一步的统计分析。

23 四、分析资料 统计分析 资料整理采用手工汇总和计算机汇总两种方式。前者适合数据量较小的资料,适合数据量较大的资料。
分析资料(analysis of data)利用统计学的原理和方法,借助于有力的计算工具去处理数据,从而反映出数据的综合特征,进而从中阐明事物的内在联系和变化规律。 统计描述(statistical description ) 统计分析 统计推断(statistical inference)

24 第一节 频率分布表与频率分布图 第二章 定量变量的统计描述
第二章 定量变量的统计描述 第一节 频率分布表与频率分布图 分布(distribution)是一个统计概念。 分布在生活、医学等上的理解是很具体的。如绿化地带在城市中的分布;血液中红细胞的分布;某种疾病的发病部位在人体中的分布;某班全体学生的考试成绩的分布等。 分布上升到数学上,就被抽象起来。抽象的目的在于概括具体。

25 我们以后要学习很多统计的分布理论,如正态分布、t分布、二项分布、Poisson分布等等。
我们正是利用统计分布的理论方法来揭示具体事物的内在联系和变化规律。 频数分布表(frequency distribution table)通过变量值分布在其取值范围内各组段中的频数大小来揭示具体资料的分布规律。 了解资料的分布规律对于我们选择合理的统计方法来分析资料大有帮助。

26 一、离散型定量变量的频率分布 例2-1 某山区1998年96名孕妇产前检查次数资料如下:
0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…, 4,7。试编制产前检查次数的频率分布表。

27 离散型定量变量的频率分布图可用直条图(bar chart)表达。

28 二、连续型定量变量的频率分布 例2-2 抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L),数据如下。试编制血清铁含量的频率分布表。

29 1. 计算全距 全距(range)亦称极差,用R 表示,R=最大值-最小值。本例 R=29.64-7.42 =22.22(mmol/L)。
2. 确定组距和组段 组距即组段间隔数,用i 表示。常取全距的1/10取整作为组距。 本例 i = 22.22/10 = 2.222≈2。 组段即由组距分隔的区间,每个组段的起点 称下限,终点称上限。每个组段规定为: [下限,上限)

30 用划记法把全部原始数据划归到每个组段中,以 频数统计。划记法可采用划“正”字法或划“ ”法,
要求第一组段包含最小值,最后组段包含最 大值;一般划分8~15个组段为宜。 本例 第一组段可定为 [ 6,8),最后一个 组段为 [ 28,30),共分12个组段。 3. 列表划记计频 列成如表2-2的形式,采 用划记法把全部原始数据划归到每个组段中,以 频数统计。划记法可采用划“正”字法或划“ ”法, 最后统计出每个组段的笔画总数即得频数。 本例见下表2-2:

31

32 三*、直方图(频率分布图) 表2-2中的第(1)和第(2)栏构成频数表 。
频率分布图是频率分布表的直观表达,亦称直方图(histogram)。本例见图2-2。 频率密度 =频率/组距

33 四*、频率分布特征 五*、频率分布类型 频率分布有两个特征: ① 集中趋势(central tendency)
② 离散趋势(tendency of dispersion) 五*、频率分布类型 ① 对称分布 正态分布是最常用的对称分 布。医学上常见的有体温、身高、脉搏等的频数分布。 ② 偏态分布 即不对称分布。

34 正偏态(频数多集中在观察值较小的一侧) 偏态 负偏态(频数多集中在观察值较大的一侧) 下图为一正偏态的直方图。

35 第二节 描述平均水平的统计指标 六*、频率分布表(图)的用途 ① 揭示资料的分布特征和分布类型。 ② 便于发现某些特大或特小的可疑值。
③ 便于进一步计算指标和统计分析。 第二节 描述平均水平的统计指标 平均数(average)是统计学中描述定量资料的集中趋势,反映资料的平均水平或集中位置的最常用、最重要的指标体系。常用的平均数有: 均数、几何均数和中位数。

36 一、算术均数 算术均数简称均数(arithmetic mean,简称mean)。总体均数用希腊字母μ表示,样本均数用 表示。适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的平均水平。 计算方法有: 1. 直接法 将所有观测值相加求和除以观测 值个数。公式为: 公式(2-1) 式中Σ是希腊字母,为求和符号。

37 代入公式(2-1)得: 2. 加权法 适合于频数分布表资料求均数。 公式为:
例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 代入公式(2-1)得: 2. 加权法 适合于频数分布表资料求均数。 公式为: 公式(2-2)

38 式中k是组段;fi为每组段的频数;Xi为每组段的组中值。组中值等于本组段的下限和上限相加除以2。i=1,2
用加权法计算例2-1的均数见表2-3。

39 代入公式(2-2)得: 二、几何均数 几何均数(geometric mean)用G表示。适用于描述各观测值之间呈倍数关系(等比数列),或偏态分布资料的变量值经对数变换后呈正态分布(简称对数正态分布)资料的平均水平。

40 式中lg-1表示lg 的反函数,即lg-1 =10x。
计算方法有: 1. 直接法 公式为: 式(2-3) 式(2-4) 式中lg-1表示lg 的反函数,即lg-1 =10x。 例2-5a 现有7份血清的抗体效价为:1:2、1:4、1:8、 1:32、 1:32、 1:64、 1:64 。求其平均效价。 为简化计算,用抗体效价的倒数为X代入式(2-4)得:

41 2. 加权法 适合于有较多观测值或频率分布 表资料。公式为: 式中X是观测值或组中值。 式(2-5)
该7份血清的平均抗体效价为 1 : 16。 2. 加权法 适合于有较多观测值或频率分布 表资料。公式为: 式(2-5) 式中X是观测值或组中值。

42 例2-6a 某地60人的血清抗体效价,分别为:7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,见表2-6a的(1)、(2)栏,求其平均抗体效价。

43 代入式(2-5)得: 60人的平均抗体效价为 1 : 。 三、中位数与百分位数 中位数(median)用M表示。一组观测值从小到大顺序排列,位次居中的观测值即为中位数。适用于各种资料,但常用于描述①偏态分布②分布不清③有特大、特小值④端点无确定数值的资料的集中位置。 计算方法有:

44 观测值从小到大排序,当例数为奇数时,居中的 观测值即为中位数;当例数为偶数时,居中的两 个观测值相加除以2即为中位数。公式为:
1. 直接法 适合例数较少的资料。先将所有 观测值从小到大排序,当例数为奇数时,居中的 观测值即为中位数;当例数为偶数时,居中的两 个观测值相加除以2即为中位数。公式为: n为奇数时 式(2-6) n为偶数时 式(2-7) 式中下标为排序后的观测值的位次。

45 本例n=10为偶数,故M=(6+7)/2=6.5(天)。
例2-7a 某传染病患者9例,他们的潜伏期分别为:6、5、 4、7、 12、 4、5、7、9天 。求中位数。 首先排序:4、4、5、5、6、7、7、9、12 位次: 本例n=9为奇数,故M=6天。 用式(2-6), 例2-7b 若例10.5增加潜伏期为20天的一例 。求中位数。 首先排序:4、4、5、5、6、7、7、9、12、20 位次: 本例n=10为偶数,故M=(6+7)/2=6.5(天)。 用式(2-7),

46 式中L为中位数所在组段的下限;fM为该组段的频数;
2. 频率分布表法 适用于频率分布表资料。 公式为: 式(2-8a) 式中L为中位数所在组段的下限;fM为该组段的频数; i为该组段的组距;ΣfL为小于L的各组段累计频数。 要想判断出中位数所在组段,可从频率分布 表中先计算累计频数或累计频率,再利用n/2或 50%找出中位数所在组段,最后代入式(2-8a)求中 位数。

47 例2-8a 某研究者测得某年某市308名6岁以下儿童的尿铅值,见表2-8a的(1)、(2)栏,求其中位数(即平均尿铅值)。

48 求出累计频数或累计频率,见表2-8a的(3)、(4)栏。
本例n/2=308/2=154,累计频数176刚好包含n/2,则中位数 落在176所在的第三组段;累计频率57.14%刚好包含50%,则中位数落在57.14%所在的第三组段。 则 L =50,i =25 ,fM =95 ,ΣfL =81。代入式 (2-8a)得: 308名6岁以下儿童的尿铅值中位数为69.21mmol/L。

49 例2-8 试利用表2-2的频率表求例2-2中血清铁含量的中位数。
例2-8 试利用表2-2的频率表求例2-2中血清铁含量的中位数。

50 从表2-2可判断出M位于“18~”这个组段。将相应数据代入式(2-8a)
若按式(2-7) 别忘先排序呦!

51 百分位数(percentile,Px) 百分位数是一组 从小到大排列的观测值的百等份分割值。和中位
数一样,都是位置指标。中位数是一个特定的百 分位数,即M=P50。百分位数的计算公式为: 式(2-8) 式中L为Px所在组段的下限;fx为该组段的频数;i为 该组段的组距;ΣfL为小于L的各组段累计频数。

52 例2-8b 某传染性疾病的潜伏期(天)见表2-8b,求平均潜伏期M和潜伏期的第25、75与95百分位数P25,P75与P95 。

53 首先根据表2-8b的(4)栏累计频率,累计频率67.27%刚好包含25%,则P25落在67.27%所在的第二组段。
则 L=4,i=2,fx=48,ΣfL=26。代入式(2-8) 得: 同理可知:P50 (M) 也落在第二组段,则L=4,i=2, fx =48,ΣfL=26。代入式(2-8)得:

54 同理可得: 四、众数 众数(mode) 一组观测值中出现频率最高的观测值即为众数。

55 第三节 描述变异程度的统计指标 本章前面讲授的频率分布有集中趋势和离散趋势两个特征,说明描述资料的全面变化规律需把二者结合起来。通过下例可说明这个问题。 例2-11a 现有3组健康女大学生的口腔温度测得值如下,试分析其集中趋势和离散趋势。 1组 2组 3组

56 前面三组学生的平均口腔温度都是37.0(℃),即集中趋势相同,但能说明三组数据的变化规律相同吗?我们通过把上述三组数据转化成数轴上的点看看这个问题。

57 一、 极差 统计学中常用描述变量值的离散程度(亦称变异程度)的指标有:极差、四分位数间距、方差、标准差和变异系数。
显然三组学生的口腔温度值参差不齐的程度都各不相同。第1组数值较为集中,第2、3组数值较为发散。说明三组数据的离散趋势是不相同的。 统计学中常用描述变量值的离散程度(亦称变异程度)的指标有:极差、四分位数间距、方差、标准差和变异系数。 一、 极差 极差亦称全距,用R表示。极差是所有变量

58 值中最大值与最小值之差,它反映了变量值的变异范围大小。极差大变异程度大;极差小变异程度小。
例2-11a中,R1= =0.4、R2=1.0、 R3= 1.0。说明第1组数据的离散趋势比第2、3组小。 全距计算简便,但粗略,不稳定。 例2-11a中,R2=R3=1.0,并不能说明两组数据的离散趋势一样。 极差易受极大或极小值的影响。

59 二、 四分位数间距 四分位数(InterQuartile Range, IQR)是特定的百分位数。第25百分位数(P25 )称为下四分位数(lower quartile),常用QL表示;第75百分位数(P75 )称为上四分位数(upper quartile),常用QU表示。四分位数间距即QU与QL之差,用IQR表示。

60 对偏峰分布资料,尤其是有特大或特小值;分布 末端无确切数值的资料。
四分位数间距可用于各种分布的资料,特别 对偏峰分布资料,尤其是有特大或特小值;分布 末端无确切数值的资料。 例2-13a 用表2-8b资料计算四分位数间距IQR。 在前面百分位数中已求得P25 =4.06天,P75 =6.68天, 则四分位数间距IQR为: 四分位数间距虽比极差稳定,但仍未考虑所 有变量值的变异程度。

61 三、 方差 方差(variance)是常用的变异指标。总体方差用σ2表示,样本方差用S2表示。总体方差往往未知,常用样本方差来估计。
In statistics, the number of degrees of freedom is the number of values in the final calculation of a statistic that are free to vary. 方差(variance)是常用的变异指标。总体方差用σ2表示,样本方差用S2表示。总体方差往往未知,常用样本方差来估计。 Student 方差的计算公式为: 称为离均差平方和 式(2-10) 式(2-11) William Sealy Gosset ( ) 英国统计学家Gosset建议用n-1代替n计算S2,可证明S2总在σ2的周围(无偏估计)。n-1称为自由度(degree of freedom )。

62 四、 标准差 标准差(standard deviation)是方差的平方根。因方差使度量衡单位变成平方,故对方差开平方根恢复原单位就得到标准差。总体标准差用σ表示,样本标准差用S表示。计算公式为: 式(2-10a) 式(2-11a)

63 离均差平方和 常用SS或lxx表示。其展开式为:
把上述展开式代入式(2-11a)则得到直接由原始数据求标准差的公式: 式(2-12a) 式中 是变量值平方的和; 是变量值和 的平方。 上式为直接法的计算公式,下式为加权法的:

64 式中X 是各组段的组中值,f 是相应的频数。
式(2-13a) 式中X 是各组段的组中值,f 是相应的频数。 例2-14a 求例2-11a三组数据的各自标准差。 求第1组的S1: 同理得:

65 例2-15 用加权法求例2-2数据的标准差。 由下表2-3的(2)、(4)、(5)栏可得:

66 标准差适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的变异程度。
代入式(2-13a)得: 标准差适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的变异程度。

67 五、 变异系数 变异系数(coefficient of variation)常记为CV。它被定义为标准差与均数之比,即
式(2-14) 变异系数适用于比较度量衡单位不同的或均数相差悬殊的多组资料的变异程度。 例2-16a 某地7岁女孩身高均数为120.25cm,标准差为4.42cm;胸围均数为56.63cm,标准差为2.91cm。试比较身高与胸围的变异程度。

68 身高 胸围 例2-16b 某地调查150名女大学生身高均数为162.05cm,标准差为4.67cm;体重均数为50.10kg,标准差为4.98kg。试比较身高与体重的变异程度。 身高 体重 C


Download ppt "Http://cc.jlu.edu.cn/ms.html 医学统计学 1 主讲人 陶育纯 2013.3.3."

Similar presentations


Ads by Google