基本概念 资料类型 计量资料:用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得数据为数值变量。

Slides:



Advertisements
Similar presentations
2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
第三章 单变量综合性描述统计量 宇传华.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
( Measures of Dispersion )
医学统计学 1 主讲人 陶育纯
第三章 函数逼近 — 最佳平方逼近.
PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
第二章 计量资料的统计描述 第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第五节 医学参考值范围的制定.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
《高等数学》(理学) 常数项级数的概念 袁安锋
第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第四章 定积分及其应用 4.3 定积分的概念与性质 微积分基本公式 定积分的换元积分法与分部积分法 4.5 广义积分
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
分数、小数、百分数的互化 江阴市长山中心小学:郁玉芬.
复习引入 数据 统计学的核心思想是 根据样本的情况对总体的相应情况作出估计和推断 2.统计学研究问题的步骤
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第十四章 数值变量的统计描述.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
正态分布.
常用概率分布 ---Poisson分布.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
Descriptive Statistics
用计算器开方.
6.4 你有信心吗?.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二章 计量资料的统计描述.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
Presentation transcript:

基本概念 资料类型 计量资料:用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得数据为数值变量。 计数资料:将全体观察单位按某种性质和类别进行分组,然后清点各组中的例数,所得数据为计数资料。 等级资料:将全体观察单位按某种性质的不同程度分组,然后清点各组中的例数,所得数据为计数资料。

基本概念 总体:根据研究目的确定的同质观察单位的全体。 样本:从总体中随机抽取有代表性的部分个体,个体数的多少称为样本例数。 抽样误差:由于个体变异造成的,系抽样机遇造成的,是客观造成的,不可避免的。 概率:某随机事件发生的可能性大小的数值。(硬币)

基本步骤 设计 搜集资料 整理资料 分析资料

统计描述

主要内容 §2.1 频数表 §2.2 数值变量资料的描述性指标 §2.3 正态分布及其应用 §2.4 分类变量资料的统计描述 §2.5 统计表和统计图

§2.1 频数表 频数表的概念 频数表的编制方法 频数分布的特征 频数分布的类型 频数表的用途

一、频数表的概念 当样本含量 n 较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(frequency table)。 频数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。 频数表:将各变量值与其相应的频数列成表格形式即为频数表。

二、频数表的编制 编制频数表时不可能把所有的变量值及其相应频数都列出来,特别是当样本例数 n 较大时,此时需要根据变量的取值范围划分为若干个组段,再汇总各组段的频数。 具体步骤如下:以例2.1资料为例。

例2.1某地2004年抽样调查 100名男大学生的身高(cm)

1. 求全距 数值变量资料频数表的编制 全距(或极差,range)是最大值与最小值之差,用 R 表示。 例2.1中,最大值为183.5cm,最小值为162.9cm, 故R =183.5-162.9=20.6(cm)。

2. 确定组段和组距 数值变量资料频数表的编制 组段数:根据样本含量的多少确定,一般设8~13个组段。 组距:各组段的起点和终点分别称为下限和上限,相邻两组段的下限之差(或每一组段的上、下限之差)称为组距。一般取等距分组,常用全距的1/10取整做组距。某组段(下限+上限)/2为组中值。 划分组段:各组段应是连续的,不能有交叉或重叠。第一组段应包括最小值;最末组段应包括最大值,并同时写出其下限与上限。 例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ;最小值为162.9cm,故第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm184cm,包含最大值183.5cm 。

数值变量资料频数表的编制 3. 列出频数表 采用计算机或划记法将原始数据汇总,得出各组段的观察例数,即频数,把各组段(或各观察值)及其相应的频数列表即为频数表 。 注意:最末组段应写出上、下限,其余组段只包含下限,不包含上限。

12

数值变量资料频数表的编制 数值变量资料频数表的编制 当变量的取值较少时,列表方法比较简单,如:

三、频数分布的特征 频数分布的两个重要特征: 1. 集中趋势(central tendency):身高向中央部分集中,以中等身高居多(172cm组段),此为集中趋势。反映集中位置或平均水平。 2. 离散程度(tendency of dispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。 对于数值变量资料,应用集中趋势和离散程度二者结合起来分析其分布规律。

集中趋势 离散程度 图 某地100名18 岁男大学生身高的频数分布 47

四、频数分布的类型 对称分布:指频数分布的集中位置在中间,左右两侧大致对称。 偏态分布:指频数分布不对称,集中位置偏向一侧:集中位置偏向数值小的一侧,称为正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布。 如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。临床上正偏态分布资料较多见。 不同的分布类型应选用不同的统计分析方法。 对称分布 正偏态分布 负偏态分布

正偏态分布 对称分布 负偏态分布 图2-1 某地100名18岁男大学生身高的频数分布

五、频数表的用途 频数表可以揭示资料分布类型和分布特征,以便选取适当的统计方法; 便于进一步计算指标和进行统计分析; 便于发现资料中的某些特大或特小的可疑值。 当样本含量特别大时,可以频率估计概率。 作为资料的陈述形式。在文献报告中,用频数表既可直观地反映被研究事物的分布特征,又便于作进一步的分析研究。

§2.2 数值变量资料的描述性指标 集中趋势的描述 集中趋势指标反映一组同质观察值的平均水平或中心位置。常用指标有均数、几何均数、中位数、众数、调和均数等。 离散程度的描述 离散程度指标反映一组同质观察值的变异度 。常用指标有全距、四分位数间距、方差、标准差和变异系数。

一、 集中趋势的描述指标---(1)均数 均数(mean)是算术均数(arithmetic mean)的简称。 定义:指所有观察值的代数和除以观察值的个数。 符号:样本均数用 表示,总体均数用 (miu)表示。 应用: 用于反映一组同质观察值的平均水平,应用 甚广。适用于正态或近似正态分布的数值变量 资料。 计算方法:直接法 加权法

集中趋势的描述指标---均数---直接法 直接法:用于样本含量 n 较小时,公式为: 式中,希腊字母 (sigma)表示求和; 为各观察值;n为样本含量,即观察值的个数。 例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。 (cm)

集中趋势的描述指标---均数---加权法 加权法:用于频数表资料或样本中相同观察值较多时,其公式为: 式中, 与 分别为频数表资料中各组段的组中值及其相应的频数(或相同观察值与其对应的频数)。 例2.3 计算例2.1表2-1 资料100名男大学生的平均身高。 该100名18岁健康男大学生身高的均数为172.70cm。

集中趋势的描述指标---(2)几何均数 几何均数(geometric mean) 定义:指一组观察值的乘积,再被观察值个数开方。 符号:用 表示 应用:适用于 ①数据经过对数变换后呈正态分布的(对数正态分布)资料;②观察值之间呈倍数或近似倍数变化(等比关系)的资料。如医学实践中的抗体滴度、平均效价、某些疾病的潜伏期等。 计算方法:直接法 加权法

集中趋势的描述指标---几何均数---直接法 样本含量 n 较小时 或 例2.4 有6份血清的抗体效价为1:10,1:20,1:40,1:80,1:80,1:160, 求其平均效价。 该6份血清的平均抗体效价为1:45。

集中趋势的描述指标---几何均数---加权法 频数表资料或样本中相同观察值较多时 计算公式: 例2.5 某地区50名麻疹易感儿童接种麻疹疫苗1个月后,测其血凝抑制抗体滴度,如表2-2中(1)、(2)栏,求平均抗体滴度。

集中趋势的描述指标---几何均数---加权法

集中趋势的描述指标---几何均数---加权法 即其血凝抗体滴度的平均滴度为1:57。 注意: 计算几何均数时观察值中不能有0; 一组观察值中不能同时有正值和负值。

集中趋势的描述指标---(3)中位数 中位数(median)是一种位置指标。 定义:将一组观察值按由小到大的顺序排列后位次居中的数值就是中位数,小于和大于中位数的观察值个数相等。 符号:用 M 表示。 应用:用于描述任何分布,特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。 计算方法:直接法 频数表法 50% M

集中趋势的描述指标---中位数---直接法 直接法:用于样本含量 n 较小的资料。 将观察值由小到大排列,按以下公式计算: n为奇数时,     n为偶数时, 例2.6 某病患者9名,其发病的潜伏期(d)分别为: 2, 3, 3, 3, 4, 5, 6, 9, 16,求发病潜伏期的中位数。 本例n=9,为奇数,故 (d)。 若在例2.6基础上再继续观察,在第20天又发现1例患者,即2, 3, 3, 3, 4, 5, 6, 9, 16, 20,则n为偶数,

集中趋势的描述指标---中位数---频数表法 适用于n 较大时 集中趋势的描述指标---中位数---频数表法 计算步骤:①按所分组段由小到大计算累计频数和累计频率;②确定中位数所在组段,即累计频率包含50%的组段;③求中位数。 式中, 分别为中位数所在组段的下限、组距和频数; 为小于L的各组段的累计频数。 例2.7 某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期(表2-3),计算平均发病潜伏期。

集中趋势的描述指标---中位数---频数表法

附:百分位数(percentile) M P5 P95 百分位数用 表示,0< x <100,是描述一组数据某百分位的位置指标。 将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。 最常用的百分位数是 ,即中位数。 应用:①常与中位数结合应用,可以描述一组资料在某百分位置上的水平,也可以描述资料的分布特征。 M - P5 = P95 –M 时,分布近似对称 M -P5 < P95 –M 时,分布呈正偏态 M -P5 > P95 –M 时,分布呈负偏态 P5 P95 M

附:百分位数(percentile) 应用:②也可用多个百分位数的结合来描述一组观察值的分布特征,如 和 合用时,反映中间50%观察值的分布情况; ③百分位数可用于确定非正态分布资料的医学参考值范围。 注意:应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。 计算公式: 分别为 所在组段的下限、组距和频数; 为小于L的各组段的累计频数。

百分位数

二、离散程度的描述 例:分别取甲、乙、丙三人每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3) 甲 乙 丙

离散程度的描述指标---(1)全距 全距(range,简记为 R)亦称极差。 定义:指一组同质观察值中最大值与最小值之差。全距反映了个体差异的范围:全距大,说明变异度大;反之,全距小,说明变异度小。 应用:简单明了。常用于说明传染病、食物中毒等的最短及最长潜伏期。 公式:R = xmax- xmin 不足:①仅考虑了最大值与最小值之差 ,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,故全距可能越大。因此,样本含量相差悬殊时不宜用全距比较。

离散程度的描述指标---(2)四分位数间距 定义:四分位数间距(quartile interval,Q ) 为上四分位数与下四分位数之差(或 与 之差)。 计算公式: 应用:用于描述偏态分布以及分布的一端或两端无确切数值资料或分布类型未知资料的离散程度。 QL QM QU 25%

离散程度的描述指标---(2)四分位数间距 四分位数间距包括了一组观察值的一半,故可把四分位数间距看成是中间50%观察值的极差。 意义:Q 越大,变异度越大;反之,Q 越小,变异度越小。 特点:由于四分位数间距不受两端个别极大值或极小值的影响,因而它较全距稳定,但仍未考虑全部观察值的变异度 。

离散程度的描述指标---(3)方差(4)标准差 极差和四分位数间距都只考虑了个别观察值的大小差异,没有全面反映每个观察值的变异程度。为了克服这一缺点,提醒我们应全面考虑每一个观察值的离散情况。 就总体而言,即应考虑总体中每个观察值 与总体均数 的差值( ),即离均差。 因离均差之和 ,不能反映变异度的大小,故用离均差平方和 (sum of squares of deviations from mean)反映之。离均差平方和的大小除与变异度有关外,还与变量值的个数N 有关。为了消除这一影响,取离均差平方和的均数,称方差。

离散程度的描述指标---(3)方差(4)标准差 样本方差用自由度n-1去除! 计算公式: 总体方差 样本方差 总体标准差 样本标准差 n-1为自由度(degree of freedom),一般用 (niu)表示。 因方差的度量单位是原度量单位的平方,故将方差开方,恢复其原度量单位,得总体标准差和样本标准差。

自由度 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,自由度为n。若受到k个条件的限制,则只有(n-k)个自由度。 计算样本方差和样本标准差时, n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”。因此只有(n-1)个自由度。

样本标准差 离均差平方和 常用 或 表示。数学上可以证明: 。故样本标准差的计算公式可写成: 直接法: 加权法: 离均差平方和 常用 或 表示。数学上可以证明: 。故样本标准差的计算公式可写成: 直接法: 加权法: 求表2-1中100名18岁男大学生身高的标准差。

例题 甲:n=5 ∑x=2500 ∑x2=1260400 乙:n=5 ∑x=2500 ∑x2=1251000 (万/mm3) (万/mm3) (万/mm3)

标准差 意义:标准差大,表示观察值的变异度大; 反之,标准差小,表示观察值的变异度小。 应用:①适用于描述对称分布资料尤其是正态分布资 料的离散程度。 ②结合均数,描述正态分布资料的频数分布规 律,用于估计医学参考值范围; ③结合均数,计算变异系数; ④结合样本含量,计算标准误,估计抽样误 差,用于统计推断。

离散程度的描述指标---(5)变异系数 变异系数(coefficient of variation, CV ),是标准差与均数的比值,用百分数表示,没有单位。 计算公式: 应用:常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异度。

变异系数-例题 例2.9 某地调查100名18岁男大学生,身高(cm) 为172.70, 为4.01;体重(kg) 为55.02, 为4.06,试比较两者变异度。 由此可见,该地18岁男大学生体重的变异度大于身高的变异度。 身高: 体重:

变异系数-例题 例 某地调查100名7岁男童的身高(cm) 为119.95, 由此可见,该地7岁男童身高的变异程度较18岁男大学生大。 7岁男童: 18岁男大学生:

§2.3 正态分布及其应用 生物现象中有许多变量服从正态分布,如健康人群的大部分反映身体形态、生理功能、机体代谢及免疫状况的解剖学、生理、生化、免疫学指标,一般都基本服从正态分布。 例2.1中,由100名18岁男大学生的身高资料所绘制的直方图可看出,高峰位于中部,左右两侧大致对称。设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线。该频数曲线(或频率曲线)近似于数学上的正态分布曲线。 13

图2-1 频数分布逐渐接近正态分布示意图

一、正态分布的概念及特征 正态分布(normal distribution),也叫高斯分布(Gaussian distribution),是最常见、最重要的一种连续型分布。 定义:设 x 为一随机变量,若其概率密度函数可以表示为: 式中, 为总体均数, 为总体标准差, 、 、π 、e 皆为常量。称 x 服从均数为 、方差为 的正态分布,记为 。

1. 正态分布的图形 根据正态分布的概率密度函数 f(X) X m 当 和 已知时,以 为横轴, 为纵轴,可绘出正态分布图形 —— 正态曲线(normal curve)。 X f(X) m

2. 正态分布的特征 正态曲线在横轴上方均数处最高。 正态分布以均数为中心,左右对称。 正态分布有2个参数----均数和标准差。均数决定了曲线的位置,称为位置参数;标准差决定了曲线的形状,称为变异度参数。 正态分布在 处各有一个拐点。 正态曲线下面积的分布有一定规律。 X f(X) m

(1) 正态曲线为单峰曲线,在横轴上方均数处最高,曲线两端均以横轴为渐近线。 正态分布的特征 (1) 正态曲线为单峰曲线,在横轴上方均数处最高,曲线两端均以横轴为渐近线。 (2) 正态分布以均数为中心,左右对称。 

正态分布的特征 (3) 正态分布有2个参数,即均数 和标准差。 是位置参数,当 固定不变时, 越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横轴越向左移动。 是形状参数(亦称变异度参数),当 固定不变时, 越大,曲线越平阔; 越小,曲线越尖峭。通常用N( ,2)表示均数为 ,标准差为 的正态分布。   不变, 发生变化  不变,  发生变化

(5) 正态曲线下的面积分布有一定规律。(见下文) 正态分布的特征 (4) 正态分布在   处各有一个拐点。 凸 凹 凹     + (5) 正态曲线下的面积分布有一定规律。(见下文)

3. 标准正态分布 标准正态分布 (standard normal distribution): 均数 ,标准差 的正态分布 称为标准正态分布。 概率密度函数为:

标准正态分布与一般正态分布的关系: 若 x ~N ( ,2),对 x 进行如下变换: 则可证明,u服从标准正态分布,即 u ~N (0 ,1)。 标准正态变换 标准正态离差标准正态变量 x ~N ( ,2) u ~N (0 ,1) 标准正态变换

标准正态分布 标准正态曲线只有一条,因此其性质、规律都是固定的,而普通正态分布 又可通过 u 变换转化为标准正态分布 ,从而为研究带来极大的方便。 但在实际应用中,常以样本为研究对象, 和 未知,此时当 n 足够大时,可以样本均数 和样本标准差 代替 和 ,则标准正态变换为 。 标准正态分布的密度函数为:

二、正态曲线下面积的分布规律 正态曲线下面积的分布有一定规律。利用曲线下某一区间的面积占总面积的百分比,可以估计该区间的例数占总例数的百分比(频数分布)或估计观察值落在该区间的概率。 正态曲线下某一区间的面积可通过对概率密度函数积分求得。

1. 正态曲线下面积的计算 图1中阴影部分反映了(-,x)的面积,计算方法如下: 图2中阴影部分(代表任意区间)的面积,理论上可以如下计算: 正态分布的分布函数 x a b

2. 标准正态曲线下的面积计算 对于标准正态分布,其分布函数记为 即标准正态曲线下(-, u)的面积,其大小随u的变化而变化。 为了应用方便,统计学家按 编制了标准正态分布曲线下的面积分布表(简称 u 值表) ,可以根据u值查表得到区间(-, u)的面积。

u -∞ x1 x2 φ(u)

3. 一般正态分布曲线下的面积 对于一般的正态分布 N( , 2),其曲线下(-, x)区间的面积除与x有关外,还与 和 有关。即不同的正态曲线,由于其位置和形状不同,同一区间内的面积是不同的。 但可利用标准正态变换 ,将N( , 2)转化为标准正态分布,再根据标准正态曲线下的面积分布表推算。

查u界值表的步骤: 1. 求 u 值 当 、 和 已知时,按 求得 值,再查 值表,求得所求区间的面积占总面积的比例; 当 、 和 已知时,按 求得 值,再查 值表,求得所求区间的面积占总面积的比例; 当 、 未知且样本含量n足够大时,可用样本均数 和标准差 分别代替 和 求得 u 的估计值。 2. 查 u 值表 根据所求的 u 值查表。

应用u界值表时应注意: 曲线下横轴上方的总面积为100% 或1; 附表仅列出了标准正态曲线下-∞到u的面积; 标准正态曲线下对称于0的区间其面积相等,如 和 的面积相等, 即 。 φ(u) u

例2.10 由例2.1资料得:100名18岁男大学生身高的均数 cm,标准差 cm。试估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数。 本例, 未知但n较大,用 和 分别代替 和 ,按 求得 值 。 查附表1标准正态曲线下的面积得0.1210,即该地18岁男大学生身高在168cm以下者,约占总数的12.10%。

实例: mmol/L, mmol/L, 。 试估计该地正常女子血清甘油三脂在1.10 mmol/L以上者占正常女子血清甘油三脂总人数的百分比。 本例, 未知但n较大,用 和 分别代替 和 ,按 求得 值,将x=1.10 mmol/L代入公式, 。查u界值表得1-Φ(-0.14)=0.5557,即该地正常女子血清甘油三脂在1.10mmol/L以上者占总人数的55.57%。

实例图示 55.57%

4. 常用正态曲线下面积及其对应的分位数 x = + u

68.27% 90% 5% 5% -  + -1.645  +1.645 95% 99% 2.5% 2.5% 0.5% 15.866% 15.866% 5% 5% -  + -1.645  +1.645 95% 99% 2.5% 2.5% 0.5% 0.5% -1.96  +1.96  -2.58  +2.58

三、正态分布的应用 许多医学现象服从正态分布或近似正态分布,如同性别、同年龄儿童的身高;同性别健康成年人的红细胞数、血红蛋白含量、胆固醇、心率等生理生化指标;医学实验中的随机误差等,一般都呈现正态或近似正态分布,故可按正态分布规律处理。 有些医学资料虽然本身呈偏态分布,但经数据变换后可成为正态或近似正态分布,如疾病的潜伏期、医院病人的住院天数等,在施加对数变换后,转化成正态分布或近似正态分布,也可以按正态分布规律处理。

1. 制定医学参考值范围 医学参考值范围(reference ranges),亦称医学正常值范围,是指所谓“正常人”的解剖、生理、生化等指标的波动范围。 所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群。

医学正常值范围的用途 ①作为诊断标准,划分正常与异常的界限; ②根据传染病传染期的长短确定该病患者的隔离期限,或根据潜伏期长短确定接触者的留验期限; ③制订卫生标准及有害物质的容许浓度,作为保护健康的安全界限; ④制订不同性别、年龄儿童的某项生长发育指标的等级标准; ⑤在质量控制中制订各种控制限。

制定医学参考值范围的步骤及要求 1. 选取研究对象,要求①样本含量足够大,②保证研究对象的同质性; 2. 根据研究目的和使用要求选定适当的百分界值,如80,90,95和99,常用95; 3. 根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高或过低皆属不正常,须确定双侧界值;又如肝功能检查中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界; 4. 根据资料的分布特点,选用恰当的界值计算方法。

单侧或双侧界值 单侧下限 异常 正常 单侧上限 异常 正常 异常 正常 双侧下限 双侧上限

制定医学参考值范围常用方法 正态分布法 适用于正态或近似正态分布的资料。 双侧界值: 单侧上界: ,或单侧下界: 正态分布法 适用于正态或近似正态分布的资料。 双侧界值: 单侧上界: ,或单侧下界: 对数正态分布法 适用于对数正态分布资料。 单侧上界: ,或单侧下界: 百分位数法 用于偏态分布资料以及资料中一端或两端无确切数值的资料。 双侧界值: 和     单侧上界: ,或单侧下界:

常用 u 值表

实例 1 某地调查成年男子144人红细胞数,近似正态分布,均数 ,标准差 ,试估计该地成年男子红细胞数的95%参考值范围。 某地调查成年男子144人红细胞数,近似正态分布,均数 ,标准差 ,试估计该地成年男子红细胞数的95%参考值范围。 因红细胞数过多或过少均为异常,故应估计双侧95% 参考值范围,代入公式可得: 即该地正常男性红细胞数的95%参考值范围为

实例 2 某医生测量了118名健康成年男子的第一秒肺通气量(FEV1),结果如下表,试估计95%的参考值范围。 95%单侧下限为: 即FEV1的95%参考值范围为不低于3.10L。

故该市健康人血铅含量的正常值范围为<40 μg/100g。 实例 3 某年某市调查了200例健康成人血铅含量(μg/100g)经对数变换后进行正态性检验知血铅含量为对数正态分布,已知 , 。试估计95%正常值范围。 因血铅过高才属异常,故求单侧95%上限, 故该市健康人血铅含量的正常值范围为<40 μg/100g。

实例4 某年某市调查了238名无明显肝肾疾病 、无汞作业居民的发汞含量(μmol/kg),频数表如下。试估计该市居民发汞含量的95%参考值范围。 由于发汞含量只有过高才属异常,故计算单侧上限,即P95。 (μmol/kg)

2. 正态分布是许多统计方法的理论基础 统计学上的很多分布,如 分布、 分布、 分布都是在正态分布的基础上推导出来的。 统计学上的很多分布,如 分布、 分布、 分布都是在正态分布的基础上推导出来的。 t 分布、二项分布、Possion分布的极限均为正态分布,在一定条件下,可以按正态分布原理来处理。 常用的假设检验方法 — u 检验也是以正态分布为基础的。

3. 质量控制 为了控制实验中的检测误差: 警戒值 控制值

标准误 反映均数抽样误差大小的指标的样本均数的标准差

§2.4 分类变量资料的统计描述 分类变量资料的频数表 常用相对数 应用相对数时应注意的事项 标准化

一、分类变量资料的频数表 分类变量资料:将观察单位按属性或类别计数所得的资料。 各类别及其相应的观察单位数构成频数表。分类变量资料频数表编制方法简单。

分类变量资料的频数表 表 2-6 某市某年各区急性传染病发病数 市区 急性传染病发生数 A 2433 B 3033 C 1650 D 1503 E 1282 F 1853 G 1130 合计 12884

二、常用相对数 表1用男、女生所占构成比反映全校性别构成情况,表2用发病率反映肠道传染病的流行程度,这些指标都是用两个数值之比计算出来的,此类指标通称相对数。将直接统计得到的频数称为绝对数。实际应用中,常把相对数与绝对数结合应用。 分类变量资料用相对数指标描述。常用的相对数指标有率、构成比和相对比。

1. 率 率(rate),又称频率指标或强度指标,它说明某现象发生的频率或强度。 计算公式: 式中,K为比例基数,常用的K有100%或1000‰、 10000/万、100000/10万等。 选择K的要点:①根据习惯用法以便于比较,如治愈率、某病病死率、人工流产率等用百分率;出生率、婴儿死亡率等用千分率;恶性肿瘤死亡率用十万分率;②使算得的率至少保留1~2位整数。

常用的频率指标 发病率(incidence rate):指在一定期间内、一定人群中某病新病例出现的频率。用来说明居民在一定时期内某病的发病水平。 分子是一定期间内的新发病人数,若在观察期间内一个人多次患病时,则应多次计为新发病例数,如流感等。 分母中所规定的暴露人口是指可能会发生该病的人群,对那些不可能患该病的人,如传染病的非易感者,已接种疫苗的有效者,不应计入分母内。但实际工作中不易做到,故分母多用同期平均人口数。

常用的频率指标 患病率(prevalence rate):也称现患率,指某特定时间内总人口中,曾患有某病(包括新和旧病例)所占的比例。按观察时间不同分为期间患病率和时点患病率。

常用的频率指标 死亡率(mortality rate):表示在一定期间内,在一定人群中,死于某病(或死于所有原因)的频率。是测量人群死亡危险最常用的指标。用于衡量某一时期、一个地区人群的死亡危险性大小。常以年为单位。 死亡率可按病种、年龄、性别、职业等分类计算死亡专率,用于探讨病因和评价防治措施。

常用的频率指标 病死率(fatality rate):表示一定时期内(通常为1年),患某病的全部病人中因该病死亡者的比例。 病死率表示确诊疾病的死亡概率,可表明疾病的严重程度,也可反映医疗水平和诊断能力,通常多用于急性传染病,较少用于慢性病。 用病死率作为评价不同医院的医疗水平时,要注意可比性。

2. 构成比 构成比(proportion),又称构成指标,它说明某事物(或现象)内部各组成部分所占的比重或分布,常以百分数表示。 计算公式: 注意:①所有组成部分的构成比之和应等于100%; ②同一事物内部各组成部分的构成比,计算时小数点后保留位数应相同。

3. 相对比 相对比(relative ratio),亦称比,是A、B 2个有关指标之比,说明A为B的若干倍或百分之几。两个指标可以是性质相同的,也可以是性质不同的;两个指标可以是绝对数,也可以是相对数或平均数。 计算公式为:

相对比 A、B为同类指标时,相对比用以说明两事物的相对水平。常以百分数或倍数表示,如人口出生性别比、两病区病床数之比。流行病学中常用的相对危险度(RR)、比数比(OR)也为此类。 A、B为不同类指标时,如人口密度(人/平方公里)、医生数/千人口、病床数/千人口、小鼠肝重与体重之比等。 相对比是相对数的最简单形式,常用于动态数列的分析。动态数列是按时间顺序排列起来的一系列统计指标(包括绝对数、相对数和平均数),用来说明某事物在时间上的变化和发展趋势。

三、应用相对数时应注意的事项 计算相对数的分母不宜过小 当分母观察例数足够多时,计算的相对数比较稳定,能够正确反映实际情况;当分母观察例数很少(如少于30)时,易受偶然因素的影响,不宜计算相对数,可用绝对数表示。如必须计算率,应同时列出可信区间。

应用相对数时应注意的事项(续) 分析时不能以构成比代替率 构成比是说明某现象中各组成部分的比重或分布的指标,率则反映某现象发生的频率或强度的指标。应用时两者不能混淆。 对观察单位数不等的几个率,不能直接相加求其平均率 对观察单位数不等的几个率求平均率时,要用各率的分子之和与分母之和来计算。

应用相对数时应注意的事项(续) 比较相对数时应注意其可比性 影响率和构成比的因素很多。两个或多个率(构成比)比较时,各组间除研究(处理)因素外,其它影响(非处理)因素要基本相同,即各组间要具有可比性。 应注意:①影响因素在各组的内部构成是否相同; ②各组的观察对象要同质,研究方法要相同,观察时间相等以及内外环境条件相近。如比较两种疗法的治愈率,应注意各组病例在年龄、性别、病情、病程、病型和疗程等内外环境条件是否基本相同。

应用相对数时应注意的事项(续) 对样本率(或构成比)的比较应遵循随机抽样,并做假设检验 遵循随机抽样的原则才能保证样本具有代表性,才能用该样本信息推断总体特征。 抽样研究中,样本率或构成比也存在抽样误差,因此在比较两个或多个率(构成比)时,要做假设检验。

四、标准化法 标准化的目的 标准化法的基本思想 标准组的选择 标准化率的计算

1. 标准化的目的 标准化(standardization)的目的在于消除混杂因素(confounding factor)对结果的影响,使资料具有可比性。 例如,欲比较两地的总死亡率,若两地的年龄、性别等构成不同,而年龄、性别等又影响死亡率时,则年龄、性别等为混杂因素,使两地总死亡率无可比性。为消除年龄、性别等的影响,可用标准化法。

2. 标准化的基本思想 标准化法的基本思想:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其具有可比性。 需指定一个标准的人口构成,消除内部构成的影响。

3. 标准组的选择 应根据研究目的选择有代表性、较稳定和数量较大的人群作为标准组。例如,世界、全国、全省、本地的数据作为标准较理想。 选择方法:①以两组资料中任一组的年龄别人口数或构成比作为标准组;②以两组资料合并的各年龄组的人口数或构成比作为标准组;③以公认的或便于与他人资料比较的标准作为标准组, 例如,用全国、全省或本地区的年龄别人口构成作为标准。 以上三种方法中,最好尽量采用第三种,这样便于与其他地区进行比较,第一、二种方法只适用于所研究的两组资料。

4. 标准化率的计算 标准化率(standardized rate),简称标化率,亦称调整率。 应用:标准化率常用于人群性别、年龄构成不同的两地的出生率、患病率和病死率的比较;也可用于病情轻重、病程长短不同的两组治愈率的比较;还可用于均数的标准化,如比较两组某病平均治愈天数时,应考虑两组病型、病情、病程等的标准化。 计算方法: 直接法 间接法 反推法

(1)直接法 直接法:用于已知被标化组的年龄别率,以及已知标准组的年龄别人口数或年龄别人口构成比时。 用标准组年龄别人口数计算 用标准组年龄别人口构成比计算

直接法----用标准组年龄别人口数计算 ①选定标准组。本例选用甲地各年龄组的实际人口数为标准组年龄别人口数; ②将乙地各年龄组实际发病率与相应的标准年龄别人口数相乘,得出乙地各年龄组的预期(理论)发病数; ③将乙地各年龄组预期发病数之和除以标准人口总数,得出乙地标准化总发病率。

故甲地总发病率(74.61/万)低于乙地标化后的总发病率。

直接法----用标准组年龄别人口构成比计算 ①选定标准组。以甲地各年龄组人口构成比作为标准 组年龄别人口构成比; ②将乙地各年龄组实际发病率与相应的标准年龄别人 口构成相乘,得出乙地各年龄组的分配发病率 ; ③乙地各年龄组的分配发病率之和86.09/万为乙地标 准化后的总发病率。结果与第1种计算方法相同。

(2)间接法 间接法:用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。

间接法的计算方法和步骤 ①选定标准组。选用甲地年龄别发病率为标准组,对乙地进行标准化。 ②标准组年龄别发病率和乙地各年龄组人口数相乘,可得出乙地按标准组年龄别发病率计算出来的各年龄组预期发病人数,合计得乙地预期的总发病人数; ③按下式计算乙地标准化总发病率。 标准化死亡比

注意事项 ①标准化的目的在于消除混杂因素对结果的影响,使计算的标准总率具有可比性;通常,直接法因其计算简便更为常用,但若原资料中有些年龄组人口过少,易使年龄别死亡率波动较大时宜用间接法; ②标准化率并不表示某地实际水平,只能表明对比资料间的相对水平,且同一资料用不同“标准”标化,所得标化率不同,但是对比时的分析结论通常不变;

注意事项 ③对于存在混杂因素的两个总率进行比较时,若不进行标准化,也可通过比较两组的各年龄别发病(死亡)率,得出正确结论; ④比较两样本的标准化率时,还应进行两样本标准化率的假设检验(见有关统计学书籍)。

统计图表

第三节 疾病分布的形式 图2-2

20 发病人数 15 10 5 22 24 2 4 6 8 10 12 14 9日 10日 发病时间 表2-1 某单位食物中毒的暴发 第二节 疾病流行强度 20 发病人数 15 10 5 疾病流行强度 22 24 2 4 6 8 10 12 14 9日 10日 发病时间 表2-1 某单位食物中毒的暴发

1998年—2005年6月医院出院病人数指标

第三节 疾病分布的形式 图2-6 1984-2004 艾滋病职业分布 图2-8