医学统计学 主讲人:信息部 林雪君
个人简介 2015年6月毕业于吉林大学流行病与卫生统计学 专业,硕士在读期间以第一作者发表2篇SCI,2篇中 文核心期刊文章。 联系方式: 电话 18900918412(613248) 邮箱 578872670@qq.com
目 录 第一讲:医学统计学基本内容(一) 第二讲:医学统计学基本内容(二) 第三讲: t 检验及其spss操作 目 录 第一讲:医学统计学基本内容(一) 第二讲:医学统计学基本内容(二) 第三讲: t 检验及其spss操作 第四讲:方差分析及其spss操作 第五讲:卡方检验及其spss操作 第六讲:秩和检验及其spss操作 第七讲:logistic回归分析和生存分析的spss操作
医学统计学基本内容(一) 第一节 医学统计学的基本概念 第二节 统计资料的类型 第三节 医学统计工作的基本步骤 第一节 医学统计学的基本概念 第二节 统计资料的类型 第三节 医学统计工作的基本步骤 第四节 数值变量资料的统计描述
第一节 医学统计学的基本概念 统计学(statistics)是运用概率论与数理统计的原理和方法研究数字资料的搜集、整理、分析与推断,从而揭示事物内在客观规律的一门学科。
例: 张三心跳68次/min 偶然性 李四心跳72次/min 正常成人心率60~100次/min 必然性 我们知道事物的发展是偶然性与必然性并存的,而实际当中往往偶然性掩盖了必然性,妨碍了我们正确认识事物的必然性(即规律性)。 例: 张三心跳68次/min 偶然性 李四心跳72次/min 正常成人心率60~100次/min 必然性
例: 在同等条件下,用同一种药物治疗某病, 甲病人 痊愈 偶然性 乙病人 死亡 该药物在绝大多数病人中的 治愈率 必然性 必然性是不可避免地通过大量的偶然性为自己开辟道路的。统计学是找出这种必然性的重要工具。
什么是医学统计学 统计学在不同领域的应用形成了不同的应用统计学科,如人口统计、经济统计等等,在医学中应用,就产生了医学统计学(medical statistics)。 医学统计学是以医学的理论为指导,用统计学的原理和方法研究医学领域的数据的搜集、整理、分析与推断的一门应用学科。
例1 北京某医院某大夫使用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率94 例1 北京某医院某大夫使用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率94.4%,那么,其他大夫使用“乌贝散”治疗胃溃疡出血有效率也一定为94.4%吗?
例2 某大夫用“冠心灵”治疗冠心病,其对照组 例2 某大夫用“冠心灵”治疗冠心病,其对照组 用西药。观察结果如表1-1。 表1-1 冠心灵与单纯西药疗效比 . 显效 有效 无效 合计 单纯西药 9 25 6 40 冠心灵 19 18 5 42 请问冠心灵是否比单纯西药有效?
一、变量和变量值 变量(variable) 指研究对象中每一个观察单位的某项特征。 变量值(value of variable) 指对变量的观测结果。
二、同质和变异 同质(homogeneity) 指对观察指标产生影响的因素相同。 变异(variation) 指同质的基础上个体间的差异。
三、总体与样本 总体(population)是根据研究目的确定的 同质观察对象某项变量值的全体集合。 样本(sample)是从总体中随机抽取的部分 观察对象某项变量值的集合。
《全国放射卫生技术服务机构现状调查与分析》
四、参数与统计量 参 数(parameter)是概述总体特征的量。 统计量(statistic)是根据样本个体值计算得到 的描述样本特征的量。
总体?样本?变量?变量值? 参数?统计量? 例3:已知北方地区一般儿童前囟门闭合月龄均值为14.1个月。某研究人员从东北某县(缺钙地区)抽取36名儿童,得前囟门闭合月龄均值为14.3个月,标准差为5.08个月。问该县儿童囟门闭合月龄是否大于一般儿童的前囟门闭合的月龄? 总体?样本?变量?变量值? 参数?统计量?
五、误 差 (一)随机误差 (二)系统误差 (三)过失误差
(1)随机误差(random error) 概念:由于偶然因素,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机误差。
抽样误差(sampling error) 概念:样本指标与总体指标之间的差别。 特点:有抽样,抽样误差就不可避免。
(2)系统误差(systematic error) 概念:指数据收集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。
(3)过失误差 (gross error) 概念:是指各种失误所导致的误差。如数据记录错误、仪器失灵等。这类错误可以通过认真核查等措施予以避免。
六、概 率 频率(frequency)是指某事件实际发生的强度或频度。 概率(probability)是描述随机事件发生可能性 大小的数值。
我们知道,投掷一枚硬币,其落地出现哪一面是一个随机事件。若做一个投币实验,共投50次,结果出现某面20次。这里20次是一个频数,40%(=20/50)就是一个频率,它代表了这次投币实验中该面实际出现的强度。概率则是硬币未投之前应知道的某面可能出现的强度数值。我们都知道,投掷一枚硬币,其落地出现某一面的概率是0.5 (1/2)。
概率用P表示,其值介于0到1之间。P越接近1,表示该事件发生的可能性越大,反之越小。 P=1为必然事件,P=0为不可能事件。 统计推断结论就是利用小概率事件原理。
第二节 统计资料的类型 (一)定量变量资料 (二)定性变量资料
离散型变量 (一)定量变量 连续型变量 离散型变量只能取整数值。例如,一月中的手术病人数,一年里的新生儿数,12月份门诊病人数等。 连续型变量可以取实数轴上的任何数值。例如,血压、身高、体重等。 当离散型变量的取值非常大时,可以视为连续型变量。例如红细胞记数(×1012/L)。
(二)分类变量 又称名义变量,将观察对象按某种属性或类别分组计数值。根据属性的特点又可分为: 1. 无序分类资料即属性之间无程度上的差别。如性别、阴性与阳性、血型等。所得资料常称计数资料。 2. 有序分类资料即属性之间有程度上的差别。如某检验结果表达为-、±、+、++;临床疗效分为治愈、显效、好转、无效四级等。所得资料常称等级资料。
(三) 变量间的转化 根据统计分析需要,各类变量间可相互转化。 成人(≥20岁) 年龄(定量) (定性) 非成人(<20岁) 0(男) 性别(定性) (定量代码) 1(女)
重度贫血 中度贫血 血红蛋白含量 (定量) (等级) 轻度贫血 正 常
第三节 医学统计工作的基本步骤 资料、分析资料四个步骤。四步紧密联系,缺一不可。 设计 收集资料 整理资料 分析资料 医学统计工作分为:设计、收集资料、整理 资料、分析资料四个步骤。四步紧密联系,缺一不可。 设计 收集资料 整理资料 分析资料
一、设计 设计(design)是医学统计工作中最重要的一步。设计的好坏直接关系到下三步的工作。设计的不合理可导致错误的结论,也可导致浪费过多的药品、经费、时间等。 确定研究目的和研究假说 确定研究对象和观察单位 设计 确定资料的收集方法、整理方法 确定统计分析方法
二、收集资料 调查设计 医学科研设计 实验设计 设计的目的是尽可能用较少的人力、物力和时间获得准确可靠的结论。 收集资料(collection of data)任务是取得准确、可靠的原始数据。 医学统计资料主要来自以下五个方面:
实验数据:在试验过程中获得的数据。 现场调查资料:大规模的流行病学调查所获取的资料。 医疗卫生工作记录:门诊病历卡、住院病案、化验报告等。 报表:卫生工作基本情况年报表、传染病年(月)报表、疫情旬(月、季、年)报表等。 报告卡:传染病发病报告卡、出生报告卡等。
三、整理资料 整理资料(sorting data)任务是以统计学的思想去净化原始数据。错误的更正,缺少的补上;去粗取精,去伪存真,使数据系统化、条理化,便于下一步的统计分析。 资料整理采用手工汇总和计算机汇总两种方式。前者适合数据量较小的资料,后者适合数据量较大的资料。
四、分析资料 统计分析 统计描述(statistical description ) 统计推断(statistical inference) 分析资料(analysis of data)利用统计学的原理和方法,借助于有力的计算工具去处理数据,从而反映出数据的综合特征,进而从中阐明事物的内在联系和变化规律。 统计描述(statistical description ) 统计分析 统计推断(statistical inference)
第四节 数值变量资料的统计描述
一、数值变量资料的频数分布 (一)编制频数分布表和绘制频数分布图 例4:抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L),数据如下。试编制血清铁含量的频率分布表。
直方图(histogram) 频率密度=频率/组距
(二)频数分布表和频数分布图的用途 观察分布类型 代替繁复的原始资料 描述分布特征 发现特大或特小的可疑值
二、集中趋势的描述 应用条件、计算方法(直接法、频数加权法) 平均数(average)是统计学中用来描述定量资料的集中趋势,反映资料的平均水平或集中位置的最常用、最重要的指标体系。常用的平均数有: 算术均数、几何均数和中位数。 应用条件、计算方法(直接法、频数加权法)
(一)算术均数 算术均数简称均数(mean)。总体均数用希腊字母μ表示,样本均数用 表示。适用于描述对称分布,尤其是正态分布或近似正态分布的数值变量资料的平均水平。
(二)几何均数(geometric mean)
(三)中位数(median) 中位数用 M 表示,指将原始观察值从小到大或从大到小排列后,位次居中的那个数。适用于各种分布的资料,特别是偏峰分布资料。对分布末端无确定值的资料,不能直接计算均数和几何均数时,也可以计算中位数。
直接法: 频数表法:见后
百分位数(percentile,Px ) 百分位数是一组从小到大排列的观测值的百等份分割值。和中位数一样,都是位置指标。中位数是一个特定的百分位数,即M=P50,还常用于计算P25、P75。百分位数的计算公式为: 式中L为Px所在组段的下限;fx为该组段的频数; i 为该组段的组距;ΣfL为小于L的各组段累计频数。
例5:某研究者测得某年某市308名6岁以下儿童的尿铅值, 见表1的(1)、(2)栏,求其中位数(P50)及P25、P75 。
例6:试利用表2-2的频率表求例2-2中血清铁含量的中位数。
三、离散趋势的描述 说明描述资料的全面变化规律需把集中趋势和离散趋势二者结合起来。通过下例可说明这个问题。 例7: 现有3组健康女大学生的口腔温度测得值如下,试分析其集中趋势和离散趋势。
(一)极差 统计学中常用描述变量值的离散趋势(亦称变异程度)的指标有:极差、四分位数间距、方差、标准差和变异系数。 极差亦称全距,用 R 表示。极差是所有变量值中最大值与最小值之差,它反映了变量值的变异范围大小。极差大变异程度大;极差小变异程度小。
(二)四分位数间距 四分位数(quartile)是特定的百分位数。第25百分位数(P25 )称为下四分位数,常用QL表示;第75百分位数(P75 )称为上四分位数,常用QU表示。四分位数间距(quartile interval)即 QU与QL之差。
(三)方差 方差(variance)是常用的变异指标。总体方差用σ2表示,样本方差用S2表示。 方差的计算公式为:
(四)标准差 标准差(standard deviation)是方差的平方根。总体标准差用σ表示,样本标准差用S表示。计算公式为:
(五)变异系数 变异系数(coefficient of variation)常记为CV。它被定义为标准差与均数之比,即 变异系数适用于比较度量衡单位不同的或均数相差悬殊的多组资料的变异程度。
例8:某地调查150名女大学生身高均数为162. 05cm,标准差为4. 67cm;体重均数为50. 10kg,标准差为4 例8:某地调查150名女大学生身高均数为162.05cm,标准差为4.67cm;体重均数为50.10kg,标准差为4.98kg。试比较身高与体重的变异程度。
实际应用中,常将算数均数和标准差结合对正态分布资料进行统计描述;常将中位数和四分位数间距结合对偏峰资料进行统计描述。
医学统计学基本内容(一) 第一节 医学统计学的基本概念 第二节 统计资料的类型 第三节 医学统计工作的基本步骤 第一节 医学统计学的基本概念 第二节 统计资料的类型 第三节 医学统计工作的基本步骤 第四节 数值变量资料的统计描述
可以登录辽宁省肿瘤医院数字图书馆网站: http://lnzlyy.tsk.libsou.com 查看以上课件!