卫生统计学基本概况和基本概念 赵耐青 复旦大学卫生统计教研室
教学要点 统计学Statistics的定义 1 医学中的统计 2 基本概念 3 统计工作的步骤 4 目标与方法 5
统计学Statistics的定义 研究内容 搜集——整理——分析——判断 研究目的 处理数据中的随机变异性,求得可靠的结果 工作内容 参与随机现象研究的设计观察和资料搜集处理研究 阶段与统计相关的问题并提出建议根据统计学原理 对资料进行统计分析和推断
生物医学中的统计学分类 国际:生命科学研究、临床医学研究、预防医学研究 医学统计学Medical Statistics 我国:统计学原理在医学中的运用 医学中的统计学科 卫生统计学Health Statistics 我国:预防医学研究 生物统计学Biostatistics 我国:生命科学实验研究 国际:生命科学研究、临床医学研究、预防医学研究
医学中的统计 医学统计——医学中与统计相关问题及其解决方法 收集、处理和分析医学中的随机现象 统计学思维和方法帮助和解决 医学研究和卫生决策中与统计相关的问题
医学中的统计发展史 医学中的统计思维---百年发展 1834 统计学的目标---数据搜集 1894 Pearson 现代统计教育 Pearson和Galton的努力将其变为高级的应用数学学科, 并用于解决医学、生物学问题 1903 Lister预防医学研究所创建第一个统计系 统计在医学中的作用开始得到强调和认可 强调医学艺术 统计艺术 强调个人经验 科学证据
医学中的统计问题 医学领域的统计问题 实验室研究---实验数据分析 临床研究---个体变异 临床试验---临床治疗的有效性和安全性 例如:临床用某种药物治疗缺铁性贫血的疗效 甲:治疗10人,8人有效;乙:治疗10人,4人有效 临床科研 外科医生观察了50例肿瘤病人的术后生存情况(月):3,10,20,12,28,7,9……
医学中的统计问题 医学领域的统计问题 公共卫生---群体 药学 流行病研究---吸烟与肺癌(Doll和Hill) 卫生服务---卫生资源需求和利用、医保改革 健康统计---医学人口、生长发育、疾病统计等 药学 药物筛选、药代动力学等
基本概念——个体与同质 个体individual 同质 (homogeneous)和异质 (heterogeneous) 根据研究目的确定的最基本的研究对象单位,也称观察单位 同质 (homogeneous)和异质 (heterogeneous) 具有相同性质的观察单位称为同质的;否则为异质的 调查某地1995年正常成年女子的糖化血红蛋白---同质的要素? 调查某地1995年正常成年女子的雌激素水平---同质?
基本概念——变量和资料 变量variable 资料data 随机变量random variable 所研究的观察对象的一个或几个特征,观察指标 资料data 变量的观测值(亦称取值)组成 随机变量random variable 观察结果是随机的。随机变量分为:连续型和离散型变量
基本概念——变量和资料 变量类型 连续型变量---可能取值范围是一个区间,连续取值。即:在某一区间内的任意一个值都是可能被取到的。 离散型变量---取值范围是有限个值或一个数列构成 从变量的背景上考察:离散型变量取值的性质可以具有分类性质和不具有分类性质的。
基本概念——变量和资料 变量的转化 离散型变量中取值表示分类情况的离散型变量又称为分类变量: 无序变量:两分类和无序多分类,如血型。也可用数字进行编码,但没有大小关系。 有序多分类变量/等级变量:在研究背景下有等级顺序,如疗效(无效、有效、显效) 变量的转化 连续型---有序---分类(信息损失)如:年龄进行分组,疗效归为有效或无效等。
基本概念——变量和资料小结
基本概念——变量和资料 例:调查某地某年1岁儿童的生长发育情况 人群:某地某年1岁的儿童(同质和变异?) 变量:性别、身高、体重、出牙、营养状况 变量类型:??
基本概念——总体与样本 例:假定某该地在1998年的7岁男孩有10万人,现研究1998年该地7岁男孩的身高情况。 现在随机抽样调查了解200名7岁男孩的身高情况,测量他们的身高,通过分析这200个儿童的身高推断该地10万个7岁男孩身高情况。
基本概念——总体与样本 上述例子中涉及到下列概念: 研究目的:1998年某地7岁男孩的身高情况 研究对象:该地在1998年的10万个7岁男孩 观察单位(个体):每个7岁男孩 观察指标:身高(观察指标又称为变量) 观察值:身高测量值(亦称变量的取值) 总体:该地1998年的10万个7岁男孩身高观察值的全体。 即:10万个身高观察值构成的一个集合 样本:随机抽样的200个7岁男孩身高观察值
基本概念——总体 根据研究目的确定的同质的所有个体某项指 标观察值(测量值)的集合 总体population 定义 实际研究中往往观察/测量多个指标,构成个体的一组观察指标,因此简单的称总体是根据研究目的确定的同质个体的全体。 有限总体(个体总数是有限的)和无限总体 根据研究目的确定的同质的所有个体某项指 标观察值(测量值)的集合
基本概念——总体 研究总体和目标总体 在实际研究中,由于研究条件和入选标准的影响,存在研究总体和目标总体的差异 目标总体:用某药治疗的全部贫血患者(无时间地点限制) 研究总体:符合研究条件的贫血患者 目标总体的范围一般大于研究总体,研究结论在研究总体中成立,但可能可以推广到目标总体,但要谨慎。
基本概念——总体与样本 抽取这些个体的观察指标的测量值构成样本 抽样: 样本sample 样本量sample size:样本中的个体总数 在较大范围的研究对象(总体/总体的一部分)中随机抽取一部分个体,收集这些对象的观察资料 样本sample 样本量sample size:样本中的个体总数 透过样本数据研究总体规律,通过对样本的分析了解总体的基本情况或推断总体的特征 抽取这些个体的观察指标的测量值构成样本
基本概念——概率和频率 随机事件 频率frequency 频率呈现随机性和波动性。eg.治愈率不同。 随机现象的某个可能观察结果。如治疗的结果:治愈和未愈 频率frequency 在n次观察中,随机事件A发生了m次,则A发生的比例为f=m/n 频率呈现随机性和波动性。eg.治愈率不同。 随着观察次数n的增大,f随机波动幅度减小, 并趋于常数即概率。
基本概念——概率和频率 概率probability 小概率事件:随机事件发生的概率小于等于0.05 描述随机事件发生的可能性大小,取值范围为0-1 小概率事件:随机事件发生的概率小于等于0.05 小概率事件原理:小概率事件在一次随机抽样中不会发生 ——统计推断的原理 一般而言,概率是未知的总体参数
基本概念——个体变异和资料分布 同质总体的个体观察值是大同小异 个体变异individual variation 例:调查某地1999年20-40岁全部成年男子的血红蛋白水平 同一总体的同质性,不同总体的异质性 研究同性别、同年龄中日小学生的身高是否相同---大同小异?总体不同? 同质个体的同一指标测量值之间的有一定差异的
基本概念——个体变异和资料分布 资料分布 同类个体变异在概率意义下是有规律的,表现为观察值出现在不同范围中的概率大小 同一总体的个体之间的差异具有一定的规律性,以变量值的分布来反映,如正态分布,称为某变量服从正态分布。 任何随机现象或随机变异都有其固有的分布规律,即概率分布,在大量重复观察的条件下就会呈现其规律性 随机变异的规律性为该指标取值的概率分布,简称为资料的分布
基本概念——总体参数 参数 用来确定某一分布的特征;如总体均数,总体阳性率 总体参数往往是未知的 刻画总体特征的指标称为总体参数
基本概念——参数和统计量 统计量 刻画样本特征的指标称为统计量,即:由观察 资料计算出来的样本指标;可以用来近似的 反映总体参数 统计的任务:由样本了解总体,由样本统计量估计总体参数
基本概念——抽样误差和测量误差 抽样误差sampling error 描述统计量估计总体参数的误差 抽样分布 由随机抽样造成的样本统计量和总体参数之间的差异 描述统计量估计总体参数的误差 抽样分布 抽样误差在一次抽样中是随机的,在概率意义下 (大量重复抽样中)是有规律的,这种规律称为抽样分布 由于个体变异存在,抽样误差不可避免,但可通过增加样本含量减小
基本概念——抽样误差和测量误差 测量误差 可以通过改进措施消除或减少,是可控的。 如同一时间观察 实际观察值呈现规律性的偏离观察真实值
统计工作的步骤 设计:正确、周密的设计是研究成败的关键 收集:准确可靠 整理:原始资料的清理、录入、检查 分析 来源:统计报表、工作记录、专题调查或实验 整理:原始资料的清理、录入、检查 分析 统计描述和统计推断,由样本估计总体,由样本统计量估计总体参数; 合理解释统计分析结果,阐明结果与研究背景的关系
目标与方法 掌握基本知识、基本技能、概念的方法 多联系实际 讨论和操作 目标:了解统计的重要性,学会统计的思维, 用统计的方法为自己的工作服务 方法:根据实际研究问题,应用统计理论知识,分析资料,得出合理的统计结论 掌握基本知识、基本技能、概念的方法 多联系实际 讨论和操作
统计软件和教学要求 本课程采用Stata软件进行统计实践 要求每位同学能够熟练掌握Stata软件的基本操作 提供给每个同学一套题目和相应的数据(每人的数据是不同的),要求每个同学都要完成这套题目的数据分析,并且上交分析报告。 每人要到医学电子期刊上找一篇论文。评价该论文中的统计问题和研究设计问题,交文献评阅报告。 每个寝室派一个代表报告文献评阅,全班讨论,教师总结。
如何学习好卫生统计学 上课适当地记一些关键的笔记 统计课与医学课最大的不同是考理解而不是靠强记,不能靠集中记忆完成本课程学习。 对于没有理解的问题,及时与同学和教师交流。 课后及时完成习题以及相应的统计软件操作 经常考虑一下,如果自己面临某种研究状况和数据,如何进行统计分析或研究设计。
Thank You !