医学统计学 (Medical Statistics)
第一讲 基本概念
统计学与医学统计学方法 Statistics:“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data” ----Webster 国际大辞典 统计学是收集、分析、解释与表达数据资料的一门科学。
统计工作的基本步骤 1. 统计设计:包括调查、实验设计。 2. 收集资料:取得准确可靠的原始资料 3. 整理资料:对资料进行清理、改错,数量化 4. 分析资料:统计描述、统计推断
医学统计学 用统计学原理和方法研究医学问题
数据类型 1. 计量资料 2. 计数资料 3. 等级资料 4. 三类资料间关系
Quantitative data 计量资料 观察单位observations 个体individuals 变量variables Units;elements 住院号 年龄 身高 体重 住院天数 职业 文化程度 分娩方式 妊娠结局 2025655 27 165 71.5 5 无 中学 顺产 足月 2025653 22 160 74.0 小学 助产 2025830 25 158 68.0 6 管理员 大学 2022543 23 161 69.0 剖宫产 2022466 159 62.0 11 商业 2024535 157 2 早产 2025834 20 66.0 4 2019464 24 70.5 3 2025783 29 154 57.0 7 干部 Quantitative data 计量资料 Qualitative data 计数资料
1. 计量资料 用仪器、工具等测量(measure) 方法获得的数据,即为计量资料measurment data。也叫定量数据Quantitative data 特点:有计量单位,如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L)
2. 计数资料 按某种属性分类,然后清点每类的数据,称计数资料(count data)或enumeration data。也叫定性数据Qualitative data 特点:无固有计量单位,如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)
3. 等级资料 Rank data 半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(ordinal category data)。 ①癌症分期:早、中、晚。 ②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: ,,,++,+++及以上
实例数据1
实例数据2
4. 三类资料间关系 计量资料 等级资料 计数资料 例:一组2040岁成年人的血压(舒张压) 8 正常血压 12 轻度高血压 <8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压 等级资料 计量资料 计数资料 以12kPa(90mmHg)为界分为正常与异常两组,统计每组例数。
统计学基本概念 1. 随机变量及其分类 2. 同质与变异 3. 总体与样本 4. 参数与统计量 5. 误差 6. 概率
1. 随机变量(random variable) 简称变量(variable),统计上习惯用大写拉丁字母表示 ,如X、Y 、Z、… 。 变量值习惯用小写拉丁字母表示 ,如性别x1=1 (男) 、x2 =1 (男)、x3 =0 (女) 、…。 编号 (ID) 性别 (X) 体重 (kg)(Y) 疗效(Z) 张1 1 66 李2 78 王3 57 2 …
随机变量的分类 离散型变量(discrete variable),主要是自然数,例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等 。 连续型变量(continuous variable),在一定区间内变量取值无限个,或数值无法一一列举出来。主要是定量测量结果,例如某地区男性健康成人的身高值、体重值,一批传染性肝炎患者的血清转氨酶测定值。
2. 同质与变异 homogeneity and variation 同质:指事物的性质、影响条件或背景相同或非常相近。 变异:指同质的个体之间的差异 。
同质与变异的例子 例1 调查2003年长沙市7岁男童的身高和体重 同质:2003年、长沙市、7岁男童 变异:身高和体重各不相同 例1 调查2003年长沙市7岁男童的身高和体重 同质:2003年、长沙市、7岁男童 变异:身高和体重各不相同 例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同
最大值=6.18, 最小值=3.29, 极差=2.89 算术均数=4.72,标准差=0.57 表1-1 120名正常成年男子红细胞计数值(1012/L) 5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.24 5.45 4.32 4.84 4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.46 4.66 4.20 4.21 3.73 5.17 5.79 4.49 4.85 5.28 4.78 4.94 5.21 4.68 5.26 3.84 4.17 4.56 3.52 6.00 4.05 4.92 4.87 4.28 4.46 5.03 5.69 5.53 4.86 4.97 4.70 4.37 5.33 4.75 5.39 5.27 6.18 4.13 5.22 4.44 4.43 4.02 5.86 5.36 3.86 5.48 5.31 4.53 4.83 4.11 3.29 4.18 4.06 3.42 4.52 5.19 3.70 5.51 4.93 3.92 5.04 4.54 3.95 4.40 3.77 4.16 5.35 3.71 4.80 最大值=6.18, 最小值=3.29, 极差=2.89 算术均数=4.72,标准差=0.57
3. 总体与样本 population and sample 总体:特定研究对象中所有观察单位的测量值。分有限总体与无限总体。 样本:从总体中随机抽取的部分观察单位
随机抽样 random sampling 为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。
对样本数据进 行观察或计算 统计指标, 目的是推论总 体。
4. 参数与统计量 parameter and statistic 参数:总体的统计指标,如总体均数,采用希腊字母记为μ。固定的常数 总体 样本 抽取部分观察单位 μ? 推断inference 统计量:样本的统计指标,如样本均数,采用拉丁字母分别记为 。统计量是参数附近波动的随机变量 。
5. 误差 error 误差:实际观察值与客观真实值之差 (1)系统误差 (2)随机误差
(1)系统误差 systematic error 在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。 特点:观察值有系统性、方向性、周期性的偏离真值。 可以通过严格的实验设计和技术措施消除。
(2)随机误差random error 排除上述误差后尚存的误差,受多种无法控制的因素的影响。 特点:大小方向不一的随机变化。 随机测量误差(random measurement error) ——提高操作者熟练程度可以减少这种误差 随机抽样误差( random sampling error):由抽样造成的样本统计量和总体参数间的差异。 ——不可避免,但有一定的分布规律,可估计。
6. 概率probability 概率:随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。 确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。 随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。 概率:随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
小概率事件 必然事件 P= 1 不可能事件 P=0 随机事件 0<P<1
频率 frequency 样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f / n。 频率与概率间的关系: 样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率。