Download presentation
Presentation is loading. Please wait.
1
医学统计学 (Medical Statistics)
2
第一讲 基本概念
3
统计学与医学统计学方法 Statistics:“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data” ----Webster 国际大辞典 统计学是收集、分析、解释与表达数据资料的一门科学。
4
统计工作的基本步骤 1. 统计设计:包括调查、实验设计。 2. 收集资料:取得准确可靠的原始资料
3. 整理资料:对资料进行清理、改错,数量化 4. 分析资料:统计描述、统计推断
5
医学统计学 用统计学原理和方法研究医学问题
6
数据类型 1. 计量资料 2. 计数资料 3. 等级资料 4. 三类资料间关系
7
Quantitative data 计量资料
观察单位observations 个体individuals 变量variables Units;elements 住院号 年龄 身高 体重 住院天数 职业 文化程度 分娩方式 妊娠结局 27 165 71.5 5 无 中学 顺产 足月 22 160 74.0 小学 助产 25 158 68.0 6 管理员 大学 23 161 69.0 剖宫产 159 62.0 11 商业 157 2 早产 20 66.0 4 24 70.5 3 29 154 57.0 7 干部 Quantitative data 计量资料 Qualitative data 计数资料
8
1. 计量资料 用仪器、工具等测量(measure) 方法获得的数据,即为计量资料measurment data。也叫定量数据Quantitative data 特点:有计量单位,如患者的身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、红细胞计数(1012/L)
9
2. 计数资料 按某种属性分类,然后清点每类的数据,称计数资料(count data)或enumeration data。也叫定性数据Qualitative data 特点:无固有计量单位,如肤色(黑、白)、血型(ABO)、职业(工农兵)、性别(男女)
10
3. 等级资料 Rank data 半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(ordinal category data)。 ①癌症分期:早、中、晚。 ②药物疗效:治愈、好转、无效、死亡。 ③尿蛋白: ,,,++,+++及以上
11
实例数据1
12
实例数据2
13
4. 三类资料间关系 计量资料 等级资料 计数资料 例:一组2040岁成年人的血压(舒张压) 8 正常血压 12 轻度高血压
< 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压 等级资料 计量资料 计数资料 以12kPa(90mmHg)为界分为正常与异常两组,统计每组例数。
14
统计学基本概念 1. 随机变量及其分类 2. 同质与变异 3. 总体与样本 4. 参数与统计量 5. 误差 6. 概率
15
1. 随机变量(random variable)
简称变量(variable),统计上习惯用大写拉丁字母表示 ,如X、Y 、Z、… 。 变量值习惯用小写拉丁字母表示 ,如性别x1=1 (男) 、x2 =1 (男)、x3 =0 (女) 、…。 编号 (ID) 性别 (X) 体重 (kg)(Y) 疗效(Z) 张1 1 66 李2 78 王3 57 2 …
16
随机变量的分类 离散型变量(discrete variable),主要是自然数,例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等 。 连续型变量(continuous variable),在一定区间内变量取值无限个,或数值无法一一列举出来。主要是定量测量结果,例如某地区男性健康成人的身高值、体重值,一批传染性肝炎患者的血清转氨酶测定值。
17
2. 同质与变异 homogeneity and variation
同质:指事物的性质、影响条件或背景相同或非常相近。 变异:指同质的个体之间的差异 。
18
同质与变异的例子 例1 调查2003年长沙市7岁男童的身高和体重 同质:2003年、长沙市、7岁男童 变异:身高和体重各不相同
例1 调查2003年长沙市7岁男童的身高和体重 同质:2003年、长沙市、7岁男童 变异:身高和体重各不相同 例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同
19
最大值=6.18, 最小值=3.29, 极差=2.89 算术均数=4.72,标准差=0.57
表 名正常成年男子红细胞计数值(1012/L) 5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.24 5.45 4.32 4.84 4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.46 4.66 4.20 4.21 3.73 5.17 5.79 4.49 4.85 5.28 4.78 4.94 5.21 4.68 5.26 3.84 4.17 4.56 3.52 6.00 4.05 4.92 4.87 4.28 4.46 5.03 5.69 5.53 4.86 4.97 4.70 4.37 5.33 4.75 5.39 5.27 6.18 4.13 5.22 4.44 4.43 4.02 5.86 5.36 3.86 5.48 5.31 4.53 4.83 4.11 3.29 4.18 4.06 3.42 4.52 5.19 3.70 5.51 4.93 3.92 5.04 4.54 3.95 4.40 3.77 4.16 5.35 3.71 4.80 最大值=6.18, 最小值=3.29, 极差= 算术均数=4.72,标准差=0.57
21
3. 总体与样本 population and sample
总体:特定研究对象中所有观察单位的测量值。分有限总体与无限总体。 样本:从总体中随机抽取的部分观察单位
22
随机抽样 random sampling 为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。
23
对样本数据进 行观察或计算 统计指标, 目的是推论总 体。
24
4. 参数与统计量 parameter and statistic
参数:总体的统计指标,如总体均数,采用希腊字母记为μ。固定的常数 总体 样本 抽取部分观察单位 μ? 推断inference 统计量:样本的统计指标,如样本均数,采用拉丁字母分别记为 。统计量是参数附近波动的随机变量 。
25
5. 误差 error 误差:实际观察值与客观真实值之差 (1)系统误差 (2)随机误差
26
(1)系统误差 systematic error
在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。 特点:观察值有系统性、方向性、周期性的偏离真值。 可以通过严格的实验设计和技术措施消除。
27
(2)随机误差random error 排除上述误差后尚存的误差,受多种无法控制的因素的影响。 特点:大小方向不一的随机变化。
随机测量误差(random measurement error) ——提高操作者熟练程度可以减少这种误差 随机抽样误差( random sampling error):由抽样造成的样本统计量和总体参数间的差异。 ——不可避免,但有一定的分布规律,可估计。
28
6. 概率probability 概率:随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。 随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。 概率:随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
29
小概率事件 必然事件 P= 1 不可能事件 P=0 随机事件 0<P<1
30
频率 frequency 样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f / n。
频率与概率间的关系: 样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率。
Similar presentations