Descriptive Statistics

Slides:



Advertisements
Similar presentations
2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.5 微分及其应用. 三、可微的条件 一、问题的提出 二、微分的定义 六、微分的形式不变性 四、微分的几何意义 五、微分的求法 八、小结 七、微分在近似计算中的应用.
第十章 滑菇栽培技术 通过本章学习,要了解滑菇生物 学特性,目前生产情况和栽培形 式,掌握滑菇生产中的主要技术 环节,能够独立进行栽培生产。
医院统计.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第三章 单变量综合性描述统计量 宇传华.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
( Measures of Dispersion )
8+2-3=? 統計 吳函儒、李雅芳 吳秉蓉、王農景 - =
医学统计学 1 主讲人 陶育纯
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数
人教版五年级数学下册 众 数.
餐饮服务与管理 (一) 中山职业技术学院.
第二章 计量资料的统计描述 第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第五节 医学参考值范围的制定.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
附件6:个人基本情况表(本人保证以下填写资料真实,无弄虚作假。)
第三章 集中量数.
应用统计第1章 以Excel 和SPSS为工具的管理统计 同济大学经济与管理学院 管理科学与工程系 张建同 教授.
4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状
第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理
基本概念 资料类型 计量资料:用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得数据为数值变量。
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
分数、小数、百分数的互化 江阴市长山中心小学:郁玉芬.
統計學 授課教師:林志偉 Tel:5021.
Business Statistics Topic 6
Descriptive statistics
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第十四章 数值变量的统计描述.
第 3 章 敘述統計:數值方法.
第 5 章 樣本資料的數值分布.
第一章 敘述統計學.
第 4 章 分散量數.
本章重點: 一、集中量數的意義和種類 二、算術平均數 三、中位數(中數) 四、眾 數 五、其他集中量數 六、SPSS12.0實務操作
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第十章 方差分析.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
第七章 调查数据的分析 第一节 数据集中趋势的测定 第二节 数据离散程度的测定 第三节 动态数据的分析 第四节 相关与回归分析.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Dr. C. Hsieh College of Informatics Kao yuan University
第三章 平均数、标准差与变异系数 第一节 平均数 上一张 下一张 主 页 退 出.
第四章 集中趋势测量法 算术平均数 主 要 内 容 中位数 众数 几何平均数和调和平均数.
Chapter 5 z-Scores.
总体特征数的估计.
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
Chapter 4 Variability 離散趨勢測量 2019/4/26.
计量资料的统计描述 赵耐青 复旦大学卫生统计教研室.
统计图表绘制 电子工业出版社.
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2011/7/11.
第4课时 绝对值.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
第四章 常用概率分布 韩国君 教授.
分数再认识三 真假带分数的练习课.
第二章 计量资料的统计描述.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
Presentation transcript:

Descriptive Statistics 第二讲 统计描述 Descriptive Statistics

第一节 计量资料的统计描述 频数表与频数分布 平均指标(算术均数、几何均数、中位数、众数) 第一节 计量资料的统计描述 频数表与频数分布 平均指标(算术均数、几何均数、中位数、众数) 变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)

一、频数表与频数分布 (frequency table and frequency distribution) 用于描述资料的分布特征

160名正常成年女子的血清甘油三酯(mmol/L) 编号 血清甘油三脂 1 0.51 … 2 0.52 153 1.65 3 0.59 154 1.66 4 0.61 155 1.67 5 156 6 0.62 157 1.69 7 0.63 158 1.7 8 0.64 159 1.71 160 1.77

1. 频数表的编制步骤 (1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=1.77-0.51=1.26 (mmol/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。 本例i= R /10=1.26/10=0.126≈0.1。

(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。

组段 (1) 划 记 (2) 频数,f (3) 组中值,X (4) fX (5)= (3)×(4) 0.5~ 3 0.55 1.65 0.6~ 正 9 0.65 5.85 0.7~ 正正 12 0.75 9.00 0.8~ 13 0.85 11.05 0.9~ 正正正 17 0.95 16.15 1.0~ 18 1.05 18.90 1.1~ 正正正正 20 1.15 23.00 1.2~ 1.25 22.50 1.3~ 1.35 22.95 1.4~ 1.45 18.85 1.5~ 1.55 12.40 1.6~ 8 14.85 1.7~1.8 合计 1.75 5.25 160 182.30

2. 频数分布 ①集中趋势(central tendency):变量值集中位置。本例在组段“1.1~”。 ——平均水平指标 ②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例0.9~1.4,共有90人,占56%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。 ——变异水平指标

3. 正态分布与偏态分布 1. 表2-2频数表—— 正态分布normal distribution (图2-1) 2. 表2-3频数表——右偏态( skewed to the right),也称正偏态(positive skewed)(图2-2) 3. 表2-4频数表——左偏态( skewed to the left),也称负偏态(negative skewed)(图2-3)

正态分布:中间高、两边低、左右对称 负偏态分布:长尾向左延伸 正偏态分布:长尾向右延伸

二、平均指标 总称为平均数(average)反映了资料的集中趋势( central tendency )。常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode)

1. 均数(mean) Σ为求和符号,读成sigma 适用条件:资料呈正态或近似正态。

例:均数=182.3/160=1.14 组段 (1) 划 记 (2) 频数,f (3) 组中值,X (4) fX (5)= (3)×(4) 0.5~ 3 0.55 1.65 0.6~ 正 9 0.65 5.85 0.7~ 正正 12 0.75 9.00 0.8~ 13 0.85 11.05 0.9~ 正正正 17 0.95 16.15 1.0~ 18 1.05 18.90 1.1~ 正正正正 20 1.15 23.00 1.2~ 1.25 22.50 1.3~ 1.35 22.95 1.4~ 1.45 18.85 1.5~ 1.55 13.95 1.6~ 8 13.20 1.7~1.8 合计 1.75 5.25 160 182.30 例:均数=182.3/160=1.14

2. 几何均数(geometric mean) 几何均数:变量对数值的算术均数的反对数。

几何均数的适用条件与实例 例:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。 适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料 例:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。 此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数

频数表资料的几何均数 例:几何均数=反对数(102.1/72)=26.19 抗体滴度 ⑴ 人数,f ⑵ 滴度倒数,X ⑶ lgX ⑷ f·lgX ⑸ 1:2.5  1:10 1:40 1:160 1:640 合计 14 18 22 12 6 72 2.5 10.0 40.0 160.0 640.0 0.3979 1.0000 1.6021 2.2041 2.8062 5.5706 18.0000 35.2462 26.4492 16.8372 102.1032

3. 中位数(median) 适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料; ②资料有不确定数值;③资料分布不明等。 中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料; ②资料有不确定数值;③资料分布不明等。

中位数计算公式与实例 特点:仅仅利用了中间的1~2个数据 例:9名病人潜伏期: 2,3,3,3,4,5,6,9,16 先将观察值按从小到大顺序排列,再按以下公式计算: 特点:仅仅利用了中间的1~2个数据 例:9名病人潜伏期: 2,3,3,3,4,5,6,9,16

频数表资料的中位数 i; fm 下限值L 中位数Md 上限值U

中位数=1.1+0.1x[(160x50%-72)/20] =1.14微克/毫升 组段 (1) 划 记 (2) 频数,f (3) 累计频数Sf (4) 累计百分率 0.5~ 3 1.9 (0~1.9) 0.6~ 正 9 12 7.5 (1.9~7.5) 0.7~ 正正 24 15.0 (7.5~15.0) 0.8~ 13 37 23.1 (15.2~23.1) 0.9~ 正正正 17 54 33.8 (23.1~33.8) 1.0~ 18 72 45.0 (33.8~45.0) 1.1~ 正正正正 20 92 57.5 (45.0~57.5) 1.2~ 110 68.8 (57.5~68.8) 1.3~ 127 79.4 (68.8~79.4) 1.4~ 140 87.5 (79.4~87.5) 1.5~ 149 93.1 (87.5~93.1) 1.6~ 8 157 98.1 (93.1~98.1) 1.7~1.8 合计 160 100.0 (98.1~100) 中位数=1.1+0.1x[(160x50%-72)/20] =1.14微克/毫升

4. 众数(mode) 出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。

均数、中位数、众数三者关系 正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 负偏态分布时:均数<中位数<众数

三、变异(variation)指标 反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation

三、变异(variation)指标 甲 乙 丙 440 480 490 460 495 500 540 510 505 560 520 均数 例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3) 盘编号  甲 乙 丙 1 440 480 490 2 460 495 3 500 4 540 510 505 5 560 520 合计 2500 均数 甲 乙 丙

1.极差(Range) (全距) 优点:简便 缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定 120 40 20

2.百分位数与四分位数间距 Percentile and quartile range 百分位数 :数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。 四分位间距: QR=P75- P25 四分位半间距quartile deviation:QD=QR/2 P100(max) P75 P50(中位数) P25 P0(min) Px

频数表资料的百分位数 i; fm 下限值L 百分位数Px 上限值U

P25=0.9+0.1x[(160x25%-37)/17]=0.92 P75=1.3+0.1x[(160x75%-110)/17]=1.36 组段 (1) 划 记 (2) 频数,f (3) 累计频数Sf (4) 累计百分率 0.5~ 3 1.9 (0~1.9) 0.6~ 正 9 12 7.5 (1.9~7.5) 0.7~ 正正 24 15.0 (7.5~15.0) 0.8~ 13 37 23.1 (15.2~23.1) 0.9~ 正正正 17 54 33.8 (23.1~33.8) 1.0~ 18 72 45.0 (33.8~45.0) 1.1~ 正正正正 20 92 57.5 (45.0~57.5) 1.2~ 110 68.8 (57.5~68.8) 1.3~ 127 79.4 (68.8~79.4) 1.4~ 140 87.5 (79.4~87.5) 1.5~ 149 93.1 (87.5~93.1) 1.6~ 8 157 98.1 (93.1~98.1) 1.7~1.8 合计 160 100.0 (98.1~100) P25=0.9+0.1x[(160x25%-37)/17]=0.92 P75=1.3+0.1x[(160x75%-110)/17]=1.36 QR=1.36-0.92=0.44;QD=0.22

百分位数的应用 确定医学参考值范围 (reference range): 如95%参考值范围=P97.5-P2.5; 表示有95%正常个体的测量值在此范围。 中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征

3.方差 方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。

样本方差为什么要除以(n-1) 小样本分母为n-1,称为自由度。

4.标准差 标准差 (standard deviation)即方差的正平方根;其单位与原变量X的单位相同。

标准差的计算 盘编号  甲 乙 丙 甲2 乙2 丙2 1 440 480 490 193600 230400 240100 2 460 495 211600 245025 3 500 250000 4 540 510 505 291600 260100 255025 5 560 520 313600 270400 合计 2500 1260400 1251000 1250250 标准差 50.99 15.81 7.91

方差=(221.52-182.302/160)/(160-1)= 0.0869 标准差=0.298mmol/L 组段 (1) 频数,f (3) 组中值,X (4) fX (5)= (3)×(4) fX2 (5)= (3)×(4) 2 0.5~ 3 0.55 1.65 0.91 0.6~ 9 0.65 5.85 3.80 0.7~ 12 0.75 9.00 6.75 0.8~ 13 0.85 11.05 9.39 0.9~ 17 0.95 16.15 15.34 1.0~ 18 1.05 18.90 19.85 1.1~ 20 1.15 23.00 26.45 1.2~ 1.25 22.50 28.13 1.3~ 1.35 22.95 30.98 1.4~ 1.45 18.85 27.33 1.5~ 1.55 13.95 21.62 1.6~ 8 13.20 21.78 1.7~1.8 合计 1.75 5.25 9.19 160 182.30 221.52 方差=(221.52-182.302/160)/(160-1)= 0.0869 标准差=0.298mmol/L

变异系数(coefficient of variation,CV) 5. 变异系数 变异系数(coefficient of variation,CV) 适用条件:①观察指标单位不同,如身高、体重 ②同单位资料,但均数相差悬殊 均数 标准差 变异系数 青年男子 身高 170 cm 6 cm 3.5% 体重 60 kg 7 kg 11.7%

变异指标小结 1.极差较粗,适合于任何分布 2.标准差与均数的单位相同,最常用,适合于近似正态分布 3.变异系数主要用于单位不同或均数相差悬殊资料 4.平均指标和变异指标分别反映资料的不同特征, 常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位半间距