生物统计学 Biostatistics 第一章 统计数据的收集与整理

Slides:



Advertisements
Similar presentations
2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
Advertisements

第十三章 医学统计学方法的基本概念和基本步骤
我的家乡 南通 ….
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
生物醫學統計學.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
講員:謝浩明 桃園縣中壢市32054中大路300號 中央大學資訊管理系 中央大學土木系
第 1 章 資料與統計.
深化“量 服” 康 复 服务 共建小康和谐社会 广元市残疾人联合会 姜 雷 2015年7月.
医学统计学 Medical Statistics.
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
07 觀光行銷研究.
五、学习方法及应考对策 (一)学习方法 1.保证复习时间,吃透教材:上课之前应该对课程相关内容进行预习,把不理解的问题记录下来,带着问题听课。考试之前务必把课本看3遍以上,第一遍一定要精读,最好能做笔记,边读边记,不要快,要记牢。第二、三遍可以查缺补漏型的看,通过做题目看书,加深课本印象。 2.加强概念、理论性内容的重复记忆:概念、理论性内容一般比较抽象,所以在理解的基础上一定要重复记忆,在接受辅导之后,再加以重点记忆,以便及时巩固所学内容,切忌走马观花似的复习,既浪费时间,效果也不好。
第三章 隨機變數.
統計學 授課教師:林志偉 Tel:5021.
Analysis of Variance 變異數分析
Descriptive statistics
Chapter 2 簡單迴歸模型.
試算表軟體 II 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
第十四章 数值变量的统计描述.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.
第 3 章 敘述統計:數值方法.
第七章 SPSS的非参数检验.
第 5 章 樣本資料的數值分布.
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Stochastic Relationships and Scatter Diagrams
Sampling Theory and Some Important Sampling Distributions
敘述統計-資料的特性 Properties of Variable
第六章 機率分配.
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
第 4 章 分散量數.
Interval Estimation區間估計
本章重點: 一、集中量數的意義和種類 二、算術平均數 三、中位數(中數) 四、眾 數 五、其他集中量數 六、SPSS12.0實務操作
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第 7 章 抽樣與抽樣分配 Part A ( ).
第八章 報酬與風險.
貨幣需求與貨幣市場的均衡.
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
第四章 抽樣與抽樣分配 4.1 抽樣與抽樣方法 抽樣分配概論 常見的抽樣分配 中央極限定理55
生物統計 1 課程簡介 (Introduction)
EXCEL+ORIGN+SPSS的描述统计
抽樣分配 Sampling Distributions
第七章 抽樣與抽樣分配.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Dr. C. Hsieh College of Informatics Kao yuan University
第三章 平均数、标准差与变异系数 第一节 平均数 上一张 下一张 主 页 退 出.
統計學簡介 許明宗.
統計學回顧 區國強.
医学统计学 (Medical Statistics)
医学统计方法.
(四)标准差(standard deviation)
第四章 常用概率分布 韩国君 教授.
统计软件应用 2 主讲人 陶育纯 SPSS 统计软件应用 2 主讲人 陶育纯 教案.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
第七章 计量资料的统计分析.
4. 執行行銷研究 任課教師: 行銷管理:理論解析與實務應用 曾光華著 前程文化 出版.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
Presentation transcript:

生物统计学 Biostatistics 第一章 统计数据的收集与整理 2012.2

1.1 总体与样本 总体(population) 无限总体(intinite population) 总体(pupulation):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。 个体(individual) 样本(sample):从总体中随机抽取的若干个个体所构成的集合。 样本单位(sample unit) 样本含量(sample size),记为n。 总体(population) 无限总体(intinite population) 有限总体(finite population) 样本(sample) 样本含量(sample size)

从总体中获得样本的过程称为抽样(sampling) 抽样的目的,是希望通过对样本的研究,推断其总体,样本必须能够代表总体。我们需要的样本应该是一个总体的缩影。为了达到这个目的,就需要用随机抽样(random sampling)的方法获得样本。

随机数字表的使用 见附表一(p251)

不同的抽样方式得到不同的数据分布 从一有限总体中抽样,可分为放回式抽样(sampling with replacement)和非放回式抽样(sampling without replacement)。所谓放回式抽样是指:从总体中抽出一个个体,记下它的特征后,放回总体中,再做第二次抽样。这种抽样方式可能会重复抽中某一个体。非放回式抽样是指:从总体中抽出个体后,不再放回。 对于无限总体,两者实际上没有区别。

1.2 数据类型及频数(率)分布 根据观察数据之间有无缝隙(gap),常将数据分类为离散型(discrete)变量(有缝隙)与连续型(continuous)变量(无缝隙)两大类。 定量变量(quantitative variable):亦称为数值变量,变量值是定量的,表现为数值大小,一般有度量衡单位。e.g. 身高、体重。 定性变量(qualitative variable):亦称为分类变量,其变量值是定性的,表现某个体属于几种互不相容的类型中的一种。e.g. 血型,豌豆花的颜色。 常数(constant):是不能给予不同数值的变量,代表事物特征和性质的数值。e.g.样本平均数,标准差。 与某种标准作比较所得到的数据称为连续型数据(continuous data),又称为度量数据(measurement data)。 由记录不同类别个体的数目所得到的数据,称为离散型数据(discrete data),又称为计数数据(count data)。

在判断数据的类型之后,就要进一步研究数据的变化规律。描述数据变化规律的最简单方法是将这些数据列成频数表(frequency table)或绘成频数图(frequency graph),根据频数分布进行研究。

频数(率)表和频数(率)图的编绘 离散型数据频数(率)表和频数(率)图

编制连续型数据的频数(率)表 的方法步骤 从原始数据表中找出最大值和最小值,并求出极差。 决定划分的组数,分组数是由数据的多少决定的,在数据较少时,如50~100个数,可以分为7~10组。数据较多时,可分为15~20组。 根据极差与决定划分的组数,确定组限。 在频数表中列出全部组限、组界及中值。 将原始数据表中数据,用唱票的方式填入频数表中,计算出各组的频数和频率。

最低与最高一组非零频数的点分别与相邻零频数中值点相连 连续型数据频数(率)表 和频数(率)图 最低与最高一组非零频数的点分别与相邻零频数中值点相连

累计频数图的意义? 横坐标与多边形图有何差异?

累计的意义?累计频数图的意义?

研究频数(率)分布的意义 1. 根据频数(率)分布,可以看出数据的集中情况(重心)。 平均值(average value, mean) 算术平均数(arithmetic mean)、中位数(median)和众数(mode)。 2. 从频数(率)表或频数(率)图中,可以直观地看出数据的变异情况。 3. 可以直观看出频数(率)图的变化形状。还可显示一些不规则的情况。

频数(率)分布的不恒定性 当用随机抽样方法获得样本时,由于偶然性,有时在一个样本中抽到的数值偏高,而另一个样本中数值偏低,使两个样本的频数分布出现不同。由于样本分布的不恒定性,当用样本去推断总体时,推断的结果也会有所不同。这就需要考察当用某一样本去推断总体时所得结果与真正总体之间有多大误差,结果的可信度有多高。

1.3 样本的几个特征数 样本统计量

平均数(mean) 生物统计学中,使用最多的是算术平均数( )。

求和符号3个简单运算法则 [b-(a-1)]c

算数平均数的基本特征 算术平均数的计算与样本内的每个值都有关,它的大小受每个值的影响。 若每个xi都乘以相同的数k,则平均数亦应乘以k。 若每个xi都加上相同的数A,则平均数亦应加上A。 如果 是n1个数的平均数, 是n2个数的平均数,那么全部n1 + n2个数的算术平均数是加权平均数(weighted mean):

平均数的计算方法 离散型数据频数资料: 注意记住所有字母符号的含义

例1.1 新生儿体重 作表计算是个好习惯

连续型数据频数资料: 和离散型数据计算公式比较,符号有何异同 怎么才能精确计算? accurate calculation

学习小组任务 1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考1.3.3或课外参考资料)。

例1.2 “三尺三”株高

标准差 对于数据的变异程度,经常使用的度量方法有三种,它们是:范围(range)或称为极差,平均离差(mean deviation, MD)和标准差(Standard deviation, s or SD)或称为标准离差。其中最重要的是标准差。

学习小组任务 1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考1.3.3或课外参考资料)。

平均离差(mean deviation, MD)

除得的商称为样本方差(sample variance),用符号s2表示。 离差平方和(sum of square of deviations) n-1:该样本自由度 在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少。 自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)

标准差(s,SD) 方差的缺点: 方差s2是离均差平方的平均数。虽然方差在实际应用中用得最广泛,但它还不能直接地指出某个数x与平均数之间的偏离究竟达到什么程度。

s要比MD要大一些。 如果数据分布曲线是平滑且对称的,那么大约57%的数据落在平均数±MD内; 如果数据分布曲线是平滑且对称的,那么大约68%的数据落在平均数±s内。

总之,衡量数据离散程度时,三种方法都可以使用。用抽样理论可以证明:用标准差估计总体离散程度最可靠,平均离差次之。

标准差的计算方法 1. 非频数资料的计算方法 不要求公式推导。

例1.3 从两个小区分别随机抽取20株小麦,测其单穗粒数,结果如下表,计算其标准差。

列出下表计算

但是若将上述数据进行编码,则可明显看出用(1 但是若将上述数据进行编码,则可明显看出用(1. 12)式计算极为便利。具体做法是任选一个数C,求每一个数与C的差,利用差值计算离差平方和。结果与未编码所得的值是一样的。C最好选接近平均数的一个数,这样编出的数码最容易计算。

编码和列表都是好习惯。 现仅对例1.3中的 第一个小区进行 计算,取C=25, 于是x=x-25。 根据(1.12)式

1. 频数资料的计算方法

对于连续型数据,可以用中值代替离散型数据中的组值做近似的计算,但是连续型数据中的中值一般都较大,必须编码后再计算。可用下式:

偏斜度和峭度 度量数据围绕众数呈不对称的程度,即通常所称的偏斜度(skewness)。虽然有几种不同的度量偏斜的方法。但是鉴于三阶中心矩(third central moment)的方法有最好的特性,因而使用得最广泛。三阶中心矩的定义为:

下面用4、11、12和13这四个数示意性地说明三阶中心矩并计算出 m3 。从下表中可以看出,当我们将离差立方后,其中有一个负数,它远远超过另外三个正数,其代数和为负数,因此m3= 负数说明在平均数左侧的离差大于右侧的离差。因此分布是不对称的。

若频数分布是对称于平均数的,则三阶中心矩等于0。 当曲线在大于平均数的一侧有一个“长尾”时(图1-5A) ,m3 >0;正偏。 当曲线在小于平均数的一侧有一“长尾”时(图1-5B),m3 <0。负偏。

m3 >0 m3 <0

m3的两个严重缺点 (l)它的单位为物理学单位的立方,因此在不同类型数据之间不易比较。 (2)因为它没有计算数据变异的性质,因此没有一个绝对的含义。为了解决这一问题,制定了一个没有任何单位的量。

g1 >0 g1 <0

第二个度量曲线形状的量是g2,称为峭度(kurtosis)

不要求推导。

了解

对于频数资料,可用类似计算标准差的方法,将中值编码后再计算。可以使用以下公式: 了解

例1.2 “三尺三”株高分布的g1和g2。将表1-3中的数据用C=157编码后,列成下表

g1和 g2值与“正态”曲线的值差异都不大。g1=-0. 105与正态的0很接近,但稍微有些负偏。g2=0 在做曲线形状判断时,必须是一个大的样本, g1 和 g2 才可靠。判断g1 时,样本含量至少要200以上,g2需l000以上。以上各阶矩都是由样本计算得到的,因此称为样本矩(sample moment)。

变异系数(coefficient of variability,CV) 假若两组数据的标准差相等,但是平均数不等,那么平均数大的样本,比平均数小的样本相对来说更整齐。 为了客观地比较两者的变异程度,引入变异系数(coefficient of variability,CV)这一概念。变异系数的公式为:

本章作业 第3版教材 P20 1.5(要求通过频数资料计算平均数和标准差) 1.16 (要求列表、编码) 第2版教材 P20 1.12 (要求列表、编码)

6.5 6.6

学习小组任务 1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考1.3.3或课外参考资料)。