生物统计学 Biostatistics 第一章统计数据的收集与整理

Slides:

Advertisements

Similar presentations

2007 年广州市初中信息技术结业考试海珠区质量分析海珠区教育发展中心范谊 2007 年 9 月 8 日.

Advertisements

第十三章医学统计学方法的基本概念和基本步骤

我的家乡南通 ….

第二章语言测试的功能与分类湖南师范大学外国语学院邓杰教授.

資料分析 ---敘述統計分析.

資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作商管研究資料分析SPSS的應用 Chapter 1 資料概說.

人群健康研究的统计方法预防医学系指导教师：方亚电话：

Measures of location and dispersion

第一章生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系，其涉及哪些内容 1.

2017/3/9 实验误差及其控制魏敏杰陈杰阮强王振宁单凤平孟繁浩富伟能陈磊中国医科大学.

生物醫學統計學.

SPSS统计软件的使用方法基础主讲人：宋振世（闵行校区）电话：

講員：謝浩明桃園縣中壢市32054中大路300號中央大學資訊管理系中央大學土木系

第 1 章資料與統計.

深化“量服” 康复服务共建小康和谐社会广元市残疾人联合会姜雷 2015年7月.

医学统计学 Medical Statistics.

第三章资料的统计描述上一张下一张主页退出.

3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量

07 觀光行銷研究.

五、学习方法及应考对策（一）学习方法 1．保证复习时间，吃透教材：上课之前应该对课程相关内容进行预习，把不理解的问题记录下来，带着问题听课。考试之前务必把课本看3遍以上，第一遍一定要精读，最好能做笔记，边读边记，不要快，要记牢。第二、三遍可以查缺补漏型的看，通过做题目看书，加深课本印象。 2．加强概念、理论性内容的重复记忆：概念、理论性内容一般比较抽象，所以在理解的基础上一定要重复记忆，在接受辅导之后，再加以重点记忆，以便及时巩固所学内容，切忌走马观花似的复习，既浪费时间，效果也不好。

第三章隨機變數.

統計學授課教師:林志偉 Tel:5021.

Analysis of Variance 變異數分析

Descriptive statistics

Chapter 2 簡單迴歸模型.

試算表軟體 II 醫務管理暨醫療資訊學系陳以德副教授: 濟世CS 轉

第十四章数值变量的统计描述.

分析化学教程第二章分析数据处理及分析测试的质量保证（1）分析化学教程（学年)

第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.

第 3 章敘述統計：數值方法.

第七章 SPSS的非参数检验.

第 5 章樣本資料的數值分布.

Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用

Stochastic Relationships and Scatter Diagrams

Sampling Theory and Some Important Sampling Distributions

敘述統計-資料的特性 Properties of Variable

第六章機率分配.

第一章敘述統計學.

統計基本觀念壹、資料資料來源：實驗之量測結果，抽樣調查結果，公告資料。一、資料類型

第 4 章分散量數.

Interval Estimation區間估計

本章重點：一、集中量數的意義和種類二、算術平均數三、中位數（中數）四、眾數五、其他集中量數六、SPSS12.0實務操作

統計量數集中趨勢量數離散趨勢量數相對位置量數分配形態量數.

敍述統計學許明宗.

第 3 章敘述統計II：數值方法 Part A (3.1~3.2).

Review 統計方法的順序確定目的蒐集資料整理資料分析資料推論資料 (變量，對象) (方法：普查，抽樣)

第 7 章抽樣與抽樣分配 Part A ( ).

第八章報酬與風險.

貨幣需求與貨幣市場的均衡.

描述性统计学作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)

第四章抽樣與抽樣分配 4.1 抽樣與抽樣方法抽樣分配概論常見的抽樣分配中央極限定理55

生物統計 1 課程簡介 (Introduction)

EXCEL+ORIGN+SPSS的描述统计

抽樣分配 Sampling Distributions

第七章抽樣與抽樣分配.

Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現，(1)請依此數據完成下頁表格之統計值並說明之；(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次各場次ERA

Dr. C. Hsieh College of Informatics Kao yuan University

第三章平均数、标准差与变异系数第一节平均数上一张下一张主页退出.

統計學簡介許明宗.

統計學回顧區國強.

医学统计学（Medical Statistics）

医学统计方法.

（四）标准差(standard deviation)

第四章常用概率分布韩国君教授.

统计软件应用 2 主讲人陶育纯 SPSS 统计软件应用 2 主讲人陶育纯教案.

第四章多组资料均数的比较七年制医疗口腔《医学统计学》

第七章计量资料的统计分析.

4. 執行行銷研究任課教師：行銷管理：理論解析與實務應用曾光華著前程文化出版.

主講人陳陸輝特聘研究員兼主任政治大學選舉研究中心美國密西根州立大學博士

Presentation transcript:

生物统计学 Biostatistics 第一章统计数据的收集与整理 2012.2

1.1 总体与样本总体（population）无限总体（intinite population）总体（pupulation）：根据研究目的确定的同质研究对象的全体（集合）。分有限总体与无限总体。个体（individual）样本（sample）：从总体中随机抽取的若干个个体所构成的集合。样本单位（sample unit）样本含量（sample size），记为n。总体（population）无限总体（intinite population）有限总体（finite population）样本（sample）样本含量（sample size）

从总体中获得样本的过程称为抽样（sampling）抽样的目的，是希望通过对样本的研究，推断其总体，样本必须能够代表总体。我们需要的样本应该是一个总体的缩影。为了达到这个目的，就需要用随机抽样（random sampling）的方法获得样本。

随机数字表的使用见附表一（p251）

不同的抽样方式得到不同的数据分布从一有限总体中抽样，可分为放回式抽样（sampling with replacement）和非放回式抽样（sampling without replacement）。所谓放回式抽样是指：从总体中抽出一个个体，记下它的特征后，放回总体中，再做第二次抽样。这种抽样方式可能会重复抽中某一个体。非放回式抽样是指：从总体中抽出个体后，不再放回。对于无限总体，两者实际上没有区别。

1.2 数据类型及频数（率）分布根据观察数据之间有无缝隙（gap），常将数据分类为离散型（discrete）变量（有缝隙）与连续型（continuous）变量（无缝隙）两大类。定量变量（quantitative variable）：亦称为数值变量，变量值是定量的，表现为数值大小，一般有度量衡单位。e.g. 身高、体重。定性变量（qualitative variable）：亦称为分类变量，其变量值是定性的，表现某个体属于几种互不相容的类型中的一种。e.g. 血型，豌豆花的颜色。常数（constant）：是不能给予不同数值的变量，代表事物特征和性质的数值。e.g.样本平均数，标准差。与某种标准作比较所得到的数据称为连续型数据（continuous data），又称为度量数据（measurement data）。由记录不同类别个体的数目所得到的数据，称为离散型数据（discrete data），又称为计数数据（count data）。

在判断数据的类型之后，就要进一步研究数据的变化规律。描述数据变化规律的最简单方法是将这些数据列成频数表（frequency table）或绘成频数图（frequency graph），根据频数分布进行研究。

频数（率）表和频数（率）图的编绘离散型数据频数（率）表和频数（率）图

编制连续型数据的频数（率）表的方法步骤从原始数据表中找出最大值和最小值，并求出极差。决定划分的组数，分组数是由数据的多少决定的，在数据较少时，如50～100个数，可以分为7～10组。数据较多时，可分为15～20组。根据极差与决定划分的组数，确定组限。在频数表中列出全部组限、组界及中值。将原始数据表中数据，用唱票的方式填入频数表中，计算出各组的频数和频率。

最低与最高一组非零频数的点分别与相邻零频数中值点相连连续型数据频数（率）表和频数（率）图最低与最高一组非零频数的点分别与相邻零频数中值点相连

累计频数图的意义？横坐标与多边形图有何差异？

累计的意义？累计频数图的意义？

研究频数（率）分布的意义 1. 根据频数（率）分布，可以看出数据的集中情况（重心）。平均值（average value, mean）算术平均数（arithmetic mean）、中位数（median）和众数（mode）。 2. 从频数（率）表或频数（率）图中，可以直观地看出数据的变异情况。 3. 可以直观看出频数（率）图的变化形状。还可显示一些不规则的情况。

频数（率）分布的不恒定性当用随机抽样方法获得样本时，由于偶然性，有时在一个样本中抽到的数值偏高，而另一个样本中数值偏低，使两个样本的频数分布出现不同。由于样本分布的不恒定性，当用样本去推断总体时，推断的结果也会有所不同。这就需要考察当用某一样本去推断总体时所得结果与真正总体之间有多大误差，结果的可信度有多高。

1.3 样本的几个特征数样本统计量

平均数（mean）生物统计学中，使用最多的是算术平均数（）。

求和符号3个简单运算法则 [b-(a-1)]c

算数平均数的基本特征算术平均数的计算与样本内的每个值都有关，它的大小受每个值的影响。若每个xi都乘以相同的数k，则平均数亦应乘以k。若每个xi都加上相同的数A，则平均数亦应加上A。如果是n1个数的平均数，是n2个数的平均数，那么全部n1 ＋ n2个数的算术平均数是加权平均数（weighted mean）：

平均数的计算方法离散型数据频数资料：注意记住所有字母符号的含义

例1.1 新生儿体重作表计算是个好习惯

连续型数据频数资料：和离散型数据计算公式比较，符号有何异同怎么才能精确计算？ accurate calculation

学习小组任务 1、学会使用随机数字表（p2和附表1）。 2、为什么说通过中值计算连续型数据频数资料是不精确的，要怎样算才是精确的？ 3、如何理解标准差的作用？标准差公式是怎么推导出来的（可参考1.3.3或课外参考资料）。

例1.2 “三尺三”株高

标准差对于数据的变异程度，经常使用的度量方法有三种，它们是：范围（range）或称为极差，平均离差（mean deviation, MD）和标准差（Standard deviation, s or SD）或称为标准离差。其中最重要的是标准差。

学习小组任务 1、学会使用随机数字表（p2和附表1）。 2、为什么说通过中值计算连续型数据频数资料是不精确的，要怎样算才是精确的？ 3、如何理解标准差的作用？标准差公式是怎么推导出来的（可参考1.3.3或课外参考资料）。

平均离差（mean deviation, MD）

除得的商称为样本方差（sample variance），用符号s2表示。离差平方和（sum of square of deviations） n-1：该样本自由度在统计模型中，自由度指样本中可以自由变动的变量的个数，当有约束条件时，自由度减少。自由度计算公式：自由度=样本个数-样本数据受约束条件的个数，即df = n - k（df自由度，n样本个数，k约束条件个数）

标准差（s，SD）方差的缺点：方差s2是离均差平方的平均数。虽然方差在实际应用中用得最广泛，但它还不能直接地指出某个数x与平均数之间的偏离究竟达到什么程度。

s要比MD要大一些。如果数据分布曲线是平滑且对称的，那么大约57％的数据落在平均数±MD内；如果数据分布曲线是平滑且对称的，那么大约68％的数据落在平均数±s内。

总之，衡量数据离散程度时，三种方法都可以使用。用抽样理论可以证明：用标准差估计总体离散程度最可靠，平均离差次之。

标准差的计算方法 1. 非频数资料的计算方法不要求公式推导。

例1．3 从两个小区分别随机抽取20株小麦，测其单穗粒数，结果如下表，计算其标准差。

列出下表计算

但是若将上述数据进行编码，则可明显看出用（1 但是若将上述数据进行编码，则可明显看出用（1. 12）式计算极为便利。具体做法是任选一个数C，求每一个数与C的差，利用差值计算离差平方和。结果与未编码所得的值是一样的。C最好选接近平均数的一个数，这样编出的数码最容易计算。

编码和列表都是好习惯。现仅对例1.3中的第一个小区进行计算，取C＝25，于是x＝x－25。根据（1.12）式

1. 频数资料的计算方法

对于连续型数据，可以用中值代替离散型数据中的组值做近似的计算，但是连续型数据中的中值一般都较大，必须编码后再计算。可用下式：

偏斜度和峭度度量数据围绕众数呈不对称的程度，即通常所称的偏斜度（skewness）。虽然有几种不同的度量偏斜的方法。但是鉴于三阶中心矩（third central moment）的方法有最好的特性，因而使用得最广泛。三阶中心矩的定义为：

下面用4、11、12和13这四个数示意性地说明三阶中心矩并计算出 m3 。从下表中可以看出，当我们将离差立方后，其中有一个负数，它远远超过另外三个正数，其代数和为负数，因此m3＝负数说明在平均数左侧的离差大于右侧的离差。因此分布是不对称的。

若频数分布是对称于平均数的，则三阶中心矩等于0。当曲线在大于平均数的一侧有一个“长尾”时（图1－5A），m3 ＞0；正偏。当曲线在小于平均数的一侧有一“长尾”时（图1－5B），m3 ＜0。负偏。

m3 ＞0 m3 <0

m3的两个严重缺点（l）它的单位为物理学单位的立方，因此在不同类型数据之间不易比较。（2）因为它没有计算数据变异的性质，因此没有一个绝对的含义。为了解决这一问题，制定了一个没有任何单位的量。

g1 ＞0 g1 <0

第二个度量曲线形状的量是g2，称为峭度（kurtosis）

不要求推导。

了解

对于频数资料，可用类似计算标准差的方法，将中值编码后再计算。可以使用以下公式：了解

例1.2 “三尺三”株高分布的g1和g2。将表1-3中的数据用C＝157编码后，列成下表

g1和 g2值与“正态”曲线的值差异都不大。g1＝-0. 105与正态的0很接近，但稍微有些负偏。g2＝0 在做曲线形状判断时，必须是一个大的样本， g1 和 g2 才可靠。判断g1 时，样本含量至少要200以上，g2需l000以上。以上各阶矩都是由样本计算得到的，因此称为样本矩（sample moment）。

变异系数（coefficient of variability，CV）假若两组数据的标准差相等，但是平均数不等，那么平均数大的样本，比平均数小的样本相对来说更整齐。为了客观地比较两者的变异程度，引入变异系数（coefficient of variability，CV）这一概念。变异系数的公式为：

本章作业第3版教材 P20 1.5（要求通过频数资料计算平均数和标准差） 1.16 （要求列表、编码）第2版教材 P20 1.12 （要求列表、编码）

6.5 6.6

学习小组任务 1、学会使用随机数字表（p2和附表1）。 2、为什么说通过中值计算连续型数据频数资料是不精确的，要怎样算才是精确的？ 3、如何理解标准差的作用？标准差公式是怎么推导出来的（可参考1.3.3或课外参考资料）。