Distribution and Application of Discrete Variable

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二节 换元积分法 一、第一类换元积分 法(凑微分法) 二、第二类换元积分法. 问题 解决方法 利用复合函数,设置中间变量. 过程令 一、第一类换元积分法(凑微分法)
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第八章 X2 检验 卫生(医学)统计学 普通高等教育 “ 十一五 ” 国家级规划教材. X 2 检验用途 1 、推断两个或两个以上的总体率或总体构 成比 之间有无差别; 2 、推断两种属性或两个变量之间有无关联 性; 3 、频数分布的拟合优度检验。
第十七章 分类资料的统计推断.
二项分布.
第四章 概率、正态分布、常用统计分布.
第三章 函数逼近 — 最佳平方逼近.
第三章 概率及概率分布 教学目的: (1)理解试验、事件、样本空间、概率定义 (2)学习描述和使用概率的运算法则
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
08-09冬季学期 概率论与数理统计 姜旭峰,胡玉磊.
计数资料的统计推断 (2 学时) 吴成秋 公共卫生学院预防医学系
第 八 章 t 检 验.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第四章 一元函数的积分 §4.1 不定积分的概念与性质 §4.2 换元积分法 §4.3 分部积分法 §4.4 有理函数的积分
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
本讲义可在网址 或 ftp://math.shekou.com 下载
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第四章 抽样误差与假设检验 要求: 掌握:均数的抽样误差与标准误,t分 布的特征,t界值表,总体均数可信区间及其与参考值范围的区别。
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 3 主讲人 陶育纯 医学统计分析 医学统计学方法.
区间估计 Interval Estimation.
第6章 统计量及其抽样分布 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
数据统计与分析 秦 猛 南京大学物理系 手机: 第十讲 数据统计与分析 秦 猛 南京大学物理系 办公室:唐仲英楼A 手机:
常用概率分布 ---Poisson分布.
2.1.2 空间中直线与直线 之间的位置关系.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
用计算器开方.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第五节 缓冲溶液pH值的计算 两种物质的性质 浓度 pH值 共轭酸碱对间的质子传递平衡 可用通式表示如下: HB+H2O ⇌ H3O++B-
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
数理统计基本知识.
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第八章 假设检验 8.3 两个正态总体参数的假设检验.
单样本检验.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第五章 二项分布和Poisson 分布及其应用
二、配对样本t检验 配对设计(paired design)定义:将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。
假设检验.
Presentation transcript:

Distribution and Application of Discrete Variable 第六章 几种离散型变量的 分布及其应用 Distribution and Application of Discrete Variable

Binomial distribution Poisson distribution Content Binomial distribution Poisson distribution

随机变量有连续型和离散型之分,相应的概率分布就可分为连续型分布和离散型分布。 有关连续型分布如正态分布、t分布和F分布等在前面的章节中已作了介绍。 本章主要介绍在医学中较为常用的离散型分布,即二项分布、Poisson分布。

第一节 二项分布

二项分布(binomial distribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。

在医学中类似如这种n重Bernoulli试验的情形较为常见。 如用某种药物治疗某种疾病,其疗效分为有效或无效; 在动物的致死性试验中,动物的死亡或生存; 接触某种病毒性疾病的传播媒介后,感染或非感染等。

若从阳性率(死亡率、感染率等)为π的总体中随机抽取大小为n的样本,则出现阳性数为X的概率分布即呈二项分布,记为X~B(n,π).

二项分布有两个参数: 总体率 样本含量 记作:X~B(n,π)

在n个独立的个体中出现X个阳性的概率可由下式求出:

例6-1 某种药物治疗某种非传染性疾病的有效率为0.70。今用该药治疗该疾病患者10人,试分别计算这10人中有6人、7人、8人有效的概率。 本例n=10,π=0.70,X=6,7,8。按公式(6-1)计算相应的概率为 0.20012

一、二项分布的适用条件和性质 (一) 二项分布的适用条件 1. 每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和 恒等于1; 2. 每次试验产生某种结果(如“阳性”)的 概率π固定不变; 3. 重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出 现的概率。

在上面的例6-1中,对这10名非传染性疾病患者的治疗,可看作10次独立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率(π=0 在上面的例6-1中,对这10名非传染性疾病患者的治疗,可看作10次独立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率(π=0.70)是恒定的。这样,10人中发生有效的人数X~B(10,0.70)。

(二) 二项分布的性质 1. 二项分布的均数与标准差 在n次独立重复试验中,出现“阳性”次数X的 总体均数为 总体方差为 总体标准差为

若以率表示,则样本率p的 总体均数为 总体方差为 总体标准差为

样本率的标准差也称为率的标准误,可用来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。 在一般情形下,总体率π往往并不知道。此时若用样本资料计算样本率p=X/n作为π的估计值,则 的估计为:

2.二项分布的图形 对于二项分布而言,当π=0.5时,分布是对称的,见图6-1;

当 0.5时,分布是偏态的,但随着n的增大,分布趋于对称。当n 时,只要π不太靠近0或1,二项分布则接近正态分布,见图6-2。

二、二项分布的应用 (一)总体率的区间估计 1. 查表法 2. 正态近似法

1. 查表法 对于n 50的小样本资料,直接查附表6百分率的95%或99%可信区间表,即可得到其总体率的可信区间。 例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间。

本例n=13,X=6。查附表6,取0.05时,在n=13(横行)与X=6(纵列)的交叉处数值为19~75,即该吻合术妇女受孕率的95%可信区间为(19%,75%)。 附表6只列出 的部分。当 时,可先按“阴性”数n-X查得总体阴性率的 可信区间QL~QU,再用下面的公式转换成所需的阳性率的 可信区间。 PL=1-QU, PU=1-QL

2. 正态近似法 根据数理统计学的中心极限定理可得,当n较大、π不接近0也不接近1时,二项分布B(n,π)近似正态分布 ,而相应的样本率p的分布也近似 正态分布。为此,当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布来估计总体率的可信区间。

的 可信区间为: 如: 的95%可信区间为 的99%可信区间为

例6-3 在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性疾病患者100人,发现55人有效,试据此估计该药物治疗有效率的95%可信区间。

(二)样本率与总体率的比较 1.直接法 在诸如疗效评价中,利用二项分布直接计算有关概率,对样本率与总体率的差异进行有无统计学意义的比较。比较时,经常遇到单侧检验,即“优”或“劣”的问题。那么,在总体阳性率为π的n次独立重复试验中,下面两种情形的概率计算是不可少的。

(1)出现“阳性”的次数至多为k次的概率为:

例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0 例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0.55。今对10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术? 显然,这是单侧检验的问题,其假设检验为 H0:π=0.55 H1:π>0.55 =0.05

对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,拒绝H0,接受H1。 本例n=10,π=0.55,k=9。按公式(6-12)有:

按=0.05水准,拒绝H0,接受H1,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合术。

2.正态近似法 当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,利用样本率的分布近似正态分布的原理,可作样本率p与已知总体率π0的比较。检验统计量u值的计算公式为:

例6-6 对某疾病采用常规治疗,其治愈率为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法是否比常规疗法的效果好? 本例是单侧检验,记新治疗方法的治愈率为π,而π0=0.45。其假设检验为 H0:π=0.45 H1:π>0.45 =0.05

本例n=180,p=117/180=0.65 查u界值表(t界值表中 为 ∞的一行)得单侧 。按 а=0.05水准,拒绝H0,接受H1,即新的治疗方法比常规疗法的效果好。

(三)两样本率的比较 两样本率的比较,目的在于对相应的两总体率进行统计推断。 设两样本率分别为p1和p2,当n1与n2均较大,且p1、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布,以及独立的两个正态变量之差也服从正态分布的性质,采用正态近似法对两总体率作统计推断。

检验统计量u的计算公式为:

例6-7 为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性120人和女性110人,发现男性中有36人患有颈椎病,女性中有22人患有颈椎病。试作统计推断。 记该职业人群颈椎病的患病率男性为π1,女性为π2,其检验假设为 H0:π1=π2 H1:π1≠π2 =0.05

n1=120,X1=36,p1=X1/n1=36/120=0.30;n2=110,X2=22,p2=X2/n2=22/110=0.20 本例 n1=120,X1=36,p1=X1/n1=36/120=0.30;n2=110,X2=22,p2=X2/n2=22/110=0.20 查u界值表得0.05<P<0.10。按=0.05水准,不拒绝H0,即尚不能认为该职业人群颈椎病的发病有性别差异。

(四)研究非遗传性疾病的家族集聚性 非遗传性疾病的家族集聚性(clustering in families),系指该种疾病的发生在家族成员间是否有传染性?如果没有传染性,即该种疾病无家族集聚性,家族成员患病应是独立的。此时以家族为样本,在n个成员中,出现X个成员患病的概率分布呈二项分布;否则,便不服从二项分布。

例6-8 某研究者为研究某种非遗传性疾病的家族集聚性,对一社区82户3口人的家庭进行了该种疾病患病情况调查,所得数据资料见表6-1中的第(1)、(2)栏。试分析其家族集聚性。

c 表 6 - 1 患病数据资料与二项分布拟合优度的 检验 X ( ) 实际户数 A 概率 P ( ) 3 理论户数 T =82 4 5 7 26 .13265 10.8774 15.1226 228.6936 21.0247 10 0.38235 31.3525 21.3 525 455.9273 14.5420 28 0.36735 30.1229 2.1229 4.506 9 0.149 18 0.11765 9.6472 8.3528 69.7690 7.2320 合计 82 — 82.0000 42.9483

如果该社区的此种疾病存在家族集聚性,则以每户3口人的家庭为样本,在3个家庭成员中,出现X(=0,1,2,3)个成员患病的概率分布即不服从二项分布。为此,可作如下假设检验。 H0:该疾病的发生无家族集聚性 H1:该疾病的发生有家族集聚性 =0.10

本例调查的总人数为:N=82×3=246(人) 其中患病人数为: D=0×26+1×10+2×28+3×18=120(人) 以这246人的患病率估计总体的患病率,即π=D/N=120/246=0.49。

在n=3、π=0.49时,利用二项分布,求得X=0,1,2,3的概率P(X),并以此得到相应的理论户数。对理论户数与实际户数进行拟合优度(goodness of fit)的检验。此时,自由度为=组数-2=4-2=2。计算结果列于表6-1中的第(3)至(7)栏。

(五) 群检验 在工作中有时会遇到需对收集的一大批标本进行实验室检验,以了解其阳性率的问题。但要在实验室对所有标本一一作阳性认定往往需要大量的人力和物力,也不切实际,使用所谓的群检验技术即可解决这一问题。

群检验的具体做法是,将N个标本分成n群,每群m个标本,即N=mn。每个群都送试验室检验是否为阳性群。对于某群,一旦检验出阳性标本就停止此群中剩余标本的检验,该群即为阳性群。显然,只有对阴性群,才需检验群中所有的m个标本,这样可大大地减少检验标本的个数。

若记每个标本为阳性的概率为π,则1-π=Q是每个标本为阴性的概率,Qm便是某群m个标本均为阴性的概率,即一个群为阴性群的概率,而1- Qm就是一个群为阳性群的概率。假定受检的n个群中有X个群是阳性群,用X/n作为一个群为阳性群概率的估计值,于是便有

这样,阳性概率π的估计值为:

第二节 Poisson分布

Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。

医学上:诸如人群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患病人数的分布, 单位时间内(或单位空间、容积内)某罕见事件发生次数的分布,如分析在单位面积或容积内细菌数的分布,在单位空间中某种昆虫或野生动物数的分布等。

所谓随机变量X服从Poisson分布,是指在足够多的n次独立Bernoulli试验中,取值X的概率为

  一、Poisson分布的适用条件和性质

(二) Poisson分布的性质 1. 总体均数 与总体方差 相等是Poisson分布的重要特征。 2. 当n很大,而π很小,且n/π= 为常数时,二项分布近似Poisson分布。 3. 当 增大时,Poisson分布渐近正态分布。一般而言,≥20时,Poisson分布资料可作为正态分布处理。

4. Poisson分布具备可加性。即对于服从Poisson分布的m个互相独立的随机变量X1,X2,……,Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和。

(三) Poisson分布的图形 不同的参数 对应不同的Poisson分布,即 的大小决定了Poisson分布的图形特征,见图6-3。 当 越小,分布就越偏态; 当 越大时,Poisson分布则越渐近正态分布。当 ≥ 1时,随X取值的变大,P(X)值反而变小;当 <1 时,随X取值的变大,P(X)值先增大而后变小。 如若 是整数,则P(X)在X= 和X= -1位置取得最大值。  

二、Poisson分布的应用 (一)总体均数的区间估计 利用服从Poisson分布的样本资料可估计其总体均数 的可信区间。 估计方法如下: 1.  查表法 对于获得的样本计数X,当X≤50时,直接查附表7的Poisson分布可信区间表,即可得到其总体均数的95%或99%可信区间。

例6-10 某工厂在环境监测中,对一实施了技术改造的生产车间作空气中粉尘浓度的检测,1立升空气中测得粉尘粒子数为21。假定车间空气中的粉尘分布均匀,试估计该车间平均每立升空气中所含粉尘颗粒数的95%和99%可信区间。 本例,X=21,查查附表7,该车间平均每立升空气所含粉尘颗粒数的95%可信区间为13.0~32.0; 99%可信区间为11.0~35.9。

2. 正态近似法 当X>50时,可采用正态近似法估计总体均数的 可信区间,计算公式为: 如: 的95%可信区间为

例6-11 某研究者对某社区12000名居民进行了健康检查,发现其中有68名胃癌患者。估计该社区胃癌患病数的95%和99%可信区间。

(二) 样本均数与总体均数的比较 对于Poisson分布资料而言,进行样本均数与总体均数的比较有两种方法。 1. 直接法 当总体均数 <20时,可采用直接计算概率的方式对样本均数与已知总体均数间的差别进行有无统计学意义的比较,这实质上是对以样本计数X为代表的总体率π与已知的总体率π0是否有差别进行推断。

例6-12 一般人群先天性心脏病的发病率为8‰,某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群20~25岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的120名小孩中,经筛查有4人患了先天性心脏病。试作统计推断。

对于这样一种低发病率的样本计数资料可看作服从Poisson分布。在120名被调查的小孩中,按π0=0

2. 正态近似法 根据 Poisson 分布的性质,当 20 时,可用 正 态分布来近似。 样本计数 X 与已知总体均数 l ³ 20 时,可用 正 态分布来近似。 样本计数 X 与已知总体均数 的比较,采用下式计算 标准正态检验统计量

例6-13 有研究表明,一般人群精神发育不全的发生率为3‰,今调查了有亲缘血统婚配关系的后代25000人,发现123人精神发育不全,问有亲缘血统婚配关系的后代其精神发育不全的发生率是否要高于一般人群? 可以认为人群中精神发育不全的发生数服从Poisson分布。本例n=25000,X=123,π0=0.003, =nπ0=25000×0.003=75。

(三) 两个样本均数的比较 对服从Poisson分布的样本,其样本计数可看作是样本均数。两个样本均数的比较,目的在于推断两样本所代表的两总体均数是否有差别。 设两个样本计数分别为X1和X2,可利用正态近似法进行比较。

1. 两个样本的观察单位数相等,即n1=n2 。

2. 两个样本的观察单位数不相等,即n1 ≠ n2 。

例6-14 某卫生检疫机构对两种纯净水各抽验了1ml水样,分别培养出大肠杆菌4个和7个,试比较这两种纯净水中平均每毫升所含大肠杆菌数有无差别? 本例水样中的大肠杆菌数服从Poisson分布,两种水样的观察单位数相等,即均为1ml。两样本计数分别记为X1=4和X2=7,X1+X2=7+4=11。选择公式(6-21)来计算检验统计量。

例6-15 某研究者为了分析一种罕见的非传染性疾病发病的地域差异,对甲地区连续观察了四年,发现有32人发病;对乙地区连续观察了三年,发现有12人发病。假定甲、乙两地区在观察期内的人口构成相同,人口基数相近且基本不变,试作统计推断。

本例中疾病的发病人数服从Poisson分布,但对甲地区连续观察了四年(n1=4),而对乙地区只连续观察了三年(n2=3),即两个样本的观察时间单位数不相等。甲、乙两地区在观察期内的发病人数分别记为X1=32和X2=12,X1+X2=32+12=44。选择公式(6-22)来计算检验统计量。

练习题 P134 一、最佳选择题     全做 三、计算分析题 1、2、3、4

谢谢大家!