概率论与数理统计 课件制作:应用数学系 概率统计课程组
在终极的分析中, 一切知识都是历史. 在抽象的意义下, 一切科学都是数学. 在理性的世界里, 所有的判断都是统计学. ----C.R.劳 第六章 数理统计的基本概念 在终极的分析中, 一切知识都是历史. 在抽象的意义下, 一切科学都是数学. 在理性的世界里, 所有的判断都是统计学. ----C.R.劳
6.1 数理统计学的基本概念 6.1.1 引例 6.1.2 统计与数理统计概述 6.1.3 总体与样本 6.1.4 统计量
引例 :某工厂生产大批电子元件.在实际应用中,我们可以提出许多感兴趣的问题 6.1.1 引例 引例 :某工厂生产大批电子元件.在实际应用中,我们可以提出许多感兴趣的问题 1.这批元件的平均寿命如何? 2.这批元件的寿命服从什么分布? 3.如果你是使用单位.要求平均寿命能达到某个指定的数l,例如5000小时.问这批元件可否被接受? 4.如何获得所需要的数据?
6.1.2 统计和数理统计学概述 一、统计浅谈 统计学:在日常生活中.”统计”相当于”计数”.小至一个家庭,单位,大至国家,都有许多计数即统计的工作. 丹麦统计史学家哈尔德认为,”统计学”和”统计学家”词出于意大利语:统计学即国情学,对象是国务活动家感兴趣的事实,而统计学家则是”处理国务的人”
1.数据必须带有随机性的影响,才能成为数理统计学的研究对象 国家:State.统计学Statistics 数理统计:它是使用概率论和数学的方法,研究怎样用有效的方法收集(通过试验或观察)带有随机误差的数据,并在设定的模型(统计模型)之下,对这种数据进行分析(统计分析)以对所研究的问题作出推断(统计推断). 1.数据必须带有随机性的影响,才能成为数理统计学的研究对象 数据随机性的来源:
Example 1.全国人口抽样调查 Example 2.比较两种小麦品种的优良 (1)是问题中所涉及的研究对象为数很大,我们不可能全部加以研究,而只能用“一定的方式”挑选其中一部分去考察。 Example 1.全国人口抽样调查 (2)数据随机性的另一种来源是试验的随机误差,这是指那种在试验过程中未加控制,无法控制,甚至不了解的因素所引起的误差。 Example 2.比较两种小麦品种的优良
2.所谓有效的方法 (1)是可以建立一个在数学上可以处理并尽可能简单方便的模型来描述所得的数据; (2)数据中要包含尽可能多的,与研究的问题有关的信息. 有效收集数据的问题构成数理统计的两个分支: 1.抽样理论;2,试验设计 Example 1.考察马鞍山市人均消费水平.
——从部分推断整体的性质,是一种在对有关信息缺乏完全掌握的情况下进行推断的方法 二、数理统计的特点: ——从部分推断整体的性质,是一种在对有关信息缺乏完全掌握的情况下进行推断的方法 数 理 统 计 的 特 点 归纳与演绎 统计规律与因果关系 ——统计规律是关于群体的规律,“统计规律”这个提法的启示是:教人看问题不可绝对化,因而有思想方法上的意义.统计规律未必蕴涵因果关系.
Example 1.设想有一枚价值高的钻石,想用一架天平尽可能准确地称出它的重量有多少? 吸烟增加患肺癌,其他癌症以及诸如心脏病等严重疾病的危险. 1948-1949,英国学者多尔与希尔从伦敦20家医院中收集了709名肺癌病人以及对照组-另709名患肺癌者的吸烟情况的资料,按吸烟斗还是纸烟,男或女,将烟吞进肺里与否等指标分类.
统计结论:吸烟与患肺癌呈明显的正相关. 如何理解这个统计规律的意义? 首先,统计规律是关于群体的规律。 对于群体中的个体情况复杂多样,没有一定.拿本例来说:有吸烟很多而终生保持健康者,也有不吸烟而很早罹患肺癌者,不能用这类个别例子来否定二和者有正相关性的结论,因为它讲的是群体中一种趋势。 可能会有疑问:群体是抽象的,每件事都必须落实到具体的个体,患不患肺癌是每个人的事,这样关于群体中的趋势的规律有何意义?
统计应用实例: 1.这种规律反映了某种客观存在的现实有科学和认识意义。 2.对个体有警戒作用。 1. 孟德尔遗传定律的发现; 2.中国患SARS的病人的死亡率是多少; 3.太阳黑子的活动有周期性的规律吗?
4.股票分析系统
5.经济统计分析
6.科学研究统计分析
例 为了解马鞍山市民2008年收入情况,现抽样调查10000人的收入。 问题: 1. 怎样从10000人的收入情况去估计全体马鞍山市民的平均收入?怎样估计所有南京市民的收入与平均收入的偏离程度? 2. 若市政府提出了全体马鞍山市民平均收入应达到的标准,从抽查得到的10000人收入数据,如何判断全体南京市民的平均收入与收入标准有无差异?差异是否显著? 3. 抽查得到的10000人的收入有多有少,若这10000人来自不同的行业,那么,收入的差异是由于行业不同引起的,还是仅由随机因素造成的? 4. 假设收入与年龄有关,从抽查得到的10000人收入和年龄的对应数据,如何表述全体马鞍山市民的收入与年龄之间的关系?
问题1实质:从10000人的收入出发,估计全体马鞍山市民收入分布的某些数字特征(此处是期望和方差)。 -----在数理统计中,解决这类问题的方法称为参数估计。 问题2实质:根据抽查得到的数据,去检验总体收入的某个数字特征(此处是期望)与给定值的差异。 -----在数理统计中,解决这类问题的方法称为假设检验。 问题3实质:分析数据误差的原因(此处是行业)。当有多个因素起作用时,还要分析哪些因素起主要作用。 -----在数理统计中,解决这类问题的方法称为方差分析。 问题4实质:根据观察数据研究变量间(此处是收入与年龄间)的关系。 -----在数理统计中,解决这类问题的方法称为回归分析。
推断 三、数理统计包含的内容 参数估计(Parametric Estimation) 假设检验(Hypothesis Testing) 统计学 方差分析(Analysis of variance) 回归分析(Regression)
四、统计的一般步骤 选择个体 观测样本 总体 样本 样本观察值 (数据) 数据处理 样本有关结论 统计量 推断总体性质 为了集中简单随机样本所带来的总体信息,考虑样本的函数,且不含任何未知参数,这样的“不含未知参数的样本的函数”称为统计量。 统计量的分布称为抽样分布.
6.1.3 总体(population)和样本(Sample) 总体 —— 研究对象全体元素组成的集合 所研究的对象的某个(或某些)数量指标的全体,它是一个随机变量(或多维随机变量),记为X . X 的分布函数和数字特征称为总体的分布函数和数字特征.
个体 —— 组成总体的每一个元素 即总体的每个数量指标,可以看作随机 变量 X 的某个取值.用 表示. 样本 —— 从总体中抽取的部分个体. 用 表示样本, n 为样本容量. 称 为总体 X 的一个容量为n 的样本观测值,或称样本的一个实现. 样本空间 —— 样本所有可能取值的集合.
抽样调查简史 抽样调查是相对于普查而言的. 1802年,Laplace 受法国政府委托,用其“比例法”,通过抽样对法国人口总数进行估计; 1861年,英国的法尔博士作过人口普查; 19世纪最后20年中,挪威A.N.Kiaer提出“代表性抽样” 1906年,英国A.L.Bowley将概率论的思想引入,提出“随机抽样理论”. 1919,Fisher提出“分层抽样”理论. 中国,许宝禄.
简单随机样本(i.i.d) 若总体 X 的样本 满足: (1)要有代表性 与X 有相同的分布 (2) 相互独立 则称 为简单随机样本. (2) 相互独立 则称 为简单随机样本. 一般,对有限总体,采用放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是 N / n 10. 其中N为总体中个体的数目,n 为样本容量.
设 为总体X 的简单随机样本, X 的分布函数为F (x), 则 的联合分布函数为 若总体X 的概率密度函数为f( x), 则 的联合概率密度函数为
例如 某批产品共有N 个,其次品数为M, 其次品率为 若 p未知,则可用抽样的方法来估计它. 从这批产品中任取一个产品,记 X 服从参数为 p 的0-1分布,
设有放回地抽取了一个容量为n 的样本 其样本值为 样本空间为 的联合分布为
若抽样是无放回地,则前次抽取的结果会影响后面抽取的结果.例如 所以, 当样本容量n 与总体中个体数目N 相比很小时, 可将无放回抽样近似地看作放回抽样.
准备600个完全相同的球,球上依次写上1-600,放在盒中,并彻底搅乱,然后取6个球 在实际如何获得简单随机样本? Example:一批灯泡有600个,要从中抽6个作寿命试验,如何选这6个灯泡? 方案1. 准备600个完全相同的球,球上依次写上1-600,放在盒中,并彻底搅乱,然后取6个球 方案2 利用“随机数表,可以从表中任意位置开始读数(每三个数为一组)如: 537,633,358,643,982, 026,645,850,585,358, 039,624,084,... 方案3 可利用计算机产生6个1~600间的不同的随机整数.
6.1.4 统计量(Statistic) 样本来自总体,样本的观察值就含有总体各个方面的信息,但这些信息较为分散,为使这些分散在样本中有关的信息集中起来反映总体的各种特征,需对样本进行加工,一种有效的办法就是构造样本的函数,不同的样本函数反映总体的不同特征,这种函数便是统计量。
设 是总体X 的一个样本, 参数, 则称随机变量 为统计量. 定义 为一实值连续函数,且不含有未知 若 是一个样本值, 称 的一个样本值. 为统计量
Problem:用什么统计量来刻画所考察的对象? Example:某大学新聘一位教授,给15位研究生上课,期末考试成绩如下: 72,81,90,85,76, 90,80,83,78,75, 63,73,30,82,90 成绩上报后 教学院长认为:试题太易,因为的90的就有3人 系主任认为:考题偏难,因为平均成绩才76.5分 教授认为:考题适宜,因为从总体看80分是有代表性的,多于80分和少于80分的人数相等 谁的话有道理?
常用的统计量: 设 是来自总体 X 的容量 为 n 的样本,称统计量 为样本均值 为样本方差 为样本标准差
为样本的k 阶原点矩 为样本的k 阶中心矩 例如
例1 是未知参数, 是一样本, 则 是统计量, 其中 但 不是统计量.若 , 已知,则为统计量.
(5) 顺序统计量(Order Statistic)与极差 设 为样本 的一个实现,且 当 取值为 时, 定义随机变量 则称统计量 为顺序统计量. 其中 称 为极差(sample rang)
注:样本方差 与样本二阶中心矩 的不同 关系式 1) 推导 故
2) 推导 设 则
例2 从一批机器零件毛坯中随机地抽取10件,测得其重量为(单位: 公斤): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199 求这组样本值的均值、方差、二阶原点矩与二阶中心矩. 解 令
则
例3 设总体X 的概率密度函数为 为总体的样本,求 (1) 的数学期望与方差 (2) (3) 解 (1)
(2) (近似), (3) 由中心极限定理
内容小结: 1.统计和数理统计基本概述 2.总体和样本 3.常用统计量:样本均值;样本方差; 样本的k 阶中心矩。
6.2 正态样本统计量的抽样分布 6.2.1 正态分布 6.2.2 (卡方)分布 6.2.3 t分布(学生分布) 6.2.4 F分布 6.2 正态样本统计量的抽样分布 6.2.1 正态分布 6.2.2 (卡方)分布 6.2.3 t分布(学生分布) 6.2.4 F分布 6.2.5 正态总体抽样分布的某些结论 6.2.6 Excel实现
由于正态总体是最常见的总体, 故本节介绍的几个抽样分布均对正态总体而言. 确定统计量的分布—— 抽样分布, 是数理统计的基本问题之一. 采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止 2 或 3 (甚至还可能是随机的), 故计算往往很复杂, 有时还 需要特殊技巧或特殊工具. 由于正态总体是最常见的总体, 故本节介绍的几个抽样分布均对正态总体而言.
6.2.1 正态分布(Normal distribution) 若 i.i.d. ~ 则 特别地, 若 i.i.d. ~ 则
上(双)侧 分位数的概念 设X 为连续型随机变量,其概率密度函数为f ( x ) , 为给定常数, 0 < <1 若 则称 x 为X 所服从的分布的上 分位数. 如果 X 的概率密度函数为偶函数,则对于满足 0 < < 1/2 的 , 若 则称 x /2 为X 所服从的分布的双侧 分位数
标准正态分布的上 分位数 z 常用 数字 z • -z/2 = z1-/2 /2 /2 z/2 • -z/2 •
6.2.2 分布(Chi squared r.v.) 定义 设 相互独立, 且都服从标准正态分布N (0,1),则
n = 2 时,其密度函数为 为参数为1/2的指数分布.
的密度函数为 自由度为 n 的 一般地, 其中, 在x > 0 时收敛,称为 函数,具有性质
分布 密度函数图 n=2 n = 3 n = 5 n = 10 n = 15
分布的性质 n = 10 例如 ( ) 05 . 307 18 10 2 = > c P • 20.05(10)
证 1 设 相互独立, 则
6.2.3 t 分布 (Student 分布) X , Y 相互独立, 定义 设 则T 所服从的分布称为自由度为 n 的t 分 布其密度函数为
n = 1 n=20 t 分布的图形(红色的是标准正态分布)
t 分布的性质 1°f n(t)是偶函数, 2°t分布的上 分位数 t 与双测 分位数 t/2 有表可查
n = 10 • • -t t
/2 /2 • • -t/2 t/2
(F distribution with n and m degrees) 定义 X , Y 相互独立, 设 令 则F 所服从的分布称为第一自由度为n ,第二自由度为 m 的F 分布,其密度函数为
m = 10, n = 4 m = 10, n = 10 m = 10, n = 15 m = 4, n =10 m = 10, n =10 m = 15, n =10
F 分布的性质 • 19 . 5 ) , 4 ( = F ? ) 4 , 5 ( = F 例如 但 事实上, 故 F(n,m) 05 = F 但 ? ) 4 , 5 ( 95 . = F 事实上, F(n,m) • 故
例1 证明 证
证明: 例2 证 设 令
6.2.5 正态总体抽样分布的某些结论 (Ⅰ) 一个正态总体 设 总体的样本为( ),则 与 相互独立 (1) (2)
( II ) 两个正态总体 设 是来自正态总体 的一个简单随机样本 是来自正态总体 的一个简单随机样本 它们相互独立. 令
则 (3) 若 则
设 是来自正态总体 的一个简单随机样本 是来自正态总体 的一个简单随机样本 , 它们相互独立. 则
与 相互独立
(4)
,为使样本均值 42 —— . 例3 设总体 大于70 的概率不小于 90% ,则样本容量 解 设样本容量为 n , 则 故 令 查表得 即 所以取
例4 从正态总体 中,抽取了 n = 20 的样本 (1) 求 (2) 求
解 (1) 即 故 (P.386)
(2) 故
例5 设X 与Y 相互独立, X ~ N(0,16), Y ~ N(0,9) , X1, X2 ,…, X9 与 Y1, Y2 ,…, Y16 分别是取自 X 与 Y 的简单随机样本, 求统 计量 所服从的分布. 解
从而
例6 设总体 的样本, 为总体 X 试确定常数c 使cY 服从 分布. 解 故 因此
例7 设 是来自正态总体N ( , 2 ) 的简单随机样本, 是样本均值, 则服从自由度为n - 1的t 分布的随机变量为:
解 故应选(B)
例8 在总体X~N(12,4)中抽取容量为5的样本X1,X2,…,X5,求下列概率: 解 (1)因为 =2Φ(1.118)-1 =0.7364
例8 在总体X~N(12,4)中抽取容量为5的样本X1,X2,…,X5,求下列概率: 解 =0.2923
例8 在总体X~N(12,4)中抽取容量为5的样本X1,X2,…,X5,求下列概率: 解 =0.4215
6.2.6 Excel实现 (1) 利用Excel计算样本均值、样本方差、样本标准差 Step1 在数据编辑窗口中,建立数据文件; Step2 计算样本均值——调用Average 函数: Step3 计算样本方差——调用Var 函数 ; Step4 计算样本标准差——调用Stdev 函数. 超级连接到4.1.1
(2) 利用Excel计算四大分布的分位数 Step1 计算标准正态分布的上侧α分位数 Step2 计算 的上侧α分位数 超级连接4.1.1
内容小结: 1. 正态分布 2. (卡方)分布 3. t分布(学生分布) 4. F分布 5. 正态总体抽样分布的某些结论 2. (卡方)分布 3. t分布(学生分布) 4. F分布 5. 正态总体抽样分布的某些结论 6. Excel实现
思考题: (非正态总体的样本均值分布问题) 设总体X 的分布未知,其期望 均已知, 为来自总体X 的样本,则当n充分 大时,其样本均值服从什么分布? 答案: 即
思考题2(2003年数学一考研试题选择题) 设随机变量X~t(n),n>1, ,则( ) Y~ (n). B. Y~ (n-1). C. Y~F(n,1). D. Y~F(1,n). 思考题3.(2001年数学一考研试题十二题) 设总体X服从正态分布 ,(>0),从该总体中抽取简单随机样本 ,其样本均值 ,求统计量 的数学期望。