数据统计与分析 秦 猛 南京大学物理系 手机:13913939339 qinmeng@nju.edu.cn 第十讲 数据统计与分析 秦 猛 南京大学物理系 qinmeng@nju.edu.cn 办公室:唐仲英楼A508 83688960 手机:13913939339 1
《数理统计》
第六章 数理统计的基本概念 数 理 统 计 的 分 类 描述统计学 推断统计学 —— 对随机现象进行观测、试验, 以取得有代表性的观测值 第六章 数理统计的基本概念 数 理 统 计 的 分 类 描述统计学 推断统计学 —— 对随机现象进行观测、试验, 以取得有代表性的观测值 —— 对已取得的观测值进行整理、 分析,作出推断、决策,从而 找出所研究的对象的规律性
参数估计 假设检验 推断 统计学 方差分析 回归分析
共同获得 2003年诺贝尔经济学奖 美国经济学家罗伯特 恩格尔 英国经济学克莱夫 格兰杰 (Robert F. Engle 1942 ~) 美国经济学家罗伯特 恩格尔 (Robert F. Engle 1942 ~) 英国经济学克莱夫 格兰杰 (Clive Granger 1934 ~) 共同获得 2003年诺贝尔经济学奖
20 世纪 80 年代两位获奖者 发明了新的统计方法来处理许多 经济时间数列中两个关键属性: 易 变 性 随时间变化的 非稳定性
§ 6.1 基本概念 总体和样本 总体 —— 研究对象全体元素组成的集合 § 6.1 基本概念 总体和样本 总体 —— 研究对象全体元素组成的集合 所研究的对象的某个(或某些)数量指标的全体,它是一个随机变量(或多维随机变量).记为X . X 的分布函数和数字特征称为总体的分布函数和数字特征.
个体 —— 组成总体的每一个元素 即总体的每个数量指标,可看作随机 变量 X 的某个取值.用 表示. 样本 —— 从总体中抽取的部分个体. 用 表示, n 为样本容量. 称 为总体 X 的一个容量为n的样本观测值,或称样本的一个实现. 样本空间 ——样本所有可能取值的集合.
N / n 10. 简单随机样本 若总体 X 的样本 满足: (1) 与X 有相同的分布 (2) 相互独立 则称 为简单随机样本. (2) 相互独立 则称 为简单随机样本. 一般,对有限总体,放回抽样所得到的样本为简单随机样本,但使用不方便,常用不放回抽样代替.而代替的条件是 N / n 10. 样本容量 总体中个体总数
设总体 X 的分布函数为F (x),则样本 的联合分布函数为 若总体X 的 d.f.为 f( x),则样本 的联合 d.f.为
例如 设某批产品共有N 个,其中的次品数为M, 其次品率为 若 p 是未知的,则可用抽样方法来估计它. 从这批产品中任取一个产品,用随机变量 X来描述它是否是次品: X 服从参数为p 的0-1分布,可用如下表示 方法:
设有放回地抽取一个容量为 n 的样本 其样本值为 样本空间为 的联合分布为
若抽样是无放回的,则前次抽取的结果会影响后面抽取的结果.例如 所以, 当样本容量 n 与总体中个体数目N 相比很小时, 可将无放回抽样近似地看作放回抽样.
统计量 定义 设 是取自总体X 的一个样本, 为一实值连续函数,且不含有未知参数, 则称随机变量 为统计量. 若 是一个样本值, 称 的一个样本值 为统计量
例 是未知参数, 则 是一样本, 是统计量, 其中 但 不是统计量. 若 , 已知,则为统计量
常用的统计量 设 是来自总体 X 的容量 为 n 的样本,称统计量 为样本均值 为样本方差 为样本标准差
为样本的k 阶原点矩 为样本的k 阶中心矩 例如
注 样本方差 与样本二阶中心矩 的不同 关系式 1) 推导 故
2) 推导 设 则
228, 196, 235, 200, 199 例1 从一批机器零件毛坯中随机地抽取10件, 测得其重量为(单位: 公斤): 例1 从一批机器零件毛坯中随机地抽取10件, 测得其重量为(单位: 公斤): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199 求这组样本值的均值、方差、二阶原点矩与二阶中心矩. 解 令
则
例2 在总体 中,随机抽取一个容量 为36的样本,求样本均值 落在50.8到53.8 之间的概率. 解 故
例3 设总体X 的概率密度函数为 为总体的样本,求 (1) 的数学期望与方差 (2) (3) 解(1)
(2) 近似 (3) 由中心极限定理
抽样分布 §6.2 确定统计量的分布 是数理统计的基本 问题之一 正态总体是最常见的总体, 本节介绍 的几个抽样分布均对正态总体而言.
统计中常用分布 (1) 正态分布 若 ~ 则 特别地, 若 i.i.d. ~ 则
标准正态分布的 分位数 定义 若 ,则称z 为标准正态 分布的上 分位数. 若 , 则称 为标准 正态分布的双侧 分位数.
标准正态分布的 分位数图形 常用 数字 z • -z/2=z1-/2 /2 /2 z/2 • -z/2 •
(2) 分布 ( n为自由度 ) 定义 设 相互独立, 且都服从标准正态分布N (0,1),则 n = 1 时,其密度函数为
n = 2 时,其密度函数为 为参数为1/2的指数分布.
一般 的密度函数为 自由度为 n 的 其中, 在x > 0时收敛,称为函数,具有性质
n=2 n = 3 n = 5 n = 10 n = 15
分布的性质 n = 10 例如 • 20.05(10)
证 1 设 相互独立, 则
(3) t 分布 (Student 分布) 定义 X ,Y相互独立, 设 则称 T 服从自由度为 n 的T 分布. 其密度函数为
n = 1 n=20 t 分布的图形(红色的是标准正态分布)
t 分布的性质 1°f n(t)是偶函数, 2°T 分布的上 分位数 t 与双测 分位数 t/2 均 有表可查.
n = 10 • • -t t
/2 /2 • • -t/2 t/2
(4) F 分布 定义 X, Y 相互独立, 设 令 则称 F 服从为第一自由度为n ,第二自由度为 m 的F 分布. 其密度函数为
m = 10, n = 4 m = 10, n = 10 m = 10, n = 15 m = 4, n =10 m = 10, n = 10 m = 15, n = 10
F 分布的性质 例如 求 事实上, F(n,m) • 故
例1 证明 证
例2 证明: 证 设 令
抽样分布的某些结论 (Ⅰ) 一个正态总体 设总体 ,样本为( ), 与 相互独立 (1) (2)
( II ) 两个正态总体 设 与 分别是来 自正态总体 与 的 相互独立的简单随机样本. 令
则 (3) 若 则
设 与 分别是来 自正态总体 与 的 相互独立的简单随机样本. 则
与 相互独立
(4)
例3设 ,为使样本均值大于70 的概率不小于90%,则样本容量至少取多少? 解 设样本容量为 n , 则 故 令 得 即 所以取
例4 从正态总体 中,抽取了 n = 20的样本 (1) 求 (2) 求 解 (1) 即
故
(2) 故
例5 设r.v. X 与Y 相互独立,X ~ N(0,16), Y ~ N(0,9) , X1, X2 ,…, X9 与Y1, Y2 ,…, Y16 分别是取自 X 与 Y 的简单随机样本, 求 统计量 所服从的分布. 解
从而
例7 设 是来自N ( , 2 )的 简单随机样本, 是样本均值, 则服从自由度为n - 1的t 分布的随机变量为
解 故应选 (B)
思考题: 1. 设 为从正态总体 X ~ N ( , 2) 中抽取的简单随机样本 其样本均值为 求统计量 的数学期望 E (Y ).
是来自正态 总体 的 容量为 n 的两个样本均值, 且两样本相互 独立, 试确定 n , 使两样本均值之差的绝 对值超过 的概率大约为 0.01.