第五章统计量及其分布 §5.1 总体与样本 §5.2 样本数据的整理与显示 §5.3 统计量及其分布 §5.4 三大抽样分布

Slides:

Advertisements

Similar presentations

1/67 美和科技大學美和科技大學社會工作系社會工作系. 2/67 社工系基礎學程規劃 ( 四技 ) 一上一下二上二下三上校訂必修校訂必修英文 I 中文閱讀與寫作 I 計算機概論 I 體育服務與學習教育 I 英文 II 中文閱讀與寫作 II 計算機概論 II 體育服務與學習教育 II.

Advertisements

§ 3 格林公式 · 曲线积分与路线的无关性在计算定积分时, 牛顿 - 莱布尼茨公式反映了区间上的定积分与其端点上的原函数值之间的联系 ; 本节中的格林公式则反映了平面区域上的二重积分与其边界上的第二型曲线积分之间的联系. 一、格林公式二、曲线积分与路线的无关性.

公司為社團法人股東之人數林宜慧陳冠蓉. 公司之意義  根據公司法第一條規定 : 「本法所稱公司，謂以營利為目的，依照本法組織、登記、成立之社團法人。」

專業科目必修管理學概論、化妝品行銷與管理、專題討論、藥妝品學、流行設計、專題講座、時尚創意造型與實務專業科目必修化妝品法規、生理學、化妝品原料學、化妝品有效性評估、時尚化妝品調製與實務、藝術指甲、生物化學概論、美容經絡學、校外實習專業科目必修應用色彩學、化妝品概論、時尚.

聖若翰天主教小學聖若翰天主教小學歡迎各位家長蒞臨自行分配中一學位家長會自行分配中一學位家長會.

認識食品標示東吳大學衛生保健組製作.

后勤保卫竞聘讲演报告竞聘岗位：后勤保卫副科长竞聘人： XX 2014年5月2日.

回归教材、梳理知识、突出能力 ——2015年历史二轮复习思考李树全西安市第八十九中学.

入党基础知识培训.

高等代数课件陇南师范高等专科学校数学系 2008年制作.

颞下颌关节常见病.

「健康飲食在校園」運動 2008小學校長高峰會講題：健康飲食政策個案分享講者：啟基學校－莫鳳儀校長日期：二零零八年五月六日(星期二)

致理科技大學保險金融管理系實習月開幕暨頒獎典禮

☆ 104學年度第1學期活動藏寶圖 ☆ II III IV V 找到心方向-談壓力調適陳佩雯諮商心理師

脊柱损伤固定搬运术无锡市急救中心林长春.

7.1 集中趨勢的量度簡介 A 平均數 B 中位數 C 眾數 D 根據集中趨勢構寫數據 E 根據已知集中趨勢比較兩組數據目錄.

郑州轻工业学院数学与信息科学系第七章：参数估计概率统计教研组.

Statistical Probability for Production Simulation

西南科技大学网络教育系列课程 5. 优化设计 5.2 优化方法的数学基础.

行政訴訟法李仁淼教授.

第一节工业的区位选择一、工业的主要区位因素 1、工业区位选择应注意的问题 2、影响工业布局的主要区位因素 3、不同工业部门的区位选择

XXX分析室组长竞聘演讲人: XXX

数列(一) 自强不息和谐发展授课教师：喻永明.

結腸直腸腫瘤的認知.

經歷復活的愛約翰福音廿一1-23.

郭詩韻老師 (浸信會呂明才小學音樂科科主任)

如何培養你的道德風度? 什麼是公德心? 何謂自覺運動? 好心被雷劈?

湖南师大附中高三政治第二次月考试题讲评试题讲评.

第2章插值 2.1 拉格朗日插值 2.2 插值余项 2.3 分段插值 2.4 牛顿插值 2.5 等距结点插值

语文版九年级（下）多媒体课件.

《政府采购非招标采购方式管理办法》的理解与适用

務要火熱服事主.

作业现场违章分析.

蒙福夫妻相处之道经文：弗5：21－33.

基于课程标准的教学与评价：政策执行讲评与后续要求

2. 戰後的經濟重建與復興 A. 經濟重建的步驟與措施 1.

好好學習標點符號 (一) 保良局朱正賢小學上午校.

第四节统计初步和数据整理在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科，例如为了征兵和收税的早期的人口统计，甚至在公元前就出现了。但是近代数理统计学，却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体，并通过对这部分个体的观察和分析，对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论，有着广泛的应用。下面先介绍统计学中最基本的概念。

第8章回归分析本章教学目标：了解回归分析在经济与管理中的广泛应用；掌握回归分析的基本概念、基本原理及其分析应用的基本步骤；

第十八章技术.

4. 聯合國在解決國際衝突中扮演的角色 C. 聯合國解決國際衝突的個案研究.

6.5滑坡一、概述 1.什么是滑坡？是斜坡的土体或岩体在重力作用下失去原有的稳定状态，沿着斜坡内某些滑动面（滑动带）作整体向下滑动的现象。

新陸書局股份有限公司發行第十九章稅捐稽徵法稅務法規-理論與應用楊葉承、宋秀玲編著稅捐稽徵程序.

第六章参数估计 §6.1 点估计的几种方法 §6.2 点估计的评价标准 §6.3 最大似然估计 §6.4 最小方差无偏估计

破漏的囊袋.

民法第四章：權利主體法人楊智傑.

第三章多维随机变量及其分布 §3.1 多维随机变量及其联合分布 §3.2 边际分布与随机变量的独立性 §3.3 多维随机变量函数的分布

高斯求积公式引言求积公式高斯求积公式的系数和余项举例.

第三章統計資料之分析解釋(一).

第二章插值.

四年級中文科.

主讲人：吕敏 { } Spring 2016 ，USTC 算法基础主讲人：吕敏 { } Spring 2016 ，USTC.

导数的应用 ——函数的单调性与极值.

聖本篤堂主日三分鐘天主教教理重温 (94) （此簡報由聖本篤堂培育組製作）.

第二节极限一、数列极限定义：.

第二章随机变量及其分布 §2.1 随机变量及其分布 §2.2 随机变量的数学期望 §2.3 随机变量的方差与标准差 §2.4 常用离散分布

聖誕禮物歌羅西書 2:6-7.

圣依纳爵堂主日三分钟天主教教理重温 (95) （此简报由香港圣本笃堂培育组制作）.

第7章概率算法欢迎辞.

第　六　讲分　析　数　据　与　处　理荆州职业技术学院纺织服装系邹筠.

依撒意亞先知書第一依撒意亞公元前 740 – 700 (1 – 39 章) 天主是宇宙主宰，揀選以民立約，可惜他們犯罪遭

通信原理指导教师:杨建国二零零八年三月.

第五章插值法与曲线拟合插值法.

3-3 随机误差的正态分布一、频率分布在相同条件下对某样品中镍的质量分数（%）进行重复测定，得到90个测定值如下：

基督是更美的祭物希伯來書 9:1-10:18.

抽樣分配許明宗.

明愛屯門馬登基金中學中國語文及文化科下一頁.

經文 : 創世紀一章1~2，26~28 創世紀二章7，三章6~9 主講 : 周淑慧牧師

圣经概論 09.

Presentation transcript:

第五章统计量及其分布 §5.1 总体与样本 §5.2 样本数据的整理与显示 §5.3 统计量及其分布 §5.4 三大抽样分布 §5.1 总体与样本 §5.2 样本数据的整理与显示 §5.3 统计量及其分布 §5.4 三大抽样分布 §5.5 充分统计量

例5.0.1 某公司要采购一批产品，每件产品不是合格品就是不合格品，但该批产品总有一个不合格品率 p 。由此，若从该批产品中随机抽取一件，用 x 表示这一批产品的不合格数，不难看出 x 服从一个二点分布b(1 , p)，但分布中的参数 p 是不知道的。一些问题：

p 的大小如何； p 大概落在什么范围内；能否认为 p 满足设定要求（如 p  0.05）。

§5.1 总体与个体总体的三层含义：研究对象的全体；数据；分布

X 0 1 P 1  p p 例5.1.1 考察某厂的产品质量，以0记合格品，以1记不合格品，则例5.1.1 考察某厂的产品质量，以0记合格品，以1记不合格品，则总体 = {该厂生产的全部合格品与不合格品} = {由0或1组成的一堆数} 若以 p 表示这堆数中1的比例（不合格品率），则该总体可由一个二点分布表示： X 0 1 P 1  p p

比如：两个生产同类产品的工厂的产品的总体分布：比如：两个生产同类产品的工厂的产品的总体分布： X 1 p 0.983 0.017 X 1 p 0.915 0.085

原因在于总体的差异上！ 1979年4月17日日本《朝日新闻》刊登调查报例5.1.2 在二十世纪七十年代后期，美国消费例5.1.2 在二十世纪七十年代后期，美国消费者购买日产SONY彩电的热情高于购买美产 SONY彩电，原因何在？原因在于总体的差异上！ 1979年4月17日日本《朝日新闻》刊登调查报告指出N(m, (5/3)2)，日产SONY彩电的彩色浓度服从正态分布，而美产SONY彩电的彩色浓度服从(m5 , m+5)上的均匀分布。

图5.1.1 SONY彩电彩色浓度分布图

表5.1.1 各等级彩电的比例(%) 等级 I II III IV 美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3

5.1.2 样本样品、样本、样本量: 样本具有两重性一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机 5.1.2 样本样品、样本、样本量: 样本具有两重性一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机变量，用大写字母 X1, X2, …, Xn 表示；另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数值。此时用小写字母 x1, x2, …, xn 表示是恰当的。简单起见，无论是样本还是其观测值，样本一般均用 x1, x2,… xn 表示，应能从上下文中加以区别。

例5.1.3 啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性，事实上不可能使得所有的啤酒净含量均为640克。现从某厂生产的啤酒中随机抽取10瓶测定其净含量，得到如下结果： 641, 635, 640, 637, 642, 638, 645, 643, 639, 640 这是一个容量为10的样本的观测值，对应的总体为该厂生产的瓶装啤酒的净含量。这样的样本称为完全样本。

例5.1.4 考察某厂生产的某种电子元件的寿命，选了100只进行寿命试验，得到如下数据：

表5.1.2 100只元件的寿命数据表5.1.2中的样本观测值没有具体的数值，只有一个范围，这样的样本称为分组样本。表5.1.2 100只元件的寿命数据寿命范围元件数寿命范围元件数寿命范围元件数 ( 0 24] 4 (192 216] 6 (384 408] 4 (24 48] 8 (216 240] 3 (408 432] 4 (48 72] 6 (240 264] 3 (432 456] 1 (72 96] 5 (264 288] 5 (456 480] 2 (96 120] 3 (288 312] 5 (480 504] 2 (120 144] 4 (312 336] 3 (504 528] 3 (144 168] 5 (336 360] 5 (528 552] 1 (168 192] 4 (360 184] 1 >552 13 表5.1.2中的样本观测值没有具体的数值，只有一个范围，这样的样本称为分组样本。

样本的要求：简单随机样本随机性: 总体中每一个个体都有同等机会独立性: 样本中每一样品的取值不影响其要使得推断可靠，对样本就有要求，使样本能很好地代表总体。通常有如下两个要求：随机性: 总体中每一个个体都有同等机会被选入样本 -- xi 与总体X有相同的分布。独立性: 样本中每一样品的取值不影响其它样品的取值 -- x1, x2, …, xn 相互独立。

设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本，则样本联合分布函数为用简单随机抽样方法得到的样本称为简单随机样本，也简称样本。于是，样本 x1, x2, …, xn 可以看成是独立同分布( iid ) 的随机变量，其共同分布即为总体分布。设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本，则样本联合分布函数为

总体分为有限总体与无限总体实际中总体中的个体数大多是有限的。当个体数充分大时，将有限总体看作无限总体是一种合理的抽象。对无限总体，随机性与独立性容易实现，困难在于排除有意或无意的人为干扰。对有限总体，只要总体所含个体数很大，特别是与样本量相比很大，则独立性也可基本得到满足。

例5.1.5 设有一批产品共N个，需要进行抽样检验以了解其不合格品率p。现从中采取不放回抽样抽出2个产品，这时，第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品，如果第一次抽到不合格品，则 P(x2 = 1 | x1 = 1) = (Np1)/(N1) 而若第一次抽到的是合格品，则第二次抽到不合格品的概率为 P(x2 = 1 | x1 = 0) = (Np)(N1)

思考：若总体的密度函数为p(x)，则其样本的（联合）密度函数是什么？显然，如此得到的样本不是简单随机样本。但是，当N 很大时，我们可以看到上述两种情形的概率都近似等于p 。所以当N 很大，而n不大（一个经验法则是 n  N  0.1）时可以把该样本近似地看成简单随机样本。思考：若总体的密度函数为p(x)，则其样本的（联合）密度函数是什么？

§5.2 样本数据的整理与显示 5.2.1 经验分布函数设 x1, x2, …, xn 是取自总体分布函数为F(x)的样本，若将样本观测值由小到大进行排列,为 x(1), x(2), …, x(n)，则称 x(1), x(2), …, x(n) 为有序样本，用有序样本定义如下函数

则Fn(x)是一非减右连续函数，且满足 Fn() = 0 和 Fn() = 1 由此可见，Fn(x)是一个分布函数，并称Fn(x)为经验分布函数。

例5.2.1 某食品厂生产听装饮料，现从生产线上随机抽取5听饮料，称得其净重（单位：克） 351 347 355 344 351 这是一个容量为5的样本，经排序可得有序样本： x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 354, x(5)= 355

0 ， x < 344 其经验分布函数为 0.2， 344  x < 347 Fn(x) = 0.4， 347  x < 351 0.8， 344  x < 347 1， x  355 由伯努里大数定律：只要 n 相当大，Fn(x)依概率收敛于F(x) 。

更深刻的结果也是存在的，这就是格里纹科定理。定理5.2.1（格里纹科定理）设x1,x2,…,xn是取自总体分布函数为F(x)的样本, Fn(x) 是其经验分布函数，当n时，有 PsupFn(x)  F(x)0 = 1 格里纹科定理表明：当n 相当大时，经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据，其理由就在于此。

5.2.2 频数--频率分布表样本数据的整理是统计研究的基础，整理数据的最常用方法之一是给出其频数分布表或频率分布表。 5.2.2 频数--频率分布表样本数据的整理是统计研究的基础，整理数据的最常用方法之一是给出其频数分布表或频率分布表。例5.2.2 为研究某厂工人生产某种产品的能力，我们随机调查了20位工人某天生产的该种产品的数量，数据如下 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 154

组距d = (最大观测值  最小观测值)/组数; 对这20个数据(样本)进行整理,具体步骤如下: (1) 对样本进行分组：作为一般性的原则，组数通常在5~20个，对容量较小的样本; (2) 确定每组组距：近似公式为组距d = (最大观测值  最小观测值)/组数; (3) 确定每组组限：各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd, 形成如下的分组区间 (a0 , a1] , (a1, a2], …, (ak-1 , ak] 其中a0 略小于最小观测值, ak 略大于最大观测值.

(4) 统计样本数据落入每个区间的个数——频数，并列出其频数频率分布表。 (4) 统计样本数据落入每个区间的个数——频数，并列出其频数频率分布表。表5.2.1 例5.2.2 的频数频率分布表组序分组区间组中值频数频率累计频率(%) 1 (147，157] 152 4 0.20 20 2 (157，167] 162 8 0.40 60 3 (167，177] 172 5 0.25 85 4 (177，187] 182 2 0.10 95 5 (187，197] 192 1 0.05 100 合计 20 1

5.2.3 样本数据的图形显示一、直方图直方图是频数分布的图形表示，它的横坐标表示所关心变量的取值区间，纵坐标有三种表示方法：频数，频率，最准确的是频率/组距，它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择，直方图本身并无变化。

二、茎叶图把每一个数值分为两部分，前面一部分（百位和十位）称为茎，后面部分（个位）称为叶，然后画一条竖线，在竖线的左侧写上茎，右侧写上叶，就形成了茎叶图。如：数值分开茎和叶 112  11 | 2  11 和 2

例5.2.3 某公司对应聘人员进行能力测试，测试成绩总分为 150分。下面是50位应聘人员的测试成绩（已经过排序）：例5.2.3 某公司对应聘人员进行能力测试，测试成绩总分为 150分。下面是50位应聘人员的测试成绩（已经过排序）： 64 67 70 72 74 76 79 80 81 82 83 85 86 88 91 92 93 95 97 99 100 102 104 106 107 108 112 114 116 118 119 122 123 125 126 128 133 我们用这批数据给出一个茎叶图，见下页。

4 7 0 2 4 6 6 9 0 1 2 2 3 5 6 8 1 1 2 3 3 3 5 6 6 7 7 9 0 0 2 4 6 6 7 8 8 2 2 4 6 8 9 9 2 3 5 6 8 3 图5.2.3　测试成绩的茎叶图

在要比较两组样本时，可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间 8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意：茎叶图保留数据中全部信息。当样本量较大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。

§5.3 统计量及其分布 5.3.1 统计量与抽样分布当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。定义5.3.1 设 x1, x2, …, xn 为取自某总体的样本，若样本函数T = T(x1, x2, …, xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。

按照这一定义：若 x1, x2, …, xn 为样本，则以及经验分布函数Fn(x)都是统计量。而当, 2 未知时，x1, x1/ 等均不是统计量。尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。

5.3.2 样本均值及其抽样分布 x x= (x1+…+xn)/n 5.3.2 样本均值及其抽样分布定义5.3.2 设 x1, x2, …, xn为取自某总体的样本，其算术平均值称为样本均值，一般用表示，即 x x= (x1+…+xn)/n 思考：在分组样本场合，样本均值如何计算？二者结果相同吗？

样本均值的基本性质：定理5.3.1 若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即定理5.3.1 若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即定理5.3.2 数据观测值与均值的偏差平方和最小，即在形如  (xic)2 的函数中，最小，其中c为任意给定常数。

样本均值的抽样分布： x x x 定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本，为样本均值。的精确分布为N(, 2/n) ; 若总体分布未知或不是正态分布，但 E(x)=, Var(x)=2,则n 较大时的渐近分布为N(, 2/n) ,常记为。 x xAN(, 2/n) 这里渐近分布是指n 较大时的近似分布.

5.3.3 样本方差与样本标准差 s*= s*2 定义5.3.3 称为样本方差，称为样本标准差。其算术平方根 5.3.3 样本方差与样本标准差定义5.3.3 称为样本方差， s*= s*2 其算术平方根称为样本标准差。在n 不大时，常用作为样本方差, 其算术平方根也称为样本标准差。

只有n1个数据可以自由变动，而第n个则不在这个定义中，  ( xi x )2 称为偏差平方和， n1称为偏差平方和的自由度。其含义是：在确定后, n 个偏差 x x1x, x2x, …, xnx 中只有n1个数据可以自由变动，而第n个则不能自由取值，因为 (xi x ) = 0 . 样本偏差平方和有三个不同的表达式： ( xix )2 = xi2 – (xi)2/n = xi2 – nx 它们都可用来计算样本方差。思考：分组样本如何计算样本方差？

x 样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩，即 E(x)=  , Var(x)=2  , x1, x2, …, xn 为从该总体得到的样本， x 和s2 分别是样本均值和样本方差，则 E( x )=, Var( x )=2 /n, E(s2) =2

5.3.4 样本矩及其函数 bk =  (xi  x)k/n 称为样本k阶中心矩。 5.3.4 样本矩及其函数样本均值和样本方差的更一般的推广是样本矩，这是一类常见的统计量。定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩，特别，样本一阶原点矩就是样本均值。 bk =  (xi  x)k/n 称为样本k阶中心矩。特别，样本二阶中心矩就是样本方差。

就显得很不够。为此，需要一些刻画分布形状的统计量，如样本偏度和样本峰度，它们都是样本中心矩的函数。 x 当总体关于分布中心对称时，我们用 x 和 s 刻画样本特征很有代表性，而当其不对称时，只用就显得很不够。为此，需要一些刻画分布形状的统计量，如样本偏度和样本峰度，它们都是样本中心矩的函数。 x 和 s 定义： 1 = b3/b23/2 称为样本偏度， 2 = b4/b22 称为样本峰度。样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。

5.3.5 次序统计量及其分布另一类常见的统计量是次序统计量。 x(i) 称为该样本的第i 个次序统计量，它的取值 5.3.5 次序统计量及其分布另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1, x2, …, xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量，它的取值是将样本观测值由小到大排列后得到的第 i 个观测值。其中x(1)=minx1, x2,…, xn称为该样本的最小次序统计量，称 x(n)=maxx1,x2,…,xn为该样本的最大次序统计量。

例5.3.6 设总体X 的分布为仅取0，1，2的离散均匀分布，分布列为我们知道，在一个样本中，x1, x2,…,xn 是独立同分布的，而次序统计量 x(1), x(2),…, x(n) 则既不独立，分布也不相同，看下例。例5.3.6 设总体X 的分布为仅取0，1，2的离散均匀分布，分布列为 0 1 2 1/3 1/3 1/3 现从中抽取容量为3的样本，其一切可能取值有33=27种，表5.3.6列出了这些值，由此

可给出的 x(1) , x(2), x(3) 分布列如下： 0 1 2 0 1 2 0 1 2 我们可以清楚地看到这三个次序统计量的分布是不相同的。

进一步，我们可以给出两个次序统计量的联合分布，如，x(1) 和x(2) 的联合分布列为 1 2 7/27 9/27 3/27 4/27 1/27 x(1) x(2)

因为 P(x(1) = 0, x(2) = 0) =7/27 ，而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27)，二者不等，由此可看出x(1) 和 x(2)是不独立的。

二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x)，分布函数为F(x)， x1, x2,…, xn为样本，则第k个次序统计量x(k)的密度函数为

例5.3.7 设总体密度函数为 p(x)=3x2, 0x1. 从该总体抽得一个容量为5的样本，试计算 P(x(2)1/2)。解：有两种求法：从古典概型出发；从次序统计量密度函数出发。例5.3.8 设总体分布为U(0,1)， x1, x2,…, xn为样本，试求第 k 个次序统计量的分布。

三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布，以两个为例说明：定理5.3.6 在定理5.3.5的记号下，次序统计定理5.3.6 在定理5.3.5的记号下，次序统计量 (x(i), x(j)), (i  j) 的联合分布密度函数为

次序统计量的函数在实际中经常用到。如样本极差 Rn = x(n)  x(1)，样本中程 [x(n)  x(1)]/2。样本极差是一个很常用的统计量，其分布只在很少几种场合可用初等函数表示。

p1,n(y,z)=n(n1)(zy)n-2, 0  y  z 1 例5.3.9 设总体分布为U(0,1)， x1, x2,…, xn 为样本，则(x(n), x(1))的联合密度函数为 p1,n(y,z)=n(n1)(zy)n-2, 0  y  z 1 令 R = x(n)  x(1) ，由 R  0, 可以推出 0  x(1) = x(n)R 1 R ，则这正是参数为(n1, 2)的贝塔分布。

5.3.6 样本分位数与样本中位数样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义： 5.3.6 样本分位数与样本中位数样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：更一般地，样本p分位数mp可如下定义：

定理5.3.7 设总体密度函数为p(x)，xp为其p分位数， p(x)在xp处连续且 p(xp)  0，则当n 时样本 p 分位数 mp 的渐近分布为特别，对样本中位数，当n时近似地有

例5.3.10 设总体为柯西分布，密度函数为 p(x,)= 1/[(1+(x)2)] ,   x  + 不难看出是该总体的中位数，即x0.5= 。设 x1, x2,…, xn 是来自该总体的样本，当样本量n 较大时，样本中位数m0.5 的渐近分布为 m0.5  AN(, 2/4n) . 通常，样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时，使用中位数比使用均值更好，中位数的这种抗干扰性在统计中称为具有稳健性。

5.3.7 五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。在得到有序样本后，容易计算如下五个值： 5.3.7 五数概括与箱线图次序统计量的应用之一是五数概括与箱线图。在得到有序样本后，容易计算如下五个值：最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) , 中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75. 所谓五数概括就是指用这五个数： xmin , Q1 , m0.5 , Q3 , xmax 来大致描述一批数据的轮廓。

§5.4 三大抽样分布大家很快会看到，有很多统计推断是基于正态分布的假设的，以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有明显表达式，它们被称为统计中的“ 三大抽样分布 ” 。

5.4.1 2 分布(卡方分布) 定义5.4.1 设 X1, X2,…, Xn, 独立同分布于标准 5.4.1 2 分布(卡方分布) 定义5.4.1 设 X1, X2,…, Xn, 独立同分布于标准正态分布N(0,1) ，则2= X12+… Xn2的分布称为自由度为n 的2分布，记为 2  2(n) 。当随机变量 2  2(n) 时，对给定  (01)，称满足 P(2  12(n)) 的 12(n) 是自由度为n1的卡方分布的1 分位数. 分位数 12(n) 可以从附表3 中查到。

该密度函数的图像是一只取非负值的偏态分布

5.4.2 F 分布定义5.4.2 设X1  2(m), X2  2(n), X1与X2独立，则称 F =(X1/m)/(X2/n) 的分布是自由度为 m 与 n 的 F分布，记为F  F(m, n)，其中m 称为分子自由度，n 称为分母自由度。当随机变量F  F(m,n) 时，对给定  (01) ，称满足 P(F  F1(m,n)) =1 的F1(m,n) 是自由度为m 与 n 的F 分布的1 分位数。由 F 分布的构造知 F(n,m) = 1/F1(m,n)。

该密度函数的图象也是一只取非负值的偏态分布

5.4.3 t 分布定义 5.4.3 设随机变量X1 与X2 独立，且X1  N(0,1), X2  2(n), 则称 t=X1/ X2/n 的分布为自由度为n 的t 分布，记为t t(n) 。

t 分布的密度函数的图象是一个关于纵轴对称的分布，与标准正态分布的密度函数形状类似，只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。

自由度为1的 t 分布就是标准柯西分布，它的均值不存在； n1时, t 分布的数学期望存在且为0； n2时，t 分布的方差存在，且为n/(n2)；当自由度较大 (如n30) 时， t 分布可以用正态分布 N(0,1)近似。

当随机变量t t(n) 时，称满足 P(t  t1(n)) =1 的 t1(n) 是自由度为 n 的 t 分布的1分位数. 分位数 t1(n) 可以从附表4中查到。譬如 n=10,=0.05，那么从附表4上查得 t10.05(10) = t0.95(10)=1.812 . 由于 t 分布的密度函数关于0 对称, 故其分位数间有如下关系 t(n1)= t1(n1)

5.4.4 一些重要结论 s2=  (xix)2/(n1) 定理5.4.1 设 x1, x2,…, xn 是来自N(, 2) 的 5.4.4 一些重要结论定理5.4.1 设 x1, x2,…, xn 是来自N(, 2) 的样本，其样本均值和样本方差分别为 x = xi/n s2=  (xix)2/(n1) 和则有 (1) x 与 s2 相互独立； (2) x  N(, 2/n) ； (3) (n1) s2/2  2(n1)。

推论5.4.3 设 x1, x2,…, xn 是来自N(1, 12) 的样本，y1, y2,…, yn 是来自N(2, 22) 的样本，且此两样本相互独立，则有特别，若12 =22 ，则 F=sx2/sy2  F(m1,n1)

推论5.4.4 在推论5.4.3的记号下，设 12 =22 = 2 ，并记则

§5.5 充分统计量 5.5.1 充分性的概念例5.5.1 为研究某个运动员的打靶命中率，我们对该运动员进行测试，观测其10次，发现除第 §5.5 充分统计量 5.5.1 充分性的概念例5.5.1 为研究某个运动员的打靶命中率，我们对该运动员进行测试，观测其10次，发现除第三、六次未命中外，其余8次都命中。这样的观测结果包含了两种信息： (1) 打靶10次命中8次； (2) 2次不命中分别出现在第3次和第6次打靶上。

第二种信息对了解该运动员的命中率是没有什么帮助的。一般地，设我们对该运动员进行n 次观测，得到 x1, x2,…, xn，每个xj 取值非0即1，命中为1，不命中为0。令 T = x1+…+xn ，T为观测到的命中次数。在这种场合仅仅记录使用T 不会丢失任何与命中率  有关的信息，统计上将这种“样本加工不损失信息”称为“充分性”。样本 x=(x1,x2,…,xn) 有一个样本分布F (x)，这个分布包含了样本中一切有关的信息。

统计量T =T (x1,x2,…,xn) 也有一个抽样分布FT(t) ，当我们期望用统计量T 代替原始样本并且不损失任何有关  的信息时，也就是期望抽样分布 FT(t) 像 F(x) 一样概括了有关  的一切信息，这即是说在统计量 T 的取值为 t 的情况下样本 x 的条件分布 F(x|T=t) 已不含  的信息，这正是统计量具有充分性的含义。

定义5.5.1 设 x1, x2, …, xn 是来自某个总体的样本，总体分布函数为F ( x ; )，统计量 T = T(x1, x2, …, xn) 称为  的充分统计量，如果在给定T 的取值后，x1, x2,…, xn 的条件分布与 无关.

5.5.2 因子分解定理充分性原则：在统计学中有一个基本原则-- 在充分统计量存在的场合，任何统计推断都 5.5.2 因子分解定理充分性原则：在统计学中有一个基本原则-- 在充分统计量存在的场合，任何统计推断都可以基于充分统计量进行，这可以简化统计推断的程序。定理5.5.1 设总体概率函数为 p(x ; )， X1, …, Xn 为样本，则 T=T(X1,… Xn) 为充分统计量的充分必要条件是：存在两个函数g(t; )和h(x1, …, xn)，使得对任意的 和任一组观测值 x1, x2,…, xn，有 p(x1, x2,…, xn;  ) =g(T(x1,x2,…,xn); )h(x1,x2,…,xn) (5.5.1)

p(x ; )= 其中g(t, )是通过统计量 T 的取值而依赖于样本的。例5.5.4 设x1, x2, …, xn是取自总体U(0, )的样本，即总体的密度函数为 p(x ; )= 1/ , 0  x   0 , 其他于是样本的联合密度函数为

(1/)n, 0minximaxxi p(x1;)…p(xn;)= 0, 其它 0, 其它由于诸xi0，所以我们可将上式改写为 p(x1;)…p(xn;) = (1/)nI x(n) 取T =x(n)，并令 g(t ; )= (1/)nIt, h(x)=1，由因子分解定理知T =x(n) 是 的充分统计量。例5.5.5 设x1, x2, …, xn 是取自总体N(, 2)的样本，  =(, 2)是未知的，则联合密度函数为

取 t1= xi , t2= xi2, 并令 g(t1, t2, ) = (22)-n/2exp-n 2/(22)  exp(t22 t1)/(22) , 其中 h(x)=1，由因子分解定理，T=(xi , xi2) 是充分统计量。

(x, s2 ) 进一步，我们指出这个统计量与是一一对应的，这说明在正态总体场合常用的 ( x , s2 ) 是充分统计量。