数 理 统 计 华南农业大学理学院应用数学系 Statistics Applied Mathematic Department, College of Sciences, SCAU
引 言 随机变量及其所伴随的概率分布全面描述了随机 现象的统计性规律。 概率论的许多问题中,随机变量的概率分布通常 是已知的,或者假设是已知的,而一切计算与推理都 是在这已知是基础上得出来的。 但实际中,情况往往并非如此,一个随机现象所 服从的分布可能是完全不知道的,或者知道其分布概 型,但是其中的某些参数是未知的。
引 言 例如: 某公路上行驶车辆的速度服从什么分布是未知的; 电视机的使用寿命服从什么分布是未知的; 产品是否合格服从两点分布,但参数 —— 合格率 p 是 未知的; 数理统计的任务则是以概率论为基础,根据试验 所得到的数据,对研究对象的客观统计规律性做出合 理的推断。
从第五章开始,我们学习数理统计的基础知识。 数理统计的任务是以概率论为基础,根据试验所得到 的数据,对研究对象的客观统计规律性作出合理的推 断. 数理统计所包含的内容十分丰富,本书介绍其中 的参数估计、假设检验、方差分析、回归分析等内容. 第五章主要介绍数理统计的一些基本术语、基本概念、 重要的统计量及其分布,它们是后面各章的基础。 学习的基本内容
样本与统计量 总体与样本 在数理统计中,把研究对象的全体称为总体 ( population) 或母体,而把组成总体的每个单元 称为个体。 抽样 要了解总体的分布规律,在统计分析工作中,往往 是从总体中抽取一部分个体进行观测,这个过程称为抽 样。
样本与统计量 子样 子样 是 n 个随机变量,抽取之后 的观测数据 称为样本值或子样观察值。 在抽取过程中,每抽取一个个体,就是对总体 X 进 行一次随机试验,每次抽取的 n 个个体 , 称为总体 X 的一个容量为 n 的样本( sample )或子 样;其中样本中所包含的个体数量称为样本容量。
随机抽样方法的基本要求 独立性 —— 即每次抽样的结果既不影响其余各次抽样的 结果,也不受其它各次抽样结果的影响。 满足上述两点要求的子样称为简单随机子样. 获得简 单随机子样的抽样方法叫简单随机抽样. 代表性 —— 即子样 ( ) 的每个分量 与总体 具有相同的概率分布。 从简单随机子样的含义可知,样本 是来自总体 、与总体 具有相同分布的随机变量.
简单随机抽样 例如:要通过随机抽样了解一批产品的次品率, 如果每次抽取一件产品观测后放回原来的总量中,则 这是一个简单随机抽样。 但实际抽样中,往往是不再放回产品,则这不是一 个简单随机抽样。但当总量 N 很大时,可近似看成是简单 随机抽样。
统计量 定义 设( )为总体 X 的一个样本, 为不含任何未知参数的连续函数,则 称 为样本( )的一个统计量。 则 例如: 设 是从正态总体 中抽取 的一个样本,其中 为已知参数, 为未知参数, 是统计量 不是统计量
几个常用的统计量 样本均值( sample mean) 设 是总体 的一个样本, 样本方差 (sample variance)
样本均方差或标准差 它们的观测值用相应的小写字母表示. 反映总 体 X 取值的平均,或反映总体 X 取值的离散程度。 几个常用的统计量 设 是总体 的一个样本,
子样的 K 阶(原点)矩 几个常用的统计量 设 是总体 的一个样本, 子样的 K 阶中心矩
它包括两个方面 —— 数据整理 计算样本特征数 数据的简单处理 为了研究随机现象,首要的工作是收集原始数据. 一般通过抽样调查或试验得到的数据往往是杂乱无章 的,需要通过整理后才能显示出它们的分布状况。 数据的简单处理是以一种直观明了方式加工数据。
计算样本特征数: 数据的简单处理 数据整理:将数据分组 计算各组频数 作频率分布表 作频率直方图 ( 1 )反映趋势的特征数 样本均值 中位数:数据按大小顺序排列后,位置居中的那个数 或居中的两个数的平均数。 众数:样本中出现最多的那个数。
数据的简单处理 ( 2 )反映分散程度的特征数:极差、四分位差 极差 —— 样本数据中最大值与最小值之差, 四分位数 —— 将样本数据依概率分为四等份的 3 个数椐, 依次称为第一、第二、第三四分位数。 第一四分位数 Q 1 : 第二四分位数 Q 2 : 第三四分位数 Q 3 :
例 1 为对某小麦杂交组合 F 2 代的株高 X 进行研究,抽 取容量为 100 的样本,测试的原始数据记录如下 ( 单位: 厘米 ) ,试根据以上数据,画出它的频率直方图,求随 机变量 X 的分布状况。
第一.整理原始数据,加工为分组资料,作出频率分布 表,画直方图,提取样本分布特征的信息. 步骤如下: 1. 找出数据中最小值 m=69 ,最大值 M=111 ,极差为 M - m=42 2. 数据分组,根据样本容量 n 的大小,决定分组数 k 。 一般规律 30≤n≤40 5≤k≤6 40≤n≤60 6≤k≤8 60≤n≤100 8≤k≤10 100≤n≤500 10≤k≤20
数据分组数参考表 数据数数据数 40 ~ 分组数分组数 6~ 8 7~ 9 10 ~
一般采取等距分组(也可以不等距分组),组距 等于比极差除以组数略大的测量单位的整数倍。 本例取 k=9. 本例测量单位为 1 厘米,组距为
3 .确定组限和组中点值。 注意:组的上限与下限应比数据多一位小数。 当取 a=67.5 , b= ( a 略小于 m , b 略大于 M , 且 a 和 b 都比数据多一位小数),分组如下: 一般根据算式: 各组中点值 组距 = 组的上限或下限 [67.5,72.5) [72.5,77.5) [77.5,82.5) [82.5,87.5) [87.5,92.5) [92.5,97.5) [97.5,102.5) [102.5,107.5) [107.5,112.5) 组中值分别为:
4 .将数据分组,计算出各组频数,作频数、频率分布表 组序区间范围频数 f j 频率 W j =f j /n 累计频率 F j 1[67.5,72.5) [72.5 , 77.5 ) [77.5 , 82.5 ) [82.5 , 87.5 ) [87.5 , 92.5 ) [92.5 , 97.5 ) [97.5 , ) [102.5 , ) [107.5 , )
作频率直方图 5. 作出频率直方图 以样本值为横坐标,频率 / 组距为纵坐标; 以分组区间为底,以 为高
从频率直方图可看到:靠近两个极端的数据出现比 较少,而中间附近的数据比较多,即中间大两头小的分 布趋势, —— 随机变量分布状况的最粗略的信息。 在频率直方图中, 每个矩形面积恰好等于样本值落 在该矩形对应的分组区间内的频率,即 频率直方图中的小矩形的面积近似地反映了样本数 据落在某个区间内的可能性大小,故它可近似描述 X 的分 布状况。
样本方差 样本标准差 Q1 Q3 极差 四分位差 第二.计算样本特征数 1. 反映集中趋势的特征数:样本均值、中位数、众数等 样本均值 MEAN 中位数 MEDIAN 众数 2. 反映分散程度的特征数:样本方差、样本标准差、 极差、四分位差等 上述差异特征统计量的值越小,表示离散程度越小.
MTB > set c1 DATA> DATA> DATA> DATA> DATA> DATA> DATA> DATA> MTB > end MTB > describe c1 例 1 DOS 状态下的 MINITAB 操作
显示: N MEAN MEDIAN TRMEAN STDEV C SEMEAN MIN MAX Q1 Q3 C 中位数 第一四分位数 第三四分位数
MTB>CODE (67.5:72.49)70 (72.5:77.49)75 (77.5:82.49)80 (82.5:87.49)85 (87.5:92.49)90 (92.5:97.49)95 (97.5:102.49)100 (102.5:107.49)105 (107.5:112.49)110 C1 C2 MTB>TALLY C2; SUBC>ALL. 将 C1 数据列重新编码, 并保存到 C2 数据列 显示各列数据的频数、 累计频数、频率、累计频率
C2 COUNTS CUMCNTS PERCENTS CUMPCENTS (频数) (累计频数) (频率) (累计频率) 显示结果
作业 习题五 P111 2 ; 3 ; 4 预习 第三节 统计量的分布