第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值

第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值
第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值要研究数据的数字特征，分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据，要分析数据各个分量的相关性等等 . 均值、方差等数字特征 1.均值 2.方差标准差变异系数

阶原点矩阶中心矩偏度偏度是刻画数据对称性的指标，右侧更分散的数据偏度为正，左侧更分散的数据偏度为负，关于均值对称的数据偏度为0. 峰度当总体分布为正态时，峰度近似为0；当分布较正态分布的尾部更分散，峰度为正，否则峰度为负.

例1.2 某单位对100名女学生测定血清总蛋白含量(g/L),数据如下：
当数据是某些总体随机取出的样本时，数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计. 例1.2 某单位对100名女学生测定血清总蛋白含量(g/L),数据如下：

计算均值、方差、标准差、变异系数、偏度、峰度解用SAS系统PROC UNIVARRIATE 过程计算，得
偏度、峰度的绝对值皆较小，可以认为数据是来自正态总体的样本. 中位数、分位数、三均值与极差这些数字特征适合总体分布未知或有偏态的数据.设是个观测值，将它们按由小到大排为：称为次序统计量.最小次序统计量与最大次序统计量分别为

中位数与极差中位数中位数位于数据中心位置，中位数具有稳健性，受异常值影响较小. 极差 2. 分位数对，分位数其中是的整数部分，当定义分位数又称第百分数.大体上有 %的观测值不超过分位数. 即中位数.

上四分位数下四分位数下列分位数经常用到：四分位极差四分位标准差总体标准差的稳健估计三均值描述数据集中位置的稳健估计下截断点小于下截断点的数据为特小值上截断点大于上截断点的数据为特大值特小值、特大值合称异常值. 用PROC UNIVARIATE过程计算分位数、四分位极差；用 PROC IML过程计算三均值、四分位标准差，下、上截断点.

例1.8（续例1.2）用PROC UNIVARIATE 过程，PROC IML过程计算得到：下、上截断点分别为64.3和82.7，故数据84.3是异常值（特大值）. 将异常值84.3剔除，在进行计算分析，得可见，更为接近，与与原数值相等，说明有稳健性，而原数据的值为3.940，现为3.810说明对异常值无稳健性.

1.2 数据的分布 1.2.1 直方图、经验分布函数与QQ图对数据的总体情况作全面描述要研究数据的分布。 1. 直方图
数据的分布对数据的总体情况作全面描述要研究数据的分布。直方图、经验分布函数与QQ图 1. 直方图数据取值范围分成若干区间，区间长度称为组距，每个区间上画一矩形，宽度是组距，高度是频率/组距，每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROC CAPABILITY过程可以做出直方图. 直方图可以对总体概率密度的估计，这就是拟合分布曲线.SAS系统用PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线.

SAS系统中分布类型： 1）正态分布； 2）对数正态分布； 3）指数分布； 4）分布（Gamma分布）； 5）Weibull分布；
6）Bata分布. 2. 经验分布函数设来自总体分布的样本是，其次序统计量是经验分布函数是是非降阶梯函数，处跃度是（若重复取值次，则跃度为）是充分大时，

3. QQ图设总体分布为正态分布，标准正态分布函数，其反函数 QQ图是由以下的点构成的散点图：若样本数据近似于正态分布，在QQ图上这些点近似地在直线附近. 例1.10（续例1.2）利用例1.2的数据（1）作直方图，并拟合正态分布曲线；（2）做经验分布函数图，并拟合正态分布函数曲线；（3）作正态QQ图，并在直观上鉴别样本数据来自正态总体. 解利用PROC CAPABILITY 过程可解决上述问题.

直方图

经验分布函数图

1.2.2 茎叶图、箱线图及五数总括茎叶图例1.11 某班有31个学生，某门课程考试成绩如下： 10｜0 1
茎叶图、箱线图及五数总括茎叶图例某班有31个学生，某门课程考试成绩如下：作出茎叶图. 解第一个数25十位数为2，个位数为5.以个位数为单位，将25用“｜”分开：25 → 2 | 5. 这样，得茎叶图. 频数 2 ｜ 3 ｜ 4 ｜ 5 ｜ 6 ｜ 7 ｜ 8 ｜ 9 ｜ 10｜

特点： 1）直观看出数据分布情况，绝大部分数据在70～95之间，在80～89之间形成一个高峰，数据没有30余分，数据有间隙. 2）自然显出数据排序.可看出原数据次序统计量. 例铅压铸件硬度数据如下：作出茎叶图. 解利用PROC UNIVARIATE过程，可作茎叶图.为简化，将小数点后数据四舍五入，以十位数为茎，个位数为叶，并把每茎分裂成两行：一行的叶取0，1，2，3，4，另一行取5，6，7，8，9.计算结果数据从大到小排列.

画一个矩形，两个端边分别是，中间两道线，处于位置.两端向外各画一道直线，分别到上截断点，下截断点 .异常值用“×”号表示.
频数 9 ｜ 9 ｜ 8 ｜ 8 ｜ 7 ｜ 7 ｜ 6 ｜ 6 ｜ 5 ｜ 5 ｜ 2. 箱线图画一个矩形，两个端边分别是，中间两道线，处于位置.两端向外各画一道直线，分别到上截断点，下截断点异常值用“×”号表示.

例作例1.11的箱线图. 解下、上截断点：36.5，120.5.异常值25. 3.五数总括

正态性检验与分布拟合检验检验的值方法设检验问题的显著水平为 .检验统计量为 .当假设成立时，有样本算得的检验统计量的值为 . 设（双侧检验），则当，拒绝；当，接受检验法 ——样本容量 ——分组数 ——落入第i组频数， ——落入第组理论频数 ——待估参数数充分大

假设检验问题不是其中为指定的总体分布值方法：则对给定的显著水平，当，拒绝，当，接受 2. Kolmogorov-Smirnov检验法假设检验问题仍如上， — 经验分布函数设由样本算得的值为，又则对给定显著水平 ,当 , 拒绝 ,当 ,接受用PROC CAPABILITY 过程可进行检验与Kolmogorov-Smirnov检验.

3.正态性W检验方法设样本观测值为，其次续统计量为当n偶，当n奇，（系数）：总体为正态分布总体非正态分布总有，成立时，W值接近于1. 当；拒绝；当，接受 . 用PROC UNIVARIATE 过程可得W值与p值，从而完成正态性W检验.

例1.19（续例1.2）对例1.2数据，作（1）正态性W检验；（2）关于正态分布假设的检验；（3）关于正态分布假设的Kolmogorov-Smirnov检验解（1）由PROC UNIVARIATE 过程，算得 W= p=p{W≤0.9827}=0.6709 取，因p= ＞，接受正态性假设. （2）由PROC UNIVARIATE 过程，算得 = p=P{ ≥0.4784}=0.5382 取，因 p=0.5328＞，接受正态性假设. （3）由PROC UNIVARIATE 过程，算得 D= , p= {D≥0.0655}=0.15 取 ,因 p=0.15＞，接受正态性假设

1.3 多元数据的数字特征与相关分析 1.3.1 二元数据的数字特征及相关系数 ——二元总体，观测数据观测矩阵 ——均值向量
1.3 多元数据的数字特征与相关分析二元数据的数字特征及相关系数 ——二元总体，观测数据观测矩阵 ——均值向量的协方差的协方差的协方差 ——协方差矩阵相关系数

上述定义的相关系数成为Pearson相关系数设，则其次序统计量，若，则称是在样本中的秩，记为 .秩统计量.
① ,正相关 ② , 负相关 ③ ,完全线性相关 ④ ,不相关二元总体分布函数协方差总体相关系数当大，假设检验成立时，～值，设显著水平当，拒绝；接受上述定义的相关系数成为Pearson相关系数设，则其次序统计量，若，则称是在样本中的秩，记为 .秩统计量.

例次序统计量秩统计量例秩统计量或对相同观测值取值为秩平均值：样本，秩统计量 Spearman相关系数定义为两组秩统计量的相关系数，记为，可证

例1.21 某种矿石成分A,B，A的含量百分数x（%），B的含量百分数y（%）：
（1）计算Pearson相关系数，作假设检验（2）计算Spearman 相关系数，作上述检验解由 PROC CORR 过程，得（1） , 值为，取拒绝，认为有实际意义 (2) 取拒绝，认为有实际意义 x y

1.3.2 多元数据数字特征及相关矩阵是元总体，样本数据第i个观测数据，称样品观测矩阵第i行构成的量有 1）第行的均值
多元数据数字特征及相关矩阵是元总体，样本数据第i个观测数据，称样品观测矩阵第i行构成的量有 1）第行的均值 2）第行的方差

的Spearman相关系数， Spearman相关矩阵 Spearman相关矩阵具有稳健性数据观测矩阵数据的标准化处理样品，变量观测数据的协方差阵即的相关阵.

（3）的协方差均值向量协方差矩阵（4）的相关系数相关矩阵非负定矩阵刻画变量之间线性联系的密切程度.

总体的数字特征及相关矩阵元总体. 总体分布函数总体概率密度总体均值向量总体的协方差矩阵设的相关系数为总体的相关矩阵

设 1）特别 2）分别是的相合估计，当充分大时，简单随机样本 ① 与总体有相同分布； ② 是相互独立的元随机向量.

的无偏估计分别是：证记对于随机向量 , 总有故，可证（自证）故得从而是的相合估计：

元正态分布其中性质：元常向量则 2) 划分作相应划分 3）相互独立

的最大似然估计设是来自正态总体的简单随机样本，其联合概率密度. 称似然函数，它是的函数，若满足，则称的最大似然估计定理：各为的最大似然估计（证略）. 注：的最大似然估计为大时，因是的无偏估计，仍以作为的估计.

例1.23 对某少数民族的21位同袍测量血液中四种成份，的含量，结果如下：
例对某少数民族的21位同袍测量血液中四种成份，的含量，结果如下：求的无偏估计. 解由PROC CORR 过程，计算得到 x1 x2 x3 x4 1 18.8 28.1 5.1 35.1 2 17.4 25.6 4.9 33.9 3 16 27.4 5 32.2 4 19.3 29.5 1.7 29.1 4.5 35.6 6 15.3 25.3 3.6 32.3 7 16.7 25.8 4.4 33 8 26.7 9 16.2 25.7 2.3 10 6.4 35 11 18.2 28 3.2 29.7 12 2.1 34.9 13 18.1 4.3 31.5 14 26 32.7 15 30.2 20.2 30.5 4.8 34.4 17 5.5 36.2 18 21.5 5.8 36.5 19 30.6 5.4 35.4 20 21.6 27.8 34.1 21 21.3 35.8

例1.24（续例1.23）对例1.23数据，计算中位数向量相关矩阵及Spearman相关矩阵并进行分析 .
解由PROC CORR过程，算得及对应p值如下：若取，其值，认为与，与，与相关，其相关系数无明显统计意义. 0.0 0.1312 0.1200

取 , 的元素对应值皆小于，故认为具有统计意义.
Spearman相关矩阵及对应值取 , 的元素对应值皆小于，故认为具有统计意义. 0.0 0.0005 0.0514

第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值

Similar presentations

Presentation on theme: "第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据，一元数据是 个观测值

Similar presentations

Presentation on theme: "第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据，一元数据是 个观测值"— Presentation transcript:

Similar presentations

About project

反馈

第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值

Presentation on theme: "第1章数据的描述性分析 1.1 数据的数字特征数据分析研究的对象是数据，一元数据是个观测值"— Presentation transcript: