4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状

Slides:



Advertisements
Similar presentations
因数与倍数 2 、 5 的倍数的特征
Advertisements

因数与倍数 2 、 5 的倍数的特征 绿色圃中小学教育网 扶余市蔡家沟镇中心小学 雷可心.
2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
高等数学( XJD ) 第二章 导数与微分 返回 高等数学( XAUAT ) 高等数学( XJD ) 求导法则 基本公式 导 数 导 数 微 分微 分 微 分微 分 求导方法 高阶导数 微分法则 导数与微分关系图导数与微分关系图.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
第二章 导数与微分 习题课 主要内容 典型例题 测验题. 求 导 法 则求 导 法 则 求 导 法 则求 导 法 则 基本公式 导 数 导 数 微 分微 分 微 分微 分 高阶导数 高阶微分 一、主要内容.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
第四章 数据分布的集中趋势和离中趋势 第一节 集中趋势指标 第二节 离中趋势指标.
主讲人:赵丽 政治与公共事务管理学院 管理定量分析 主讲人:赵丽 政治与公共事务管理学院
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数
第三章 统计数据的描述 教师:刘小林.
第二章 计量资料的统计描述 第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第五节 医学参考值范围的制定.
第三章 集中量数.
应用统计第1章 以Excel 和SPSS为工具的管理统计 同济大学经济与管理学院 管理科学与工程系 张建同 教授.
第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
统计学原理(第四讲) 罗洪群.
第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理
第四节 对数留数与辐角原理 一、对数留数 二、辐角原理 三、路西定理 四、小结与思考.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
第四章 定积分及其应用 4.3 定积分的概念与性质 微积分基本公式 定积分的换元积分法与分部积分法 4.5 广义积分
统 计 基 础 课 程 辅 导 教 案 青海省大通县农广校.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三节 函数的求导法则 一 函数的四则运算的微分法则 二 反函数的微分法则 三 复合函数的微分法则及微分 形式不变性 四 微分法小结.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第一节 分布的集中趋势 第二节 分布的离散程度
统计学期末复习
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
元素替换法 ——行列式按行(列)展开(推论)
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
数列.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Descriptive Statistics
1.2 有理数 第1课时 有理数 伏家营中学 付宝华.
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
小数的大小比较 仙岩镇第二小学 陈曼丽.
统计图表绘制 电子工业出版社.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第一节 不定积分的概念与性质 一、原函数与不定积分的概念 二、不定积分的几何意义 三、基本积分表 四、不定积分的性质 五、小结 思考题.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
利用DSC进行比热容的测定 比 热 容 测 量 案 例 2010.02 TA No.036 热分析・粘弹性测量定 ・何为比热容
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二章 计量资料的统计描述.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
三角 三角 三角 函数 余弦函数的图象和性质.
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状 第四章 集中趋势和离中趋势 4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状

4.1 集中趋势的计算 一、算术平均(也叫均值 ) 集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。 4.1 集中趋势的计算 集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。 一、算术平均(也叫均值 ) 1.简单算术平均数 计算公式: 它是反映数据集中的主要测度。

算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的稳定数值。反映数据集中的特征。 例 某生产班组11个工人的日产零件数分别为:15,17,19,20,22,…26,30。求该生产班组工人的平均日产零件数。 解: * … * 22 * * * * *

算术平均值的性质一:数据观察值与均值的离差值之和为零. 此性质表明均值是各数值的重心 算术平均值的性质二:观察值与均值的离差平方和最小。 为任意数 故用算术平均值来预测作为估计值,误差平方和最小。

均值的缺点:均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性。同时还影响其对集中趋势测度的准确性。 数列:1,2,2,3 平均数为2 数列:1,2,2,5 平均数为2.5 数列:1,2,2,7 平均数为3

2.加权算术平均数 如果数据是分组资料,经过整理形成了次数分配,由于各组次数不同,要用次数作权数计算加权算术平均数。 则均值的计算公式为: 其中Xi 表示第i 组的组中值,fi表示第i组的次数。

例:某单位80工人一周生产零件数的分组统计资料如下表: 工人数fi 组中值xi xifi 60以下 7 55 385 60-70 21 65 1365 70-80 25 75 1875 80-90 19 85 1615 90以上 8 95 760 合计 80 --- 6000

二、中位数 将数据观察值x1,x2,…,xn按其变量值由小到大的顺序排列,处于数列中点位置的数值就是中位数(Me)。 中位数的确定方法: ②如果数据个数为偶数,则处于n/2、n/2+1的两个标志值的平均数为中位数。

③如果是组距分组资料,公式为: 向上累积 向下累积 中位数是n/2位置上的数值,设落在第i组, Li是中位数所在组的下限, fi是中位数所在组的次数。 Fi-1是中位数所在组的前一组的累积次数 Ui-Li是中位数所在组的组距 =上限-下限

某单位80工人一周生产零件数分组统计资料如下: 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 工人数fi 组中值xi xifi 向上累计频数 向下累计频数 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 25 75 1875 53 52 80-90 19 85 1615 72 27 90以上 8 95 760 合计 --- 6000

中位数是位置平均数,不受极端值的影响。各个数值相对其中位数的绝对离差之和为最小。 不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。

三、众 数 众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度( M0 )。 ①未分组资料,M0就是出现次数最多的变量值。 三、众 数 众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度( M0 )。 ①未分组资料,M0就是出现次数最多的变量值。 20,15, 18,20,20,22,20,23 20,20,15,19, 19, 20,19,25 10,11,13,16,15,25 ,8,12

②分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。 设众数在第i组,则 Li是众数所在组的下限, Ui是众数所在组的上限; fi是众数所在组的次数。 di= Ui-Li是中位数所在组的组距 =上限-下限

某单位80工人一周生产零件数分组统计资料如下: 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 工人数fi 组中值xi xifi 向上累计频数 向下累计频数 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 25 75 1875 53 52 80-90 19 85 1615 72 27 90以上 8 95 760 合计 --- 6000

在Excel中 AVERAGE()—计算算术平均数 利用SUM()函数和SUMPRODUCT()函数求加权算术平均。 MEDIAN()—计算中位数 MODE()—计算众数

四、均值、中位数、众数三者之间的关系 f f f X X X (对称分布) 正偏态分布(右) 负偏态分布(左) 均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。

在偏斜不大时,中位数大约位于均值与众数的1/3处。 算术平均数适用于定距变量(或数值变量、定量变量),中位数适用于定序变量,众数则适用于定类变量(或定性变量)

五、集中趋势的其它测度量 1.分位数:四分位数、十分位数、百分位数。 分位数的计算: (1)将资料按大小顺序排列; (2)求出分位数所在位置i; (3)若i为整数,则所求分位数为该位置上的数值;若i为非整数,则取第i与第i+1位置的两个数值的平均数为所求分位数。 (4)若资料为分组数据,则各分位数可按下式计算: Ki表示第i个K分位数; Li表示第i个K分位数所在组的下限;N表示数据总个数;Fi-1表示第i个K分位数所在组的前一组的累积次数;fi是第i个K分位数所在组的次数。di= Ui-Li是第i个K分位数所在组的组距。

四分位数的位置确定方法: 方法1:定义算法 方法2:以中位数为中心,从两端再计算中位数,公式: 其中[ ]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上

方法3 Excel给出的四分位数位置的确定方法 无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。

【例】:9个家庭的人均月收入数据(3种方法计算) 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 方法1: 方法2: 所以QL为从最小值数第3个数值,即850元; Qu为从最大值数第3个数值,即1500元;

所以QL为第3个数值,即850元; Qu为7个数值,即1500元; 方法3 Excel方法 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 所以QL为第3个数值,即850元; Qu为7个数值,即1500元; 可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少25%的数据小于等于QL,至少75%的数据小于等于Qu。

2.几何平均数 公式为: 用于计算平均比率或平均速度。包括 (1)对比率进行平均; (2)测定生产或经济变量的时间序列的平均增长率。 举例:将一笔钱存入银行,存期10年,以复利计息,10年的利率分配是:第1年至第2年为5%、第3年至5年为8%、第6年至第8年为10%、第9年至第10年12%,计算平均年利率。

注意:当观测值有一项为0或负值时,不易计算几何平均数。

3.调和平均值 调和平均值是观察值倒数之平均数的倒数,也称倒数平均数。用 表示: (1)具有倒数性质 例如某人前10公里以时速50公里行驶,后10公里以30公里时速行驶。这20公里花了0.533小时,所以平均时速

(2)总体单位数未知时,例4.11(71) 加权调和平均数 应用条件:资料经过分组,各组次数不同。

算术平均、几何平均、调和平均三者关系 三者均属于均值体系 算术平均值是直接对观测值进行平均;几何平均值是对观察值对数后的平均;调和平均值是对观察值取倒数后平均;一般情况下,有如下关系:

在Excel中 QUARTILE()—计算四分位数 PERCENTILE()—计算百分位数 GEOMEAN()—计算几何平均数 HARMEAN()—计算简单调和平均数

4.2 离中趋势的计算 离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。 离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。 一、 极差 极差也称为全距,是一组数据的最大值和最小值的差: 缺点:易受极端值的影响。 全距值越小,数据变动范围越小,平均数的代表性越高;全距值越大,数据数据变动范围越大,平均数的代表性越低。

1、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号A·D表示。计算公式: 二、平均差 1、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号A·D表示。计算公式: 2、优点:完整地反映了全部数据的分散程度,计算方法简单; 缺点:易受极值影响,绝对值计算不方便。 未分组数据: 分组数据: 平均差越大,平均数代表性越低; 平均差愈小,平均数代表性越高

三、 方差与标准差 总体方差是观察值与其均值离差平方和的均值; 总体标准差是总体方差的正平方根;

如果计算总体方差的资料是次数分配数据,在计算总体方差时要将各组权数考虑进去,有如下公式: 总体方差的另一种表达方式: 总体方差愈大,数据的变动程度愈大,总体方差愈小,数据的变动程度愈小。

样本方差与样本标准差 当样本数据个数足够大时,样本方差与总体方差很接近 在Excel中 Max()-min() —计算极差 AVEDEV()—计算平均差 VARP()—计算总体方差 VAR()—计算样本方差 STDEVP()—计算总体标准差 STDEV()—计算样本标准差

四、Chebishev定理与经验法则 1.Chebishev定理: 对任何一组资料,观测值落于均值左右k个标准差的区间内的比例,至少为(1-1/k2)。 Chebishev定理适用于任何形状的次数分布资料,但此区间是一个比较保守的估计值。 2.经验法则: 当资料分布呈对称形状时,有: (1)约有68%的观测值落于 的区间内; (2)约有95%的观测值落于 的区间内; (3)约有97%的观测值落于 的区间内;

五、相对离中趋势——变异系数 定义:变异系数又称离散系数,是标准差与均值的比值。 公式: 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较

从σ上看,甲的 更具代表性,通过C.V. ,乙不但 高,而且各地块产量比甲农场稳定,因此乙的 最具有代表性。 例: σ C.V. 甲 300 7.5 2.5% 乙 400 9 2.25% 从σ上看,甲的 更具代表性,通过C.V. ,乙不但 高,而且各地块产量比甲农场稳定,因此乙的 最具有代表性。

【 例 】评价哪名运动员的发挥更稳定 发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员是蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡

六、离中趋势的其它测度量 1.四分位差 四分位差是第三个四分位值与第一个四分位值之差的二分之一。用Q.D.表示。 意义: ——剔除了极端值,说明50%数据分布的范围; ——与中位数配合说明数据分布是否对称。 若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2 若不相等,则是非对称的。

2.异众比率 异众比率指非众数值的次数之和占总次数的比重,用VM0表示。 fM0 为众数值次数,n为总次数 含义: 异众比率数值越大,说明众数的代表性越低,即观测值差异较大;异众比率数值越小,说明众数的代表性越高,即观测值差异较小。

3.平均差系数

4.3 数据的分布形状 一、偏斜度 偏斜度是对数据分布在平均数两侧的偏移方向和偏移程度所作的描述。 1.Pearson偏态系数 偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为: 当SK=0时, 呈对称分布; 当SK>0时, 分布是右偏(正偏)的;当SK<0时, 分布是左偏(负偏)的。

SK=0 SK>0 SK<0 (对称分布) 正偏态分布(右) 负偏态分布(左)

(k-1)!!表示从1到k-1点的一切奇数的连乘积。 2.动差法(矩法)求偏态系数 统计学中,矩包括原点矩和中心矩。原点矩的定义是: k为整数,称为k阶原点矩 中心矩的定义是: 中心矩的两个重要性质: ——分布对称时,奇数阶中心矩恒为零; ——当分布为正态分布时,偶数阶中心矩有 (k-1)!!表示从1到k-1点的一切奇数的连乘积。

EXCEL中,用函数skew()求偏斜度 矩法估计就是利用中心矩来衡量分布的偏度。 用公式表示为: 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 EXCEL中,用函数skew()求偏斜度

EXCEL中,用函数kurt()求偏斜度 二、峰度 峰度是变量分布的又一性质,它指的是分布曲线的高峰形态,即分布曲线的尖峭程度。 1.峰度系数 峰度指标K=3,分布为正态峰度,当峰度指标K>0时,表示频数分布比正态分布更集中,分布呈尖峰状态,K<0时表示频数分布比正态分布更分散,分布呈平坦峰。如图: Ⅱ(K>3) Ⅰ(K=3) Ⅲ (K<3) EXCEL中,用函数kurt()求偏斜度

数据的描述统计量