第三章 社会统计资料的整理 主要内容 统计分组的原则与标准 统计表 变量数列的编制 统计图

Slides:



Advertisements
Similar presentations
第 4 章 调查数据的整理与显示 2 第一节、定类数据的整理与显示 第二节、定序数据的整理与显示 第三节、定量数据的整理与显示.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
冀教版四年级数学上册 本节课我们主要来学习 2 、 3 、 5 的倍数特征,同学们要注意观察 和总结规律,掌握 2 、 3 、 5 的倍 数分别有什么特点,并且能够按 要求找出符合条件的数。
§3.4 空间直线的方程.
3.4 空间直线的方程.
第三章 统计数据的概括性描述.
人教版五年级数学下册 众 数.
统计学原理 第三章 统计整理.
统计学原理(第三讲) 罗洪群.
折线统计图(第1课时) 第七单元 折线统计图 兰州新区中川镇中川小学 魏红
折线统计图 张家产中心完小.
扇 形 统 计 图 吴兴区太湖小学 黄晓燕.
第 3 章 数据的整理与显示 PowerPoint 统计学.
第六章 调查数据的整理 第一节 数据的预处理 第二节 统计分组和次数分布 第二节 统计表和统计图.
一次函数的图象复习课 南华实验学校 初二(10)班 教师:朱中萍.
数 学 分 析 第九章 定积分 第二节 微积分学基本公式 主讲:师建国.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
利用定积分求平面图形的面积.
第六章 定积分 第一节 定积分的概念 第二节 微积分基本公式 第三节 定积分的积分法.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
初中数学 七年级(上册) 6.3 余角、补角、对顶角(1).
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
10.2 直方图 (第1课时).
第三章 统计整理 第一节 统计整理概述 第二节 统计分组 第三节 频数分布 第四节 统计表和统计图.
复习引入 数据 统计学的核心思想是 根据样本的情况对总体的相应情况作出估计和推断 2.统计学研究问题的步骤
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
绘制圆与多边形 椭圆形 绘制椭圆形的方法是 drawOval(x ,y , width , height), 绘制实心椭圆形的方法是
第十章 方差分析.
双曲线的简单几何性质 杏坛中学 高二数学备课组.
第二章 统计数据的搜集、整理与显示 第一节 统计数据的搜集 第二节 统计数据的整理 第三节 统计数据的显示
第一章 函数与极限.
第2章 统计数据的描述(2) ——统计整理.
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
§1体积求法 一、旋转体的体积 二、平行截面面积为已知的立体的体积 三、小结.
1.2 有理数 第1课时 有理数 伏家营中学 付宝华.
6.4 你有信心吗?.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
小数的大小比较 仙岩镇第二小学 陈曼丽.
统计图表绘制 电子工业出版社.
第四章 第四节 函数图形的描绘 一、渐近线 二、图形描绘的步骤 三 、作图举例.
可编辑图表汇总 修改方法: 点击图表内容→“设计”选项卡→编辑数据.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
分数再认识三 真假带分数的练习课.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
3.1无理数2.
用样本估计总体.
24.4弧长和扇形面积 圆锥的侧面积和全面积.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
位似.
§4.5 最大公因式的矩阵求法( Ⅱ ).
H a S = a h.
3.3.2 两点间的距离 山东省临沂第一中学.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

第三章 社会统计资料的整理 主要内容 统计分组的原则与标准 统计表 变量数列的编制 统计图 第三章 社会统计资料的整理 原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。 统计分组的原则与标准 统计表 主要内容 变量数列的编制 统计图

第一节 统计分组的原则与标准 统计分组的原则 1.分组应使各类别构成之和等于总体 “穷举” “互斥” 第一节 统计分组的原则与标准 统计分组的原则 1.分组应使各类别构成之和等于总体 “穷举” “互斥” 2.分组设计应能反映统计总体的分布规律性 统计分组主要是为了能很好地反映统计总体的构成状况,即反映总体中各单位的分布特征。分组设计要适应这一要求,必须在分组后使总体单位总数在各组的分配情况能够反映总体的分布规律性。

频数分布数列 某社团成员的构成 变量数列 品质数列 在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。 某社团成员的构成 性别 人数 年龄 人数 28 22 15--25 3 7 12 18 10 男 女 25--35 35--45 45--55 55--65

第二节 统计表 100名男性青年的身高表 单位:厘米 166 181 173 171 168 164 178 167 156 194 第二节 统计表 100名男性青年的身高表 单位:厘米 166 181 173 171 168 164 178 167 156 194 169 175 183 168 165 180 170 172 167 175 173 169 174 172 171 169 173 184 173 169 170 181 185 168 174 187 167 174 169 165 167 172 174 173 155 179 164 158 165 162 157 175 182 168 176 161 171 163 176 159 171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164 统计调查搜集来的资料往往是没有次序的原始资料(参见右表),使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。

1. 统计表的格式、内容与种类 总标题 格式 统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。 纵栏标题 2002年我国城乡人口情况 按城乡分 人口数(万人) 比重(%) 城镇 50212 39.09 乡村 78241 60.91 横行标题 合计 128453 100.00 统计数值

内容 主词——统计表所要说明的对象。 宾词——用来说明主词的标志和标志值。 如需要,主宾词可互换。 表3.4 离婚案件构成 草率型 外遇型 表3.4 离婚案件构成 草率型 外遇型 猜疑型 虐待型 再婚型 家务型 生理型 分居型 其他型 合计 离婚案件(件) 比重(%) 85 14 79 13 64 10 44 7 188 31 46 2 59 9 623 100

简单表 统计表按主词是否分组以及分组的程度可分为 ●简单表 我国城市居民家庭基本情况(2002年) 简单分组表 复合分组表 主要指标 单位 数值 平均每户家庭人口 平均每户就业人口 平均每个就业者负担数 平均每人全部年收入 平均每人可支配收入 平均每人消费性支出 人 元 3.04 1.58 1.92 8177.40 7702.80 6029.88

中国人口年龄结构状况 单位:% ● 简单分组表 年龄组 1953年 1964年 1982年 1990年 2000年 0―14岁 15―64岁 ● 简单分组表 中国人口年龄结构状况 单位:% 年龄组 1953年 1964年 1982年 1990年 2000年 0―14岁 15―64岁 65岁以上 36.3 59.3 4.4 40.7 55.7 3.6 33.6 61.5 4.9 27.7 66.7 5.6 22.9 70.1 7.0 资料来源|:《2003中国统计年鉴》第99页。

我国社会福利主要费用情况 单位:亿元 ● 复合分组表 项目 1998 1999 2000 2001 (一)优抚对象补助金额 国家支出 我国社会福利主要费用情况 单位:亿元 项目 1998 1999 2000 2001 (一)优抚对象补助金额 国家支出 集体供给 (二)农村传统救济金额 (三)城乡各种福利院支出 68.0 32.4 35.6 29.8 7.0 22.8 20.2 10.3 9.9 91.4 51.1 40.3 28.5 7.9 20.6 23.1 13.7 9.4 107.6 60.7 46.9 31.7 8.3 23.4 28.7 19.0 9.7 108.1 69.5 38.6 29.5 12.1 17.4 40.5 26.4 14.1 合计 118.0 143.0 168.0 178.1 资料来源|:《2003中国统计年鉴》第838页。

2.统计表的制作规则 标题栏部分 1、标题置于表格正上方 2、总标题所示要点与表中项目一致,在需要时还应表明资料所属的时间和地区 3、表次:左 ;单位:右 4、对分页的同一表格,在每页上端都要写标题,加(续一)、(续二) 栏目部分 1、先局部后整体 2、若栏目较多,可加以编号;统计数字间有计算关系的,可用计算式表达。

线格部分 1、统计表上下两端线应以粗线或双细线标划,表的左右两侧开口。 2、各栏间用直线标划,大项目间线条较粗,小栏目线条较细;各行间不必划线条。 数字部分 1、表中数字要对准位数。 2、不存在某数字时,用“——”表示;缺少某项数字时,用“……”表示。 3、数字较大时,加分位点。 其他规则 1、资料来源写在表格下方。 2、有说明解释需要时,在表下方注释。 3、单位有数种时而不能在表右上角划一标注时,分两种情况处理。

第三节 变量数列的编制 变量数列的构成要素 在社会统计学中,总体中各单位的分布特征首先是用统计表来表示的。能够表示变量分布及其特征的统计表,即变量数列。它有两个构成要素: 频数 fi 变量值 Xi 相对频数 Pi

1.离散变量数列 离散变量所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数,因而能编制出单项式和组距式两种变量数列。 单项数列 组距数列 组距(hi) =上限(ui) ―下限(li) 组中值( mi) = 或 组中值( mi) =

某社区各户人口数统计表 人口数(X) 户数(f) 频率(P) 合计 50 1.00 ● 离散变量单项数列 单项式变量数列——数列中每一组的变量值只有一 个。单项数列用于离散变量整数值变动幅度较小时。 某社区各户人口数统计表 人口数(X) 户数(f) 频率(P) 2 3 4 5 6 7 8 16 10 1 0.10 0.16 0.32 0.20 0.12 0.08 0.02 合计 50 1.00

组距式变量数列——离散变量的整数值如果变动幅 度较大,而且总体单位数N又很大,则要编制组距数列。 ● 离散变量组距数列 组距式变量数列——离散变量的整数值如果变动幅 度较大,而且总体单位数N又很大,则要编制组距数列。 某地区小学班级数 间距 组中值( ) 学校数( ) 8―14 15―21 22―28 29―35 36―42 11 18 25 32 39 2 5 10 8 4 合计 —— 29 组中值(

2.连续变量数列 连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距数列。与离散变量组距数列不同之处在于,根据连续变量的特征,此时组距数列中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。至于恰等于某一组限的数据(如下表中身高164厘米)归于哪一组,应该按照“上限不包括在内”的原则处理。这就是说,164应归于“164—168”这一组,而不应归于“160—l64”这一组。有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。

● 连续变量数列 男青年身高按4厘米的间距分组时的频数分布 身高间距(厘米) 组中值 (Xi) 频数(fi) 频率(Pi) 148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 188―192 192―196 150 154 158 162 166 170 174 178 182 186 190 194 1 2 5 10 19 25 17 12 3 0.01 0.02 0.05 0.10 0.19 0.25 0.17 0.12 0.03 0.00 合计 —— 100 1.00

3. 确定组距和组数 已有某些数学公式可供参考 但最佳决定还是依据常识和数列使用的目的而 定。一般地说,组距应不小于可以忽略的数值之差。 对于等距分组且为闭口组的情况,确定组距 已有某些数学公式可供参考 但最佳决定还是依据常识和数列使用的目的而 定。一般地说,组距应不小于可以忽略的数值之差。 注意,在资料被整理成数列时,全距可适当放大 (但不能缩小),以便组数(或组距)取整数值。

异距分组主要在变量变动并不是均匀的、有急剧上 升或突然下降之类情况发生时考虑。 标准组距频数的换算方法: (1)选定某一合适的组距为标准组距; (2)用标准组距除以各组组距,得到折合系数; (3)将各组的折合系数乘以各组的频数。

男青年按身高 分组(厘米) 频数 组距 频数密度 折合系数 (取标准组距4) 标准组距频数 148―156 156―164 164―168 频数密度和标准组距频数计算表 男青年按身高 分组(厘米) 频数 组距 频数密度 折合系数 (取标准组距4) 标准组距频数 148―156 156―164 164―168 168―172 172―176 176―180 180―188 188―196 3 15 19 25 17 12 8 1 4 3/8 15/8 19/4 25/4 17/4 12/4 8/8 1/8 1/2 1.5 7.5 19.0 25.0 17.0 12.0 4.0 0.5 合计 100 ——

4. 累计频数(F) 向上累计——以变量数 列首组的频数为始点,逐 个累计各组的频数,展示 小于该组上限的频数和。 向下累计——以变量数 列末组的频数为始点,逐 个累计各组的频数,展示 大于该组下限的频数和。

第四节 统计图 频数分布不但可以用统计表的形式表现,也可用统计图的形式表现。用统计图表示频数分布,较之用统计表,要直观便捷得多。但缺点是不及统计表精确。统计图的种类很多,本节仅就与频数分布数列相衔接的统计图加以介绍。 根据编制好的频数分布数列,可以绘制出相应统图,最常用的有频数分布直方图、折线图、曲线图及累计频数分布曲线。 具体方法是: 先画直角坐标系, 横轴代表分组或各组组限,纵轴代表各组频数或频 率, 然后再根据相应的分配数列作图。

1.直方图(Histogram) 直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。对于定类变量和定序变量的分组,矩形(或长条)的宽度是没有意义的,各矩形之间要留出一定的空隙。 对于定距变量(和定比变量)的分组,矩形的宽度表示各组组距,各矩形之间一般不留空隙。在等距分组的条件下,很显然各矩形的面积与其高度成正比。因此,各矩形的面积同样可以用来表示各组的频数或频率,而且看起来更形象直观。如果取各矩形的总面积为1,各矩形的面积必定等于各组的相对频数。

据定类变量和定序变量所绘的直方图

定距变量(和定比变量)的直方图

其实,在频数分布图中,用面积来理解频数分布状况更合适。 比如直方图,当处理异距分组时应该用矩形面积而不是用矩形高度 来显示频数分布。 下面是根据表3.15绘制出的两个直方图。左图用矩形高度来 表示各组频数就会产生错觉。右图是按照标准组距频数作出来的, 用矩形面积来表示各组频数就避免了不必要的错觉。以后当我们接 触正态曲线等曲线后,将进一步体会到用面积来表示频数分布的好 处。

2. 折线图(Polygon) 表示频数分布的另一种图形是频数多边形图,简 称折线图。直接把直方图各矩形顶部的中点用直线连接 起来,并把原来的矩形抹掉,就得到频数多边形图。

3.曲线图(Diagram) 当变量数列中的组数愈加增多,变量值也非常多 时,折线图会逐步过渡到平滑曲线。频数分布曲线图实 质上是对应于连续变量的频数分布的函数关系图。

下表是诺贝尔获奖者的年龄分布表。(1)请根据数据 制作直方图和折线图;(2)将折线图修匀为一条曲线 图,并描述该曲线的特点。 获奖人数 25岁以下 25~30 30~35 35~40 40~45 45~50 50岁以上 15 34 70 68 53 37 28 合计 305

常见曲线图类型 ● 钟形曲线: “中间大,两头小” 对称分布:正态分布 非对称分布: 偏态分布——右偏、左偏 ● 钟形曲线: “中间大,两头小” 对称分布:正态分布 非对称分布: 偏态分布——右偏、左偏 以横轴为渐近线,与横轴所围的面积为1,代表变量 X全部可能取值的概率。 婚龄、学生身高——近似正态分布 收入分配、资源配置——偏态分布

● U形曲线:中间 小,两头大 ● J形曲线:正J分布,反J分布 ●逻辑斯蒂曲线:变量值分布的次数随变 量值增大 而增多或相反,但有上限。

4. 累计频数分布曲线 显然,累计频数分布曲线只有两种形状:或持续增长的或持续减少的。 这分别取决于向上累计或 向下累计。累计频数分布 曲线一般都呈逻辑斯谛曲 线形,其斜率最大的地方 对应于频数最大的组,其 水平的地方对应于空组。

5. 洛仑兹曲线和基尼系数 1984年我国农民家庭人口及收入构成累计 单位:% 农民家庭收入按收入多少的人口序列 在全部收入中所占百分比 1984年我国农民家庭人口及收入构成累计 单位:% 农民家庭收入按收入多少的人口序列 在全部收入中所占百分比 累积的人口百分比 累积的收入百分比 绝对平均 绝对不平均 实际情况 最低的20% 第二个20% 第三个20% 第四个20% 第五个20% 10.12 14.07 17.82 21.99 36.00 20 40 60 80 100 24.19 42.01 64.00 100.00    资料来源:《统计研究》1986年第1期。

洛仑兹(Lorenz)曲线乃反映社会收入分配平均程度的一种累计百分数曲线,其特点是在纵轴和横轴上都进行累计。(下凹程度愈大,收入分配愈不平均)                                                                            

● 基尼系数 意大利经济学家基尼(Gini)根据洛仑兹曲线提出了 判断收入分配平均程度的指标。 合理界限0.2~0.3;警戒线0.4;红线0.6。 (中国, 2003,0.46) 基尼系数的计算公式,可以根据定义推导出来,即