第二章 统计资料的整理 为什么进行统计资料的整理? 分类表中序列表与频数估计表各适合于何种情 况? 双变量二元分布表中数据的含义如何?
第二章 统计资料的整理 统计资料整理的目的 调查收集到的原始统计资料常常是大量的。它必须 经过加工整理,如分类归并汇总,按时间前后或按 数值大小重新排列等,才容易发现数据的规律性, 并便于做进一步的统计分析。 加工整理, 归并汇总, 重新排列 调查得到 的原始 统计资料 发现数据 的规律性, 作进一步的 统计分析
第二章 统计资料的整理 统计表 类型 将变量所取值按时 间顺序排列 序列表 分类表 按数值分类 定性分布 频数分布 时间序列表 地域序列 将变量所取值按 地域排列 按性质分类 2.1 统计表
第二章 统计资料的整理 时间序列表的例子: 2.1 统计表
第二章 统计资料的整理 定性分布: 首先建立一个元素的类别系统,使得各类互相 排斥,而且是完备的,使被观测的各元素能既不重 复又无遗漏地分到各类中去。 然后记录分到同类中的元素个数,或将同类中 各元素的观测值加以归并,这样得到定性分布。 元素分类 观测值 记录与归并 定性分布定性分布 2.1 统计表
第二章 统计资料的整理 定性分布的例子: 2.1 统计表
第二章 统计资料的整理 频数分布: 按变量所取的值进行分类,于是资料中每个观测 值都分到相应类中去。记录各类中观测值出现的次数, 制成频数分布表。 X min 最小值,x max 最大值 2.1 统计表
第二章 统计资料的整理 分数计 数人数(f) 40 — — 59 正正 — 69 正正正正正正正正正正正 — 79 正正正正正正正正正正正 — 89 正正正正正正正正正正 — 99 正正正 — 总数200 在所属组的记录栏做一记号,按照我国习惯,用写 “ 正 ” 字 方法,英文书使用 “ # ” 符号 表2-4 某校200个学生高等数学考试成绩 2.1 统计表
第二章 统计资料的整理 表2-5 某校200个学生高等数学考试成绩的频数分布表 分数人数(f)分数人数(f) 40 — — — — — — — — — — — 75 39总 数 统计表
第二章 统计资料的整理 2.1 统计表
第二章 统计资料的整理 表2-5 与 表2-6 的 对比 表2-5中组距等于6,频数分布 的规则性,仍然可以维持,同 时细节的损失也可减轻 表2-6中的组距等于2,各组频数 分布就变得很不规则了。 由此可见,组数的确定应适当, 亦不宜太多 2.1 统计表
第二章 统计资料的整理 累积频数(Cumulative Frequency):由第一组起 至第i组止各频数之和称为第i组的累积频数,记为F i, 即: 频率(Percent Frequency):就是频数除以总数n:f i /n, 经常以百分数表示。 累计频数与频率 2.1 统计表
第二章 统计资料的整理 频数表的例子 2.1 统计表
第二章 统计资料的整理 统计图: 统计资料整理成统计表后,可以比较清 晰地展示变量的变化规律。为了使这种规律更有 直观性,常采用统计图表示。包括:线图 、条形 图 、圆饼图等 统计图 线图条形图圆饼图 2.2 统计图
第二章 统计资料的整理 2.2 统计图
第二章 统计资料的整理 线图(Line graph) 2.2 统计图 ( 亿元 )
第二章 统计资料的整理 条形图 (Bar chart) 2.2 统计图 ( 亿元 )
第二章 统计资料的整理 圆饼图 (Pie chart) 2.2 统计图
第二章 统计资料的整理 散点图(Scatter Diagram) 2.2 统计图
第二章 统计资料的整理 双变量的统计资料:对每一元素观测两个 特征,记录观测结果,就是双变量的统计 资料 双变量常用(X,Y)形式表示,以区别两 个单变量X和Y 2.3 双变量的二元分布
第二章 统计资料的整理 错误发生时的飞行状态,分起飞(T),巡航(C) 和着陆(L)三种。 错误发生的原因,分规范理解错误(R),仪表读数 错误(M)和其它原因(O)三种。 [例2.1] 在飞行模拟训练时,用计算机测定并打印出飞行动作 的错误,从两方面进行测定: 2.3 双变量的二元分布
第二章 统计资料的整理 测定45次的打印记录如下: 2.3 双变量的二元分布
第二章 统计资料的整理 根据该记录整理的二元分布表如下: 从表中看出,在起飞(T)时容易发生规范理解错误 (R)和仪表读数错误(M),而着陆(L)时不太容易 发生规范理解错误。 2.3 双变量的二元分布
第二章 统计资料的整理 边际分布:在二元分布表最下行(合计行)和最右列 (合计列)分别是X和Y的单变量分布,称为边际分布。 二元分布表 最下行 二元分布表 最右行 X的单变量 分布 Y的单变量 分布 边际分布 统称 2.3 双变量的二元分布
第二章 统计资料的整理 一个双变量的二元分布绝不同于两个单变量的一元分 布,它不仅说明两变量各自的分布情况,而且说明两变 量之间(飞行状态与错误原因之间)的相互关联情况。 而这种关联情况(即是否存在关联以及关联的性态和程 度等)正是研究双变量的二元分布的主要任务。 双 变量 二元 分布 两变量各自 的分布情况 变量之间 相互关联情况 研究二元分布 的主要任务 说明 2.3 双变量的二元分布
第二章 统计资料的整理 对于三变量(X,Y,Z)的统计资料,整理成分布表的形 式是困难的,常用的方法是对于X的每一特定值 x i ,研究 (Y, Z)的二元分布。更多变量的情形也类似。 2.3 双变量的二元分布