Download presentation
Presentation is loading. Please wait.
Published by轴哲 家 Modified 7年之前
1
主讲人:赵丽 政治与公共事务管理学院 zyz@sgu.edu.cn
管理定量分析 主讲人:赵丽 政治与公共事务管理学院
2
第二章 调查与统计分析 第一节 搜集资料 第二节 数列的频率分析 第三节 频率分布的概率度量法 第四节 变量的特性分析
3
教学目标与要求: 掌握搜集资料的基本方法 学会基本的数据分析方法 认识中心趋势分析以及离散分析。
4
第一节 搜集资料
5
量化分析的过程就是从搜集信息开始,进行信息加工处理——整理、分类、分析,最后得到结论的过程。
6
一、搜集信息的方法 1、全面调查——普查 调查是搜集信息的主要手段,分全面调查和非全面调查(普查和抽样调查)两大类。
根据要求,对所涉及的全部对象一个不漏地进行调查。
7
遵循“统一”原则: 统一调查目的、要求、调查对象; 统一调查时间; 统一编号,所涉及的各个项目及其可能的选择给予互不相同的编号;
统一调查项目并给予正确的解释,制定栏目、格式完全一致的调查问卷; 统一调查方式,如“人口普查”中派“调查员”入户询问、等级问卷;
8
按统一标准培训; 统一数据汇总原则和方式; 统一数据处理方法(如采用同一软件); 统一调查结果的汇总、上报方式和时间; 统一解释权归属; 其他需要统一的内容。
9
2、非全面调查 典型调查:根据调查目的,选择在同类对象中最具典型性的单位或个人进行调查;
重点调查:根据调查目的,选择最具代表性的对象进行调查。
10
随机抽样调查:根据调查目的,在调查对象中随机抽取调查对象,获取资料,进行分析。
11
普查、抽样调查的比较 普 查 抽 样 调 查 对 象 被调查对象全体,一个不漏 部分被调查对象,随机—机会均等 要 求
普 查 抽 样 调 查 对 象 被调查对象全体,一个不漏 部分被调查对象,随机—机会均等 要 求 准确无误,必须一次成功 有代表性 投 入 巨大的人力物力等资源投入 较小的资源投入 耗 时 从准备到完成耗时很长 耗时较少 程序方法 大体相同 两次调查间隔 数年以上 按需要随时可进行 例 全国人口普查 人口素质调查 “4050”就业情况调查 结 果 全局意义,但是可能有误差;误差比抽样调查小 是样板,对全局有参照意义,可能有误差
12
二、调查误差 1、误差的类型 工作误差:由调查工作本身造成的。 代表性误差:用样本推断总体而引起的。
13
2、误差产生的原因 调查方案设计的问题,如指标含义不清、调查口径不一致,调查方法不完善; 资料重复或者遗漏;
被调查对象提供的信息不准确(故意、无意——记忆差错等);
14
调查员工作疏忽大意; 个别参与调查的人员弄虚作假; 测量工具不准确; 输入汇总资料时产生差错; 其他。
15
3、如何控制误差 调查方案设计力求完善,涉及的术语有唯一准确的定义;计算方法要简洁。
组建具有一定权威的调查机构,选用责任心强、专业、训练有素的调查员。
16
做好被调查对象的宣传、解释工作。 小范围、小规模的模拟调查,事先发现问题,尽早纠正差错。这对普查尤其重要。 严格采样、汇总、处理数据的方法和步骤。 及时抽查,及时纠正问题。 必要的奖惩措施。
17
4、注意事项 目标明确,概念界定清楚,程序和日程安排明白无误,组织严谨,参与调查的人员训练有素。
在保证目标的基础上,问卷设计简洁合理,设问有内在联系,可相互佐证。 搜集、整理、加工信息的方法科学、实用。 调查误差虽然不可避免,但可以通过努力降至最小。
18
三、调查步骤 以问卷调查为例,大致需要经过如下步骤: 1、首先,确定问题,明确调查的主题——围绕什么中心搜集资料。
19
2、其次,列出大纲,将主题“细化”,设计好问卷。内容包括:
基本调查项目,这类项目在资料分析时往往作“自变量”: 被调查对象是单位:名称、性质、成立时间、地理位置、职工人数…… 被调查对象是个人:姓名(若属匿名调查,则不登记姓名)、性别、年龄、职业、文化程度……
21
3、确定样本(问卷发放)数量、范围(被调查 对象的条件,选择被调查对象的原则)。
态度、看法。 行为取向。 理由:采取某种行为、态度的理由或动机。 其他需要说明的问题。 3、确定样本(问卷发放)数量、范围(被调查 对象的条件,选择被调查对象的原则)。 4、有指导地发放、填写问卷。 5、回收问卷。
22
6、初步分析整理问卷,在整理数据之前,对资料(数据)的有效性进行初步分析:
(1)资料来源是否存在偏见?由这些资料得出的结论是否比别的资料更有价值? (2)资料的论据是否充分?与实际情况是否一致?有没有出乎意料的矛盾?
23
8、清点样本总数,输入事先设计的计算机表格。
(3)调查(观察)的对象和数量是否具有代表性? (4)整理后的资料是否合乎逻辑?初步结论是否可信?相近结论是否相互印证? 7、资料归类、初步数据整理。 8、清点样本总数,输入事先设计的计算机表格。
25
第二节 数列的频率分析
26
原始资料是未经处理输入计算机的数据表格。输入汇总的资料(数据)怎样排列与直觉判断关系密切。
通常在排序前先要选定数据归类法,从而确定统计的“标志列”及相应变量。 例如被调查对象的职业,被调查对象的年龄,被调查单位的性质(国营企业?集体企业?民营企业?个体工商户?)等都可以作标志列。
27
在做统计分析时, 标志列的元素常被 当作“自变量”使用
28
一、数据(观察值)整理排序法 二、频率法 升序:由小到大。 降序:由大到小。 频率法:就是计算出观察数据落在各数据段中的频数或频率。
按照下列步骤编制“定距数列”的频率分布表:
29
第一步:确定分组标志和分组数目。 需要明确每一个的上限和下限,可以按等距离分组,也可以采取不等距离分组。 个别组可以是开口组。
通常分组数由分组间隔大小和数据总数决定。
30
如果先决定分组数,再采取等距离分段,用下列公式计算组间距:
组距=(最大值 - 最小值+1)/分组数 其中的“1”表示一个观察值单位 如将1 -100分成10组,组距=( )/10=10
31
第二步:把数据归入各组,计算各组的观察值的个数,并填入相应方格。如果采用频率法,可用下列公式计算每组观察值的频率。
频率 = 该组数据数 / 数据总数 第三步:制作统计表格。 第四步:需要时绘制曲线图。
32
第三节 频率分布的概率度量法
33
∑ ai a = n 一、算术平均 1、n个数a1,a2,…,an的算术平均值: 需要推断几个样本是否取自同一个总体,要使用算术平均值。 n
34
对于用定距法分段统计数据的资料,可利用相应的组中值计算算术平均值。
EXCEL中的计算函数是AVERAGE 为了计算各个反映中心趋势的量,对分段统计的数据先要计算“组中值”——每一个分段数据的“中值”,计算公式: 组中值=(本组下限+本组上限)÷2 对于用定距法分段统计数据的资料,可利用相应的组中值计算算术平均值。 关于切尾均值(TRIMMEAN)
35
切尾均值是从全部数据中去掉指定比率的较大与较小数值,然后再计算算术平均数。
如果算术平均数和切尾均值差异不十分明显,表明算术平均数没有受到极端值的显著影响,可以粗略地认为数据中不存在显著的极端值。 例如,比赛或者评委打分的去掉一个最高分,去掉一个最低分
38
2、优点 第一,通俗、直观、易懂。 第二,是一个可计算的“单值量”,任何一组数据都有且仅有一个相应的算术平均数。如平均收入、人均GDP等。
第三,在计算算术平均数时,所有的数据都要参加运算,不能用概率推算,因此它是一个可靠的、具有代表性的度量中心趋势的量。
39
3、缺点 第一,算术平均数会受到资料中那些没有代表性的、特殊的数据影响。对于这类观察值,算术平均值并不具备代表性。
第二,存在无下限或无上限的“开口组”时,无法计算组中值,也就无法计算平均值。
40
二、加权平均值 在数理统计中,加权平均值又称数学期望。 算术平均法只考虑参与平均的数,而没有考虑每个数的频率。
加权平均法考虑了频率分布的情况,使数量大的数据在计算平均值时占比较大的比重;数量小的数据在计算平均值时占比较小的比重。
41
衡量数量多少的标准取决于有关数据在总体资料中所占比重的大小,即频率。一般情况下,用频率作为权重。也可以直接使用观察值的个数。加权算术平均值计算公式:
权重总和为1: 权重总和不为1:(直接用每段数据作为权重) n a = ∑ ai × ωi i=1 n ki a = ∑ ai × n i=1
42
三、几何平均值 计算公式: 几何平均值和算术平均值很接近,前者往往更接近实际情况。 EXCEL中的计算函数是GEOMEAN。
43
四、中位数 1、中位数Me:一个位于一组观察值的中心位置的参数。
大于它和小于它的参数相等。对于按序排列的奇数个观察值中位数就是最中间的那个数,偶数个观察值的数列的中位数是中间两位数的平均值。中位数对应的足标:第(n+1)/2项 EXCEL中的计算函数是MEDIAN。
44
奇数: 偶数: 足标(8+1)/2= 中位数(11+13)/2=12 2、优点 (1)不会受到特殊数据的影响; (2)无论是分组资料还是不分组资料都可以计算中位数,且直观、易懂。
45
组中值(闭口组)=(上限+下限)/2 组中值(只有上限)=上限-相邻组的组距/2 组中值(只有下限)=下限+相邻组的组距/2 组距=(最大值-最小值)/组数 组距=全距/组数
46
五、众数 众数Mo:资料中重复出现次数最多的数,即频率最高的数。 对于一个定序数列, EXCEL中的计算函数是MODE。
对于一个定序数列, EXCEL中的计算函数是MODE。
47
定距数列的众数计算方法: 众数可以用来测定品质资料的中心位置。 Mo = L + d1 /(d1+d2) *ω L为众数组的下限;
ω为众数组的组距宽。 众数可以用来测定品质资料的中心位置。
48
六、平均数、中位数、众数的适用性比较 1、比较 名 称 平均数 中位数 众数 算术平均 加权平均 几何平均 适 用 定类 ○ 求平均增长比
名 称 平均数 中位数 众数 算术平均 加权平均 几何平均 适 用 定类 ○ 求平均增长比 ◎ 定序 定距 不 适 用 开 口 组 其它情况 开口组或变量间差异较大 备 注 1、适用分类以观察值汇总方法为准。 2、三者相比“最好”用◎标志的参数,“可以”用○标志的参数
49
2、平均数、中位数、众数三者的关系 三个参数关系与分布特点 三个参数大小关系不同,反映观察值的分布特点。 对称分布 平均数=中位数=众数
向左倾斜 平均数≤中位数≤众数 向右倾斜 平均数≥中位数≥众数
50
三种典型的分布图:(单峰值情况) 对称分布 向左倾斜 向右倾斜
51
观察值对称分布:平均数、中位数、众数是同一个数;
观察值向左倾斜:平均数在最左边,中位数居中,众数在最右边; 观察值向右倾斜:众数在最左边,中位数居中,平均数在最右边。 结论:当总体分布是向右倾斜或向左倾斜时,以中位数度量中心为好。
52
具有双峰的分布曲线
53
第四节 变量的特性分析
54
观察值的分布不仅取决于“中心趋势”,还取决于“离心趋势”。描述观察值与中心趋势之间存在什么样的关系。也叫“离散趋势”、“离中趋势”。
离散趋势:观察值关于中心的分散程度。可以帮助我们了解中心趋势的可靠性。 描述离散趋势的量有极差、平均偏差、四分位内标准差等。
55
极差并不能反映一组观察值内在的特性。离散程度差别很大的两组观察资料,可能有相同的极差。
一、极差 极差:又称全距,是一组观察值中最大值与最小值的差。 极差=最大观察值 - 最小观察值 用途:衡量一组观察值的极端差距。 极差并不能反映一组观察值内在的特性。离散程度差别很大的两组观察资料,可能有相同的极差。
56
即使从同一组观察值抽取两组不同的样本,可能极差相去甚远。一般样本数越大,得到异常值的机会也越大,极差也越大。因此,极差对样本数过于敏感。
存在极端值问题 当有开口组时,无法计算极差 MAX-MIN
57
反映中间50%数据的离散程度,测度中位数的代表程度
二、四分位数 反映中间50%数据的离散程度,测度中位数的代表程度 中位数是二分位数。 四分位内距(四分位差):将一组数据四等分,得到三个数,设Q1为其第一分位数,Q2为中分位数,Q3为第三分位数,第三和第一分位点之间的距离为四分位内距。计算公式: R= Q3-Q1
58
四分位差小,中间部分数据分布集中,中位数代表程度较高 四分位差大,中间部分数据离散程度大,中位数代表程度较低
四分位点的离差: DR=( Q3-Q1) / 2 四分位差小,中间部分数据分布集中,中位数代表程度较高 四分位差大,中间部分数据离散程度大,中位数代表程度较低 EXCEL中的QUARTILE函数 四分位内距在定性分析的德尔斐法中得到广泛应用。
59
x- μ x- x n 三、平均偏差 反映平均偏差的指标有两个:方差和标准差。了解这二者之前首先认识一下绝对偏差。计算函数:AVEDEV
平均绝对偏差= (适用于总体) 平均绝对偏差= (适用于样本) 其中:x为观察值;N、n分别为总体和样本的容量; μ为总体平均值;x 为样本平均值。 x- μ ∑ N ∑ x- x n
60
均值±平均绝对偏差 可作图检查观察值落入均值±平均绝对偏差所夹区域的点数和落在区域外的点数,进而判断观察值偏离中心(平均值)的程度
61
四、方差和标准差 刻画离散趋势常用指标 标准差越大,数据距均值的平均离散程度就越高 方差是标准差的平方
方差和标准差都能衡量观察值的分散程度。 EXCEL中的计算函数:方差VARP;标准差STDEVP 对正态分布,用标准差能精确地确定落在平均数两侧某个范围内的频率分布是多大。
62
五、变异系数和偏态系数 1、变异系数 有两组观察值的平均值相同,从平均差或标准差的计算结果可以看出这两组值的变动差异程度;
两个平均值不相等,就难以比较它们之间的变动差异程度,为此引进计算变动度的指标——变异系数。
63
变异系数:反映数列变动的相对程度,是标准差与平均值的比。
V = s / x 由于变异系数反映了数组的相对离散程度,从而可以比较平均值不同的两组数列的离散程度。
64
在EXCEL中, 计算AVERAGE,再计算STDEVP,最后计算二者比值(标准差/均值)即为变异系数
65
3( x-Me) s 2、偏态系数(Skewness) SK=
偏态系数测度数据分布的偏斜方向和程度,系数绝对值越大,分布的偏斜程度就越大。 3( x-Me) s
66
SK>0,分布向右倾斜,存在偏大的极端值,有一条长尾拖在右边;
EXCEL中的SKEW函数
67
3、峰度系数(Kurtosis) KU=0 与正态分布相同 KU>0 尖峰分布,比正态分布陡 KU<0 平峰分布,比正态分布缓
测度数据分布是陡峭或平缓的指标 KU=0 与正态分布相同 KU>0 尖峰分布,比正态分布陡 KU<0 平峰分布,比正态分布缓 EXCEL中的KURT函数
68
如果测度数据分布比标准正态分布更瘦、更高、更陡峭,则称为尖峰分布。
如果测度数据分布比标准正态分布更扁平,则称为平峰分布。 峰度系数用来度量数据在中心聚集程度。正的峰度系数说明观察量更集中,有比正态分布更长的尾部;负的峰度系数说明观测量不那么集中,有比正态分布更短的尾部,类似于矩形的均匀分布。
69
俄国数学家契比雪夫证明: 无论是什么形状的分布,至少有75%的数据落在平均数加减2个标准差的范围内;至少有89%的数据落在加减3个标准差的范围内。 对于正态分布的曲线,有68%的观察值落在平均数μ加减1个σ的范围内,95%的观察值落在平均值μ加减2个σ的范围内,99%的观察值落在平均值μ加减3个σ的范围内。
70
按年龄分组(不等距) 0-6岁 7-12岁 13-18岁 19-28岁 29-55岁 55- 开口组
71
假设有A、B两种股票,已知一个月的交易日收盘价的均值与标准差,试比较两者的波动幅度
xA=15.3元 sA=5.8元 xB=21.2元 sB=7.5元 VA= VB=
72
已知某良种猪场长白成年母猪平均体重为190kg,标准差为10. 5kg,而大约克成年母猪平均体重为196kg,标准差为8
已知某良种猪场长白成年母猪平均体重为190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,哪一个体重变异程度大。 此例观测值虽然都是体重,单位相同,但它们的平均数不相同,只能用变异系数来比较其变异程度的大小。
73
由于,长白成年母猪体重的变异系数: 大约克成年母猪体重的变异系数: 所以,长白成年母猪体重的变异程度大于大约克成年母猪。
Similar presentations