第四章 调研资料的处理和数据分析 数据的准备 资料的初步分析——列表 资料的统计推断
数据准备过程 问卷确认 实地编辑 办公室编辑 数据编辑 数据编码 数据转录
§4.1数据的准备 问卷检查 数据编码 数据录入
一、问卷检查 确认 复查(10-20%) 问卷是否有效 1、确认此人是否真正接受了调查? 2、被调查者是否符合条件? 对访问员的欺骗行为及调查是否严守程序进行核实 复查(10-20%) 问卷是否有效 1、确认此人是否真正接受了调查? 2、被调查者是否符合条件? 3、确认调查是否按要求的方式进行的? 4、确认调查是否完整。 5、检查其他方面的问题。
询问调查的几种作弊方式: 留纸条;伪造录音; 找熟人填答问卷; 只访问前后,中间部分跳问。
实地编辑(现场服务企业主管) 完整性 清楚性 内容一致性 明确性 单位统一性 填补缺失值 丢弃 追访
非结构性问题 你为什么在众多的快捷、方便的餐馆中选择经常去肯德基? 记录1:顾客似乎觉得肯德基有更加美味的食物和一流的服务环境。 记录2:因为我喜欢它。 记录3:因为我喜欢它。P我喜欢它并且我经常去那里,因为那是离我工作的地方最近的餐馆。AE没有。 结构性问题
办公室编辑(调研公司) 不完全回答 错误回答 无兴趣回答 打乱顺序回答 大面积无回答 废卷 个别问题无回答 补救措施 相当多问卷对同一个(群)问题无回答 逻辑修正、缺失值 废卷 独立子群体 抄回
二、数据编码 编码设计 确定各问卷、问卷中的各问题以及问题的各答案对应的代码的名称、形式、范围以及与原数据的对应关系。 封闭式问题的编码 单选题 多选题:变量个数=选项个数 排序题:变量名=选项号,取值=排序号 填入式题: 开放式问题的编码
问卷编码 1031102 变量定义 名称、类型、位数、对应的问题 取值定义 取值范围 对应的含义 变量序号 变量名 变量类型 变量所占字节 取值范围 取值对应含义 备注 对应题号 对应问题
请问您乘坐的舱位是: 1.头等舱□ 2.公务舱□ 3.经济舱□ 变量序号 变量名 变量类型 变量所占字节 取值范围 取值对应含义 备注 对应题号 对应问题 3 V2 数值型 1 1-3,9 1-头等舱 2-公务舱 3-经济舱 9-无回答 2 请问您乘坐的舱位是
4、您最关注的时尚资讯是( )(可多选) A、运动健身 B、美容 C、化妆/护肤品 D、饰品E、美发 F、服装G、数码电子产品 H、美食 I、旅游J、其他___
取值为1表明该选项为最关注的时尚资讯,为0则不是 全为0表示该题无回答 变量序号 变量名 变量类型 变量所占字节 取值范围 取值对应含义 备注 对应题号 对应问题 5 6 7 8 9 10 11 12 13 14 V4-1 V4-2 V4-3 V4-4 V4-5 V4-6 V4-7 V4-8 V4-9 V4-10 数值型 1 0-1 取值为1表明该选项为最关注的时尚资讯,为0则不是 全为0表示该题无回答 4 请问您最关注的时尚资讯是?
23、您认为时尚人士应具有的特征是:(FCA )(可多选,若多选请对选项排序)(67-73) A、名牌产品的消费者 3 B、周围人效仿的对象0 C、在公众场合经常成为人们关注的焦点2 D、与众不同的风格和个性 0 E、推崇时尚的生活方式0 F、熟悉各种时尚信息1 G、其他___________0
取值为i表明该选项的排名为i,为0则表明对该选项的排名缺失 全为0表示该题无回答 请问您认为时尚人士应具有的特征是? 变量序号 变量名 变量类型 变量所占字节 取值范围 取值对应含义(i=l~7的整数) 备注 对应题号 对应问题 67 68 69 70 71 72 73 V23-1 V23-2 V23-3 V23-4 V23-5 V23-6 V23-7 数值型 1 0-7 取值为i表明该选项的排名为i,为0则表明对该选项的排名缺失 全为0表示该题无回答 23 请问您认为时尚人士应具有的特征是?
16、您每周锻炼身体的次数是___________次。 变量序号 变量名 变量类型 变量所占字节 取值范围 取值对应含义(i=0~9的整数) 备注 对应题号 对应问题 60 V16 数值型 1 0-9,10 取值为i表明每周锻炼的次数为i次 取值10表示该题无回答 16 您每周锻炼身体的次数
列出答案 合并 选择正式词汇概况 制定编码规则 编码 问题:为什么您喜欢喝那个牌子的啤酒? 答案:1、因为他口味较好 2、它具有较好的味道 3、我喜欢它的口味 4、我不喜欢其他啤酒太重的口味 5、它最便宜 6、我买任何打折的啤酒,它大部分时间都打折 7、它不像其他牌子的啤酒那样使我的胃不舒服。
三、数据录入 键盘录入 先定义变量再录入数据 机器读卡 扫描
§4.2资料的初步分析——列表 资料的分析与解释 单因素表格化分析 多因素列表分析
一、资料的分析与解释 分析是以某种有意义的形式或次序把收集的资料重新展现出来。P165 eg:美国家庭的平均收入为202000元。 解释是在资料分析的基础上找出信息之间或手中信息与其他已知信息的联系。 美国家庭收入与汽车保有量成正向关系。 eg:美国家庭平均收入是中国家庭平均收入的1.2倍。 列表:把调查资料按照一定的目的、用表格的形式展现出来。其基本方法是计数变量值的出现次数。P148
二、单因素表格化分析 单向列表:仅计数一个变量的不同数值的出现次数。 弄清“无回答”现象的程度----缺省值 保留 临时排除 替补 保留 临时排除 替补 弄清“编误”与“飞点”发生于何处-----箱索图 在作单向列表时,可能发现一些不正常的数值,经查对原值并非如此,像这种发生在数据编码和登录过程中的误差为“编误”。 弄清变量的经验分布 图形(直方图) 频数分布表 计算主要的描述指标 众数 中位数 算术平均值 求和 标准差
三、多因素列表分析 交叉列表:同时计数两个或多个变量的不同数值联合出现的次数。 双向交叉列表 三向交叉列表 变量关系的详析P164 两变量间存在关系: 继续支持 关系减弱(或加强) 有条件存在关系 虚假关系 两变量间不存在关系: 继续支持 关系存在 有条件存在关系.
§4.3 资料的统计推断 假设检验 卡方检验 Z检验
一、假设检验 陈述假设 原假设: 备选假设: 选择恰当的检验统计方法 卡方检验 K-S检验 Z检验 t检验 方差分析 计算统计检验值 确定判断规则 显著性水平 0.1 0.05 0.01 表述结果 若 观察值>临界值 则拒绝原假设
二、卡方检验 某厂生产一种新型山地车,特推出美观轻便型、经济耐用型和速度型三种款型。为了解用户对三种款型有无显著性偏好,该生产企业在若干大城市随机调查了600名消费者,结果表示愿意选择美观轻便型的246人,愿意选择经济耐用型的152人,愿意选择速度型的202人。问能否根据上面的调查结果判断三种款型中有一种受欢迎程度显著地高于其他两种?
三种款型受欢迎的程度一样 三种款型受欢迎程度存在显著性差异 选定显著性水平
三、Z检验 很好--5,稍好--4,一般--3,稍差—2,很差—1 沃尔玛超市为了解消费者对其评价的好坏,随机抽取了200名消费者进行调查。其中的问题是“你认为我们店是很好、稍好、一般、稍差、很差?”问题的编码是: 很好--5,稍好--4,一般--3,稍差—2,很差—1 平均得分为3.4,标准差为1.9。公司经理怎样才能确信消费者对本店的评价显著高于中等水平呢?
由题意知: 选定显著性水平
某冰箱厂为国内一大型冰箱生产基地,产品质量一直比较稳定,标准返修率为1 某冰箱厂为国内一大型冰箱生产基地,产品质量一直比较稳定,标准返修率为1.1%。但是,该厂近年来却不断听到消费者抱怨。为了解该厂生产冰箱质量情况,随机对其国内36家专卖店及大型商场专卖柜台中的其中400台冰箱的返修率进行调查,结果却发现其样本均值为1.14%,又有同类产品的经验知其标准差为0.2%,是否可由调查结果判定近年来企业生产的冰箱出现了质量问题?
THE END ! 谢谢!!