CE系列讲座之一: “市场研究及数据分析”理念及方法概要介绍 战略发展部
Objectives 从Marketing Reseach的角度将CE 相关方法进行关联与梳理,旨在提供一种全视图,以便根据应用需求选择性使用 ! 提供Consumer Insight的基本理论框架,以便将Consumer Insight 理念融汇于各方法之中! 简介实际操作的基本原则,提高日常操作的效率与效果!
有效市场是由一群对某一产品/服务有兴趣、有收入和有通路的潜在客户所组成 序:市场 人群 购买力 需求 市场 In talking to many of our clients over the last two years, they have consistently told us about the pressures on their business and the ever increasing speed of change. 有效市场是由一群对某一产品/服务有兴趣、有收入和有通路的潜在客户所组成
根据顾客 的需要确定: 生产/提供 特定的: 将: 有效地提供 给目标消费者 序:营销的本质 根据顾客 的需要确定: 生产/提供 特定的: 将: 产品/服务 产品/服务 产品/服务 有效地提供 给目标消费者
序:营销的起点&终点:用户需求 优化顾客关系/员工关系 根据理解开发更好的品牌 理解人们的需求和价值取向 有效的沟通宣传 优化市场渠道 理解人们的需求和价值取向 根据理解开发更好的品牌 通过创新满足人们的需要
目录 What :Marketing Research 是什么? Why :为什么进行Marketing Research ? Marketing Research 的角度看CE的几种方法 Why :为什么进行Marketing Research ? How : 如何进行Marketing Research ? Marketing Reseach 的分类 Marketing Research 几个重要操作原则简介 抽样原则 定性大纲设计基本原则 定量问卷设计基本原则 数据分析:多元统计& 数据挖掘基本方法 Consumer Insight 基本理论框架
What(1):Marketing Research定义 美国市场研究协会( AMA)对市场研究的定义是: 市场研究是将消费者、顾客及公众与厂商通过信息而 联系起来的桥梁,其信息是用来: 识别、定义市场机会和市场问题 产生、改进和评估市场营销活动 监测市场营销的表现 提高对市场营销过程的理解
What(3):Marketing Research本质是Consumer Insight 系统科学深入的消费者研究方法 数据挖掘 (Data Mining ) 统计 (Statistic) 定义市场研究 创意研讨会 (Innovation Workshop) 使用和态度研究(U&A) 市场细分研究(Segmentation) 信息 理解 洞察 独特 的洞察 了解消费者 信息
What (4) :Marketing Research角度看CE的相关方法 信息理解&应用: Marketing Research: 探求问题原因为主(与数据挖掘互补),以解决营销、品牌、运营问题为主; 主要应用包括自身产品+竞品研究; 用户体验中心: 探求互联网产品的使用障碍和流程,提升产品的可用性和易用性; 主要应用包括自身产品+竞研究; 数据挖掘: 以发现问题为主; 主要应用是自身产品研究 信息获取: Marketing Research: 以访问为信息主要获取方式 信息来源以用户回忆为主; 用户体验中心: 以观察为信息主要获取方式 信息来源以用户实时操作为主; 数据挖掘: 以记录用户实际发生的行为为信息主要获取方式; 信息来源以用户长期用户行为监测为主; 系统科学深入的消费者研究方法 数据挖掘 (Data Mining ) 定义市场研究 创意研讨会 (Innovation Workshop) U&A Segmentation 信息 理解 洞察 独特 的洞察
目录 What :Marketing Research 是什么? Why :为什么进行Marketing Research ? Marketing Research 的角度看CE的几种方法 Why :为什么进行Marketing Research ? How : 如何进行Marketing Research ? Marketing Reseach 的分类 Marketing Research 几个重要操作原则简介 抽样原则 定性大纲设计基本原则 定量问卷设计基本原则 数据分析:多元统计& 数据挖掘基本方法 Consumer Insight 基本理论框架
Why:为什么要使用市场研究? 决策…? 外部 内部 竞争对手 外在环境 消费趋势 资金/成本 结构变化 人员变化 外部环境 不确定性 没有市场研究 有市场研究 消费趋势 ………. * 直觉的 * 主观的 * 经验的/历史的 * 从自身内部出发的 * 有资讯基础的 * 客观的 * 实时的 * 从外到内的 资金/成本 内部 结构变化 迅速 需要时间的 人员变化 有争议的 低成本的 昂贵的 一致的 ………. 有风险的 低风险的 了解 我们往何处去
Why:市场研究可以提供什么? 市场... 市场容量 市场结构 消费者细分 消费者期望/需求 市场分额 市场短期变化 定位... 长期演化趋势 定位... 消费者如何看待… - 产品 /服务 - 包装,价格,广告 等. 品牌 /企业形象 如何提升产品形象? 如何定位,才能使新产品被消费者更易于接 受?... 消费者... 谁是产品/服务的消费者 -核心 / 游离 /潜在... 需求 & 期望 动机 如何才能被满足 如何更好和他们沟通 如何维持他们的忠诚 哪里能找到更多消费者 自身公司/企业... 我们的强/弱势 主要的市场机会 如何达到它们 如何克服威胁 供应链 通路终端 “内部顾客" 如何提升系统的效率? 竞争对手... SWOT分析 现有的市场活动 这些活动有效吗? 与消费者关系 行销定位 变化的早期预警 未来计划
目录 What :Marketing Research 是什么? Why :为什么进行Marketing Research ? Marketing Research 的角度看CE的几种方法 Why :为什么进行Marketing Research ? How : 如何进行Marketing Research ? Marketing Reseach 的分类 Marketing Research 几个重要操作原则简介 抽样原则 定性大纲设计基本原则 定量问卷设计基本原则 数据分析:多元统计& 数据挖掘基本方法 Consumer Insight 基本理论框架
市场研究的分类 专项研究 定量研究 定性研究 连续性研究 零售网点研究 媒介监测研究 消费者跟踪研究
市场研究的分类- 定性&定量对比(1) 简而言之 定性 定量 什么? 为什么? 怎么样? 有多少? 主要特征是什么? 将来怎么样? SOFT HARD
How:市场研究的分类-定性&定量对比(2) 定 性 定 量 研究内容 支持体 调查方式 分析方法 深广度 动机、态度、决过程 口头表达的信息 深访、座谈会 心理分析,经验/灵感 深度探测 事实、意见、行为 数字、尺度 入户面访、街访、电话、信函 统计分析 广度探测,多方面和表面
市场研究的分类-定性&定量对比(3) 定性研究的优点: 定性研究的不足之处: 深层次、多角度、多种方式(如投射技术等)获得信息,而且受时间的限制较少。 客户可以根据研究的进展,适当的调整研究的重点。 项目的总费用相对较低,时间较短。 定性研究的不足之处: 不具有以样本推断总体特性,不能统计分析。 提供描述性的资料,而非“硬性”的数据
市场研究的分类-定性&定量对比(4) 定量 :度量, 分析, 估计, 预测 和跟踪 定性 :解释, 产生, 精炼, 说明 和描述 普遍性问题: 先做定性研究还是先做定量研究? 回答: 这取决于你的研究目的,你甚至可以两者都做! 对市场了解甚少 探索性的定性研究 定量研究(U&A) 量化数据 If you know very little about the market – how consumers view it and how they use the product – do some exploratory qualitative before your Usage and Attitude Study. If you feel secure in the your understanding of the key issues from the consumer’s point of view, go straight into quantitative. Afterwards, if you find yourself asking ‘why’ when you look at the figures, a piece of diagnostic qualitative research can be very useful. 定量研究 诊断性的定性研究 对市场很有把握 对数据看不明白
市场研究的分类-定性&定量调查的具体方法 定性研究的调查方法 ( 数据获取方法 ) 深度访谈 焦点座谈会(Focus Group) 神秘客户访谈
抽样基本原则(1) 什么才是好的抽样? 常用的抽样方法? 有足够的代表性 符合统计学基本原理 具有充分的可操作性 有效率的 实施/执行中的偏差越小越好 常用的抽样方法? 定性研究 不是随机抽样所涵盖的范畴 需注意其样本有足够的代表性 定量研究 入户访问:分层系统抽样 街头访问:配额抽样,但不具备理论上的抽样条件 预约面访:视具体情况而定,关键是是否取得比较完整的抽样框 备注:对于抽样统计学原理,有兴趣的可以TinaFu联系,在此不做详述。
抽样基本原则(2 ) 样本量的选取: 从理论上讲,样本数越大,抽样误差越小,结果的代表性越好。 但是,同时考虑费用和时间因素,大样本量不一定是最有效率的办法。 在随机抽样条件下,不同样本规模的抽样误差如下: 置信度 样本量 80% 90% 95% 99% 150 5.23% 6.72% 8.00% 10.52% 200 4.53% 5.82% 6.93% 9.11% 250 4.05% 5.20% 6.20% 8.15% 300 3.70% 4.75% 5.66% 7.44% 500 2.87% 3.68% 4.38% 5.76%
定性大纲设计基本原则 结构设计原则(漏斗结构): 问题设计原则: From ‘wide’ to ‘ narrow’: 例如:从生活方式到产品使用行为&态度 From ‘generic’ to ‘specific’ 例如:从品类到品牌 问题设计原则: 挖掘为什么? 即表象原因背后可能隐藏的深层次的原因(很大程度上取决于对业务的理解) 努力使用开放式问题,避免进行引导和给出选择性答案; 注意前后问题的相互干扰性 突出重点 可以使用投射技术,但不要过多 部分专题可以使用Laddering技术:例如从功能利益点到情感利益点的探求,多用于创意的产生
定性大纲设计基本原则:Case Study Lifestyle attitude Category/product attitude and usage U&A Brand awareness and usage Brand image Brand image Product/brand concept Product/packaging test/evaluation Concept test Adv./Concept Test Advertising evaluation
定量问卷设计基本原则:2个基本原则 UNDERSTANDING 可理解:保证回答的准确性 WILLINGNESS 有意愿:保证回答的真实性 问题&答案不要含糊清晰且可以落地; 问题&答案不能带有倾向性; 问题&答案不能有双重含义; 问题与答案不协调具有一致性; 答案之间具有排他性 不要使用行业/专业/技术术语 UNDERSTANDING 可理解:保证回答的准确性 WILLINGNESS 有意愿:保证回答的真实性 对于敏感问题(包括涉及社会道德准则、社会地位等等):通过映射第三方得到答案
定量问卷常用的问题类型 封闭式问题 开放式问题 评分题 注意点:尽可能穷尽选项,但往往很困难;因此需要增加“其他”选项; 如果其他选项占比超过5%,则说明选项设置有问题; 开放式问题 应用场景:往往在封闭题之后,提出相关的追问; 评分题 主要有5分制、7分制、10分制 :选用几分制取决于需要细化的程度
问卷设计:Case Study 您觉得拍拍这两年来情况怎样?(问题不清晰) 1 2 3 4 几乎没有什么变化 变化不大 变化较大 变化很大 大家都认为拍拍的这个新功能不错,您觉得怎么样呢?(具有引导性) 1 2 3 4 5 9 很不满意 不太满意 一般 比较满意 非常满意 说不清/无所谓 拍拍新推出了一项(什么什么样的)功能,您觉得怎么样呢?(选项不全) 1 2 3 4 5 很不满意 不太满意 一般 比较满意 非常满意 您在什么情况下使用手机上网?【答案不排他】 1 2 3 4 乘坐交通工具时 上课/上班时 需要找人聊天 需要去查找信息/看新闻 5 6 7 8 躺在床上休息时 等人/等车时 吃饭时 其它
问卷结构:Case Study Order of asking General attitudes/beliefs Screening questions Classification data Usership questions Sensitive questions Introduction General survey questions Closing and thanks 5 2 7 3 6 1 4 8
数据分析:“简单数据分析+ 多元统计+ 数据挖掘”整体视图 主要方法列举 方法适用性与优势 简单分析变量间关系 相对应用较广,较容易掌握和使用 对数据和使用者的要求较低 集中趋势分析:众数、中位数、均数 离散趋势分析:极差、方差、标准差 交叉表 剖面指数 数据加权 简单的数据分析 分析变量间的因果关系、相似度等 多用于预测、 用户细分等场景 对数据要求:数据量要足够、数据周期要足够; 对使用者的要求:需要掌握基本的统计学知识和对业务有一定理解; 相关分析 回归分析 因子分析 聚类分析 对应分析 联合分析 多元统计分析 数据挖掘 神经网络 决策树 等等 优势在于可以定制算法满足个性化需求和具备自适应和自学习性; 对数据要求;Oracle数据库支持;对数据量和数据健壮性要求均很高; 对使用者要求:对算法、业务的理解度均高 多元统计分析有需要者请参考附件基础统计;数据挖掘有需要者可和Tina联系
简单数据分析简介(1 ):集中趋势&离散趋势 集中趋势(Central Tendency)指标: 众数(Mode) :发生率最高的数值;适用于所有的测量水平 中位数 (Median):数值排序后正好位于中间位置的数;适用于定序、定距、定比数据 算术平均数或均值(Mean): 各数值的简单平均;适用于定距数据与定比数据 离散趋势(Measures of Dispersion)指标: 全距或极差(Range): 一个定序型变量最大值与最小值的差 上、下四分位数 : 方差(Variance):一个变量所有值与其平均值之差的平方的平均数 标准差(Standard Deviation):方差的平方根
简单数据分析简介(2):交叉表的行列百分比&交叉表 总体 年龄段 人数 高收入细分市场 人数 列百分比 行百分比 指数 down across index % % 中收入细分市场 % % 低收入细分市场 down across index 18-65岁 18-24岁 25-34岁 35-49岁 50-65岁 500 125 150 100 150 100 30 100 39 26 31 .2 104 66 44 44 147 33 22 26.4 88 12 8 12 40 150 100 30 100 36 24 28.8 96 42 28 28 93 42 28 33.6 112 30 20 30 100 200 100 40 100 50 25 40 100 42 21 28 70 58 29 58 145 高收入细分市场该年龄段的列百分比 高收入细分市场某年龄段的剖面指数= ×100% 总体市场该年龄段的列百分比 指数=100%是等于总体市场 指数=120%或以上,则认为显著高于总体水平 指数=80%或以下,则认为显著低于总体水平 举例: 18-24岁的高收入人群的行百分比:26%; 指18-24岁高收入人群在整体高收入中的比例为26%; 18-24岁的高收入人群的列百分比:31.2%;指18-24岁高收入人群在18-24岁人群中的比例为31.2% 18-24岁的高收入人群的剖面指数:104 ;
简单数据分析简介(3):数据加权 加权:通过对总体中的各个元素设置不同的数值系数(即加权因子/权重),使元素表现出所希望的相对重要性程度; 简单地说,就是要“让一些人变得比另一些人更重要!” 希望这种属性的个体达到的规模 具有某一属性的个体的现有规模 权重 =
多元统计分析:相关分析Case Study 总体 实物商品 虚拟商品 网游虚拟商品 女装 彩妆 运动户外 电脑硬件 随身听 手机 充值卡 1.00 0.99 0.97 0.98 0.83 0.87 0.90 0.96 0.19 0.86 0.89 0.93 0.95 0.42 0.94 0.08 0.80 0.84 0.10 0.18 0.85 0.63 0.46 0.21 0.92 成 交 量 相 关 系 数 总体 实物商品 虚拟商品 网游虚拟商品 女装 彩妆 运动户外 电脑硬件 随身听 手机 充值卡 1.00 0.99 0.98 0.97 0.94 0.83 0.95 0.85 0.90 0.78 0.93 0.87 0.96 0.92 0.37 0.29 0.88 0.89 0.40 0.91 0.81 0.33 0.26 0.24 0.75 0.57 成 交 额 相 关 系 数
多元统计分析:回归&因子分析Case Study 因子一F1:QQ会员、QQ秀、QQ宠物、QZONE 对QQ满意度的贡献:0,42 因子二F2:QZONE、QQ 游戏、QQ 堂、QQ音速 对QQ满意度的贡献:0.23 因子三F3:移动QQ 对QQ满意度 的贡献: 0.18 满意度因子&回归分析 QQ 满意度=0.42F1+0.23F2+0.18F3 情感诉求的产品对QQ满意度的贡献最大、其次是游戏类产品、功能性诉求的产品贡献最低。
Consumer Insight :Why People are not fully aware of their own underlying motivations or of the forces that determine their own behavior - therefore to ask why can be a waste of time People do not always say what they mean or mean what they say (‘People are complex’) People become experts at making themselves sound rational – defense mechanism. They lie to themselves and to others Sometimes, we do not want to admit or even realize the real reason for our behavior because it is, more often than not irrational
Consumer Insight(1) : Motivation(1) Maslow马斯洛需求原理 Security 安全需求 Affiliation 社交需求 Physiological 生理需求 Esteem 尊重需求 Self actualisation 自我实现
Consumer Insight(1): Motivation(2 ) Universal Needs 自我表现 自由自在 自我放纵 乐趣与兴奋 自我感觉良好 吸引力 和谐 爱与被爱 归属感 尊重 安全感 传统 成为领导者 掌握和驾驭感 拥有知识和智慧 权力 秩序 关系 平衡 快乐 自我
Consumer Insight(1): Motivation(2 ) Universal Needs 学术理论 定性Workshop:在13个国家的2000个被访者 在30个国家的初步定量研究 定量研究 建立所有的需求清单 200 个需求 70 个需求 40 个需求 15 个需求
Case Study .6 .4 .2 Dimension 2 0.0 -.2 -.4 -.6 -.8 -1.0 -.5 0.0 .5 1.0 1.5 2.0 -.8 -.6 -.4 -.2 0.0 .2 .4 .6 掌握和驾驭感 传统 爱和被爱 归属感 表现自我 自我感觉良好 QQ 安全 和谐 MSN 成为领导者 自由自在 尊重 自我放纵 拥有智慧和知识 吸引力 乐趣与兴奋 腾讯TM 生活需求 品牌 Dimension 2 Dimension 1 MSN: 更加偏重社会属性,表现为和谐 与 安全 QQ: 更加偏重自我属性,表现为自我感觉良好、表现自我 TM : 同时兼有社会和自我的两种属性,表现为 自由自在、尊重、成为领导者
Case Study QQGame用户的情感诉求:自由自在、自我放纵、乐趣与兴奋、拥有智慧和知识、尊重。 *:其他游戏品牌由于样本量低于30,无法进行数据分析。 品牌 情感诉求 QQGame用户的情感诉求:自由自在、自我放纵、乐趣与兴奋、拥有智慧和知识、尊重。 联众用户的情感诉求:爱和被爱、乐趣和兴趣、和谐。 中游用户的情感诉求:吸引力、掌握和驾驭、自我感觉良好、安全。 新浪游戏用户的情感诉求:表现自我、自由自在、拥有智慧和知识。
Consumer Insight(2):Segmentation DEMOGRAPHICS Age, gender, SEG Lifestage Multi-Me Occasion Based Needs Segmentation BEHAVIOUR NEEDS Product Price Service Brand/Image Repertoire Purchase process Decision process ATTITUDES Lifestyle Involvement Interest Risk/Experimentalism
Consumer Insight(3) :Brand Locator Model 1 2 3 因子分析 品牌定位 重要程度 模拟定位 4 确定消费者区别 品牌,选择品牌 的主要因素(因子) 将每个品牌 在这些主要因素上 的表现定位 衡量这些主要因素 对整个产品市场, 以及每个品牌分别 的相对重要程度 模拟品牌定位, 确定优化品牌 定位的关键所在
Consumer Insight(4) : AIDAL Model Attention 注意 Interest 兴趣 Desire 欲望 Action 行动 品牌认知度 品牌美誉度 品牌偏好度 品牌渗透情况 品牌占有率 品牌满意度 品牌忠诚度 品牌意向 品牌形象 Loyalty 忠诚
Consumer Insight(5) :Brand Equity Model(1)
Consumer Insight(5) :Brand Equity Model(2 ) Emotional 情感利益 Brand value 品牌价值 Authority 权威性 Affinity 亲和力 Identification 认同感 Barriers 阻碍 Approval 社会认可 Equity 品牌资产 Universal Needs 通用需求 Product 产品 Service 服务 Performance 功能表现 Brand Value 品牌价值 Loyal 忠诚 = Price 价格 Functional 功能利益 Brand Value 品牌价值 (alternative) Switch 转换品牌 Customer behaviour 消费者行为
Consumer Insight(5) :Brand Equity Model(3 ) Heritage 历史传承 Authority 权威性 知名度 Trust 信赖感 熟悉程度 Innovation 创新性 Bonding 情感连结 Affinity 亲和力 Caring 关怀 Identification 认同感 Equity 品牌资产 Nostalgia 美好回忆 Approval 社会认可 Prestige 声望 Performance 功能表现 Acceptability 他人接受度 Endorsement 权威认可
Consumer Insight(5) :Case Study 100% 某些市场更多地由亲和力驱动 Performance 功能表现 50% Affinity 亲和力 0% Spirits 酒类 Coffee 咖啡 Retail 零售 Utilities Airlines 航空服务 Batteries 电池 Shampoo 洗发水 Telecoms 电信 Dog food 狗粮 Chocolate 巧克力 Toothpaste 牙膏 Soft drinks 软饮料 Toilet paper 厕纸 Computers 计算机 Automotive 汽车 Bottled water 瓶装水 Financial services 金融服务 Source: Research International Database
Consumer Insight(5) :Case Study 市场平均值 112 Compaq康柏 111 Dell戴尔 105 Gateway 基汇 IBM 105 Tiny 95 Hewlett-Packard惠普 95 94 Packard Bell Mac 苹果 72 60 120 Source: RI case study - UK home PC market 数据来源:RI 英国家用电脑市场案例
Consumer Insight(5) :Case Study 他人接受度 情感连接 美好回忆 历史传承 权威认可 创新性 信赖感 声望 关怀 QQ MSN
Consumer Insight(7) :Innovation Workshop
一句话 写于最后 “用户研究理念”和“业务的理解”是两条主线,是一切研究的起点和终点; 数据采集方法(观察法、访问法、行为记录法)& 数据分析方法(简单数据分析、多元统计分析、数据挖掘 )仅仅是为了实现目标的工具,需要针对“实际需要”选择性使用!
Know consumer world ... 了解消费者的世界… … seize the future …抓住未来
“基础统计”应用简要概述 战略发展部 TinaFu / 2007
目录 市场研究使用统计技术的必要性 统计技术的基础 测量尺度(变量)类型 数据加权 数据的描述性统计:频数分布和基本统计量 数据的推断性统计:假设检验 多元统计技术 相关分析 回归分析 因子分析 主成分分析 聚类分析 对应分析 联合分析
市场研究与统计学 统计学(Statistics) 是关于数据资料的 的一门学科 收集 整理 分析 推断 是关于数据资料的 的一门学科 收集 整理 分析 推断 市场(营销)研究(Marketing Research) – AMA 是营销者通过信息与消费者、顾客和公众联系的一种职能。这些信息用于识别和定义营销问题与机遇,制定、完善和评估营销活动,监测营销绩效,改进对营销过程的理解。 确定解决问题所需的信息,设计信息收集方法,管理和实施数据收集过程,分析结果,就研究结论及其意义进行沟通。
市场研究的数据分析过程 问卷设计 数据录入和查错 探索性分析 确证/结论性分析 高级分析 分析始于这里!确信问卷覆盖你要达成研究目的所需要的全部内容。巧妇难为无米之炊!设计不严谨、信息不完备的问卷是任何“强有力”统计工具的“毒药”! 数据录入和查错 确信您获得了所需要的全部数据信息,并且它们是准确无误的。 探索性分析 确证/结论性分析 大量的交叉表数据,对研究结论进行支持。 对关键/核心题目的数据(如Topline Data)进行简要分析,粗略把握研究发现,并生成初步的研究结论(可能只是假设) 一方面,结合高级统计技术进行一些深入的数据挖掘和分析;一方面,将数据信息与营销理论结合,形成研究结论并给出建议。 高级分析
为什么要使用统计技术? 总体(Population) 我们想要调查并获得研究问题的答案的特定群体 (如18-49岁每天吸烟至少10支以上的男性) 研究目的: 揭示总体在行为、态度等我们感兴趣的诸方面的属性/特征 解决方案: 从总体抽取一个有代表性的样本 R1 RN R2 通过访问分析样本 样本(Sample) 从总体中尽可能随机抽取出的一个有代表性的子集,他们是实际的受访者 通过使用统计量,从样本属性/特征推断总体的属性/特征
我们在使用哪些类型的统计技术? 描述性统计学 (Descriptive statistics) 推断性统计学 是将收集到的原始数据资料直接通过图表等形式进行概括或描述(如交叉表),是对数据进行定量分析的不可或缺的基础 描述性统计学 (Descriptive statistics) 通过来自总体的有限多个样本获得的带有不确定性的信息,来推测整个总体的信息,如参数估计(少用)、假设检验(常用) 推断性统计学 (Inferential statistics) 关注的是两个或以上变量之间的相互关系(相关系数、协方差、距离等),并基于相互关系进行各种分析,如因子分析,聚类分析等 多元统计技术 (multivariate technique)
目录 市场研究使用统计技术的必要性 统计技术的基础 测量尺度(变量)类型 数据加权 数据的描述性统计:频数分布和基本统计量 数据的推断性统计:假设检验 多元统计技术 相关分析 回归分析 因子分析 主成分分析 聚类分析 对应分析 联合分析
(Statistical Technique) (Qualitative Variable) (Quantitative Variable) 测量尺度(Measure scale) 市场调研面对消费者,但所测量的并不是消费者本身,而是测量他们的感受、态度、偏好和其他相关的特性。 测量尺度(变量):在调查中,不同被访者给出有差异答案/选项的各个题目/条目; 测量尺度 (Statistical Technique) 定性变量 (Qualitative Variable) 定量变量 (Quantitative Variable) 名义尺度 (nominal scale) 有序尺度(ordinal scale) 定距尺度(interval scale) 比率尺度 (Ratio scale)
测量尺度类型 名义尺度 (nominal scale) 有序尺度 (ordinal scale) 定距尺度 (interval scale) 数字只用做对事物进行识别和分类的标志和标签 例如:性别,婚姻状况,国籍/城市等; 只允许计算有限的以频率计数为基础的统计指标,如百分比、众数等; 有序尺度 (ordinal scale) 数字代表事物拥有某种属性的相对程度/位置,但没有指明差别的大小 例如:偏好排序,市场/行业地位等; 频率计数,以及基于分位点的统计指标(百分位数,中位数等) 定距尺度 (interval scale) 尺度上数字相等的距离代表了被测特性的相等值,即可以比较事物之间差别的大小 例如:偏好/态度量表(5-scale/7-scale),重要性评分; 零点位置不固定,即尺度可以变换; 可以计算通常使用的统计量,但尺度值之间的比率及其它一些特殊统计量不适合计算; 比率尺度 (Ratio scale) 可以依据尺度值对事物进行分类、比较等,以及计算相互之间的差值、比率等 例如:年龄,收入,工作年数,花费等; 有绝对零点,可以计算所有统计量;
测量尺度示例 表1. 测量尺度示例 名义尺度 有序尺度 定距尺度 比率尺度 名义尺度 有序尺度 定距尺度 比率尺度 测试品牌 品类编号 到达率排序 重要性(5-scale) 投放量 到达率(%) 厦新手机 1 1 4 275 74 高露洁牙膏 2 2 5 200 69 联想手机 1 3 3 125 65 三九胃泰 4 4 4 100 51 东信手机 1 5 3 50 37 第5季维C饮料 3 6 5 0 37 金帝巧克力 3 7 2 83 30 阿迪达斯 9 8 1 150 28 三九正天丸 4 9 2 50 28 安吉尔饮水机 5 10 5 27 22 爱浪音响 5 11 1 54 19 耐克运动鞋 9 12 2 25 14 来源:2003年第1季实效鉴证(武汉)
加权(Weighting)是什么? 加权:通过对总体中的各个元素设置不同的数值系数(即加权因子/权重),使元素表现出所希望的相对重要性程度; 简单地说,就是要“让一些人变得比另一些人更重要!” 希望这种属性的个体达到的规模 具有某一属性的个体的现有规模 权重 = 100 个被访者: 40个男性 60个女性 想要让 男性:女性=1:1 设置权重 男性 = 1.25 女性 = 0.83 加权后数据: 男性:40 x 1.25 = 50 女性:60 x 0.83 = 50 一个简单的例子:
为什么要加权?(1) 应用1:所调研样本的人口统计结构与总体的实际状况不匹配,通过加权来消除/还原这种变异,达到纠偏的目的; 例如,在SH和GZ各调查300样本,城市人口比例“SH:GZ=2:1”(假设),在分析时我们希望将SH和GZ看作一个整体,则此时我们需要给SH样本一个2倍于GZ样本的权重; 应用2:除了人口统计结构,在一些关键属性上测试样本组的代表性可能也会相对总体的实际状况过高/过低,此时,需要加权进行调整; 这类不匹配大多是我们“故意”而为(通过“追加”样本实现),比如设置配额要求被访者中某产品的使用者达到50%,但总体市场中实际使用者仅为10%; 有时,则是“非情愿”的出现,比如设置了能反映总体的配额比例,但实际操作却出现了比例偏高/偏低;
为什么要加权?(2) 应用3:在样本组对比测试中,也会通过加权来调整不同组间的样本属性不相匹配的情形(通常设有相同的配额,但执行有可能会出现差异); 通常,加权对结果产生的差异很小,更多的是对结果从准确度上进行修饰; 应用4:所测试样本出现了较多的缺失值,需要加权来纠正结果; 对于面向单一客户的专项研究,在调查前基本都协议有要完成的样本量,故这种情形较少;
加权的类型(1) 因子加权:对满足特定属性的所有被访者赋予一个权重,通常用于提高样本中具有某种特性的被访者的重要性; 例如,研究一种香烟的口味是否需要改变,那么不同程度吸食者的观点也应该有不同的重要性对待: 实际应用中,如果“经常/普通吸食者”的基数足够大,往往单独分析而不进行如上的加权处理; 目标加权:对某一特定样本组赋权,以达到们预期的特定目标; 例如, 权重 频繁吸食者 3.0 普通吸食者 2.0 偶尔/不吸食者 1.0 想要:品牌A的20%使用者 = 品牌B的50%使用者; 或 品牌A的20%使用者 = 品牌A的80%非使用者;
加权的类型(2) 轮廓加权:与因子/目标加权不同(一维的),轮廓加权应用于对测试组的相互关系不明确的多个属性加权; 面对多个需要赋权的属性,轮廓加权过程应该同时进行,以尽可能少的对变量产生扭曲; Achieved Known proportions of age & sex If the relationship is known, a ‘weighting matrix’ can be produced
制定一个加权计划(1) 无论加权的动机是什么,但执行的过程是一样的:依不同属性/指标将样本分为多个组(加权组),然后根据所希望各个组代表的个体规模赋予不同的权重;即 明确分析子集/样本组,通常,较多的以人口结构变量、地域变量作为分类指标; 明确各个分析子集/样本组中个体的代表性强弱(权重); 加权是在数据收集结束后采取的数据“纠偏”行为,但一定要清醒的知道: 配额设置不合适、FW执行差或其他错误而造成的“不好”的原始数据收集,即使加权也一定是“无效的”; “提前避免错误/失误发生,总好过事后的任何补救!”
制定一个加权计划(2) 项目设计: 我们是否有计划进行数据加权? 设置什么样的配额 – 是否有必须的信息用于配额设置? 不要设置不必要的配额,即加大FW难度,又增加成本; 设置样本结构时,就应该考虑清楚如何去组织这些数据; 记住:“提前计划”,尽可能早的确定加权方案,最好在时间表中预留时间专门用于加权; 原始数据: 查数要针对“未加权”数表(或 hole-counts); 明确加权遵循的原则,并分析加权对其它人口结构变量或关键指标带来的影响; 数据中哪些变量是最重要的,加权只针对它们就足够了吧? 与DP充分沟通,确保DP理解加权意图并正确操作; 加权数据: 确信“加权”被正确地进行; 确信数据准确无误后,才开始将数据转化为支持性图表;
加权的负面影响 加权会使数据变得不太稳健 是否有基数本身较小的数据加权后基数足够大? 检验得到的显著性差异的可靠性如何? 进行数据加权,事实上我们已经“低估”了总体的变异程度,对总体信息推断的精确度减低。
加权数据的演示 如果数据有“加权”,我们要明确地告诉客户: 为什么加权? 加权方案的实施过程; 加权对数据的影响,等等; 通常,我们应该:在数表上同时标明“未加权”和“加权”的基数,在分析报告可灵活处理,但也应有清晰的、一致的标注; 未加权基数:表明各个分析子集内数据的可靠性; 加权基数:表明各个分析子集的相对规模;
目录 市场研究使用统计技术的必要性 统计技术的基础 测量尺度(变量)类型 数据加权 数据的描述性统计:频数分布和基本统计量 数据的推断性统计:假设检验 多元统计技术 相关分析 回归分析 因子分析 主成分分析 聚类分析 对应分析 联合分析
描述性统计学(Descriptive statistics) 描述性统计学:是将收集到的原始数据资料直接通过图表等形式进行概括或描述; 具体地,描述性统计需要考察数据的分布形态(如频数分布),计算表征数据分布的数字特征(如均值,方差); 显然,市场研究中由DP完成的大量交叉表,就是典型的对数据的描述性统计; 在营销调研(定量)中,尽管是面对整个市场中具有某些属性的消费者进行抽样,但是由于特别的抽样设计、较大的样本容量和严格定义的被访者,通常认为调研信息能够推断整个市场状况(在一定的抽样误差下);因此,调研报告大量使用的仍然是数据的描述性统计。
频数分布(Frequency distribution) 频数分布:是了解一个变量选择不同取值的调查对象的数量,是对数据资料的完整描述。 通常用直方图(histogram)来显示频数分布形状; 频率分布经常会用到,尤其是由其演变出的各种柱状图/条形图; 频数 低阔峰右偏型分布 均值:43.1% 标准差:19.5% 测试品牌数:456个 广告到达率 来源:2003年第3季-2002年第4季实效鉴证无重复发布品牌广告到达率
(descriptive statistic) 描述性统计量(1) 描述性统计量(descriptive statistic):也称为基本统计量(basic statistic),是对数据的频数分布的概括,最常用的统计量包括: 描述性统计量 (descriptive statistic) 集中趋势指标(measure of location) 测量数据分布的中心 变异性指标(measure of variability) 测量数据的分散程度 分布形态指标 刻画数据的分布形态相对于正态分布的差异
描述性统计量(2) 均值(mean) 集中趋势指标 中位数(median) 众数(mode) 极差(range) 变异性指标 方差(variance) 标准差 (standard deviation) 偏度(skewness) 峰度(kurtosis) 集中趋势指标 即平均数,mean=1/n*sum(X1:Xn); 均值能够利用所有已知信息,但是对异常值(极小或极大值)很敏感; 排序后居于中间位置的数值,有序尺度常用; 不能充分利用已知的所有变量信息,但不受异常值的影响; 出现最频繁的数值,代表分布中的高峰; 名义尺度(分组数据)常用 变异性指标 最大值与最小值之差,range=max-min; 直接受到异常值影响; 离均差(观测值与均值之间的差)平方的均值; var=1/(n-1)*sum((Xi-mean)^2); 数据分布越分散(远离均值),方差越大; 方差的平方根,stdev=SQRT(var); 与数据本身有相同的量纲,常用; 刻画数据在均值两侧偏差趋势的差异性 对称分布:skewness=0,mean=median=mode; 右偏分布:skewness>0,mean>median>mode; 左偏分布:skewness<0,mean<median<mode; 测量分布曲线相对平滑或突起程度 kurtosis=3,正态分布(Norm distribution); kurtosis>3,分布曲线比正态分布突起; kurtosis<3,分布曲线比正态分布平缓;
目录 市场研究使用统计技术的必要性 统计技术的基础 测量尺度(变量)类型 数据加权 数据的描述性统计:频数分布和基本统计量 数据的推断性统计:假设检验 多元统计技术 相关分析 回归分析 因子分析 主成分分析 聚类分析 对应分析 联合分析
推断性统计学(Inferential statistics) 推断性统计学:通过来自总体的有限多个样本获得的带有不确定性的信息,来推测整个总体的信息; 推断性统计学有4个理论组成部分 基础:概率论; 前提:抽样理论; 主要内容:估计理论,假设检验理论;
假设检验(Hypothesis test) 假设检验基本原理:提出一对相互对立的统计假设,以样本信息为决策依据,并以一个设定的概率,对检验假设作出拒绝/不拒绝的决策。 假设检验的一个基本假设是:小概率原理,即在一次试验中,小概率事件不可能发生。 假设检验包括: 单样本检验,主要针对抽样总体的数字特征(参数)提出统计假设; 两样本检验,主要针对两样本之间的相关性或差异性提出统计假设; 参数检验(parametric test),检验统计量(test statistic)服从某个已知分布; 非参数检验(nonparametric test),即分布自由检验,底分布可以是任意的;
假设检验的一般步骤 建立H0和H1 收集数据计算检验统计量 选择适当的检验方法 选择显著性水平a 决定检验统计量的概率 决定检验统计量的临界值 与显著性水平a比较 决定临界值是否位于拒绝域 拒绝或不拒绝H0 得出市场营销结论
假设检验的关键术语(1) 零假设(null hypothesis)和备择假设(alternative hypothesis): 零假设即受到检验的假设,是对一种没有差异、没有影响的状态的描述; 拒绝零假设/接受备择假设是有力的,而一次检验接受零假设是不充分的; 检验方法:单尾检验(one-tailed test)和双尾检验(two-tailed test) 双尾检验:备择假设双方向或无方向表述;只检验差异的存在性,事前无某种支持倾向; 单尾检验:备择假设以单方向表述;对结论有一定的方向性支持,检验力度相对更高;
假设检验的关键术语(2) 显著性水平(level of significance):即第一类错误发生的概率a 由抽样数据作出推断,总有可能犯两类错误; 第一类错误a (type I error):拒绝了实际上正确的零假设,即“弃真”; 第二类错误b (type II error):接受了实际上错误的零假设,即“取伪”; 显著性水平a由研究者对拒绝真实零假设可容忍的风险水平设定;在确定分布下,第二类错误b与样本容量n和a存在数量关系; a=0.05的意义是:真实零假设被拒绝的概率只有0.05,或者说,每100次抽样中会有95次出现零假设的情形; 拒绝H0:p=P[检验统计量落入拒绝域 | H0成立]<a,即“一次试验小概率事件不可能发生”;
两独立样本(Independent sample)均值的t检验 检验目的:是差异性检验,如检验在细分市场1和细分市场2中品牌认知或忠诚度是否存在差异。 t检验(t test)的前提假设:变量服从正态分布,均值已知(或可估计),方差可由样本估计。 T 统计量: 通常的营销研究环境:来自任何总体的大样本(大于30,t 统计量无精确值,均值的抽样分布近似正态分布),此时,样本标准差是总体标准差的一个合理估计。从而,T 统计量用正态分布Z统计量替代:
两独立样本(Independent sample)均值的t检验 得到两独立大样本均值t检验的接受域(accept area)/置信区间(confidence interval),a=0.05,双尾检验: 请参阅基于以上公式编辑的自动处理t检验的文件:t test for difference between two percentages.xls
目录 市场研究使用统计技术的必要性 统计技术的基础 测量尺度(变量)类型 数据加权 数据的描述性统计:频数分布和基本统计量 数据的推断性统计:假设检验 多元统计技术 相关分析 回归分析 因子分析 主成分分析 聚类分析 对应分析 联合分析
统计技术的分类 统计技术(Statistical Technique) 单元统计技术 (Univariate Technique) 多元统计技术 (Multivariate Technique) 针对单个变量分析,可以是定量数据或非定量数据,可以是单样本或多样本,多种方法可以选择用于推断变量的分布特征 关注的是两个或以上变量之间的相互关系(相关系数、协方差等)
不区分自变量和因变量,所有变量同等对待,侧重于了解变量之间互相关关系 多元统计技术 多元统计技术 相关分析 回归分析 方差/协方差分析 判别分析 典型相关分析 联合分析 因子分析 主成分分析 聚类分析 对应分析 对所考察的变量都有自变量(independent variable)和因变量(dependent variable)之分,即要解决的是一组变量对一个/多个变量的影响关系和程度 不区分自变量和因变量,所有变量同等对待,侧重于了解变量之间互相关关系
相关分析(Correlation Analysis)的定义 相关分析 - 了解两个定量(定距/定比)变量之间是否存在线性关系,及 其相关程度;例如 产品的购买意愿/独特性评价与消费者对产品诸属性认知的相关程度如何; 产品的诸多属性/功能的满意度认知分别在多大程度上影响消费者对产品的整体满意度评价; 相关系数 – 在相关分析中,表征两个定量变量之间线性相关程度的指 标/统计量 最常用的是Pearson 相关系数(简单相关系数): r是一个无量纲数,且-1 < r < 1; r绝对数值越大,表明两变量之间的线性相关程度越强; 符号只表明相关关系的方向性(同向/反向); 相关系数矩阵:考察多个变量两两之间的相关性; 变量之间的相关性通常需要进行显著性检验; r = sum(Xi-Xm)(Yi-Ym)/sqrt[sum(Xi-Xm)2(Yi-Ym)2] = COVXY/SXSY
相关分析(Correlation)的使用 相关分析的假设前提: 针对定量变量,并且二者分布相同; 测量的是变量之间线性关系的强弱,不能测量非线性关系; 相关程度的另一衡量指标: 决定系数: 测量的是一个变量变差(信息)中能被另一个变量所解释的比例; r2 = 可解释变差 总变差 相关分析是用于了解两个定量变量之间关系最简便且又易于理解的方法,在市场研究中应用也比较广泛; 尽管相关分析只是考察变量之间线性关系的强弱,而并不假设二者之间存在依赖/因果关系,但实际分析中通常会区分一个自变量(如产品的属性/功能认知),并依据相关系数对另一变量(如购买意愿/总体满意度)的评价给出支持; 研究中以排序量表形式获得的数据,如果类别不太多的话,可能并非严格定距数据,从而往往导致 r 偏小;
相关分析示例(1) 示例: CORRELATION ANALYSIS -Key measures with purchase intention Total 7 Total Base: Total respondents 300 300 Uniqueness compared to other toothpaste 0.358 0.328 Uniqueness compared to other multi-protection toothpaste 0.258 0.314 Comparison to BUMO 0.298 0.313 Value for money 0.352 0.378 Believability 0.323 0.254 Importance of main message 0.251 0.185 Appropriate for Colgate 0.327 0.233 Ref: A1/ A7a/ A7b/ A8/ A9/ A10/ A15/ A16
偏相关系数(Partial Correlation) 偏相关系数 - 用于测量在控制/调整了一个或多个其他变量的基础上, 两个变量之间的关系;例如 在控制了价格的影响后,销售额与广告支出的相关性有多强? 在控制了品牌形象的作用后,消费者对价格的认知与质量认知是否相关? 偏相关系数有助于探测变量之间的虚假关系: 控制了家庭规模后,麦片消费量与家庭收入之间的偏相关系数 rZY.X=0.02; 可见,控制了家庭规模后,麦片消费量与家庭收入的关系大大减弱(几乎为0),也就是说,二者之间的关系是虚假的; 家庭规模(X) 麦片消耗量(Z) 家庭收入(Y) rZX=0.56 rZY=0.28 rXY=0.48
回归分析(Regression Analysis)(1) 回归分析 - 分析(定量)因变量与一个或多个自变量之间相关关系的有效 方法,可以用于: 确定自变量与因变量之间是否存在相关关系; 确定二者之间相关关系的强度,即自变量能够解释因变量变差的比例; 建立表征自变量与因变量之间相关关系的回归方程; 预测因变量的值; 衡量因变量与自变量之间联系的强度的指标/统计量: 决定系数 r2 :取值介于0和1之间,表示因变量的总变差中能被自变量变差解释的比例; 二元回归中,r2 就是因变量与自变量之间简单相关系数的平方; 事实上,除了建立回归方程之外,回归分析还有很多研究内容,如回归方程/系数的显著性检验、预测值准确度的估计等等。
回归分析(Regression Analysis)(2) 二元回归 - 在一个因变量与一个自变量之间建立回归方程 分析上与建立两个变量之间简单相关关系类似,只是二元回归要区分自变量和因变量,并建立二者之间的一个等式; 多元回归 - 涉及一个因变量和两个或两个以上自变量 分析步骤同二元回归相似,但回归方程的建立方法要复杂地多,难度也很大,尤其在市场营销领域,建立一个有效的回归模型难度极大; 在多元回归分析中,一个容易忽略的问题就是“多重共线性”:自变量之间存在较高的相关性; 变量之间的多重共线性会严重影响回归系数估计的准确性,产生较大的标准误,降低回归方程的有效性; 多重共线性的处理方法很多,最简单的就是从高度相关的变量中只选取一个进入回归方程,或者通过主成分分析等技术对自变量进行转化;
因子分析(Factor Analysis) 因子分析:是一种用于数据提炼与概括的分析方法,考察一组变量之间的相互依赖关系。 FA的基本步骤: 明确FA的目的 确定因子数 构造相关矩阵 确定FA方法并运行 计算因子得分 解释因子 选择替代变量进一步分析 因子旋转
因子分析在营销研究中的应用 FA目的 识别解释一组变量之间相互关系的潜在维度(即因子,factor),从而揭示事物的主要属性; 用数目较少、相互独立的因子替代原始变量,用于进一步统计分析; FA在营销研究中主要用于以下领域: 市场细分:辨别不同群体的消费者所具有的特殊品质或潜在的消费需求; 产品研究:确定影响消费者选择的品牌属性及重要性程度; 广告研究:了解目标市场的媒体消费习惯或日常生活规律; 价格研究:发现价格敏感/不敏感消费群的主要特征; 具体地,适用于FA的调研量表的典型形式是:对于刻画消费者品质、产品功效、品牌形象的若干特征,尽可能细分为单一性的属性(attribute)描述,设置基于定距尺度的评价体系,请被访者对自身、产品、品牌给出观点。
因子分析的适用性和分析方法 FA适用性: 只有当变量之间相关时,才适合进行因子分析,因此,相关矩阵是FA的基础; 实际应用中,使用Bartlett球体检验(零假设:变量之间彼此独立;被拒绝即可)或KMO统计量(通常,0.5~1.0表示合适,小于0.5不合适)考察FA的适用性; FA的分析方法 常用方法是主成分分析(Principal Component Analysis):考虑全部方差,主要目的是使用最少的变量解释尽可能多的原始信息。 其它的FA方法还有很多(如公因子分析、极大似然法等),但涉及较多专业知识,故营销研究中不被推荐。 备注:本文档所言FA严格地应该称为EFA(探索性因子分析);另有CFA (确证性因子分析),与结构方程模式(SEM)的应用有紧密联系,比较复杂。
因子分析中因子数的确定 确定因子数: 为达到简化数据结构的目的,应提取尽量少的因子; 确定因子数的方法较多,但要兼顾营销研究的风险承担(激进/保守)和后续研究的易操作性; 事前确定:根据以往经验预先设定因子数,达到即终止; 保留特征值大于1的因子:因为特征值小于1的因子并不优于原始变量,略保守; 根据解释总方差的比率:通常建议至少60%; 碎石图:由陡坡向平缓的尾部明显转折之前的因子; 但是,除非保留所有的因子(变量数目),否则,总不能解释到原有变量的所有方差;
通过旋转解释因子 因子旋转(rotation): 因子与很多变量相关,通过适当的因子矩阵的旋转可以获得更容易理解和解释的因子,获得更为准确的结论; 因子旋转旨在将每个变量的因子负载尽可能向0和1两极分化,最好只有1个因子负载显著(远离0); 最常使用的是基于最大方差法(varimax procedure)的正交旋转(orthogonal rotation):使某一因子所含高负载的变量数最小,便于因子的解释; 旋转不影响公因子方差和解释的总方差比率,但每一个因子单独解释的方差比率会发生变化,因此,不同的旋转方法可能导致不同的因子产生; 解释因子: 结合分析结果和专业知识或经验解释所提取因子的含义,并给出命名; 如果提取2个因子,一个有用且直观的方法是绘制因子负载图:以两个因子为横轴和纵轴,以因子负载为坐标,将变量在图中标出;(与对应分析图类似)
因子得分的应用 计算因子得分(factor score):即将因子写成原始变量的线形组合, 进一步分析: 用因子得分代替原始变量; 将每个因子上负载最大的变量挑出来,作为相关因子的替代变量;此时,应该存在一个变量,其负载明显高于所有其他变量;
因子分析示例(1) 示例:G4A040杏花 - 广东省网络经营场所消费者调研 量表的典型形式 - 网络经营场所服务项目的兴趣程度 0-1 Scale 5-Scale 感兴趣的 非常同意 比较同意 说不上 比较不同意 最感兴趣的3个(TOP 3) 普通上网区 1 5 4 3 2 网上影视点播 手提无线上网 休闲区 网络游戏区 电视放映 6 IP电话服务 7 可视电话服务 8 多功能会议室 9 日常交费设施 10 网上交易服务 11 商务中心 12 售卖各类卡 13 售卖游戏产品 14 电动游戏体验 15 网络游戏比赛 16 数码相片打印 17 手机充电 18 会员网站/BBS 19 专题演讲/培训 20 会员服务中心 21 招募/组织活动 22 承办活动 23 建议:使用5-Scale, 甚至9-Scale;(讨论)
因子分析示例(2) 示例:因子分析 - 网络经营场所服务项目的分类 第1类:游戏产品/服务 第2类:学习/商务类 单机/联机/网络游戏区 售卖游戏产品(游戏手柄/光盘/鼠标等) 时尚的电动游戏体验区 提供网络游戏比赛场地 第2类:学习/商务类 笔记本电脑无线上网 多功能会议室(聚会/演出/影视/网络教室等) 为各类网上交易提供服务 商务中心(打印/复印/传真等) 提供会员感兴趣的专题演讲/培训 备注:其中,休闲区(水吧,闲谈聊天)、可视电话服务、数码相片打印3个服务项目不能明确的进入 任一类; 第3类:应急/便捷的日常服务 IP电话服务 手机充电 与日常生活相关的各类交费设施(如交费易) 售卖各类电话卡/上网卡/游戏点数卡等 第4类:影视休闲类 普通上网区 网上影视点播 电视放映 第5类:组织群体活动 招募成员和组织各类休闲、比赛活动 承办各类休闲、比赛活动 第6类:会员服务 “年轻人俱乐部”会员网站/BBS 会员服务中心
主成分分析(Principal Component Analysis) 实际上,PCA已经包含在FA中,PCA与FA的不同之处在于: PCA的主要目的是:提取少量几个能够尽可能保持原有变量信息的主成分(FA中的因子),用作进一步数据分析的基础; 由于侧重点不在于“提取少量因子并给出合理的解释”,故PCA 不进行因子旋转,以保留各主成分中不同变量的原有负载; PCA的分析步骤参照FA即可,只是不必进行因子旋转。(事实上,在一些统计分析软件(如SPSS)中,PCA的操作就是通过FA来实现) PCA的另外一个重要应用是:提取表征系统状态的水平因子进行系统评估。 水平因子:即以一个综合变量来代表原来所有的原始变量;在PCA中就是第一主成分; 以第一主成分作为水平因子的基本条件:所有的变量应该是正相关的,即所有变量有同增、同减的变化趋势;
主成分分析示例(1) 示例: 第一主成分作为系统水平因子的应用 - 广告创意评价的量化 与广告到达率存在密切相关性的主要是12个创意评价: 信息有效传递:可信,有说服力,容易理解,一看便知; 需求相关性:想去试试,印象更好,需求相关,适合我; 画面创意:有趣,令人兴奋,令人愉快,引人注目; 对这12个创意评价进行主成分分析,并选取特征根大于1的主成分: 第一主成分 第二主成分 累积贡献率 65.56% 81.29% 与广告到达率的相关系数 0.493 -0.082 注:在显著性水平0.05下,第二主成分与广告到达率的相关性检验均未获通过。 12个创意评价彼此之间都是正相关的,即具有同增、同减的趋势,因此,可以选取第一主成分作为评估广告创意的水平因子; 12个创意评价的第一主成分命名为“广告创意得分”。
主成分分析示例(2) 示例: 第一主成分作为系统水平因子的应用 - 广告创意评价的量化 由实地访问得到测试品牌的各广告创意属性的评价后,测试品牌广告创意的相对优劣(基于消费者认知)可以由下式评估: 广告创意得分 = 0.093(引人注目)+0.110(需求相关)+0.113(想去 试试)+0.061(有趣)+0.111(可信)+0.099(令人 愉快)+0.107(容易理解)+0.108(一看便知) +0.076(令人兴奋)+0.113(有说服力)+0.111(适 合我)+0.118(印象更好); 注:以上各值均为标准化值;
聚类分析(Cluster Analysis) 聚类分析:考察一组研究对象之间的相互关系,目的是将对象分为相对同质的群体;同一群内部成员彼此相似,而与其他群成员差异较大。 CA的基本步骤: 明确CA的研究问题 确定群组数目 选择CA方法 拟定相似程度的评价指标 评估CA的效度 解释与描述群组
聚类分析在营销研究中的应用 CA在营销研究中主要用于以下领域: 市场细分:可以根据购买产品时追求的利益对消费者进行分类; 新产品开发:对市场中相互竞争的一组产品进行聚类,可以发现新产品的潜在机会; 具体地,适用于CA的调研量表的典型形式(同FA类似)是:对于刻画消费者品质、产品功效、品牌形象的若干特征,尽可能细分为单一性的属性(attribute)描述,设置基于有序尺度的评价体系,请被访者对自身、产品、品牌给出观点。 拟定CA研究问题和注意事项: 根据以往研究经验选择彼此间具有相似程度的变量,无关变量的选入会对聚类结果带来较大扭曲; 最好能够排除极端样本;
聚类分析的方法分类 CA的方法很多,最为常用的是分层聚类,或称为系统聚类,依据过程可分为: 聚合聚类(agglomerative clustering):开始时每个对象单独构成一组,不同群逐步聚合在一起;聚类树状图从左向右读; 分解聚类(divisive clustering):开始时所有对象同属一组,不断分裂直至每一对象单独构成一组;聚类树状图从右向左读; 根据研究对象的不同,CA可分为 样本聚类:通常以对象之间的距离作为衡量相似程度的指标,经常用于消费者细分; 变量聚类:以对象之间的相关系数作为衡量相似程度的指标;通常,调研中的每一个属性评价语句即是一个变量;
聚类分析结果解释和效度评估 确定群组数目:依据是兼顾理论结果和实际需求,既有理论支持又在实际应用中可合理解释。 解释与描述群组 对变量进行聚类,可以压缩变量的数目,类成分是每一类内变量的线形组合,可以代替原有的一组变量而不损失多少信息; 与因子分析一样,对各群组进行解释也要兼顾理论和实际的结合; CA的效度评估: 不同聚类方法的结果可能会有较大差异,实际使用中应对不同方法的各结果相互比较,以确定起稳定性。 CA与FA的区别 由于都是基于变量之间的相关系数,故变量聚类与因子分析的结果颇为相似,差别在于:类成分只是相应类内变量的线形组合,而FA的各因子是所有变量的线形组合; 通常,个数相同的类成分能够解释的方差不如主成分多,故如果需要做进一步的数据处理,建议在每一类中进行PCA,而不直接选取类成分或FA中的因子。
聚类分析示例 示例: 聚类分析(样本聚类) - 基于对网络经营场所服务项目的兴趣程度进行消费者细分 “游戏爱好族”(Base=353) 66% 20% 8% “游戏爱好族”(Base=353) “商务学习族” (Base=74) “商务休闲族” (Base=145) “休闲享受族” (Base=37) “混合需求族” (Base=1191) 4% 2% (参阅:55-56页用于服务项目分类的因子分析) 将消费者细分为若干个同质(具有相同特点)群体; 每一个群体/细分,对几类服务项目中的特定类别表现出明显不同于其他群体/细分的有倾向性的兴趣;
对应分析(Correspondence Analysis) 对应分析:是通过进行主成分分析来描述两个或多个分类变量各水平间的相关性的分析方法,是一种多维尺度分析(Multidimensional Scaling Analysis)。 对应分析研究的变量可以是定性变量; 对应分析是PCA的拓广,即利用PCA的降维手段,更直观的观察变量多种状态间的相互关系; 与FA一样,对应分析只有在两变量独立性假设被拒绝后(即两变量相关),才适合应用; 在营销研究中,对应分析被广泛用于研究消费者对事物的感知和偏好,如品牌形象评价、概念/产品测试、广告效果评估等。
对应分析图/感知对应图 对应分析处理的是行与列之间存在相关性的列联表,通过对相应单元的行与列进行标度,分类变量各水平间的相关性可以直观的用图形表现——对应分析图(感知对应图),这也是对应分析受欢迎的原因之一。 对应分析图以列联表中行与列的接近程度解读,具体地说(结合下页图): 感知对应图边缘的创意特性表示只有某品类得到该评价; 感知对应图原点附近的创意特性是所有品类都得到的相同评价; 各创意特性在图上的距离越靠近,说明各自之间的关系越密切; 各品类在图上的位置邻近,说明品类的创意评价极为相似; 各品类在图上的距离遥远,说明品类的创意评价存在较大差异; 品类与某创意特性距离邻近,说明对比其他品类,该品类的这种创意评价非常突出,是它与其他产品的区别所在;
联合分析(Conjoint Analysis)的基本原理(1) 联合分析 - 又称交互分析,基本原理是: 考察产品的若干关键特征,并选取具有不同特征水平的一系列特征组合对现实产品进行模拟; 然后,让消费者根据自己的喜好对这些虚拟产品进行评价; 基于消费者评价,采用统计方法将产品特征与特征水平的效用进行分离; 最后对产品每一特征及特征水平的相对重要程度作出量化评价; 联合分析解决的基本市场(定量)研究问题: 产品/服务通常拥有许多特征(如一件衣服的价格、颜色、款式、面料),那么,具有哪些特征的产品最能得到消费者的欢迎呢?具体地, 产品/服务的不同特征对消费者的重要程度如何? 具有哪些特征的产品/服务最能赢得消费者的满意? 与传统的对产品/服务的特征的相对重要性的评价方法相比,联合分析的不同之处(优势)在于: 产品/服务的不同特征始终被作为一个整体(现实产品的模拟)来考察消费者的喜好,之后才通过数据处理分离出各个特征及特征水平的效能指标;
联合分析(Conjoint Analysis)的基本原理(2) 联合分析的基本假设: 分析对象(刺激物),例如品牌、产品、购物中心等,是作为一组特征的组合加以评价的; 消费者的抉择过程是理性地进行的; 联合分析在市场研究中的应用: 除了前面提及地使用联合分析要解决的2个市场问题: 产品/服务的不同特征对消费者的重要程度如何? 具有哪些特征的产品/服务最能赢得消费者的满意? 分析中还有1个重要部分: 根据个体不同特征水平偏好的相似度进行市场细分,即以特征的效用作为被访者聚类的依据,从而得到偏好相同的细分市场,以便进一步进行群体水平上的数据分析
联合分析的步骤 确定产品特征 与特征水平 产品模拟 数据收集 计算特征/ 特征水平的效用 市场预测 识别产品/服务的特征(必须是显著影响消费者购买的因素) 确定这些特征的恰当的水平(参照市场主流) 特征与特征水平的个数决定了分析中要估计的参数个数 产品模拟 联合分析将产品的所有特征与特征水平通盘考虑 采用正交设计的方法将特征及特征水平进行组合,生成一系列虚拟产品(常用“完整轮廓法”) 实际应用中,每一种虚拟产品被分别描述在一张卡片上 数据收集 请被访者对虚拟产品进行评价 即,通过评分、排序等方法调查被访者对虚拟产品的喜好、购买的可能性等(“评分”比“排序”更常用) 计算特征/ 特征水平的效用 从收集的信息中分离出消费者对每一特征及特征水平的偏好值,即“效用” 市场预测 利用效用值来预测消费者将如何在不同产品中进行选择,从而决定应该采取的措施
联合分析的方法 联合分析模型: U(X)=sumisumj(aijXij) U(X):某一特征组合(产品选择)的总效用; aij: 特征i的第j个水平贡献的效用; Xij:0-1变量,“1”表示特征i的第j个水平存在,“0”表示不存在; 特征i的重要性Ii由其效用函数的全距表示: 标准化,即可得到特征I的相对(其它特征)重要性: U(X)=sumisumj(aijXij) Ii = |max(aij) - min(aij)| Wi =Ii/sumi(Ii), 使得sumi(Ii)=1 参数aij的估计: 简便而常用的方法是虚拟变量(哑元法)回归,使用最小二乘法估计; 参数估计有专门的计算机软件实现,如SPSS的Conjoint模块、ACA等; 注:RI专有技术SMARTTM就是使用联合分析技术来进行数据处理
联合分析示例(1) 市场研究问题: XX电脑是一个中低档的电脑品牌,公司计划推出一款新产品,定价在6000元左右,以便与市场上同档产品竞争;一家市场研究公司拟采用联合分析研究本款电脑的最优配置。 确定产品特征 与特征水平 历史研究表明,影响消费者选购电脑的最主要因素是: 价格,品牌,CPU速度,硬盘容量;=> 模拟的特征 考察目前/未来市场上中低挡电脑的主流配置,确定特征水平: 特征 特征水平 价格 5000 6000 7000 品牌 AA BB XX CPU 赛扬 300 PII 350 K6 350 硬盘容量 2.1G 3.2G 4.3G
联合分析示例(2) 产品模拟 利用上述特征及特征水平可以组合出3X3X3X3=81中虚拟产品,但用于消费者评显然是太多了; 采用“正交设计”,可以将要测试的虚拟产品减少到9种: 虚拟产品 品牌 价格 CPU 硬盘容量 A XX 5000 K6 350 3.2G B BB 7000 赛扬 300 C AA 2.1G D 6000 PII 350 E 4.3G F G H I
联合分析示例(3) 数据收集 通过让被访者回答一些精心设计的题目,揭示被访者对各特征的重视程度: 提问:请问您有多大可能会购买以下电脑呢? 采用9分法评价,1-完全不可能,9-非常可能; 依次提问完所有9种产品,得到 XX牌电脑: 价格5000元,采用K6 350型CPU,硬盘容量为3.2G。 虚拟产品 购买可能性 A 8 F 7 B 2 G 5 C 6 H D I 9 E 4
联合分析示例(4) 计算特征/ 特征水平的效用 采用哑元法,使用最小二乘法估计模型参数aij; 借助SPSS中的Conjoint模块进行分析,得到: “相对重要程度”表示该特征在购买中被消费者岁关心的程度;本例,对该消费者而言,CPU型号是最关心的(38.5%),其次是价格; “特征水平的效用”表示该特征水平对于消费者而言的效用;效用越高,表示该特征水平越受欢迎;本例,该消费者心目中认为AA品牌要好于BB/XX。 品牌 价格 特征水平 特征水平的效用 AA 0.889 5000 1.556 BB -0.444 6000 -0.111 XX 7000 -1.444 特征的相对重要程度:15.4% 特征的相对重要程度:34.6% CPU 硬盘容量 赛扬 300 -2.111 2.1G PII 350 1.222 3.2G K6 305 4.3G 0.556 特征的相对重要程度:38.5% 特征的相对重要程度:11.5%
联合分析示例(5) 市场预测 联合分析的迷人之处可以对产品的前景进行预测,即 得到产品特征的效用函数后,可以对产品的各种特征组合进行模拟决策; 本例,设有研究问题:在价格6000元时,推出何种配置的XX电脑,才能战胜目前市场上的主流产品Y(假设):BB, K6 350, 6000元, 4.3G。 而XX电脑可行的配置主要有3种: X1: K6 350, 4.3G; X2: PII 350, 4.3G; X3: PII 350, 3.2G; 我们分别计算产品Y, X1, X2, X3对消费者的效用值: U(Y) = U(价格) + U(品牌) + U(CPU) + U(硬盘) = -0.111+(-0.444)+0.889+0.556=0.889 U(X1) = 0.889 U(X2) = 1.223 U(X3) = 0.556 显然,以6000元定价的XX电脑,要想具有比产品Y更强的吸引力,就必须采用X2配置,即PII 350, 4.3G; 事实上,作为定量研究,联合分析不是针对某个消费者个体进行的,而是面对很多消费者,因此,分析时应该: 计算每一个消费者个体的效用函数; 利用聚类分析,进行消费者细分; 将细分群体作为同质个体进行研究;
谢 谢!