注:本案例数据来自于《R语言:从数据思维到数据实战》朱雪宁 等著,中国人民大学出版社。

Slides:



Advertisements
Similar presentations
实用农业科技写作 王鹏文. 第一章 导论 第一节 农业科技写作概述 一 、 农业科技写作概念和分类: 科技文献类、科技应用类、 科技普及类、科技新闻类 二、 农业科技写作的意义和重要性: 科技工作的重要组成部分、科学研究的手段、 科技成果的反映和标志、科技交流的工具 三、 农业科技写作的特点 : 功利性与及时性、科学性与先进性、读者的专门性与狭隘性、
Advertisements

新课程引领 实践中前行 —— 蓟县初中信息技术三年课改总结. 自从 2005 年秋季我市进入基础教育新一 轮课程改革实验以来,在市教研室的正 确领导下,我县初中信息技术课改工作 稳步推进。三年来,取得了一些成果, 也有不少体会。现将三年来的信息技术 课改工作总结如下。
河南省基础教育资源网 邓伟鹏 二〇一二年七月 内容大纲 1. 培训平台的目的 2. 培训平台介绍 3. 培训平台功能 4. 培训工作建立流程 5. 培训门户 6. 在线学习 6.1 课程学习 6.2 在线考试 7. 培训考试管理 7.1. 课程管理 7.2 必修学习班建立 7.3 在线考试管理 7.4.
環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
桐乡市地方税务局 2013 年度社会保险费汇算清缴有 关政策及事项说明. 一、政策规定 根据《中华人民共和国社会保险法》、《桐乡市社会保险费征缴管 理办法》(市政府令第 42 号)、《 关于完善社会保险费征缴管理有关问 题的通知》(桐政办发 [2012]152 号)及《关于完善社会保险费征缴管理.
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
虹膜识别健康养老服务智能系统项目.
NO.005 職涯 報 實習 徵才 攻讀 國立嘉義大學 學生事務處學生職涯發展中心.
國中教育會考 十二年國教—免試入學 及 意見整理.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
職校、五專群科簡介.
課程地圖 (104年入學-日間部) 校通識核心 專業課程 必修與選修 與管理模組 網路技術 App設計與應用模組 學院通識核心 學院專業核心
十二年國民基本教育宣導 新竹縣立湖口高級中學 報告人:陳文科.
C语言程序设计 李伟光.
严格标准 规范程序 认真做好党员发展工作.
星云集团.
薪資申報系統操作說明.
商学院 旅游管理专业介绍.
教學經驗分享 吳毅成 國立交通大學資訊工程系 2012年4月.
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
 历史以人类的活动为特定的对象,它思接万载,视通万里,千恣百态,令人销魂,因此它比其他学科更能激发人们的想像力。    
「四省專案計畫公部門用電資料普查系統」 網路填報操作說明
《数学》(华师大.八年级 下册) 第二十一章数据的整理与初步处理 扇形统计图的制作.
如何調適兩性關係--- 婚前與婚後.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (学院、部门适用)
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
5.1 Excel 概述 Excel的特点 1、表格制作 2、完成复杂运算 3、建立图表 4、数据库管理 5、决策支持.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
R语言与回归分析 R简介 R语言分析一个简单的线性模型 总结与展望 作业.
『臺北市營建剩餘資源管理系統』 教育訓練說明 臺北市政府 報告人 王宏正
人力资源市场统计工作介绍 人力资源市场与人员调配处 郭俊霞 2014年12月.
“三项制度+一个平台”构建 省级高校教学质量监控体系
瓯海职专财经专业组简介.
国有资产清查 数据填报操作规范 2016年3月25日.
第八章 南极洲.
如何調適兩性關係--- 婚前與婚後.
上海文会会计师事务所有限公司 中国注册会计师 童幸义
关于成绩的数理统计的探讨 望您多多指教!多谢!!.
大陸產業分析 課程說明會.
仓储企业岗位人员招聘 第一组 组员 :陈娇娇 祝婷婷 丁元莉 袁珮 王慧.
人口与计划生育 统计分析 昌吉市计划生育委员会 二○○六年三月.
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
荷福威士顿机器人科技有限公司 上海荷福集团
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
2014年深圳市学生人身意外伤害保险投保工作介绍 中国人民财产保险股份有限公司深圳市分公司
校外人员酬金申报流程  .
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
黄土高原的水土流失 标题 水土流失的原因 水土流失的危害 治理措施 参考文献 小组成员.
人工智能人才培养示范基地建设分享 上海电子信息职业技术学院 邵瑛.
办学条件核查 评估秘书组 电力职业技术学院 山西机电职业技术学院 2014年7月9日.
科 展 說 明.
年所得12万以上自行纳税申报 信息管理科 张沛.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (项目经费适用)
107學年度學生團體保險說明會 國泰人壽.
成本会计学.
102學年度下學期 班親會 五年仁班 楊曉逸老師.
舊生升級編班與新生管理操作說明 全誼資訊股份有限公司 中華民國106年06月05日.
第二階段「校園徒步區建置」 執行成果報告.
Excel 2010电子 表格制作案例教程.
方格紙上畫正方形.
新课程理念下如何进行课堂教学 刘志超 2014年2月25日.
BASF经销商后台系统操作手册.
2019年 嘉定区教育系统暑期全员培训.
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
6 分析資料-以統計測量數呈現.
Presentation transcript:

注:本案例数据来自于《R语言:从数据思维到数据实战》朱雪宁 等著,中国人民大学出版社。 案例分析 数据分析岗位薪酬影响因素分析 注:本案例数据来自于《R语言:从数据思维到数据实战》朱雪宁 等著,中国人民大学出版社。

数据

数据信息 表1 jobinfo数据变量说明

数据分析流程 确定数据分析目标 数据预处理 描述性分析 应用回归模型 回归结果诊断 模型选择 模型预测

1. 数据分析目标 target 因变量:岗位薪酬(平均薪资) 自变量:各种可能的影响因素(软件要求、经验要求、 公司属性等) 分析目标:建立因变量与自变量的多元线性回归模型, 估计模型系数,检验系数显著性以确定自变量是否对因变 量有影响,并用模型进行预测。

2. 数据预处理 含义:整理数据,使之变成可以直接建模的数据格式。 变量类型:数据矩阵的因变量为分类变量或定量变量。 具体做法: 对全部职位进行筛选,保留包含“数据”、“分析”、“数据分析”或者“数据挖掘”字眼的职位; 对岗位列出的招聘薪酬计算平均工资; 根据工作岗位所在地域,把“地区”变量划分为是否位于北上深这3个特大城市。其中,1代表所在地是北上深,否则取0。

2. 数据预处理 把“公司规模”转变为因子型变量,分为“少于50人”、 “50-150人”、 “150-500人”、“500-1000人”、 “1000-5000人”、 “5000-10000人”、“10000人以上”这几个类别。其中,“50-150人”和“150-500人”合并为一个水平:“50-500”人。 把“学历要求”转变为因子型变量,包含博士、硕士、本科、大专、高中、中专、无共7大类。 对从“职位描述”变量中提取数据分析岗位对软件能力的要求:将R、SPSS、Excel等12种软件的应用能力,转化为12个0-1定性变量(每种软件1个)。其中,1代表要求掌握相应软件,否则取0。

2. 数据预处理 把公司类别转变为因子型变量,包含创业公司、国企、民营公司、合资、外资、上市公司、非营利机构和事业单位。其中,非营利机构和事业单位两个类别由于数量过少,没有对比价值,因此将包含两个类别公司的招聘岗位信息删除。 注意:p水平变量只能表示成p-1个0-1定性变量,否则导致 多重共线性问题。

3. 描述性分析 目的:通过描述性分析,了解变量的分布情况,及判断因变量与自变量的相关性大小和方向。 单变量分析:以因变量“平均薪资”为例 图1 平均薪资直方图

3. 描述性分析 自变量与因变量关系分析 若自变量X为定性变量,因变量Y为数值型变量,可通过绘制箱线图来观察X与Y之间的关系。 图2 不同学历水平的平均薪资分组箱线图

3. 描述性分析 图3 不同工作经验的平均薪资分组箱线图

4. 多元线性回归 在R软件中使用lm( )命令,可以直接得到建模结果以及模型整体评价的相关指标。

4. 多元线性回归

4. 多元线性回归

4. 多元线性回归 模型系数解读 系数的基本含义:在控制其他自变量不变的条件下,某个自变量每变化1个单位导致因变量变化的平均值。 (1)自变量为数值型变量:按照系数的基本含义直接解释回归系数。 例如自变量exp(经验要求)对应的系数为1023.4,其含义为在控制其他因素的条件下,对数据分析的工作经验年限要求每多一年,相应岗位的薪资就平均高出1023.4元/月。

4. 多元线性回归 (2)自变量为分类变量:回归系数可解释为自变量取该分类时,因变量的值平均比基准水平高多少。 例如自变量area(地区)对应的系数为2923.38,其基准水平为“ 非北上深地区”,说明在北上深的岗位,薪资平均比不在北上深的岗位 高出2923.38元。 例如自变量academic(学历要求),academic(博士)对应的系 数为10529.4,其基准水平为“无”,说明要求博士学历的岗位薪资平均 比无教育水平要求的岗位高10529.4元。

4. 多元线性回归 模型检验 (1)模型整体显著性检验:F检验,判断所有X与Y之间的线性关系是否显著。 检验结果中F统计量对应的p值远小于0.05,说明该模型整体线性关系在0.05显著性水平下是显著的。 (2)模型整体的拟合效果:用调整R方来刻画。该回归结果的调整R方为0.3093。

4. 多元线性回归 (3)各个系数显著性检验:t 检验 回归结果中变量是否带特殊标记表示变量对应的系数是否显著: “***”的变量表示其在0.001显著性水平下显著; “**”的变量表示其在0.01显著性水平下显著; “*”的变量表示其在0.05显著性水平下显著; “.”的变量表示其在0.1显著性水平下显著。 不带这些特殊标志的变量就是非显著变量。

5. 多元线性回归结果诊断 目的:根据直接得到的模型结果,判断数据是否符合模型假设,若不符合,则要对数据进行处理和调整,以适合选用的模型。 模型检查 样本检查 X变量检查 其他检查 提出解决方案

5. 多元线性回归结果诊断 图4 模型诊断图

5. 多元线性回归结果诊断 模型检查 残差图:Y的拟合值与残差之间的散点图。 (1)检验残差与自变量独立的假设是否成立:若残差的均值随着拟合值的变化出现了系统性的变化规律,则说明模型的设定有问题。 根据图4中左上方的图,可以发现残差的均值与拟合值之间 没有明显的关系,说明该模型的设定基本没有问题。

(2)检查是否存在异方差问题:若残差的波动性(方差)随着拟合值的变化出现系统性的变化规律,则说明残差还包含有重要信息。 根据图4中左下方的图,可以发现残差的方差随着拟合值的 增大有变大的趋势,说明存在一定的异方差问题。

5. 多元线性回归结果诊断 样本检查 Cook距离图:检查是否存在强影响点。若存在强影响点,为了保证模型的稳健性,需要剔除强影响点。 (1)一般认为Cook距离>1或者>4/n为强影响点。 (2)若某些样本点的Cook距离“特别大”,与其他样本相比在量级上具有压倒性优势,则认为这些样本点可能是强影响点,否则不认为样本点是强影响点。 根据图4中右下方的Cook距离图,可以发现样本点“282”被系统标记出,但是经过数值比较,发现它与其他样本点的Cook距离相比,其Cook距离不具有压倒性优势,且剔除后对回归结果影响不大,所以不认为样本点“282”为强影响点。

5. 多元线性回归结果诊断 X变量检查 VIF(方差膨胀因子):检查某些X变量之间是否存在多重共线性。 计算公式: (3)当自变量之间存在严重多重共线性时,会出现以下问题: ① 有些自变量的回归系数不显著; ② 回归系数的正负号与现实合理的解释相悖。

5. 多元线性回归结果诊断 (4)多重共线性问题的常用解决办法: 从模型中删掉解释变量; 获取额外的数据或新的样本; 变量变换:通过对模型中的变量变换有时能够降低共 线性程度; 加权合并共线性变量; 逐步回归、岭回归以及主成分回归。

5. 多元线性回归结果诊断 各变量VIF值 从上面的结果可以看出,各自变量的VIF值都小于5,说明模型基本不存在多重共线性问题。

5. 多元线性回归结果诊断 其他检查 Q-Q图:检查残差服从正态分布的假设是否成立。若Q-Q图近似一条直线,则说明数据满足误差的正态性假设;反之,则说明数据可能存在问题,不符合正态性假设。 对于非正态性问题,一般可通过对因变量Y取对数的方式解决。 根据图4中右上角的Q-Q图,可以发现该Q-Q图不是一条直线,说明数据可能存在问题,不符合正态性假设。

5. 多元线性回归结果诊断 解决方案 根据检查结果,该模型存在一定的异方差和非正态性问题,尝试的解决方法是对因变量进行对数变换。 注意:实际数据很难满足各种诊断,对此不必过于执着,要把分析重点放在对业务问题的解读上。 采用解决方法处理之后进行再次回归,得到相应的模型诊断图(图5)。从中可以发现异方差问题和非正态性问题都得到了很大改善。

5. 多元线性回归结果诊断 图5 对数变换后的回归诊断图

6. 模型选择 模型选择涉及两个方面:模型精度和模型复杂度。 常用的模型选择准则为AIC或BIC准则。这两个准则力求在模型简洁(自变量个数越少越好)与模型精度(拟合误差越小越好)之间找到一个最优平衡点。 在本案例中,选择AIC准则进行模型的变量选择,同时为模型添加可能对因变量有影响的地区与公司规模的交互项(即将两个自变量的乘积作为一个新的自变量引入模型),得到最终的模型。

6. 模型选择

6. 模型选择

6. 模型选择 注意:对数线性模型的系数含义与一般线性模型不同,其系数的含义为“增长率”,即在控制其他自变量不变的条件下,某个自变量每变化1个单位,因变量的增长率。 对照系数估计结果,在控制其他自变量不变的条件下,可得到以下结论: (1)学历:高中学历的平均薪资最低,博士学历的平均薪资最高,比高中学历的平均薪资高105.6%([0.8079 -(-0.2485)]×100%)。 (2)经验:工作经验年限要求每多一年,平均薪资高出10.0%。 (3)软件:需要SQL,Hadoop应用的岗位比不需要的岗位平均薪资分别高14.5%,22.9%,需要Excel应用的岗位比不需要的岗位平均薪资低14.4%。 (4)地区:北上深地区比其他地区平均薪资高39.5%。

7. 模型预测 由得到的模型可进行数据分析岗位的薪酬预测: (1)一位会用R和Python但没有工作经验的本科生,找一份位于上海、规模87人的上市公司总部提供的工作 ① 根据上述条件,可得到该本科生对应的自变量的值: (1,0,0,1,0,0,0,0,0,0,0,0,1,“上市公司”,“50-500人”, “本科”,0) ② 将该自变量的值代入回归模型,即可预测该工作的薪酬:

7. 模型预测 (2)一位已经工作了7年的博士,会用R,SAS和Python等多款统计软件,不仅会分析,还能用Java直接在APP/网页终端实现自己想法,找一份位于北京、规模150-500人的创业公司提供的工作。 ① 根据上述条件,可得到该博士对应的自变量的值: (1,0,0,1,0,1,0,1,0,0,0,0,1,“创业公 司”,“50-500人”,“博士”,7) ② 将该自变量的值代入回归模型,即可预测该工作的薪酬 :

7. 模型预测 (3)一位没有学历,有微弱的国企工作经验,不会任何统计软件的人,找一份不位于北上深地区、规模少于50人的国企提供的工作。 ① 根据上述条件,可得到该人对应的自变量的值: (0,0,0,0,0,0,0,0,0,0,0,0,0,“国企 ”,“少于50人”,“无”,0) ② 将该自变量的值代入回归模型,即可预测该工作的薪 酬: