zhangyan04222@126.com 上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 zhangyan04222@126.com 上海理工大学 光电信息与计算机工程学院
重要信息 上课时间: 周二:6~9节 地点:综合楼D502 教学方式: 讲授+课外学习 周数:1~9周 QQ群:476295964 教学方式: 讲授+课外学习 周数:1~9周 QQ群:476295964 教师邮箱:zhangyan04222@126.com
课程主要内容 绪论(2学时) 数据仓库(2学时) 数据预处理(3学时) 主流挖掘算法(21学时) WEB挖掘(3学时) 数据挖掘的应用和发展趋势(2) 考核(3学时)
学习本课程的重要性: 就业前景 专业水平
整个互联网行业是建立在计算机技术开发的基础之上,因此该行业对于技术类人才的需求占了45%左右。
技术岗位职业占据了四席,架构师由于对于其高要求的技术能力需求成为了最抢手的职业,产品经理也属于5大抢手职业之一 前5年里,技术和产品类别的职位年薪属于互联网行业中较高的群体,工作5年后,运营类别的职位年薪有了较大的涨幅,后期甚至超过了做产品的人员。职能部门的人员前期薪酬相对较低,工作10年以上,薪酬和市场,设计相关职位人员达到同一层次。
三大就业方向:大数据系统研发类人才、大数据应用开发类人才和大数据分析类人才。从企业方面来说,大数据人才大致可以分为产品和市场分析、安全和风险分析以及商业智能三大领域。产品分析是指通过算法来测试新产品的有效性,是一个相对较 新的领域。在安全和风险分析方面,数据科学家们知道需要收集哪些数据、如何进行快速分析,并最终通过分析信息来有效遏制网络入侵或抓住网络罪犯。
一、ETL研发 二、Hadoop开发 三、可视化(前端展现)工具开发 将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 二、Hadoop开发 Hadoop的核心是HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。数据集规模不断增大,而传统BI的数据处理成本过高,企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长。如今具备Hadoop框架经验的技术人员是最抢手的大数据人才。 三、可视化(前端展现)工具开发
四、信息架构开发 五、数据仓库研究 六、OLAP开发 七、数据科学研究 八、数据预测(数据挖掘)分析 九、企业数据管理 十、数据安全研究
数据挖掘知识体系
数据挖掘的主要应用
数据挖掘十大经典算法
参考教材 《数据挖掘概念与技术》(原书第3版) 范明、孟小峰译,机械工业出版社,2012年8月 相关学术论文
其它参考书: 1、《数据仓库》作 者:(美)荫蒙(Inmon,W.H) 著,王志海 等译 ,机械工业出版社 ,2006-8-1 2、《数据挖掘:概念、模型、方法和算法》(第2版),Mehmed Kantardzic,清华大学出版社 ,2013-1 3、《大数据挖掘》作 者:谭磊著,电子工业出版社 ,2013-3 4、《大数据:互联网大规模数据挖掘与分布式处理》,Anand Rajaraman, Jeffrey David Ullman , 人民邮电出版社,2012-3
考核方式 形式: 理论研究报告:针对课程的某个知识点做进行一步探讨,并形成报告;75% 翻译数据挖掘论文 (英文实词不小于3000);25%
上机 序号 实验项目名称 内容提要 实验 学时 每组人数 类型 开出 要求 1 数据仓库的建立 (1)学习SQL Server系统的基本操作及其工作流程,如服务启动,数据库注册等;使用DTS工具进行元数据管理(2)使用MDS工具进行数据仓库元数据及其框架的管理(3)使用ODBC数据源管理工具建立系统数据源连接,并应用Analysis Server工具建立数据仓库和数据源(模拟案例)(4)察看、编辑数据仓库的基本模型(即事实表与维度表之间的关系) 4 验证 必做 2 多维数据组织与分析 ⑴运用Analysis Server工具进行维度,度量值以及多维数据集的创建(模拟案例)⑵使用维度浏览器进行多维数据的查询、编辑操作⑶对多维数据集进行切片、切块、旋转、钻取操作⑷使用Crystal Report工具实现分析结果的展现 3 基于数据仓库的数据挖掘 (1)基于模拟案例,使用Analysis Services工具浏览数据挖掘维度和多维数据集(2)基于模拟案例,运用决策树方法建立关系挖掘模型(3)对挖掘结果运用Crystal Report系统工具进行展现 综合 小计 10