Presentation is loading. Please wait.

Presentation is loading. Please wait.

课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)

Similar presentations


Presentation on theme: "课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)"— Presentation transcript:

1 课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)
数据挖掘与知识发现 课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)

2 课程信息 时间 地点 面向对象 教材 资源下载:l.xmu.edu.cn 理论课(林琛老师):周四9-10
实验课(邹权老师) :双周周二1-4 地点 理论课:海韵102 实验课:实验楼301,303 面向对象 大三、大四本科生(7/10学期) 教材 数据挖掘概念与技术(Jiawei Han) 其他最新进展资料 资源下载:l.xmu.edu.cn

3 你为什么选择这门课? 80% 高层次需求 对数据挖掘感兴趣,希望熟练掌握相关技术,将来深造或就业从事这方面的工作 普通学生
听说过数据挖掘,希望有更多了解 “糊口型” 学分不够,听说这门课程好过等…… 优秀条件:能知其然知其所以然,能在现成的工具上二次开发解决一个特定的问题,得到较好的结果,并交出完整的分析报告 80% Pass条件:知道基本概念,能使用现成的工具解决一个特定的问题,并交出报告

4 考核方式 35%开卷考试+65%实验+加分 实验 加分 缺席考试或实验的不给分(算作没有修) 共有3次实验报告(见后)
选择一项完成或全部完成取最高分+加分 加分 课堂互动 实验完善 缺席考试或实验的不给分(算作没有修)

5 课程设置 课程目的: 课程内容 直观的了解什么是数据挖掘 亲身体会数据挖掘的乐趣 数据挖掘的经典算法 数据挖掘和其他领域的交叉,典型应用
少理论,重思维 亲身体会数据挖掘的乐趣 门槛低,包会 课程内容 数据挖掘的经典算法 频繁项集挖掘、kNN、决策树、集成分类、kmeans、层次聚类…… 数据挖掘和其他领域的交叉,典型应用 社会网络分析、生物信息学、Web挖掘

6 系列课程 数据挖掘与知识发现 机器学习 数据挖掘研究生课程 秋季学期 “纯”数据挖掘经典算法 春季学期 统计机器学习方法
较新的算法和研究方向

7 实验课题 蛋白质分类 智能导购 微博小助手 选择实验课题和数据集下载必须事先登记! 识别一个蛋白质是不是cytokine (细胞因子)
帮助用户选择符合需求的电子产品 微博小助手 跟踪新浪微博用户日常发布的微博,自动识别出其中涉及到育儿类的问题,为这些问题推荐权威专家的解答 选择实验课题和数据集下载必须事先登记!

8 数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 这里的关键词是什么? 从海量数据中挖掘出有价值的知识

9 海量 大数据时代 时间每过去3分钟,全球将产生6.12亿封邮件,6000万张照片,18.3万小时音乐被下载,76.4个视频被上传到优酷,14万个程序在苹果App Store购买,支付宝产生4000万资金交易 Google处理的互联网网页:万亿 Twitter的用户数:亿 大型数据库:TB、ZB级别 海量数据的影响 存储空间 处理时间 课堂小quiz:解决方案? back

10 数据类型 数据库 Xml 网页 文本 多媒体 序列数据

11 数据库记录 特点: 格式规范 结构化 经过人工整理->含义明确

12 Xml,html 有一定的格式 有一定的结构 含义比较明确

13 纯文本 姓名 曹雪芹 性别 男 出生 1715 职业 小说家 字 梦阮 作品 红楼梦 居住地 北京 图像 <图.jpg>
没有格式要求 内在结构不明确 含义需要理解

14 其他 图像、音乐、时序、空间数据、数据流 有自己的特点 back

15 什么是有价值的知识 和应用有关 考虑以下的一些场景 DNA序列分析 商品促销 信息搜索 动物摄影 微博话题

16 DNA序列

17 商品促销 “尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 假设你是一个超市经理,你有一段时间内每天每位顾客的购物记录,想想看,你希望利用这个数据发现什么有价值的信息?

18 信息检索 信息检索的要素:查询-》排序

19 图像识别

20 话题发现与跟踪

21 数据挖掘的典型任务 频繁模式挖掘 模式:项集、序列、子图等 关联规则挖掘 查询与检索 分类 聚类 关系密切,可以互相转换

22 频繁项集与关联规则挖掘 最小支持度 50% 最小置信度 50% 对规则A  C,其支持度 置信度

23 分类与聚类(1)

24 分类与聚类(2)

25 互相转换 假设你构建了一个电子商务网站,有很多的注册用户在网站上浏览商品、购买、并评分。你如何用数据挖掘的方法向每一个用户推荐他/她可能感兴趣并购买的商品呢?

26 实验课题与知识要点 蛋白质分类 分类 智能导购 检索 聚类 微博小助手 频繁项集,关联规则挖掘

27 数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 目标 效果 效率

28 数据挖掘的基本流程 数据获取 数据预处理 数据挖掘 模式评估 用户界面

29 问题?


Download ppt "课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)"

Similar presentations


Ads by Google