Download presentation
Presentation is loading. Please wait.
1
课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)
数据挖掘与知识发现 课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)
2
课程信息 时间 地点 面向对象 教材 资源下载:l.xmu.edu.cn 理论课(林琛老师):周四9-10
实验课(邹权老师) :双周周二1-4 地点 理论课:海韵102 实验课:实验楼301,303 面向对象 大三、大四本科生(7/10学期) 教材 数据挖掘概念与技术(Jiawei Han) 其他最新进展资料 资源下载:l.xmu.edu.cn
3
你为什么选择这门课? 80% 高层次需求 对数据挖掘感兴趣,希望熟练掌握相关技术,将来深造或就业从事这方面的工作 普通学生
听说过数据挖掘,希望有更多了解 “糊口型” 学分不够,听说这门课程好过等…… 优秀条件:能知其然知其所以然,能在现成的工具上二次开发解决一个特定的问题,得到较好的结果,并交出完整的分析报告 80% Pass条件:知道基本概念,能使用现成的工具解决一个特定的问题,并交出报告
4
考核方式 35%开卷考试+65%实验+加分 实验 加分 缺席考试或实验的不给分(算作没有修) 共有3次实验报告(见后)
选择一项完成或全部完成取最高分+加分 加分 课堂互动 实验完善 缺席考试或实验的不给分(算作没有修)
5
课程设置 课程目的: 课程内容 直观的了解什么是数据挖掘 亲身体会数据挖掘的乐趣 数据挖掘的经典算法 数据挖掘和其他领域的交叉,典型应用
少理论,重思维 亲身体会数据挖掘的乐趣 门槛低,包会 课程内容 数据挖掘的经典算法 频繁项集挖掘、kNN、决策树、集成分类、kmeans、层次聚类…… 数据挖掘和其他领域的交叉,典型应用 社会网络分析、生物信息学、Web挖掘
6
系列课程 数据挖掘与知识发现 机器学习 数据挖掘研究生课程 秋季学期 “纯”数据挖掘经典算法 春季学期 统计机器学习方法
较新的算法和研究方向
7
实验课题 蛋白质分类 智能导购 微博小助手 选择实验课题和数据集下载必须事先登记! 识别一个蛋白质是不是cytokine (细胞因子)
帮助用户选择符合需求的电子产品 微博小助手 跟踪新浪微博用户日常发布的微博,自动识别出其中涉及到育儿类的问题,为这些问题推荐权威专家的解答 选择实验课题和数据集下载必须事先登记!
8
数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 这里的关键词是什么? 从海量数据中挖掘出有价值的知识
9
海量 大数据时代 时间每过去3分钟,全球将产生6.12亿封邮件,6000万张照片,18.3万小时音乐被下载,76.4个视频被上传到优酷,14万个程序在苹果App Store购买,支付宝产生4000万资金交易 Google处理的互联网网页:万亿 Twitter的用户数:亿 大型数据库:TB、ZB级别 海量数据的影响 存储空间 处理时间 课堂小quiz:解决方案? back
10
数据类型 数据库 Xml 网页 文本 多媒体 序列数据
11
数据库记录 特点: 格式规范 结构化 经过人工整理->含义明确
12
Xml,html 有一定的格式 有一定的结构 含义比较明确
13
纯文本 姓名 曹雪芹 性别 男 出生 1715 职业 小说家 字 梦阮 作品 红楼梦 居住地 北京 图像 <图.jpg>
没有格式要求 内在结构不明确 含义需要理解
14
其他 图像、音乐、时序、空间数据、数据流 有自己的特点 back
15
什么是有价值的知识 和应用有关 考虑以下的一些场景 DNA序列分析 商品促销 信息搜索 动物摄影 微博话题
16
DNA序列
17
商品促销 “尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 假设你是一个超市经理,你有一段时间内每天每位顾客的购物记录,想想看,你希望利用这个数据发现什么有价值的信息?
18
信息检索 信息检索的要素:查询-》排序
19
图像识别
20
话题发现与跟踪
21
数据挖掘的典型任务 频繁模式挖掘 模式:项集、序列、子图等 关联规则挖掘 查询与检索 分类 聚类 关系密切,可以互相转换
22
频繁项集与关联规则挖掘 最小支持度 50% 最小置信度 50% 对规则A C,其支持度 置信度
23
分类与聚类(1)
24
分类与聚类(2)
25
互相转换 假设你构建了一个电子商务网站,有很多的注册用户在网站上浏览商品、购买、并评分。你如何用数据挖掘的方法向每一个用户推荐他/她可能感兴趣并购买的商品呢?
26
实验课题与知识要点 蛋白质分类 分类 智能导购 检索 聚类 微博小助手 频繁项集,关联规则挖掘
27
数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 目标 效果 效率
28
数据挖掘的基本流程 数据获取 数据预处理 数据挖掘 模式评估 用户界面
29
问题?
Similar presentations