课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授) 数据挖掘与知识发现 课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)
课程信息 时间 地点 面向对象 教材 资源下载:l.xmu.edu.cn 理论课(林琛老师):周四9-10 实验课(邹权老师) :双周周二1-4 地点 理论课:海韵102 实验课:实验楼301,303 面向对象 大三、大四本科生(7/10学期) 教材 数据挖掘概念与技术(Jiawei Han) 其他最新进展资料 资源下载:l.xmu.edu.cn
你为什么选择这门课? 80% 高层次需求 对数据挖掘感兴趣,希望熟练掌握相关技术,将来深造或就业从事这方面的工作 普通学生 听说过数据挖掘,希望有更多了解 “糊口型” 学分不够,听说这门课程好过等…… 优秀条件:能知其然知其所以然,能在现成的工具上二次开发解决一个特定的问题,得到较好的结果,并交出完整的分析报告 80% Pass条件:知道基本概念,能使用现成的工具解决一个特定的问题,并交出报告
考核方式 35%开卷考试+65%实验+加分 实验 加分 缺席考试或实验的不给分(算作没有修) 共有3次实验报告(见后) 选择一项完成或全部完成取最高分+加分 加分 课堂互动 实验完善 缺席考试或实验的不给分(算作没有修)
课程设置 课程目的: 课程内容 直观的了解什么是数据挖掘 亲身体会数据挖掘的乐趣 数据挖掘的经典算法 数据挖掘和其他领域的交叉,典型应用 少理论,重思维 亲身体会数据挖掘的乐趣 门槛低,包会 课程内容 数据挖掘的经典算法 频繁项集挖掘、kNN、决策树、集成分类、kmeans、层次聚类…… 数据挖掘和其他领域的交叉,典型应用 社会网络分析、生物信息学、Web挖掘
系列课程 数据挖掘与知识发现 机器学习 数据挖掘研究生课程 秋季学期 “纯”数据挖掘经典算法 春季学期 统计机器学习方法 较新的算法和研究方向
实验课题 蛋白质分类 智能导购 微博小助手 选择实验课题和数据集下载必须事先登记! 识别一个蛋白质是不是cytokine (细胞因子) 帮助用户选择符合需求的电子产品 微博小助手 跟踪新浪微博用户日常发布的微博,自动识别出其中涉及到育儿类的问题,为这些问题推荐权威专家的解答 选择实验课题和数据集下载必须事先登记!
数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 这里的关键词是什么? 从海量数据中挖掘出有价值的知识
海量 大数据时代 时间每过去3分钟,全球将产生6.12亿封邮件,6000万张照片,18.3万小时音乐被下载,76.4个视频被上传到优酷,14万个程序在苹果App Store购买,支付宝产生4000万资金交易 Google处理的互联网网页:万亿 Twitter的用户数:亿 大型数据库:TB、ZB级别 海量数据的影响 存储空间 处理时间 课堂小quiz:解决方案? back
数据类型 数据库 Xml 网页 文本 多媒体 序列数据
数据库记录 特点: 格式规范 结构化 经过人工整理->含义明确
Xml,html 有一定的格式 有一定的结构 含义比较明确
纯文本 姓名 曹雪芹 性别 男 出生 1715 职业 小说家 字 梦阮 作品 红楼梦 居住地 北京 图像 <图.jpg> 没有格式要求 内在结构不明确 含义需要理解
其他 图像、音乐、时序、空间数据、数据流 有自己的特点 back
什么是有价值的知识 和应用有关 考虑以下的一些场景 DNA序列分析 商品促销 信息搜索 动物摄影 微博话题
DNA序列
商品促销 “尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 假设你是一个超市经理,你有一段时间内每天每位顾客的购物记录,想想看,你希望利用这个数据发现什么有价值的信息?
信息检索 信息检索的要素:查询-》排序
图像识别
话题发现与跟踪
数据挖掘的典型任务 频繁模式挖掘 模式:项集、序列、子图等 关联规则挖掘 查询与检索 分类 聚类 关系密切,可以互相转换
频繁项集与关联规则挖掘 最小支持度 50% 最小置信度 50% 对规则A C,其支持度 置信度
分类与聚类(1)
分类与聚类(2)
互相转换 假设你构建了一个电子商务网站,有很多的注册用户在网站上浏览商品、购买、并评分。你如何用数据挖掘的方法向每一个用户推荐他/她可能感兴趣并购买的商品呢?
实验课题与知识要点 蛋白质分类 分类 智能导购 检索 聚类 微博小助手 频繁项集,关联规则挖掘
数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 目标 效果 效率
数据挖掘的基本流程 数据获取 数据预处理 数据挖掘 模式评估 用户界面
问题?