课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)

Slides:



Advertisements
Similar presentations
数据结构的引入. 通讯录管理 社团机构管理 校园导航管理 通讯录管理 社团机构管理 校园导航管理.
Advertisements

2 、 5 的倍数的特征. 目标 重点 难点 关键词 2 、 5 的倍数的特征 1 、发现 2 和 5 的倍数的特征。 2 、知道什么是奇数和偶数。 能判断一个数是不是 2 或 5 的倍数。 能判断一个数是奇数还是偶数。 奇数、偶数。 返回返回 目录目录 前进前进.
《程序设计实践》 孙辉 理工配楼104A
臺中市政府警察局 婦幼警察隊 小隊長吳敏男、謝豐昌
计算机网络教程 任课教师:孙颖楷.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
龙星课程—肿瘤生物信息学上机课程 曹莎
随身携带的图书馆 ——移动图书馆服务介绍 主讲人:陈洋阳.
人大复印资料全文数据库 人大复印资料全文数据库选辑1995年至今公开发表的人文科学和社会科学中各学科、专业的重要论文和重要动态资料的全部原文。其信息资源覆盖了人文科学和社会科学领域国内公开出版的3000多种核心期刊、专业期刊和报纸,分4大类100多个专题。
网页设计师的职业成长规律 主讲:刘万辉 淮安信息职业技术学院.
证券投资技术分析.
Excel VBA视频教程 课程介绍-什么是VBA
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
案例2 胸卡的制作. 案例2 胸卡的制作 知识要点: 学习重点及制作思路 学习目的: 邀请函的制作步骤: 1.掌握邮件合并功能 2.掌握比较并合并文档方法 3.掌握页面插入背景图 4.熟练使用文本框 知识要点: 1.邮件合并功能 2.文档中插入域内容 3.文本框的使用 技能要点: 1.域、文档部件操作.
素材 资源 库 文字 图形 图像 声音 动画 视频 人力 物力 财力 获取素材的渠道 数据库.
第七章 现代教育技术的应用 第一节 现代教育技术与生物学教育 第二节 计算机及其相关技术在生物学 第三节 互联网在生物学教学中的应用
综合布线技术与实践教程 第九章:综合布线系统工程网络分析 课程网站:
Lazada919跨境电商大会报告 部门:营销中心 姓名:FENDOR.
永安广播电视大学 学生计算机技能培训 2005年3月26日.
第四次大作业 登陆学校图书馆网站的电子数据库
数据仓库与数据挖掘实验.
移动电子商务时代来临 即刻“升级”还是等待被淘汰 PayPal 中国区产品总监 赵祺 信行软件CEO 周翔.
《数据库原理及应用》课程介绍 信息工程学院 孙俊国
授课对象:微电子、电子、计算机专业本科生、研究生 先修课:数字逻辑电路、Verilog
面向对象建模技术 软件工程系 林 琳.
R in Enterprise Environment 企业环境中的R
项目管理 Project Management
教務行政資訊系統 簡介 資訊科技中心 資訊系統組 徐振琦
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
第17章 网站发布.
Introduction to AI and ML
iPhone/iPod Touch/Android
数据挖掘工具性能比较.
姓名 Tel: My Skill 技能1 技能2 技能3 技能4 技能5 技能6.
1085至1125年间的官员地域分布与社会关系 1.
ScienceDirect高级检索功能及使用视频、说明发现路径
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
WSDM见闻 程龚.
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
何勉 新浪微博: Scrum框架及其背后的原则 原始图片 何勉 新浪微博:
《产品设计工程应用》课程 陈兴波 顺德职业技术学院/设计学院/工业设计专业.
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
计算机及办公软件应用 ©2013 苏州工业园区职业技术学院
2019/4/16 关注NE官方微信,获取更多服务.
VisComposer 2019/4/17.
网页设计与制作 —— 学习情境二:网页模板设计
下一代网络营销探讨 —网络营销移动化问题思考
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
超越自然还是带来毁灭 “人造生命”令全世界不安
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
1.把下面的关系模式转化为E-R图 1)系(系号,系名,电话) 2)教师(工号,姓名,性别,年龄,系号)
2019/5/10 网络学习空间实务操作.
SIAM全文电子期刊数据库国际站使用指南
WEB321 使用ASP.NET2.0快速开发电子商务网站
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
SIAM全文电子期刊数据库国际站使用指南
ARM裸机第一部分-ARM那些你得知道的事
我们能够了解数学在现实生活中的用途非常广泛
PPT宝藏网最新整理发布- WPS Office Simple, Powerful and free.
项目:交互式网页 义乌工商学院机电信息分院省级精品课程.
Copyright © 2004 HRBEU.605. All Rights Reserved
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
网 上 开 店 第15周2.
超星电子书 让更多的人读更多的书.
工业机器人技术基础及应用 主讲人:顾老师
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
校园之路.
Presentation transcript:

课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授) 数据挖掘与知识发现 课程主讲: 林琛(博士、副教授) 实验课: 邹权(博士、副教授)

课程信息 时间 地点 面向对象 教材 资源下载:l.xmu.edu.cn 理论课(林琛老师):周四9-10 实验课(邹权老师) :双周周二1-4 地点 理论课:海韵102 实验课:实验楼301,303 面向对象 大三、大四本科生(7/10学期) 教材 数据挖掘概念与技术(Jiawei Han) 其他最新进展资料 资源下载:l.xmu.edu.cn

你为什么选择这门课? 80% 高层次需求 对数据挖掘感兴趣,希望熟练掌握相关技术,将来深造或就业从事这方面的工作 普通学生 听说过数据挖掘,希望有更多了解 “糊口型” 学分不够,听说这门课程好过等…… 优秀条件:能知其然知其所以然,能在现成的工具上二次开发解决一个特定的问题,得到较好的结果,并交出完整的分析报告 80% Pass条件:知道基本概念,能使用现成的工具解决一个特定的问题,并交出报告

考核方式 35%开卷考试+65%实验+加分 实验 加分 缺席考试或实验的不给分(算作没有修) 共有3次实验报告(见后) 选择一项完成或全部完成取最高分+加分 加分 课堂互动 实验完善 缺席考试或实验的不给分(算作没有修)

课程设置 课程目的: 课程内容 直观的了解什么是数据挖掘 亲身体会数据挖掘的乐趣 数据挖掘的经典算法 数据挖掘和其他领域的交叉,典型应用 少理论,重思维 亲身体会数据挖掘的乐趣 门槛低,包会 课程内容 数据挖掘的经典算法 频繁项集挖掘、kNN、决策树、集成分类、kmeans、层次聚类…… 数据挖掘和其他领域的交叉,典型应用 社会网络分析、生物信息学、Web挖掘

系列课程 数据挖掘与知识发现 机器学习 数据挖掘研究生课程 秋季学期 “纯”数据挖掘经典算法 春季学期 统计机器学习方法 较新的算法和研究方向

实验课题 蛋白质分类 智能导购 微博小助手 选择实验课题和数据集下载必须事先登记! 识别一个蛋白质是不是cytokine (细胞因子) 帮助用户选择符合需求的电子产品 微博小助手 跟踪新浪微博用户日常发布的微博,自动识别出其中涉及到育儿类的问题,为这些问题推荐权威专家的解答 选择实验课题和数据集下载必须事先登记!

数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 这里的关键词是什么? 从海量数据中挖掘出有价值的知识

海量 大数据时代 时间每过去3分钟,全球将产生6.12亿封邮件,6000万张照片,18.3万小时音乐被下载,76.4个视频被上传到优酷,14万个程序在苹果App Store购买,支付宝产生4000万资金交易 Google处理的互联网网页:万亿 Twitter的用户数:亿 大型数据库:TB、ZB级别 海量数据的影响 存储空间 处理时间 课堂小quiz:解决方案? back

数据类型 数据库 Xml 网页 文本 多媒体 序列数据

数据库记录 特点: 格式规范 结构化 经过人工整理->含义明确

Xml,html 有一定的格式 有一定的结构 含义比较明确

纯文本 姓名 曹雪芹 性别 男 出生 1715 职业 小说家 字 梦阮 作品 红楼梦 居住地 北京 图像 <图.jpg> 没有格式要求 内在结构不明确 含义需要理解

其他 图像、音乐、时序、空间数据、数据流 有自己的特点 back

什么是有价值的知识 和应用有关 考虑以下的一些场景 DNA序列分析 商品促销 信息搜索 动物摄影 微博话题

DNA序列

商品促销 “尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 假设你是一个超市经理,你有一段时间内每天每位顾客的购物记录,想想看,你希望利用这个数据发现什么有价值的信息?

信息检索 信息检索的要素:查询-》排序

图像识别

话题发现与跟踪

数据挖掘的典型任务 频繁模式挖掘 模式:项集、序列、子图等 关联规则挖掘 查询与检索 分类 聚类 关系密切,可以互相转换

频繁项集与关联规则挖掘 最小支持度 50% 最小置信度 50% 对规则A  C,其支持度 置信度

分类与聚类(1)

分类与聚类(2)

互相转换 假设你构建了一个电子商务网站,有很多的注册用户在网站上浏览商品、购买、并评分。你如何用数据挖掘的方法向每一个用户推荐他/她可能感兴趣并购买的商品呢?

实验课题与知识要点 蛋白质分类 分类 智能导购 检索 聚类 微博小助手 频繁项集,关联规则挖掘

数据挖掘与知识发现 数据挖掘是 从海量数据中挖掘出有价值的知识 目标 效果 效率

数据挖掘的基本流程 数据获取 数据预处理 数据挖掘 模式评估 用户界面

问题?