物联网数据处理 第一讲 数据处理基本概念 刘进军 jinjunl@chzu.edu.cn QQ:1024119267
提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量
1. 物联网数据处理——以老人健康照护为例
物联网数据处理——以老人睡眠为例 连续多天忘关水龙头——潜在阿尔茨海默症风险 建立睡眠行为模式与健康的关联,并实现主动照护 通知:睡眠规律 上卫生间的次数是4-5次——肠道疾病风险 上卫生间的时间是1个小时——可能跌倒 建立睡眠行为模式与健康的关联,并实现主动照护 通知:睡眠规律 提醒:关灯/水龙头 预警:潜在阿尔茨海默 症的风险 报警:跌倒 每晚9点上床睡觉,上卫生间1-2次,每次5分钟,早上6点起床。 分析睡眠行为规律,建立老人睡眠行为模式 上下床、进出卫生间、用马桶、洗手等动作——睡眠行为 一组特征动作勾勒行为 床上开关传感器——上下床 卫生间门开关传感器——进出卫生间 马桶水浸——用马桶动作 水池水浸——洗手动作 由原始数据推断特征动作 传感器采集原始数据 床、卫生间门上的开关传感器:开/关状态 洗手池、马桶上的水浸传感器:水浸有/无 4/18
Big Data Mining / Analysis / Integration 应用层 信息/娱乐 课程的地位 运动/健身 医疗/照护 安全/保全 专业/特殊 处理层 Database Management Cloud Computing Network Management Data Analytics Big Data Mining / Analysis / Integration IoT AP IoT BS SDN Switch SDN Router IoT Gateway 传输层 通讯、传输、管理 感知层 生理信息 环境信息 地理/辨识信息 心跳/脉搏 传感器 传感器 眼压 传感器 影像 传感器 亮度 三轴加速 度感测 温、湿度 传感器 传感器 GPS位置 传感器 血压 血氧浓度 传感器 传感器 压力 传感器 距离 微波动作 感测器 特殊气体 传感器 NFC辨识 头戴式 手表式 配戴式 穿着式 生物电子
课程目标 理论部分 实验部分 理解物联网数据处理与分析的基本概念 理解数据挖掘的任务和步骤,掌握基本的数据挖掘算法 32课时 能够使用数据挖掘工具做一些简单的数据分析 掌握基本数据挖掘算法的代码实现(MATLAB) 16课时 (物联网141 3-17周单周,物联网142 4-18周 双周) 地点X405
课程的基本内容
作业及考核 考勤情况 10% 平时作业20% 实验完成情况30% 期末考试40%
课程的几个问题 关于教材 关于讨论、交流方式——课程QQ群
提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量
2. 我们处在数据爆炸的时代 一天发出2940亿封邮件,相当于美国两年纸质信件的数量 一天的社区论坛上发出200万个帖子,相当于《时代》杂志770年的文字量 每天有1.72亿人登陆Facebook,4000万人登陆Twitter 每天“状态”的更新达5.32亿人,在Facebook上传2.5亿张图片 ....... 一天,互联网上产生的全部内容可以刻满1.68亿张DVD
我们处在数据爆炸的时代 我们拥有如此海量的数据,要如何好好利用它呢? 对于企业来说,海量数据的运用将成为 未来竞争和增长的基础 如何运用好数据,从数据中挖掘出潜在 的、不为人知的有用信息,是数据挖掘 这门学科的主要内容 Google预测流感! http://v.youku.com/v_show/id_XMTM3NjA2MDgyOA==.html
什么是数据挖掘 数据挖掘(Data Mining)是从海量数据中抽取出潜在的、不为人知的有用信息、模式和趋势 模式:标志了事物之间隐藏的规律关系 你能从下面四个人的兴趣爱好中发现什么模式吗? 李雷 韩梅梅 露西 莉莉 喜欢打篮球 喜欢看书 喜欢听音乐 喜欢看球赛 喜欢踢足球 喜欢韩剧 喜欢打羽毛球 是麦迪粉丝 喜欢都教授 喜欢李东健 喜欢登山 喜欢看CCTV5 喜欢逛街 兴趣爱好中的模式: 喜欢运动的都喜欢看体育频道 喜欢看韩剧的也都喜欢逛街 ...
什么是数据挖掘 数据挖掘过程必须是自动的或半自动的(用计算机) 数据的总量总是相当可观的,但从中发现的模式必须是有 意义的,并能产生一些效益,通常是经济上的效益
数据挖掘 - 多学科交叉的领域 数据库技术 统计学 机器学习 数据挖掘 可视化 信息论 其它...
什么是机器学习 机器学习(Machine Learning) 研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能 数据挖掘所涉及的大部分技术已在机器学习领域开发出来 传统机器学习并不把海量数据作为处理对象,如果直接把 这些技术用于海量数据,效果可能很差,甚至可能用不起 来。因此,数据挖掘界做了很多工作,对这些技术进行了 专门的改造 数据挖掘作为一个独立的学科领域,也有一些相对“独特” 的东西,例如关联分析
提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量
3. Netflix大奖赛 Netflix是美国一家视频网站,用户浏览其网站时,网站会给用户推荐他没看过的影片,国内的优酷等视频网站都有相似功能 Netflix在2006年启动了Netflix大奖赛,奖金是100万美元,颁发给能将他们的影片推荐准确率提高10%的团队 Netflix当时年收入是14亿美元,如果推荐系统准确率提升了 10% ...
为什么需要数据挖掘
身边的应用
Andrew Ng加盟百度 2014年5月17日,百度官方宣布,任命吴恩达(Andrew Ng)为首席科学家,全面负责百度研究院。 吴恩达何许人也?著名人工智能科学家。是斯坦福大学计算机科学教授及斯坦福人工智能实验室的负责人;2011年,他加盟Google并创立了“Google大脑”项目,因此也被誉为“Google大脑之父”。
人才需求
人才需求
提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量
4. 示例1 写一段程序将下表学生分成三个组,你会怎么写? 有可能让计算机在未事先制定任何分组规则的前提下自动分组吗?
示例2: 稍微复杂一点的分组例子 写一段程序将下列学生分成三组,你会怎么写? 注: 各个数字代表喜欢的程度,范围是0-10,0表示不喜欢,10表示非常喜欢
数据总结 对数据进行浓缩,给出它的总体综合描述 将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握 最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等
聚类 聚类(Clustering) 解决的是事物分组的问题,目的是将类似的事物放在一起 前面对学生进行分组的过程即聚类 聚类 算法
分类 分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。 把每个数据点分配到合适的类别中,即所谓的“分类” 例如,邮件系统接收到一封陌生邮件时,算法能识别出该 邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知 道哪组是垃圾邮件 正常邮件 分类 算法 邮件 垃圾邮件 基本过程:我们需要先“训练”分类算法,告诉它“什么样的东西是垃圾邮件” 经过训练,算法所学习到的知识称为“模型”;接下来算法可以利用训练得到的“模型”来回答一封新的邮件是否是“垃圾邮件”的问题。
分类的两个步骤 训练模型:对一个类别已经确定的训练集创建模型 模型使用:用创建的模型预测未来或者类别未知的记录 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别(class) 模型使用:用创建的模型预测未来或者类别未知的记录 估计模型的准确率:使用创建的模型在一个测试集上进行预测,并 将结果和实际值进行比较。 注意:测试集和训练集是独立的
分类过程:训练模型 分类算法 训练集 模型 IF 气温低 THEN 不适合运动 ......
分类过程:使用模型 分类算法 未分类数据 (天气晴,温度高,湿度中等) 不适合运动 模型
有监督和无监督学习 监督学习 (Supervised learning) 无监督学习 (Unsupervised learning) 训练集是带有类标签的,例如邮件系统中针对每封训练邮件,都标记好是否垃圾邮件 学习是在训练样本的“指导”下操作的,“指导”指每个训练样本都有一个明确的结论(类别),故称有“监督”学习 分类算法是有监督的机器学习算法 无监督学习 (Unsupervised learning) 学习不是在训练样本的“指导”下操作的,让计算机自己去学习怎样 做一件事情 聚类算法是无监督的机器学习算法
关联分析 (Association Analysis) 去超市购买东西时,我们经常会一起购买多种商品,有些商品的关联是非常明显的,比如铅笔和作业本,所以它们经常被放在同一货架上 但有些商品的关联却不那么显而易见,但这种关联一定是隐藏在大量的销售数据中 从大规模数据集中寻找物品间的隐含关系的过程称为关联分析
关联分析 (Association Analysis) 你能发现下面的销售数据中的关联规则吗? 尿布 → 啤酒 尿布 → 豆奶 ...
预测表白成功率 表白是一件极其危险的事情,表白成功了就从此快乐幸福,失败了则可能连朋友都做不成 但是我相信这背后一定有某种潜在的“模式”,如果可以使用数据挖掘 和机器学习技术找到其背后的模式,训练出一个模型,那我们就可以在 表白前先预测表白的成功率,以避免不必要的尴尬。这可行吗?
预测表白成功率 表白成功与否和女生的特点以及表白方式应该会有关系,例如是否喜欢看韩剧,是否喜欢运动,性格是内外还是外向,是否在公开场合表白...我们用 x1, x2, x3 ... 来表示这些特征,再用 y 来表示表白成功率。y和x1, x2, x3...可能会呈现出某种关系,我们把它写成如下形式: 其中w1, w2, w3是一些未知参数,我们假设 y 和 x1, x2, x3...通过 w1, w2, w3 来产生关系 x1, x2, x3...都是已知的,假如我们可以通过某种方式得到w1, w2, w3...的值,那就可以得到 y 的值,即表白成功率! 如何得到w1, w2, w3...的值?使用数据挖掘和机器学习技术, 从大量别人的表白经验中“学习”出来
回归预测 寻求变量之间近似的函数关系,建立起回归方程,并用于预测 例子中的变量间呈线性关系,故称为线性回归 回归算法可用于分类,属于有监督学习 “回归”的由来 弗朗西斯·高尔顿爵士(Sir Francis Galton,1822-1911),英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即Regression
小结 数据挖掘是指从海量数据中挖掘知识/模式的过程 模式给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述 机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是数据挖掘的重要支撑技术 聚类:将数据划分成不同的分组。是无监督学习算法 分类:将数据划分到合适的类别中。是有监督学习算法 关联分析:从大规模数据集中寻找物品间的隐含关系的过程 回归预测:寻求变量之间近似的函数关系,建立起回归方程,并用于预测