物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267.

物联网数据处理第一讲数据处理基本概念刘进军 QQ：

提纲引例——课程介绍及基本要求什么是数据挖掘行业前景数据挖掘主要任务数据基本描述量

1. 物联网数据处理——以老人健康照护为例

物联网数据处理——以老人睡眠为例连续多天忘关水龙头——潜在阿尔茨海默症风险建立睡眠行为模式与健康的关联，并实现主动照护通知：睡眠规律
上卫生间的次数是4-5次——肠道疾病风险上卫生间的时间是1个小时——可能跌倒建立睡眠行为模式与健康的关联，并实现主动照护通知：睡眠规律提醒：关灯/水龙头预警：潜在阿尔茨海默症的风险报警：跌倒每晚9点上床睡觉，上卫生间1-2次，每次5分钟，早上6点起床。分析睡眠行为规律，建立老人睡眠行为模式上下床、进出卫生间、用马桶、洗手等动作——睡眠行为一组特征动作勾勒行为床上开关传感器——上下床卫生间门开关传感器——进出卫生间马桶水浸——用马桶动作水池水浸——洗手动作由原始数据推断特征动作传感器采集原始数据床、卫生间门上的开关传感器：开/关状态洗手池、马桶上的水浸传感器：水浸有/无 4/18

Big Data Mining / Analysis / Integration
应用层信息/娱乐课程的地位运动/健身医疗/照护安全/保全专业/特殊处理层 Database Management Cloud Computing Network Management Data Analytics Big Data Mining / Analysis / Integration IoT AP IoT BS SDN Switch SDN Router IoT Gateway 传输层通讯、传输、管理感知层生理信息环境信息地理/辨识信息心跳/脉搏传感器传感器眼压传感器影像传感器亮度三轴加速度感测温、湿度传感器传感器 GPS位置传感器血压血氧浓度传感器传感器压力传感器距离微波动作感测器特殊气体传感器 NFC辨识头戴式手表式配戴式穿着式生物电子

课程目标理论部分实验部分理解物联网数据处理与分析的基本概念理解数据挖掘的任务和步骤，掌握基本的数据挖掘算法 32课时
能够使用数据挖掘工具做一些简单的数据分析掌握基本数据挖掘算法的代码实现(MATLAB) 16课时 (物联网周单周，物联网周双周) 地点X405

课程的基本内容

作业及考核考勤情况 10% 平时作业20% 实验完成情况30% 期末考试40%

课程的几个问题关于教材关于讨论、交流方式——课程QQ群

2. 我们处在数据爆炸的时代一天发出2940亿封邮件，相当于美国两年纸质信件的数量
一天的社区论坛上发出200万个帖子，相当于《时代》杂志770年的文字量每天有1.72亿人登陆Facebook，4000万人登陆Twitter 每天“状态”的更新达5.32亿人，在Facebook上传2.5亿张图片一天，互联网上产生的全部内容可以刻满1.68亿张DVD

我们处在数据爆炸的时代我们拥有如此海量的数据，要如何好好利用它呢？对于企业来说，海量数据的运用将成为未来竞争和增长的基础
如何运用好数据，从数据中挖掘出潜在的、不为人知的有用信息，是数据挖掘这门学科的主要内容 Google预测流感！

什么是数据挖掘数据挖掘(Data Mining)是从海量数据中抽取出潜在的、不为人知的有用信息、模式和趋势
模式：标志了事物之间隐藏的规律关系你能从下面四个人的兴趣爱好中发现什么模式吗？李雷韩梅梅露西莉莉喜欢打篮球喜欢看书喜欢听音乐喜欢看球赛喜欢踢足球喜欢韩剧喜欢打羽毛球是麦迪粉丝喜欢都教授喜欢李东健喜欢登山喜欢看CCTV5 喜欢逛街兴趣爱好中的模式: 喜欢运动的都喜欢看体育频道喜欢看韩剧的也都喜欢逛街 ...

什么是数据挖掘数据挖掘过程必须是自动的或半自动的（用计算机）
数据的总量总是相当可观的，但从中发现的模式必须是有意义的，并能产生一些效益，通常是经济上的效益

数据挖掘 - 多学科交叉的领域数据库技术统计学机器学习数据挖掘可视化信息论其它...

什么是机器学习机器学习(Machine Learning) 研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能数据挖掘所涉及的大部分技术已在机器学习领域开发出来传统机器学习并不把海量数据作为处理对象，如果直接把这些技术用于海量数据，效果可能很差，甚至可能用不起来。因此，数据挖掘界做了很多工作，对这些技术进行了专门的改造数据挖掘作为一个独立的学科领域，也有一些相对“独特” 的东西，例如关联分析

3. Netflix大奖赛 Netflix是美国一家视频网站，用户浏览其网站时，网站会给用户推荐他没看过的影片，国内的优酷等视频网站都有相似功能 Netflix在2006年启动了Netflix大奖赛，奖金是100万美元，颁发给能将他们的影片推荐准确率提高10%的团队 Netflix当时年收入是14亿美元，如果推荐系统准确率提升了 10% ...

为什么需要数据挖掘

身边的应用

Andrew Ng加盟百度 2014年5月17日，百度官方宣布，任命吴恩达（Andrew Ng）为首席科学家，全面负责百度研究院。
吴恩达何许人也？著名人工智能科学家。是斯坦福大学计算机科学教授及斯坦福人工智能实验室的负责人；2011年，他加盟Google并创立了“Google大脑”项目，因此也被誉为“Google大脑之父”。

人才需求

4. 示例1 写一段程序将下表学生分成三个组，你会怎么写？有可能让计算机在未事先制定任何分组规则的前提下自动分组吗？

示例2: 稍微复杂一点的分组例子写一段程序将下列学生分成三组，你会怎么写?
注: 各个数字代表喜欢的程度，范围是0-10，0表示不喜欢，10表示非常喜欢

数据总结对数据进行浓缩，给出它的总体综合描述
将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上，从而实现对原始基本数据的总体把握最简单的数据总结方法是利用统计学中的传统方法，计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具，对数据制作直方图、饼状图等

聚类聚类(Clustering) 解决的是事物分组的问题，目的是将类似的事物放在一起前面对学生进行分组的过程即聚类聚类算法

分类分类(Classification)是解决“这是什么?”的问题，分类所承担的角色就如同回答小孩子的问题“这是一只船”，“这是一棵树”等。把每个数据点分配到合适的类别中，即所谓的“分类” 例如，邮件系统接收到一封陌生邮件时，算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组，但不知道哪组是垃圾邮件正常邮件分类算法邮件垃圾邮件基本过程：我们需要先“训练”分类算法，告诉它“什么样的东西是垃圾邮件” 经过训练，算法所学习到的知识称为“模型”；接下来算法可以利用训练得到的“模型”来回答一封新的邮件是否是“垃圾邮件”的问题。

分类的两个步骤训练模型：对一个类别已经确定的训练集创建模型模型使用：用创建的模型预测未来或者类别未知的记录
用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别(class) 模型使用：用创建的模型预测未来或者类别未知的记录估计模型的准确率：使用创建的模型在一个测试集上进行预测，并将结果和实际值进行比较。注意：测试集和训练集是独立的

分类过程：训练模型分类算法训练集模型 IF 气温低 THEN 不适合运动 ......

分类过程：使用模型分类算法未分类数据 (天气晴，温度高，湿度中等) 不适合运动模型

有监督和无监督学习监督学习 (Supervised learning) 无监督学习 (Unsupervised learning)
训练集是带有类标签的，例如邮件系统中针对每封训练邮件，都标记好是否垃圾邮件学习是在训练样本的“指导”下操作的，“指导”指每个训练样本都有一个明确的结论(类别)，故称有“监督”学习分类算法是有监督的机器学习算法无监督学习 (Unsupervised learning) 学习不是在训练样本的“指导”下操作的，让计算机自己去学习怎样做一件事情聚类算法是无监督的机器学习算法

关联分析 (Association Analysis)
去超市购买东西时，我们经常会一起购买多种商品，有些商品的关联是非常明显的，比如铅笔和作业本，所以它们经常被放在同一货架上但有些商品的关联却不那么显而易见，但这种关联一定是隐藏在大量的销售数据中从大规模数据集中寻找物品间的隐含关系的过程称为关联分析

关联分析 (Association Analysis)
你能发现下面的销售数据中的关联规则吗？尿布 → 啤酒尿布 → 豆奶 ...

预测表白成功率表白是一件极其危险的事情，表白成功了就从此快乐幸福，失败了则可能连朋友都做不成
但是我相信这背后一定有某种潜在的“模式”，如果可以使用数据挖掘和机器学习技术找到其背后的模式，训练出一个模型，那我们就可以在表白前先预测表白的成功率，以避免不必要的尴尬。这可行吗？

预测表白成功率表白成功与否和女生的特点以及表白方式应该会有关系，例如是否喜欢看韩剧，是否喜欢运动，性格是内外还是外向，是否在公开场合表白...我们用 x1, x2, x3 ... 来表示这些特征，再用 y 来表示表白成功率。y和x1, x2, x3...可能会呈现出某种关系，我们把它写成如下形式：其中w1, w2, w3是一些未知参数，我们假设 y 和 x1, x2, x3...通过 w1, w2, w3 来产生关系 x1, x2, x3...都是已知的，假如我们可以通过某种方式得到w1, w2, w3...的值，那就可以得到 y 的值，即表白成功率！如何得到w1, w2, w3...的值？使用数据挖掘和机器学习技术，从大量别人的表白经验中“学习”出来

回归预测寻求变量之间近似的函数关系，建立起回归方程，并用于预测例子中的变量间呈线性关系，故称为线性回归
回归算法可用于分类，属于有监督学习 “回归”的由来弗朗西斯·高尔顿爵士(Sir Francis Galton, )，英国生物学家，他研究了父母身高与子女身高之间关系后得出，若父母身高高于平均大众身高，则其子女身高倾向于倒退生长，即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高，则其子女身高倾向于向上生长，以更接近于大众平均身高。此现象，被Galton称之为回归现象，即Regression

小结数据挖掘是指从海量数据中挖掘知识/模式的过程模式给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述
机器学习研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是数据挖掘的重要支撑技术聚类：将数据划分成不同的分组。是无监督学习算法分类：将数据划分到合适的类别中。是有监督学习算法关联分析：从大规模数据集中寻找物品间的隐含关系的过程回归预测：寻求变量之间近似的函数关系，建立起回归方程，并用于预测

物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267.

Similar presentations

Presentation on theme: "物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

物联网数据处理 第一讲 数据处理基本概念 刘进军 jinjunl@chzu.edu.cn QQ：1024119267.

Similar presentations

Presentation on theme: "物联网数据处理 第一讲 数据处理基本概念 刘进军 jinjunl@chzu.edu.cn QQ：1024119267."— Presentation transcript:

Similar presentations

About project

反馈

物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267.

Presentation on theme: "物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267."— Presentation transcript: