物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267.

Slides:

Advertisements

Similar presentations

我的 x 檔案張春桂 ( 阿桂 ). 我的基本資料  破蛋日 :2000 年 9 月 7 日  星座 : 處女血型 : 未知  興趣 : 敬請期待第 6 頁  身高 :160 體重 : 比你重就對了  性別 : ㄜ ~~ 當然是男的摟  我的偶像 : 我自己  如果臂力強得化可以跟我比腕力喔.

Advertisements

2009 年度工作总结中国卫生科教音像出版社 2010 年 2 月 2 日年，在中心领导和各部门的支持与帮助下，在出版社全体同志的共同努力下，出版社积极开展各项工作，创造出良好的工作局面，社会效益和经济效益连续三年稳步上升。下面我代表出版社，就一年来的工作向全体同志进行汇报。

解读《金星秀》节目. 节目宗旨和定位：关于文化碰撞、文化交流的节目，直击文娱热点，关注民生等问题节目形式：脱口秀节目时长： 70 分钟节目段落：脱口秀、有话问金姐、金星时间.

第十六週：個資外洩與資訊安全國立高雄餐旅學院餐飲管理系副教授劉聰仁博士編撰.

“ 《雷雨》是一部不但可以演，也可以读的作品。 ” （巴金） “ 一出动人的戏，一部具有伟大性质的长剧。 ” （李健吾）《雷雨》的社会影响。 1935 年初，《雷雨》首次被搬上日本舞台，演出盛况空前，不久，它又被译成日文。

大教育家孔子年 1 月 11 日，一座总高为 9.5 米的孔子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日，一座总高为 9.5 米的孔子青铜雕像在国家博物馆北广场落成。

秦代舞蹈本檔案圖片來源： google 圖片. 戰國七雄終結者統一文字制定律法郡縣名田  秦王征服六國，終結分裂割據的局面，建立中國歷史上第一個中央集權的封建大帝國，統一文字、制定律法與郡縣、名田等制度，將戰國時期散漫衰敗狀態的社會，轉變成統一強大的國家。秦始皇.

制作人 : 林熹黄语欣方诗涵李雅雯林怡芳林萍蔡颖琦徐丽珊成员 : 工作 : 林熹幻灯片黄语欣图片方诗涵写计划书李雅文资料林萍日志林怡芳资料徐丽珊资料蔡颖琦资料.

今天的矿工路六十年代的矿工路.

山西职业技术学院蒋晋红.

世界读书日 4月23日.

古诗鉴赏（常用答题方法）.

互联网金融之金融数据挖掘邹永杰江西财经大学金融学院.

古今生活大對照迦密愛禮信小學六信　　尹嘉豪.

Big Data Ecosystem – Hadoop Distribution

2014年度科技服务工作总结交流汇报河北省农科院旱作所 2014年12月.

真的太经典了, 不得不看.

真的太经典了, 不得不看.

梦想的力量博湖一小赵秀珍. 梦想的力量博湖一小赵秀珍读课文，你有什么感受和体会，相互交流一下。还可以把自己想到的写下来。瑞恩的梦想是什么？他是怎样实现自己的梦想的？梦想的力量是什么？读课文，你有什么感受和体会，相互交流一下。还可以把自己想到的写下来。

2、加一笔成新字一 →二二 →三、干、工十 →土、士口 →日、中日 →目、白、田月 →用目 →自木 →禾、本大 →天、太、犬人 →大、个了 →子.

黄河 ——中华母亲河 2014年贺年片原创：刘忒正改制：牛俊民.

常州市戚墅堰实验中学虞超群执教《诗经》选读卫风·氓.

作文训练：突出中心.

愛情直播不NG －破解戀愛迷思嘉南藥理科技大學學生輔導中心.

第二章继承爱国传统弘扬民族精神第一节中华民族的爱国主义传统第二节新时期的爱国主义第三节做忠诚的爱国者.

四组制作：许顺楠、姬少丽、李澎、刘伏、徐娅丽、李頔

贴近教学服务师生方便老师.

主辦單位：朝陽科技大學休閒事業管理學系協辦單位：體育室、課外活動組活動日期：民國100年5月21日活動地點：朝陽科技大學操場

教育信息化工作管理系统“校校通”部分指标说明

从“阿拉伯之春” 看新媒体的政治传播能力.

课程：软文营销课题：微博软文班级：教师：杨俊.

洛阳龙门石窟龙门石窟是中国著名的三大石刻艺术宝库之一，位于河南省洛阳南郊12公里处的伊河两岸。经过自北魏至北宋400余年的开凿，至今仍存有窟龛2100多个，造像10万余尊，碑刻题记3600余品，多在伊水西岸。数量之多位于中国各大石窟之首。其中“龙门二十品”是书法魏碑精华，唐代著名书法家褚遂良所书的“伊阙佛龛之碑”则是初唐楷书艺术的典范。

（讲座幻灯课件请在网上下载，让我们一起思考！）

明确考点夯实基础追踪热点解题指引 ━━七八年级思想品德中考复习策略

第三章道德与社会责任第一节：道德与崇尚道德的管理第二节：管理者道德行为的影响因素第三节：提升员工道德修养的途径

后现代语境中的民生新闻叙事主讲人方毅华.

第14章危机型公共关系实务引导案例 14.1 危机公共关系概述 14.2 危机公共关系处理原则 14.3 危机公共关系三阶段讨论题.

第二节地球自转的地理意义学习目标: 1 说明地方时和区时的概念，初步掌握地方时和区时的计算方法。

运用新媒体做好工会工作中共成都市委党校文化建设教研室邵军年3月19日.

关于传统文化与学校德育工作的思考白山市教育局纪砚秋.

义务教育课程标准实验教科书二年级下册玲玲的画山东滨州市无棣县棣丰街道中心小学　曹雪敏. 生活中有些事真有意思!要是肯动脑筋，坏事也能变成好事；要是肯动脑筋，看来不可能办成的事也能办成。碰到问题，我们要认真想想，找到解决问题的办法，做个善于思考的孩子。

歌咏对象是谁？ 1）志洁行廉，爱国忠君真气节；辞微旨远，经天纬地大诗篇。 2）翁去八百载，醉乡犹在；山行六七里，亭影不孤。 3）刚直不阿，留得正气冲霄汉；幽愁发愤，著成信史照尘寰。 4）世上疮痍，诗中圣哲；人间疾苦，笔底波澜。屈原欧阳修司马迁杜甫.

项羽之死司马迁.

第三章古代汉语语法 3—1古汉语语法及其研究一、《马氏文通》以前的《古汉语研究》

一、现状与问题整体竞争能力不强服务品质不高市场秩序失范管理效率低下旅游旺季人满为患资源和环境保护不力欺客宰客的现象时有发生

云南大学滇池学院外语系 2009级英语专业一班优秀班级申报材料

自然之道双口小学李佳.

第一章神话.

文化复兴路灿烂中国梦 12景观建筑设计

第四章社会 [本章内容与要求] 本章主要介绍社会、社会运行的条件与机制、社会结构、社会关系，社会要素中的人口因素、环境因素。要求对社会发展、社会运行有基本的认识和初步的思考。

— —1998年全世界诺贝尔获奖者集会巴黎时的宣言

重点字词： 1、吾党之小子狂简 3、暴虎冯河 5、无所取材！ 6、予所否者，天厌之 8、子哭之恸.

魅力中国笑看历史风云情系似水流年品味剧里人生享受剧外精彩每周新看点 ——

中国市县招商网会展案例.

精彩影视节目预告本周收视导航 –

Data Mining 工具介紹 (Weka/R + ODBC)

Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育

VISP+MS 国际高校访问学生及统计理学硕士项目

永續運輸資訊系統 -交通事故資料分析研究周家慶高級分析師交通部運輸研究所.

一九九四年九月五日.

Facebook 内部高效工作指南

第十章線上行銷研究.

2014年签约认购合同签订注意事项.

FaceBook 粉絲頁建立主講人：王金鳳.

說話的藝術香港仔工業學校盧仲衡老師.

新進教師科展研習王文良資訊科,中正高工.

雲端運算的技術趨勢與影響資管四A 謝宗儒 A.

Presentation transcript:

物联网数据处理第一讲数据处理基本概念刘进军 jinjunl@chzu.edu.cn QQ：1024119267

提纲引例——课程介绍及基本要求什么是数据挖掘行业前景数据挖掘主要任务数据基本描述量

1. 物联网数据处理——以老人健康照护为例

物联网数据处理——以老人睡眠为例连续多天忘关水龙头——潜在阿尔茨海默症风险建立睡眠行为模式与健康的关联，并实现主动照护通知：睡眠规律上卫生间的次数是4-5次——肠道疾病风险上卫生间的时间是1个小时——可能跌倒建立睡眠行为模式与健康的关联，并实现主动照护通知：睡眠规律提醒：关灯/水龙头预警：潜在阿尔茨海默症的风险报警：跌倒每晚9点上床睡觉，上卫生间1-2次，每次5分钟，早上6点起床。分析睡眠行为规律，建立老人睡眠行为模式上下床、进出卫生间、用马桶、洗手等动作——睡眠行为一组特征动作勾勒行为床上开关传感器——上下床卫生间门开关传感器——进出卫生间马桶水浸——用马桶动作水池水浸——洗手动作由原始数据推断特征动作传感器采集原始数据床、卫生间门上的开关传感器：开/关状态洗手池、马桶上的水浸传感器：水浸有/无 4/18

Big Data Mining / Analysis / Integration 应用层信息/娱乐课程的地位运动/健身医疗/照护安全/保全专业/特殊处理层 Database Management Cloud Computing Network Management Data Analytics Big Data Mining / Analysis / Integration IoT AP IoT BS SDN Switch SDN Router IoT Gateway 传输层通讯、传输、管理感知层生理信息环境信息地理/辨识信息心跳/脉搏传感器传感器眼压传感器影像传感器亮度三轴加速度感测温、湿度传感器传感器 GPS位置传感器血压血氧浓度传感器传感器压力传感器距离微波动作感测器特殊气体传感器 NFC辨识头戴式手表式配戴式穿着式生物电子

课程目标理论部分实验部分理解物联网数据处理与分析的基本概念理解数据挖掘的任务和步骤，掌握基本的数据挖掘算法 32课时能够使用数据挖掘工具做一些简单的数据分析掌握基本数据挖掘算法的代码实现(MATLAB) 16课时 (物联网141 3-17周单周，物联网142 4-18周双周) 地点X405

课程的基本内容

作业及考核考勤情况 10% 平时作业20% 实验完成情况30% 期末考试40%

课程的几个问题关于教材关于讨论、交流方式——课程QQ群

提纲引例——课程介绍及基本要求什么是数据挖掘行业前景数据挖掘主要任务数据基本描述量

2. 我们处在数据爆炸的时代一天发出2940亿封邮件，相当于美国两年纸质信件的数量一天的社区论坛上发出200万个帖子，相当于《时代》杂志770年的文字量每天有1.72亿人登陆Facebook，4000万人登陆Twitter 每天“状态”的更新达5.32亿人，在Facebook上传2.5亿张图片 ....... 一天，互联网上产生的全部内容可以刻满1.68亿张DVD

我们处在数据爆炸的时代我们拥有如此海量的数据，要如何好好利用它呢？对于企业来说，海量数据的运用将成为未来竞争和增长的基础如何运用好数据，从数据中挖掘出潜在的、不为人知的有用信息，是数据挖掘这门学科的主要内容 Google预测流感！ http://v.youku.com/v_show/id_XMTM3NjA2MDgyOA==.html

什么是数据挖掘数据挖掘(Data Mining)是从海量数据中抽取出潜在的、不为人知的有用信息、模式和趋势模式：标志了事物之间隐藏的规律关系你能从下面四个人的兴趣爱好中发现什么模式吗？李雷韩梅梅露西莉莉喜欢打篮球喜欢看书喜欢听音乐喜欢看球赛喜欢踢足球喜欢韩剧喜欢打羽毛球是麦迪粉丝喜欢都教授喜欢李东健喜欢登山喜欢看CCTV5 喜欢逛街兴趣爱好中的模式: 喜欢运动的都喜欢看体育频道喜欢看韩剧的也都喜欢逛街 ...

什么是数据挖掘数据挖掘过程必须是自动的或半自动的（用计算机）数据的总量总是相当可观的，但从中发现的模式必须是有意义的，并能产生一些效益，通常是经济上的效益

数据挖掘 - 多学科交叉的领域数据库技术统计学机器学习数据挖掘可视化信息论其它...

什么是机器学习机器学习(Machine Learning) 研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能数据挖掘所涉及的大部分技术已在机器学习领域开发出来传统机器学习并不把海量数据作为处理对象，如果直接把这些技术用于海量数据，效果可能很差，甚至可能用不起来。因此，数据挖掘界做了很多工作，对这些技术进行了专门的改造数据挖掘作为一个独立的学科领域，也有一些相对“独特” 的东西，例如关联分析

提纲引例——课程介绍及基本要求什么是数据挖掘行业前景数据挖掘主要任务数据基本描述量

3. Netflix大奖赛 Netflix是美国一家视频网站，用户浏览其网站时，网站会给用户推荐他没看过的影片，国内的优酷等视频网站都有相似功能 Netflix在2006年启动了Netflix大奖赛，奖金是100万美元，颁发给能将他们的影片推荐准确率提高10%的团队 Netflix当时年收入是14亿美元，如果推荐系统准确率提升了 10% ...

为什么需要数据挖掘

身边的应用

Andrew Ng加盟百度 2014年5月17日，百度官方宣布，任命吴恩达（Andrew Ng）为首席科学家，全面负责百度研究院。吴恩达何许人也？著名人工智能科学家。是斯坦福大学计算机科学教授及斯坦福人工智能实验室的负责人；2011年，他加盟Google并创立了“Google大脑”项目，因此也被誉为“Google大脑之父”。

人才需求

人才需求

提纲引例——课程介绍及基本要求什么是数据挖掘行业前景数据挖掘主要任务数据基本描述量

4. 示例1 写一段程序将下表学生分成三个组，你会怎么写？有可能让计算机在未事先制定任何分组规则的前提下自动分组吗？

示例2: 稍微复杂一点的分组例子写一段程序将下列学生分成三组，你会怎么写? 注: 各个数字代表喜欢的程度，范围是0-10，0表示不喜欢，10表示非常喜欢

数据总结对数据进行浓缩，给出它的总体综合描述将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上，从而实现对原始基本数据的总体把握最简单的数据总结方法是利用统计学中的传统方法，计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具，对数据制作直方图、饼状图等

聚类聚类(Clustering) 解决的是事物分组的问题，目的是将类似的事物放在一起前面对学生进行分组的过程即聚类聚类算法

分类分类(Classification)是解决“这是什么?”的问题，分类所承担的角色就如同回答小孩子的问题“这是一只船”，“这是一棵树”等。把每个数据点分配到合适的类别中，即所谓的“分类” 例如，邮件系统接收到一封陌生邮件时，算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组，但不知道哪组是垃圾邮件正常邮件分类算法邮件垃圾邮件基本过程：我们需要先“训练”分类算法，告诉它“什么样的东西是垃圾邮件” 经过训练，算法所学习到的知识称为“模型”；接下来算法可以利用训练得到的“模型”来回答一封新的邮件是否是“垃圾邮件”的问题。

分类的两个步骤训练模型：对一个类别已经确定的训练集创建模型模型使用：用创建的模型预测未来或者类别未知的记录用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别(class) 模型使用：用创建的模型预测未来或者类别未知的记录估计模型的准确率：使用创建的模型在一个测试集上进行预测，并将结果和实际值进行比较。注意：测试集和训练集是独立的

分类过程：训练模型分类算法训练集模型 IF 气温低 THEN 不适合运动 ......

分类过程：使用模型分类算法未分类数据 (天气晴，温度高，湿度中等) 不适合运动模型

有监督和无监督学习监督学习 (Supervised learning) 无监督学习 (Unsupervised learning) 训练集是带有类标签的，例如邮件系统中针对每封训练邮件，都标记好是否垃圾邮件学习是在训练样本的“指导”下操作的，“指导”指每个训练样本都有一个明确的结论(类别)，故称有“监督”学习分类算法是有监督的机器学习算法无监督学习 (Unsupervised learning) 学习不是在训练样本的“指导”下操作的，让计算机自己去学习怎样做一件事情聚类算法是无监督的机器学习算法

关联分析 (Association Analysis) 去超市购买东西时，我们经常会一起购买多种商品，有些商品的关联是非常明显的，比如铅笔和作业本，所以它们经常被放在同一货架上但有些商品的关联却不那么显而易见，但这种关联一定是隐藏在大量的销售数据中从大规模数据集中寻找物品间的隐含关系的过程称为关联分析

关联分析 (Association Analysis) 你能发现下面的销售数据中的关联规则吗？尿布 → 啤酒尿布 → 豆奶 ...

预测表白成功率表白是一件极其危险的事情，表白成功了就从此快乐幸福，失败了则可能连朋友都做不成但是我相信这背后一定有某种潜在的“模式”，如果可以使用数据挖掘和机器学习技术找到其背后的模式，训练出一个模型，那我们就可以在表白前先预测表白的成功率，以避免不必要的尴尬。这可行吗？

预测表白成功率表白成功与否和女生的特点以及表白方式应该会有关系，例如是否喜欢看韩剧，是否喜欢运动，性格是内外还是外向，是否在公开场合表白...我们用 x1, x2, x3 ... 来表示这些特征，再用 y 来表示表白成功率。y和x1, x2, x3...可能会呈现出某种关系，我们把它写成如下形式：其中w1, w2, w3是一些未知参数，我们假设 y 和 x1, x2, x3...通过 w1, w2, w3 来产生关系 x1, x2, x3...都是已知的，假如我们可以通过某种方式得到w1, w2, w3...的值，那就可以得到 y 的值，即表白成功率！如何得到w1, w2, w3...的值？使用数据挖掘和机器学习技术，从大量别人的表白经验中“学习”出来

回归预测寻求变量之间近似的函数关系，建立起回归方程，并用于预测例子中的变量间呈线性关系，故称为线性回归回归算法可用于分类，属于有监督学习 “回归”的由来弗朗西斯·高尔顿爵士(Sir Francis Galton,1822-1911)，英国生物学家，他研究了父母身高与子女身高之间关系后得出，若父母身高高于平均大众身高，则其子女身高倾向于倒退生长，即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高，则其子女身高倾向于向上生长，以更接近于大众平均身高。此现象，被Galton称之为回归现象，即Regression

小结数据挖掘是指从海量数据中挖掘知识/模式的过程模式给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述机器学习研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是数据挖掘的重要支撑技术聚类：将数据划分成不同的分组。是无监督学习算法分类：将数据划分到合适的类别中。是有监督学习算法关联分析：从大规模数据集中寻找物品间的隐含关系的过程回归预测：寻求变量之间近似的函数关系，建立起回归方程，并用于预测