物联网数据处理 第一讲 数据处理基本概念 刘进军 jinjunl@chzu.edu.cn QQ:1024119267.

Slides:



Advertisements
Similar presentations
我的 x 檔案 張春桂 ( 阿桂 ). 我的基本資料  破蛋日 :2000 年 9 月 7 日  星座 : 處女 血型 : 未知  興趣 : 敬請期待第 6 頁  身高 :160 體重 : 比你重就對了  性別 : ㄜ ~~ 當然是男的摟  我的偶像 : 我自己  如果臂力強得化可以跟我比腕力喔.
Advertisements

2009 年度工作总结 中国卫生科教音像出版社 2010 年 2 月 2 日 年,在中心领导和各部门的支持与帮助下, 在出版社全体同志的共同努力下,出版社积极开展各 项工作,创造出良好的工作局面,社会效益和经济效 益连续三年稳步上升。下面我代表出版社,就一年来 的工作向全体同志进行汇报。
解读《金星秀》节目. 节目宗旨和定位: 关于文化碰撞、文化交流的节目,直击文娱热点,关注 民生等问题 节目形式: 脱口秀 节目时长: 70 分钟 节目段落: 脱口秀、有话问金姐、金星时间.
第十六週:個資外洩與資訊安全 國 立 高 雄 餐 旅 學 院 餐飲管理系 副教授 劉聰仁博士 編撰.
“ 《雷雨》是一部不但可以演,也可以读的作 品。 ” (巴金) “ 一出动人的戏,一部具有伟大性质的长剧。 ” (李健吾) 《雷雨》的社会影响。 1935 年初,《雷雨》首次被搬上日 本舞台,演出盛况空前,不久,它 又被译成日文。
大教育家孔子 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。
秦代舞蹈 本檔案圖片來源: google 圖片. 戰國七雄終結者 統一文字制定律法 郡縣名田  秦王征服六國,終結分裂割 據的局面,建立中國歷史上 第一個中央集權的封建大帝 國,統一文字、制定律法與 郡縣、名田等制度,將戰國 時期散漫衰敗狀態的社會, 轉變成統一強大的國家。 秦始皇.
制作人 : 林 熹 黄语欣 方诗涵 李雅雯 林怡芳 林 萍 蔡颖琦 徐丽珊 成员 : 工作 : 林 熹 幻灯片 黄语欣 图 片 方诗涵 写计划书 李雅文 资 料 林 萍 日 志 林怡芳 资 料 徐丽珊 资 料 蔡颖琦 资 料.
今天的矿工路 六十年代的矿工路.
山西职业技术学院 蒋晋红.
世界读书日 4月23日.
古诗鉴赏 (常用答题方法 ).
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
古今生活大對照 迦密愛禮信小學 六信  尹嘉豪.
第三课 氓.
Big Data Ecosystem – Hadoop Distribution
2014年度科技服务工作 总结交流汇报 河北省农科院旱作所 2014年12月.
真的太经典了, 不得不看.
真的太经典了, 不得不看.
梦想的力量 博湖一小 赵秀珍. 梦想的力量 博湖一小 赵秀珍 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。 瑞恩的梦想是什么?他是怎样实现自己的梦想的? 梦想的力量是什么? 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。
2、加一笔成新字 一 →二 二 →三、干、工 十 →土、士 口 →日、中 日 →目、白、田 月 →用 目 →自 木 →禾、本 大 →天、太、犬 人 →大、个 了 →子.
黄 河 ——中华母亲河 2014年贺年片 原创:刘忒正 改制:牛俊民.
常州市戚墅堰实验中学 虞超群 执教 《诗经》选读 卫风·氓.
作文训练: 突出中心.
愛情直播不NG -破解戀愛迷思 嘉南藥理科技大學 學生輔導中心.
第二章 继承爱国传统 弘扬民族精神 第一节 中华民族的爱国主义传统 第二节 新时期的爱国主义 第三节 做忠诚的爱国者.
四组制作: 许顺楠、姬少丽、李澎、刘伏、 徐娅丽、李頔
贴近教学 服务师生 方便老师.
主辦單位:朝陽科技大學休閒事業管理學系 協辦單位:體育室、課外活動組 活動日期:民國100年5月21日 活動地點:朝陽科技大學操場
教育信息化工作管理系统“校校通”部分指标说明
从“阿拉伯之春” 看新媒体的政治传播能力.
课程:软文营销 课题:微博软文 班级: 教师:杨俊.
洛阳龙门石窟 龙门石窟是中国著名的三大石刻艺术宝库之一,位于河南省洛阳南郊12公里处的伊河两岸。经过自北魏至北宋400余年的开凿,至今仍存有窟龛2100多个,造像10万余尊,碑刻题记3600余品,多在伊水西岸。数量之多位于中国各大石窟之首。其中“龙门二十品”是书法魏碑精华,唐代著名书法家褚遂良所书的“伊阙佛龛之碑”则是初唐楷书艺术的典范。
(讲座幻灯课件请在网上下载,让我们一起思考!)
明确考点 夯实基础 追踪热点 解题指引 ━━七八年级思想品德中考复习策略
第三章 道德与社会责任 第一节:道德与崇尚道德的管理 第二节:管理者道德行为的影响因素 第三节:提升员工道德修养的途径
后现代语境中的民生新闻叙事 主讲人 方毅华.
第14章 危机型公共关系实务 引导案例 14.1 危机公共关系概述 14.2 危机公共关系处理原则 14.3 危机公共关系三阶段 讨论题.
第二节 地球自转的地理意义 学习目标: 1 说明地方时和区时的概念,初步掌握地方时和区时的计算方法。
运用新媒体做好工会工作 中共成都市委党校文化建设教研室 邵 军 年3月19日.
关于传统文化与学校德育工作的思考 白山市教育局 纪砚秋.
义务教育课程标准实验教科书二年级下册 玲玲的画 山东滨州市无棣县棣丰街道中心小学 曹雪敏. 生活中有些事真有意思!要是肯动 脑筋,坏事也能变成好事;要是肯动脑 筋,看来不可能办成的事也能办成。碰 到问题,我们要认真想想,找到解决问 题的办法,做个善于思考的孩子。
歌咏对象是谁? 1)志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 2)翁去八百载,醉乡犹在; 山行六七里,亭影不孤。 3)刚直不阿,留得正气冲霄汉; 幽愁发愤,著成信史照尘寰。 4)世上疮痍,诗中圣哲; 人间疾苦,笔底波澜。 屈原 欧阳修 司马迁 杜甫.
项羽之死 司马迁.
第三章 古代汉语语法 3—1古汉语语法及其研究 一、《马氏文通》以前的《古汉语研究》
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
词 五 首.
云南大学滇池学院外语系 2009级英语专业一班优秀班级 申报材料
自然之道 双口小学 李佳.
第一章 神话.
文化复兴路 灿烂中国梦 12景观建筑设计
第四章 社会 [本章内容与要求]     本章主要介绍社会、社会运行的条件与机制、社会结构、社会关系,社会要素中的人口因素、环境因素。要求对社会发展、社会运行有基本的认识和初步的思考。
— —1998年全世界诺贝尔获奖者集会巴黎时的宣言
重点字词: 1、吾党之小子狂简 3、暴虎冯河 5、无所取材! 6、予所否者,天厌之 8、子哭之恸.
魅 力 中 国 笑看历史风云 情系似水流年 品味剧里人生 享受剧外精彩 每周新看点 ——
中国市县招商网 会展案例.
精彩影视节目预告 本周收视导航 –
Data Mining 工具介紹 (Weka/R + ODBC)
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
VISP+MS 国际高校访问学生 及统计理学硕士项目
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
16 葡萄沟.
一九九四年九月五日.
Facebook 内部高效工作指南
第十章 線上行銷研究.
2014年签约认购合同签订 注意事项.
FaceBook 粉絲頁建立 主講人:王金鳳.
說話的藝術 香港仔工業學校 盧仲衡老師.
新進教師科展研習 王文良 資訊科,中正高工.
雲端運算的技術趨勢與影響 資管四A 謝宗儒 A.
Presentation transcript:

物联网数据处理 第一讲 数据处理基本概念 刘进军 jinjunl@chzu.edu.cn QQ:1024119267

提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量

1. 物联网数据处理——以老人健康照护为例

物联网数据处理——以老人睡眠为例 连续多天忘关水龙头——潜在阿尔茨海默症风险 建立睡眠行为模式与健康的关联,并实现主动照护 通知:睡眠规律 上卫生间的次数是4-5次——肠道疾病风险 上卫生间的时间是1个小时——可能跌倒 建立睡眠行为模式与健康的关联,并实现主动照护 通知:睡眠规律 提醒:关灯/水龙头 预警:潜在阿尔茨海默 症的风险 报警:跌倒 每晚9点上床睡觉,上卫生间1-2次,每次5分钟,早上6点起床。 分析睡眠行为规律,建立老人睡眠行为模式 上下床、进出卫生间、用马桶、洗手等动作——睡眠行为 一组特征动作勾勒行为 床上开关传感器——上下床 卫生间门开关传感器——进出卫生间 马桶水浸——用马桶动作 水池水浸——洗手动作 由原始数据推断特征动作 传感器采集原始数据 床、卫生间门上的开关传感器:开/关状态 洗手池、马桶上的水浸传感器:水浸有/无 4/18

Big Data Mining / Analysis / Integration 应用层 信息/娱乐 课程的地位 运动/健身 医疗/照护 安全/保全 专业/特殊 处理层 Database Management Cloud Computing Network Management Data Analytics Big Data Mining / Analysis / Integration IoT AP IoT BS SDN Switch SDN Router IoT Gateway 传输层 通讯、传输、管理 感知层 生理信息 环境信息 地理/辨识信息 心跳/脉搏 传感器 传感器 眼压 传感器 影像 传感器 亮度 三轴加速 度感测 温、湿度 传感器 传感器 GPS位置 传感器 血压 血氧浓度 传感器 传感器 压力 传感器 距离 微波动作 感测器 特殊气体 传感器 NFC辨识 头戴式 手表式 配戴式 穿着式 生物电子

课程目标 理论部分 实验部分 理解物联网数据处理与分析的基本概念 理解数据挖掘的任务和步骤,掌握基本的数据挖掘算法 32课时 能够使用数据挖掘工具做一些简单的数据分析 掌握基本数据挖掘算法的代码实现(MATLAB) 16课时 (物联网141 3-17周单周,物联网142 4-18周 双周) 地点X405

课程的基本内容

作业及考核 考勤情况 10% 平时作业20% 实验完成情况30% 期末考试40%

课程的几个问题 关于教材 关于讨论、交流方式——课程QQ群

提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量

2. 我们处在数据爆炸的时代 一天发出2940亿封邮件,相当于美国两年纸质信件的数量 一天的社区论坛上发出200万个帖子,相当于《时代》杂志770年的文字量 每天有1.72亿人登陆Facebook,4000万人登陆Twitter 每天“状态”的更新达5.32亿人,在Facebook上传2.5亿张图片 ....... 一天,互联网上产生的全部内容可以刻满1.68亿张DVD

我们处在数据爆炸的时代 我们拥有如此海量的数据,要如何好好利用它呢? 对于企业来说,海量数据的运用将成为 未来竞争和增长的基础 如何运用好数据,从数据中挖掘出潜在 的、不为人知的有用信息,是数据挖掘 这门学科的主要内容 Google预测流感! http://v.youku.com/v_show/id_XMTM3NjA2MDgyOA==.html

什么是数据挖掘 数据挖掘(Data Mining)是从海量数据中抽取出潜在的、不为人知的有用信息、模式和趋势 模式:标志了事物之间隐藏的规律关系 你能从下面四个人的兴趣爱好中发现什么模式吗? 李雷 韩梅梅 露西 莉莉 喜欢打篮球 喜欢看书 喜欢听音乐 喜欢看球赛 喜欢踢足球 喜欢韩剧 喜欢打羽毛球 是麦迪粉丝 喜欢都教授 喜欢李东健 喜欢登山 喜欢看CCTV5 喜欢逛街 兴趣爱好中的模式: 喜欢运动的都喜欢看体育频道 喜欢看韩剧的也都喜欢逛街 ...

什么是数据挖掘 数据挖掘过程必须是自动的或半自动的(用计算机) 数据的总量总是相当可观的,但从中发现的模式必须是有 意义的,并能产生一些效益,通常是经济上的效益

数据挖掘 - 多学科交叉的领域 数据库技术 统计学 机器学习 数据挖掘 可视化 信息论 其它...

什么是机器学习 机器学习(Machine Learning) 研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能 数据挖掘所涉及的大部分技术已在机器学习领域开发出来 传统机器学习并不把海量数据作为处理对象,如果直接把 这些技术用于海量数据,效果可能很差,甚至可能用不起 来。因此,数据挖掘界做了很多工作,对这些技术进行了 专门的改造 数据挖掘作为一个独立的学科领域,也有一些相对“独特” 的东西,例如关联分析

提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量

3. Netflix大奖赛 Netflix是美国一家视频网站,用户浏览其网站时,网站会给用户推荐他没看过的影片,国内的优酷等视频网站都有相似功能 Netflix在2006年启动了Netflix大奖赛,奖金是100万美元,颁发给能将他们的影片推荐准确率提高10%的团队 Netflix当时年收入是14亿美元,如果推荐系统准确率提升了 10% ...

为什么需要数据挖掘

身边的应用

Andrew Ng加盟百度 2014年5月17日,百度官方宣布,任命吴恩达(Andrew Ng)为首席科学家,全面负责百度研究院。 吴恩达何许人也?著名人工智能科学家。是斯坦福大学计算机科学教授及斯坦福人工智能实验室的负责人;2011年,他加盟Google并创立了“Google大脑”项目,因此也被誉为“Google大脑之父”。

人才需求

人才需求

提纲 引例——课程介绍及基本要求 什么是数据挖掘 行业前景 数据挖掘主要任务 数据基本描述量

4. 示例1 写一段程序将下表学生分成三个组,你会怎么写? 有可能让计算机在未事先制定任何分组规则的前提下自动分组吗?

示例2: 稍微复杂一点的分组例子 写一段程序将下列学生分成三组,你会怎么写? 注: 各个数字代表喜欢的程度,范围是0-10,0表示不喜欢,10表示非常喜欢

数据总结 对数据进行浓缩,给出它的总体综合描述 将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握 最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等

聚类 聚类(Clustering) 解决的是事物分组的问题,目的是将类似的事物放在一起 前面对学生进行分组的过程即聚类 聚类 算法

分类 分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。 把每个数据点分配到合适的类别中,即所谓的“分类” 例如,邮件系统接收到一封陌生邮件时,算法能识别出该 邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知 道哪组是垃圾邮件 正常邮件 分类 算法 邮件 垃圾邮件 基本过程:我们需要先“训练”分类算法,告诉它“什么样的东西是垃圾邮件” 经过训练,算法所学习到的知识称为“模型”;接下来算法可以利用训练得到的“模型”来回答一封新的邮件是否是“垃圾邮件”的问题。

分类的两个步骤 训练模型:对一个类别已经确定的训练集创建模型 模型使用:用创建的模型预测未来或者类别未知的记录 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别(class) 模型使用:用创建的模型预测未来或者类别未知的记录 估计模型的准确率:使用创建的模型在一个测试集上进行预测,并 将结果和实际值进行比较。 注意:测试集和训练集是独立的

分类过程:训练模型 分类算法 训练集 模型 IF 气温低 THEN 不适合运动 ......

分类过程:使用模型 分类算法 未分类数据 (天气晴,温度高,湿度中等) 不适合运动 模型

有监督和无监督学习 监督学习 (Supervised learning) 无监督学习 (Unsupervised learning) 训练集是带有类标签的,例如邮件系统中针对每封训练邮件,都标记好是否垃圾邮件 学习是在训练样本的“指导”下操作的,“指导”指每个训练样本都有一个明确的结论(类别),故称有“监督”学习 分类算法是有监督的机器学习算法 无监督学习 (Unsupervised learning) 学习不是在训练样本的“指导”下操作的,让计算机自己去学习怎样 做一件事情 聚类算法是无监督的机器学习算法

关联分析 (Association Analysis) 去超市购买东西时,我们经常会一起购买多种商品,有些商品的关联是非常明显的,比如铅笔和作业本,所以它们经常被放在同一货架上 但有些商品的关联却不那么显而易见,但这种关联一定是隐藏在大量的销售数据中 从大规模数据集中寻找物品间的隐含关系的过程称为关联分析

关联分析 (Association Analysis) 你能发现下面的销售数据中的关联规则吗? 尿布 → 啤酒 尿布 → 豆奶 ...

预测表白成功率 表白是一件极其危险的事情,表白成功了就从此快乐幸福,失败了则可能连朋友都做不成 但是我相信这背后一定有某种潜在的“模式”,如果可以使用数据挖掘 和机器学习技术找到其背后的模式,训练出一个模型,那我们就可以在 表白前先预测表白的成功率,以避免不必要的尴尬。这可行吗?

预测表白成功率 表白成功与否和女生的特点以及表白方式应该会有关系,例如是否喜欢看韩剧,是否喜欢运动,性格是内外还是外向,是否在公开场合表白...我们用 x1, x2, x3 ... 来表示这些特征,再用 y 来表示表白成功率。y和x1, x2, x3...可能会呈现出某种关系,我们把它写成如下形式: 其中w1, w2, w3是一些未知参数,我们假设 y 和 x1, x2, x3...通过 w1, w2, w3 来产生关系 x1, x2, x3...都是已知的,假如我们可以通过某种方式得到w1, w2, w3...的值,那就可以得到 y 的值,即表白成功率! 如何得到w1, w2, w3...的值?使用数据挖掘和机器学习技术, 从大量别人的表白经验中“学习”出来

回归预测 寻求变量之间近似的函数关系,建立起回归方程,并用于预测 例子中的变量间呈线性关系,故称为线性回归 回归算法可用于分类,属于有监督学习 “回归”的由来 弗朗西斯·高尔顿爵士(Sir Francis Galton,1822-1911),英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即Regression

小结 数据挖掘是指从海量数据中挖掘知识/模式的过程 模式给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述 机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是数据挖掘的重要支撑技术 聚类:将数据划分成不同的分组。是无监督学习算法 分类:将数据划分到合适的类别中。是有监督学习算法 关联分析:从大规模数据集中寻找物品间的隐含关系的过程 回归预测:寻求变量之间近似的函数关系,建立起回归方程,并用于预测