基于云计算及数据挖掘技术的海量数据处理研究

Slides:



Advertisements
Similar presentations
渡黑水溝 郁永河. 2 戎克船:是明末清初時期往返兩岸的主要交通工具 ∗ 1. 關於台灣的開發歷史,我們到底了解多少呢?不妨試著說出 就我們所知有關台灣開發史的故事、小說、電影、音樂與大 家分享。 ∗ 2. 什麼是黑水溝?黑水溝為什麼會成為大陸移民渡海來臺時最 大的威脅? ∗ 3. 有聽過「六死三留一回頭」、「有唐山公,無唐山嬤」這兩.
Advertisements

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
我国国有银行 资本构成及资本充足率变化 小组成员:金融 尹佳裕 王淼 刘钰 金融 吴昱.
步步为营 面面俱到 步步为营 面面俱到 —— 高考语文首轮复习策略 章惠西 浙师大附中. [2014] 阅读下面文字,根据要求作文( 60 分) 门与路,永远相连。 门是路的终点,也是路的起点。它可以 挡住你的脚步,也可以让你走向世界。 大学的门,一边连接已知,一边通向未知。学习、探索、创 造,是它的通行证;大学的路,从过去到未来,无数脚印在此交.
科学六年级下册 《减少丢弃及重新使用》 澳头第一小学 执教:陈辉东. 二、减少丢弃的探讨 1 、日常生活中有哪些垃圾是可以减少的?怎样减少? (不用、少用 延长寿命 )
第5讲 索引构建 Index construction 授课人:高曙明
王 子 坊 《洛陽伽藍記》 主講教師:張其昀.
李善同 国务院发展研究中心 发展战略和区域经济研究部
高级软件工程 复习课.
大洋洲.
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
课题研究方案撰写.
当代 国 际 关 系(案例6) 冷战时期美苏关系的演变.
星云集团.
学习万科先进经验,全面提升项目品质 进一步发挥集团房地产开发产业龙头作用 住总开发公司 王辉东 2010年2月25日 回.
国学传统与企业文化建设 刘大洋 博士.
“炝虾”食用安全性的 初步研究 上海市吴淞中学生物与环境社团 责任者:李 胤 吴蓓莉 指导老师:张 治 许 沁.
第六章 证券投资的技术分析 刘 燕.
农业银行网上签约流程 宁夏金溢投资 内部资料 1.
经济成长和差距平等化 东京学艺大学 铃木亘.
廉政會報專題報告 農地重劃工程 施工常見缺失 報告:吳東霖 製作:張昌鈴 日期:103年12月23日.
以符號代表數.
專案製作經驗談.
宿州学院经济管理系 第十章 管理的创新职能 二00九年五月.
基于Hadoop的Map/Reduce框架研究报告
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
第十一章 真理与价值 主讲人:阎华荣.
基于Hadoop平台的微博热点事件提取.
战 后 国 际 关 系 专题五:冷战时期美苏关系的演变 政治学与行政管理系.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
国家和我省禽业发展政策 和扶持项目解读 安徽省畜牧兽医局
第七章 固 定 资 产.
金門縣重大空難應變機制-消防局 壹、消防搶救、滅火、緊急救護 一、派遣作為:
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
十二年國民基本教育 105年竹苗區 適性入學講綱 宣講講師:二重國中 教務主任陳韋伊.
一种基于Hadoop的视频大数据分布式解码方法 冯强
山海經與動漫遊戲 班級:系統二甲 學號:4A 姓名:李桂芳.
水晶城项目2011年操盘思路 深蓝地产机构 2010年12月编制.
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
十二年國民基本教育 103年竹苗區 適性入學講綱 新竹縣十二年國教宣導團 宣講講師:許 秀 雲     
万达会议管理平台普通用户使用介绍手册 全时培训组
第八章 第一节 日本 邹旭丹 滨河中学初中部 湘教版地理初一年级.
105學年度高一普通科(1~8班) 新生選修課程說明
通过外网访问邮件系统的说明 信息中心.
CHAPTER 6 認識MapReduce.
Hadoop平台與應用規劃實作 報告者:劉育維.
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
年度中四級課程明細表 4A (33) 4B (33) 4C(33) 4D (33) 4E (33) 4F (33) 課節
大数据与物流 沈庆琼 物流教研室.
南瑞学堂 学员简明操作指南 上海时代光华教育发展有限公司 2013年.
第六次全国人口普查 近期数据处理工作部署 夏雨春 2010年12月28日.
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
生涯手冊第18頁 生涯統整面面觀.
浙江大学医学院公共技术平台 实验仪器预约管理系统系列培训 医学院公共技术平台 丁巧灵
使用服务平台办理离校 操作指南.
北投溫泉博物館 建築特色 ★小組成員:高103林孟璇、林念儀、施妤柔★.
課稅負擔的歸屬.
基于MapReduce的Join算法优化
学年第一学期领取教材明细查询的通知 学年第一学期学生使用的教材均在网上平台公示。现将有关事项通知如下:
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
新進人員職前訓練 人事福利課程 人力資源室 余玉竹.
電子郵件安全:如何防範社交工程郵件 圖書資訊服務處 元智大學.
Cloud Computing Google云计算原理.
學生基本能力為導向之課程規劃 -中原大學經驗分享
临床试验管理平台操作指南 (申办方用) 浙江省人民医院机构办.
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
计算机基础与实训教材系列 《中文版Office 2003实用教程》.
新選課系統說明會 電算中心 林以仁.
Presentation transcript:

基于云计算及数据挖掘技术的海量数据处理研究 报告人:胡建政 2017年3月20日

前言 选择云计算做海量数据的分类数据挖掘处理,可以减少构建分布式计算平台的开销,同时将底层屏蔽掉,便于开发,使得原有的设备拥有对大数据集的较高处理效率,增加了节点的个数和容错能力,提高了从海量数据中提取有效信息的能力

SPRINT算法数据结构 SPRINT算法表示数据特征的方式是采用属性表与直方图这两种数据结构,其中,后者是依附在前者之上,而前者又是随着节点的划分而分裂的。它会依据属性的不同性质,如连续型或离散型而显现出相应的表现形式。

SPRINT算法数据结构 属性列表:(预排序) 属性值 类标记 记录索引

SPRINT算法数据结构 直方图 数值字段值: Cabove、Cbelow 种类字段值: count matrix

计算最佳分裂 SPRINT算法使用 Gini指数代替信息量作为选择最佳分裂点的依据,它对决策树的生成至关重要,Gini指数方法可以定义为: 对 于 有 n种类别的数据集S ,pi 为 S 种类别i 的相对频率. 对数据集 S 划分为 S1、S2 两个部分,分别有n1、n2 个记录,则对应的Gini指数定义为:

基于Hadoop的SPRINT算法的并行化 由于SPRINT算法能较好地支持并行处理即允许多处理器并行工作,所以可以利用Hadoop在并行处理方面的优势对SPRINT算法以并行的方式计算以减少串行计算时所带来的过大的时间复杂度.由此可以得到新的SPRINTbH(SPRINTbasedonHadoop)算法.

基于Hadoop的SPRINT算法的并行化 SPRINTbH算法描述: (1)首先根据训练数据集创建初始属性表,如果是连续属性,则要对属性表进行预排序. (2)由于MapReduce的函数的输入输出都会被存储在文件系统.所以输人是存放在文件中的已经预排序的属性表,在交给Map函数处理前,文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,Map函数处理时,每个节点就近读取本地存储的数据处理.

基于Hadoop的SPRINT算法的并行化 (3)如果是连续属性,那么每个Map函数获得的就是以属性值大小排序的属性表,同时生成直方图.而属性值排序的顺序则是以Map函数读取的顺序.然后每个Map函数对自己获得的属性表进行最佳分裂点计算,即计算出在各自的Map函数处理环节的所有的gini值,实时更新直方图(对于离散属性,无需排序,直方图无需更新),并且找出其中的最优方案,即最小的gini值.对于分类属性,每个Map函数分别统计各自的属性记录的类的分布信息。

基于Hadoop的SPRINT算法的并行化 (4)每个Map函数在计算出各自的最优方案后,在输出过程中,会将所有具有相同属性的属性表求得的gini值合并,作为Reduce函数的输人,Reduce函数找出这所有的gini值中最小的值,确定全局的最优方案,即最佳分裂属性和分裂点.Reduce函数同时还要将Map函数中统计出的类的分布信息进行相加,得到全局的类分布频率。

基于Hadoop的SPRINT算法的并行化 (5)确定了最优方案以后,将Reduce的输出作为新的Map函数的输人,每个Map函数将各自的属性表划分到相应的子结点中.可以通过将划分到左子结点的属性的rid记录到事先建立好的哈希表中,即每个Map函数可以将自己统计的记录到哈希表的左子结点中的属性作为输出,传递给Reduce函数作为输人Reduce函数统计所有的Map函数的输出,得到所有的被划分到左子结点的属性.然后确定在这个结点中的所有的左子结点和右子结点的属性。 (6)重复(2)~(5)步骤,直到满足决策树结束条件

实验结果分析 把 SPRINTbH算 法 在 Hadoop平台上用打高尔夫球的训练数据集做实验,对这个算法的有效性进行验 证 ,其分布如表1 所示.

实验结果分析 通过实验验证得到在创建根节点时的经过预排序的属性表(如表2和表3所示)

实验结果分析 由Reduce函数进行处理得到的在确定根节点阶段的最优方案是在ginisplit(Outlook)时的值最小,所以将Outlook属性作为决策树的第一次分裂.创建的根节点处的哈希表如图2所示.

实验结果分析 5台pc机(其中一台主机,4台从机),采用SUSE以及Hadoop、Eclipse、JDK,.然后通过集群测试数据集在不同数量的节点上的运行时间.运行统计结果如图4所示:

结束语 在这个数据呈爆炸式发展的时代,各类企业对大规模及超大规模数据进行处理和和挖掘的强烈需求促生了数据挖掘以及云计算等技术。本文就是在这个大背景下,把数据挖掘分类算法同基于云计算的 HADOOP 集群框架进行结合,借助于其超凡的存储计算能力,达到了对海量数据挖掘的优化。

谢谢大家!! 祝大家幸福快乐!