基于hadoop与hive的大数据分析体系构建

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

四川省教育厅 着力专业内涵建设,提升服务经济社会能力 —— 四川省高等职业学校提升专业服务产业发展能力项目建设的 实践与思考 高等教育处 宋亚兰 二 O 一三年十二月.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
公司保密工作要求及 院商秘保护工作安排 2014年9月12日.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
董永传说 六(3)班 蔡晗.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
医院文化建设 广东省中医院 2011年3月26日.番禺.
案例:海底捞模式 ——把服务做到极致.
医疗法律法规培训 连云港市东辛农场医院 周卫平 二0一四年十二月.
史泰博出货检验员面试中·········
09英本2班 罗芬.
个人所得税 扣缴申报表填报讲解.
主講人:孫台義 教授 哈薩克大學國際關係學院 客座教授
土地增值税清算业务培训 主讲人:吴金娟 怀集地税.
实训报告 财务管理二班 第三小组 组长:董文芳 执笔人:王瑾 组员:汲伦 庞宁宁 姜美.
「同根同心」—香港初中及高小學生內地交流計劃2010
课程整体教学设计 ——《面向对象程序设计基础》
思修调查 手机对大学生的影响 组员:陈法铭 陈思颖 邓颖庄 何绮祺 谭锦棉 纪文岳 李浩然 李静泊 李美霞 李维克.
何娜 求职经验交流 何娜
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
主在聖殿中! 崇拜開始前請安靜就座 務請把您的手提電話關掉!.
機構督導: 范盛翔 督導 實習生: 佛光大學社會學系江佳穎 實習日期: 7/1(二)~8/29(五)
Presentation transcript:

基于hadoop与hive的大数据分析体系构建 指导教师:张曙

开发环境与技术难点 工程概览 系统详细实现 系统概要设计 基础理论相关技术 项目背景/研究现状

项目背景/研究现状

项目背景/研究现状 ——项目背景 2012年3月29日,美国政府发布了“大数据研究和发展倡议”。 2011年5月,EMC公司 项目背景/研究现状 ——项目背景 2012年3月29日,美国政府发布了“大数据研究和发展倡议”。 2011年5月,EMC公司 EMC World年度大会 提出了“大数据”(Big Data)概念 2012年8月北京知识发现与数据挖掘(KDD)国际会议,大数据成为重要议题 2011年11月26日,中国软件开发联盟(CSDN)在北京成功举办了中国大数据技术大会

项目背景/研究现状 ——研究现状 大数据处理相关 微博信息分析相关 提升硬件性能 使用分布式架构(主流趋势) 用户兴趣挖掘 项目背景/研究现状 ——研究现状 大数据处理相关 提升硬件性能 使用分布式架构(主流趋势) 微博信息分析相关 用户兴趣挖掘 信息情感倾向性分析 敏感信息检测 ......

项目背景/研究现状 ——现有不足 大数据相关 微博相关 分布式架构的使用技术门槛较高,一般的非IT类企业难以直接使用 项目背景/研究现状 ——现有不足 大数据相关 分布式架构的使用技术门槛较高,一般的非IT类企业难以直接使用 微博相关 对于长文本的数据挖掘技术较为成熟,但对于短文本还存在很多问题

项目背景/研究现状 ——系统需求 项目来源: 企业选题 课题需求: 1、构建一套大数据分析体系,使分布式架构的使 项目背景/研究现状 ——系统需求 项目来源: 企业选题 课题需求: 1、构建一套大数据分析体系,使分布式架构的使 用难度降低,任何用于都可以使用。 2、在大数据分析体系的基础上,构建一套微博信 息分析的应用场景,使需要进行微博分析的用户可以直接使用分析结果,同时也使其他场景用户可以参照微博场景使用大数据分析体系构建自己的应用场景。

系统概要设计

系统概要设计 ——系统总体设计

系统概要设计 ——微博信息获取及信息存储 OAuth授权 api获取数据 NoSQl数据库 传统web爬取

系统概要设计 ——数据存储与数据仓库 数据操作 hive封装 NoSQL数据库

系统概要设计 ——微博信息分析 分析结果存储 聚类 数据读取(hive) 数据预处理(向量化和归一化) 支持向量机 其它

系统概要设计 ——数据可视化 d3js可视化及交互层 express框架(控制层) 数据分析模块 hive封装

开发环境与技术难点

开发环境与技术难点 ——开发环境 技术名称 应用模块 Python语言 一般程序 C++语言 核心算法部分 javascript语言 开发环境与技术难点 ——开发环境 技术名称 应用模块 Python语言 一般程序 C++语言 核心算法部分 javascript语言 数据可视化 express 可视化控制框架 jquery 可视化数据交互 d3js 可视化图表生成 hadoop、hive 分布式计算基础

开发环境与技术难点 ——技术难点 难点1:hadoop与hive大数据数据处理架构的通用性 开发环境与技术难点 ——技术难点 难点1:hadoop与hive大数据数据处理架构的通用性 为了能够适应绝大多数应用场景,整个大数据处理基础架构需要具有通用性,而做到这一点需要对整个架构进行合理设计,尤其是数据交互格式要具有通用性。

开发环境与技术难点 ——技术难点 难点2:大数据的可视化性能 开发环境与技术难点 ——技术难点 难点2:大数据的可视化性能 众所周知,js的在浏览器的运行速度一直是其最大问题,如何解决对于大数据在web端的可视化运行效率,是保证整个大数据分析体系的保证。

开发环境与技术难点 ——技术难点 难点3:跨语言及RPC调用 开发环境与技术难点 ——技术难点 难点3:跨语言及RPC调用 为了提升系统运行效率,因此对于核心算法模块,我们将采用C++进行编写,由此将面临跨语言调用的问题。同时为了模块独立性和满足分布式需求,主控程序将会对大型分析模块采用RPC调用,如何在RPC的基础之上实施跨语言调用是一个巨大的挑战。

开发环境与技术难点 ——技术难点 难点4:针对短文本的数据分析技术 开发环境与技术难点 ——技术难点 难点4:针对短文本的数据分析技术 由于文本过短,造成向量化之后的文本向量之间语义区分度不足,进而带来数据分析环节中,数据挖掘准度急剧降低。如何解决业界公认的这一难题也是本工程实践所需解决的难题之一。

Thank you for watching! 开发环境与技术