基于hadoop与hive的大数据分析体系构建 指导教师:张曙
开发环境与技术难点 工程概览 系统详细实现 系统概要设计 基础理论相关技术 项目背景/研究现状
项目背景/研究现状
项目背景/研究现状 ——项目背景 2012年3月29日,美国政府发布了“大数据研究和发展倡议”。 2011年5月,EMC公司 项目背景/研究现状 ——项目背景 2012年3月29日,美国政府发布了“大数据研究和发展倡议”。 2011年5月,EMC公司 EMC World年度大会 提出了“大数据”(Big Data)概念 2012年8月北京知识发现与数据挖掘(KDD)国际会议,大数据成为重要议题 2011年11月26日,中国软件开发联盟(CSDN)在北京成功举办了中国大数据技术大会
项目背景/研究现状 ——研究现状 大数据处理相关 微博信息分析相关 提升硬件性能 使用分布式架构(主流趋势) 用户兴趣挖掘 项目背景/研究现状 ——研究现状 大数据处理相关 提升硬件性能 使用分布式架构(主流趋势) 微博信息分析相关 用户兴趣挖掘 信息情感倾向性分析 敏感信息检测 ......
项目背景/研究现状 ——现有不足 大数据相关 微博相关 分布式架构的使用技术门槛较高,一般的非IT类企业难以直接使用 项目背景/研究现状 ——现有不足 大数据相关 分布式架构的使用技术门槛较高,一般的非IT类企业难以直接使用 微博相关 对于长文本的数据挖掘技术较为成熟,但对于短文本还存在很多问题
项目背景/研究现状 ——系统需求 项目来源: 企业选题 课题需求: 1、构建一套大数据分析体系,使分布式架构的使 项目背景/研究现状 ——系统需求 项目来源: 企业选题 课题需求: 1、构建一套大数据分析体系,使分布式架构的使 用难度降低,任何用于都可以使用。 2、在大数据分析体系的基础上,构建一套微博信 息分析的应用场景,使需要进行微博分析的用户可以直接使用分析结果,同时也使其他场景用户可以参照微博场景使用大数据分析体系构建自己的应用场景。
系统概要设计
系统概要设计 ——系统总体设计
系统概要设计 ——微博信息获取及信息存储 OAuth授权 api获取数据 NoSQl数据库 传统web爬取
系统概要设计 ——数据存储与数据仓库 数据操作 hive封装 NoSQL数据库
系统概要设计 ——微博信息分析 分析结果存储 聚类 数据读取(hive) 数据预处理(向量化和归一化) 支持向量机 其它
系统概要设计 ——数据可视化 d3js可视化及交互层 express框架(控制层) 数据分析模块 hive封装
开发环境与技术难点
开发环境与技术难点 ——开发环境 技术名称 应用模块 Python语言 一般程序 C++语言 核心算法部分 javascript语言 开发环境与技术难点 ——开发环境 技术名称 应用模块 Python语言 一般程序 C++语言 核心算法部分 javascript语言 数据可视化 express 可视化控制框架 jquery 可视化数据交互 d3js 可视化图表生成 hadoop、hive 分布式计算基础
开发环境与技术难点 ——技术难点 难点1:hadoop与hive大数据数据处理架构的通用性 开发环境与技术难点 ——技术难点 难点1:hadoop与hive大数据数据处理架构的通用性 为了能够适应绝大多数应用场景,整个大数据处理基础架构需要具有通用性,而做到这一点需要对整个架构进行合理设计,尤其是数据交互格式要具有通用性。
开发环境与技术难点 ——技术难点 难点2:大数据的可视化性能 开发环境与技术难点 ——技术难点 难点2:大数据的可视化性能 众所周知,js的在浏览器的运行速度一直是其最大问题,如何解决对于大数据在web端的可视化运行效率,是保证整个大数据分析体系的保证。
开发环境与技术难点 ——技术难点 难点3:跨语言及RPC调用 开发环境与技术难点 ——技术难点 难点3:跨语言及RPC调用 为了提升系统运行效率,因此对于核心算法模块,我们将采用C++进行编写,由此将面临跨语言调用的问题。同时为了模块独立性和满足分布式需求,主控程序将会对大型分析模块采用RPC调用,如何在RPC的基础之上实施跨语言调用是一个巨大的挑战。
开发环境与技术难点 ——技术难点 难点4:针对短文本的数据分析技术 开发环境与技术难点 ——技术难点 难点4:针对短文本的数据分析技术 由于文本过短,造成向量化之后的文本向量之间语义区分度不足,进而带来数据分析环节中,数据挖掘准度急剧降低。如何解决业界公认的这一难题也是本工程实践所需解决的难题之一。
Thank you for watching! 开发环境与技术