一种基于Hadoop的视频大数据分布式解码方法 冯强

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
护理学基础 第七章 医院与住院环境.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
第九章 会计设置及机构.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
2011计算机类教研活动 陈国久.
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
医院文化建设 广东省中医院 2011年3月26日.番禺.
案例:海底捞模式 ——把服务做到极致.
医疗法律法规培训 连云港市东辛农场医院 周卫平 二0一四年十二月.
史泰博出货检验员面试中·········
09英本2班 罗芬.
个人所得税 扣缴申报表填报讲解.
云梯的多namenode和跨机房之路
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
國立中山大學30週年校慶籌備委員會 中山大學30週年校慶籌備會 第二次工作會議 03/29/2010.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
進度流程Demo.
Presentation transcript:

一种基于Hadoop的视频大数据分布式解码方法 冯强 iiec.cqu.edu.cn

目录 项目简介 研究现状 解码方案描述 实验结果分析 总结

Hadoop + Computer Vision 项目任务 项目简介 项目名称:HadoopCV Hadoop + Computer Vision 项目任务 存储海量视频数据; 基于Hadoop处理视频数据; 视频大数据 + 分布式解码

项目简介 HadoopCV处理流程 常规处理流程 视频数据 视频数据 Mapper OpenCV IplImage IplImage 算法处理 算法处理 Reducer

项目简介 系统边界

目录 项目简介 研究现状 解码方案描述 实验结果分析 总结

研究现状 单机解码 分布式解码(转码) 使用单一计算节点进行解码,数据存储和解码都在本地完成,目前流行的视频播放软件均采用这种模式 优点:架构简单,无需提供额外的视频管理机制,即用即解; 缺点:解码效率受节点配置影响,拓展性较差,数据安全性也较差,对大数据的处理能力不足。 分布式解码(转码) 利用分布式系统进行解码,视频数据先分割成适合分块处理的大小,然后上传到分布式文件系统上。需要进行解码的时候,再将数据下载到本地,通过第三方解码库的调用进行解码,处理完成之后重新上传。这种解码模式数据存储在分布式文件系统上,但解码的时候需要数据的下载和上传。 优点:利用了分布式计算框架,通过并行处理提高了解码效率; 缺点:没有充分利用分布式文件系统存储的优点,数据上传和下载的过程增加了系统开销,另外数据需要进行分割之后上传,需要提供相应的管理机制。

基于Hadoop的视频大数据分布式解码方法: 研究现状 基于Hadoop的视频大数据分布式解码方法: 架构简单,无需提供额外的视频管理机制; 利用了分布式计算框架,通过并行处理提高解码效率;

研究现状 视频压缩原理 原始帧 GOP 解码需要: 头数据; 关键帧; 关键帧

研究现状 Hadoop直接处理视频数据 问题一:帧不完整 问题二:分割后缺少关键帧 问题三:分割后缺少头数据 其中,标号为2、9、16的帧将会被分割到两个Block中;Block2中2、3、4、5帧由于缺少关键帧信息,将无法解码出正确的图像,Block3中的第10帧以及Block4中所有的帧均存在同样的问题;Block2、Block3、Block4中由于缺少视频头数据,将无法进行解码。

目录 项目简介 研究现状 解码方案描述 实验结果分析 总结

解码方案描述 数据预处理: HDFS设计之初是为了处理文本大数据,但只要被写入的数据很少被改动,并且对数据的操作主要是大规模的流式读取和小规模的随机读取,原则上HDFS就可以存储任何类型的数据,因此,视频数据可以不加任何处理的上传到HDFS之上。 数据物理分割: 视频文件在上传到HDFS之后,根据用户设定的Block大小,默认顺序分割成64M大小的数据块,分布式的存储于集群中的DataNode之上,此时,所有大于64M的文件都被物理分割。NameNode通过维护文件系统的元数据(metadata)对文件进行管理,而HDFS面向用户的接口又是一个完整连续的文件,HDFS对用户隐藏了分割的细节。

解码方案描述 数据逻辑分割: Block:物理分割数据块; Split:逻辑分割数据块; Hadoop在根据用户的指定运行一个作业(job)的时候,会根据Block在工作机的位置分配计算任务,每个单独运行的任务称之为一个Map,每个Map对应一个Split,Split作为文件的一个逻辑分割为Map提供计算数据源,默认的Split按照自己位置分割,起始位置跟工作机的Block相同。

解码方案描述 Hadoop直接处理视频数据 问题原因: 问题一:帧不完整 问题二:分割后缺少关键帧 问题三:分割后缺少头数据 按字节分割,不是按照帧的位置进行分割; 解决问题关键: 如何进行按照帧的位置进行分割 Block是按照字节位置对文件进行分割,而不是按照帧的边界位置进行分割,而压缩过的帧由于编码的存在无法计算字节位置,另外编码过的帧大小不一,这也导致无法通过按照帧的边界位置重新划定大小统一的Split进行分割,因此才会导致4.2.2中问题一、问题二(下文简称问题一、问题二和问题三)的产生。为了解决这两个问题,我们重新定义Split的分割位置,由原来的字节位置分割修改为按帧位置进行分割,

解码方案描述 数据逻辑分割: Split定义: Split读取规则: 依然按照Block起止位置进行定义,数据大小同Block大小; 向前读取; 丢弃第一个关键帧之前数据,确定Split的真正起始帧位置; Split的终止帧位置设定在Block结束字节位置附近,定义在结束字节位置之后的第一个I帧;

解码方案描述 数据逻辑分割: 问题一:帧不完整 问题二:分割后缺少关键帧 Split的定义仍然是根据HDFS的Block位置,但是在数据读取策略上,根据关键帧的位置,重新定义Split,这样就可以保证所有的Split中都有必要的I帧信息,同一个GOP中不会出现缺少I帧而无法解码的问题。至此,问题一、问题二解决。

解码方案描述 分布式解码: FFmepg: FFmpeg是一个开源免费跨平台的视频和音频流方案,可以运行在windows和linux上,包括一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。 Fuse-dfs: fuse-dfs是hadoop项目自带的一个功能模块。主要实现把dfs上的数据映射至本地指定mount点。由于现存的软件无法直接使用hdfs上的数据,所以此时可以借助fuse来实现本地文件系统的映射。

解码方案描述 分布式解码: FFmpeg解码: Fuse-dfs挂载HDFS: Split确定数据边界; RecorderReader循环读取; 解码数据; FFmpeg解码: 支持本地文件接口; 不兼容HDFS; Fuse-dfs挂载HDFS: 虚拟本地文件接口,提高兼容性; 隐藏网络传输细节,通过网络传输 视频头数据; 在确定好了Split划分边界之后,需要提供相应的数据读取策略,Hadoop中称之为RecordReader(RR),RecordReader为相应的Map提供计算数据,体现到视频数据上就是解码,这里我们采用开源解决方案FFmpeg做解码工作 在使用FFmpeg做解码工作的时候,由于面向的是HDFS,虽然HDFS提供了文件的读取接口,但与FFmpeg支持的本地文件接口不兼容,这就导致了FFmpeg无法读取HDFS上的数据;同时,为解决问题三,我们需要提供一种策略,把视频文件的头数据通过网络传输给每个Split。 这里我们采用的Fuse-dfs解决如上问题,Fuse-dfs可以将HDFS挂载到本地文件系统,这样FFmpeg就可以像解码本地文件一样解码HDFS上的视频数据,不仅可以隐藏网络传输细节,同时还可以提高系统的兼容性。

解码方案描述 分布式解码: 问题三:分割后缺少头数据

解码方案描述 输入/输出:

解码方案描述 输入/输出: FrameNumWritable:标识帧位于视频帧序列的播放位置,以及帧对于的视频文件路径; ImageWritable: 标识帧的图像数据; Text:图像数据Hash过后的文本数据; VideoMapper: 负责将解码过后的图像Hash成文本数据; VideoReducer: 负责将图像文本数据写入文件;

解码方案描述 解码方案整体架构

目录 项目简介 研究现状 解码方案描述 实验结果分析 总结

实验结果分析 实验集群概述: Hadoop集群由15台PC机组成,每台PC机CPU为Intel(R) Pentium(R) 4 CPU 2.80GHz,内存为1.5G,硬盘为80G。其中1台作为集群Master,14台作为集群Slaves。 运行环境: 操作系统:Ubuntu 12.04.1 Hadoop版本:1.0.3 JDK版本:1.7.0_07 OpenCV版本:2.4.2 ffmpeg版本:1.0

实验结果分析 分布式/单机解码效率对比: 从图中可以看出,当视频小于60M,单机解码时间小于分布式解码,大于60M,分布式解码所需时间小于单机解码;同时,随着视频逐渐增大,分布式解码时间远远小于单机解码时间。

实验结果分析 分布式/单机解码效率对比:

把单机解码的视频作为样本视频记录E,分布式解码的视频为实际视频记录A。 实验结果分析 解码准确率测试: 把单机解码的视频作为样本视频记录E,分布式解码的视频为实际视频记录A。 帧数对比:比较A与E的视频帧数是否相同; 严格对比:将每一帧图像Hash成只包含头信息(图像长、宽、大小、通道数、深度)、图像数据的hash码。对比两条记录的这些信息来确定两帧图像是否相等。 计算包含百分比:如果帧数相同且严格对比结果匹配,A与E完全相同;如果帧数相同但是严格对比结果不匹配,计算实际记录A与样本记录E中相互包含帧的百分比。

实验结果分析 解码准确率测试: 视频大小(MB) E count A count Equal E contain A A contain E 15 1796 1 100 30 4196 60 7796 15584 300 39537 500 71272 1024 143401

实验结果分析 分割大小对解码效率的影响: 24G视频做测试样本,标准的h.264压缩标准,标清视频704x576分辨率,24h数据量约为24G。

实验结果分析 集群配置对解码效率的影响: BlockSize 视频小于6G时,块的增大增加了分布式解码的运行时间;但随着视频的增大,块的增大减少了分布式解码的运行时间,特别在24G视频时效果最为显著。当块大小为256M时,对小视频解码效率有较小影响,对大视频解码效率有较大提高,因此,本实验的集群用于分布式解码时,集群块大小设置为256M较为合适。

实验结果分析 集群配置对解码效率的影响: 节点数量

目录 项目简介 研究现状 解码方案描述 实验结果分析 总结

总结 方案概述: 基于Hadoop的视频大数据分布式解码方法,是一种分布式解码方法; 原始视频可以不用提前将分割即可直接上传到HDFS,由Hadoop进行物理分割; 逻辑分割Split的边界根据帧的位置进行界定,从而解决了按字节分割导致的帧分裂,以及同一个GOP内缺少关键帧的问题。 使用Fuse-dfs,FFmpeg等第三方库解决不同Split缺少视频头数据的问题。

总结 优点: 缺点: 视频不需要进行预处理,节省了计算时间; 利用分布式计算,提高了解码效率; 解码准确率高; Split在进行逻辑划分数据的时候,有少量的数据需要跨工作机传输,增加了集群的网络负责,降低了解码效率。

Thank You ! iiec.cqu.edu.cn