学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日.

Slides:



Advertisements
Similar presentations
数据结构的引入. 通讯录管理 社团机构管理 校园导航管理 通讯录管理 社团机构管理 校园导航管理.
Advertisements

九年级物理一轮复习 第一章 声现象 知识要点. 1. 声音的产生和传播  ( 1 )声音的产生:声音是由于物体的振动产生的。  凡是发声的物体都在振动。振动停止,发声也停止。  ( 2 )声源:正在发声的物体叫声源。固体、液体、气体 都可以作为声源,有声音一定有声源。  ( 3 )声音的传播:声音的传播必须有介质,声音可以在.
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
第5讲 索引构建 Index construction 授课人:高曙明
电子工业出版社《云计算(第二版)》配套课件
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
C语言程序设计 李伟光.
工作学习汇报 高琦.
教學經驗分享 吳毅成 國立交通大學資訊工程系 2012年4月.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
实验四 利用中规模芯片设计时序电路(二).
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
《大数据技术原理与应用》 课程介绍 (2016春季学期)
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
第十九章 货币均衡 一、本章主要内容与结构安排 货币供求均衡与社会总供求平衡 货币均衡 通货膨胀 通货紧缩.
J2EE与中间件技术 ——Lab.
基于R和pentaho的全套开源BI平台的实现
異質計算教學課程內容 「異質計算」種子教師研習營 洪士灝 國立台灣大學資訊工程學系
Hadoop I/O By ShiChaojie.
Overview of Python Visualization Tools
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
作業系統 補充: 雲端運算.
Introduction on Smartphone Platform
CHAPTER 6 認識MapReduce.
第二讲 搭建Java Web开发环境 主讲人:孙娜
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
物体识别 3D建图 semantic mapping
Hadoop平台與應用規劃實作 報告者:劉育維.
SOA – Experiment 3: Web Services Composition Challenge
SVN服务器的搭建(Windows) 柳峰
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
DM81X 视频采集处理 ——简单采集显示例程讲解 广州创龙电子科技有限公司
软件工程基础 云计算概论 刘 驰.
逆向工程-汇编语言
数据挖掘工具性能比较.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
应用型本科院校大数据专业 实践教学环境改革与探索
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
C语言程序设计 主讲教师:陆幼利.
K/3 Cloud V6.0产品培训 -- 业务监控 K/3 Cloud 产品部
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
K/3 Cloud V6.1产品培训 -- 业务监控 K/3 Cloud 产品部
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
基于云计算及数据挖掘技术的海量数据处理研究
实验七 安全FTP服务器实验 2019/4/28.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
空間關係分類以及相似性量測之 範用結構 A General Framework For Classification and Similarity Measure of Spatial Relationship 研究生:洪宗賢 指導教授:蔣依吾 博士 國立中山大學資訊工程學系.
教育部特殊教育通報網 學生異動、接收操作說明.
实验目的:掌握数据的顺序存储结构及它们在计算机中的操作。 实验内容:
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
基于列存储的RDF数据管理 朱敏
2.4 让声音为人类服务.
方格紙上畫正方形.
以碎形正交基底和時間情境圖為基礎進行之視訊檢索 Video retrieval based on fractal orthogonal bases and temporal graph 阿凡達 研究生:張敏倫 指導教授:蔣依吾博士 國立中山大學資訊工程學系.
空間關係分類以及相似性量測之 範用結構 A General Framework For Classification and Similarity Measure of Spatial Relationship 研究生:洪宗賢 指導教授:蔣依吾 博士 國立中山大學資訊工程學系.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
2015年度中科院超级计算环境青岛分中心培训 中科院超算中心 中科院海洋所超算中心
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
新選課系統說明會 電算中心 林以仁.
Presentation transcript:

学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日

报告内容 NIR(2009年,日本的Waseda 早稻田大学) DIRS(2010年,北航) Map/Reduce in CBIR application(2011,北大) OpenIMAJ and ImgeTerrier(2011年,英国 Southampton南安普顿大学) ImageTerrier-an extensible platform for high-performance image retrieval(2012年) Partial scalable image analysis and indexing using Hadoop(2012,英国)

1.NIR:Contented Based Image Retrieval on Cloud Computing 解决问题(减少图像分析、建立索引和搜索过程中的时间) Nutch和IR的结合,重写了Nutch中的Image Fetching、Image Indexing和Image Searching三个模块 NIR 架构 3

1.NIR:Contented Based Image Retrieval on Cloud Computing Image Fetching(3个步骤) accept image suffinx files(gif|GIF|jpg|JPG|png|PNG) 通过修改conf文件夹下的crawler-urlfilter.txt文件 image parser,每一种图像格式都有对应的ImageParse类解析 <mimeType name="image/jpeg"> <plugin id="parse-image"/> </mimeType> generating thumbnails 当ImageParse将图像存到本地磁盘以后,会针对每幅图像产生一个缩略图。 4

1.NIR:Contented Based Image Retrieval on Cloud Computing Image Indexing Key为图像URL路径的MD5值 Value为图像的特征向量 5

1.NIR:Contented Based Image Retrieval on Cloud Computing Image Searching 6

1.NIR:Contented Based Image Retrieval on Cloud Computing NIR demo 7

1.NIR:Contented Based Image Retrieval on Cloud Computing NIR demo 8

1.NIR:Contented Based Image Retrieval on Cloud Computing 1 node 2 nodes 4 nodes 6.58ms 4.21ms 2.93ms 20.48ms 12.33ms 8.53ms 15.21ms 11.03ms 8.84ms 269.19ms 136.59ms 71.67ms 22.16ms 13.10ms 9.98ms 实验环境:Intel Core2 Quad;2.66G Hz; XP; 1770副图片建立索引总时间

1.NIR:Contented Based Image Retrieval on Cloud Computing LIRE对比 http://sourceforge.net/projects/nir(NIR源码下载) 10

2.DIRS: Distributed Image Retrieval System Based on MapReduce 采用HBase作为存储层,存储Hadoop提取的图像特征; 特征提取算法采用LIRE包中的算法; 数据集是ImageNet数据集,数据较小,实验中最多用了20000张图片 Hadoop集群节点为9个。实验数据规模分别为100、500、1000、2000、5000、10000、20000张图片 DIRS系统目标特性 支持并行的CBIR。可以进行并行检索 支持大规模数据的分布式存储。HBase作为存储结构 容错机制。利用Hadoop本身的容错机制。 支持异步集群环境。节点中每个计算节点的配置可以不同。 可扩展性强。Hadoop集群本身的扩展能力。 11

2.DIRS: Distributed Image Retrieval System Based on MapReduce 12

2.DIRS: Distributed Image Retrieval System Based on MapReduce HBase存储表结构 13

2.DIRS: Distributed Image Retrieval System Based on MapReduce HBase存储表特征种类(9类) 颜色直方图特征:(RGB空间和HSV空间) MPEG-7特征:可扩展颜色特征、颜色布局特征和边缘直方图特征 Tamura纹理特征 颜色边缘方向特征(CEDD) 模糊颜色和纹理直方图特征(FCTH) 自动颜色相关特征 尺度不变特征(SIFT) 14

2.DIRS: Distributed Image Retrieval System Based on MapReduce 图像存储过程 map输出将(ID,image, thumbnail,features)写到HBase 15

2.DIRS: Distributed Image Retrieval System Based on MapReduce 图像检索过程 pre-输入:将查询的目标图像放到分布式缓存 输入:HBase map输出: <score, ID> 16

2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验环境 17

2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验结果 两种方式下存储图片的总时间(单位是秒) 18

2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验结果 两种方式下存储每幅图片的时间(单位ms) 19

2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验结果 两种方式下检索100幅图像总时间(单位是秒) 20

3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 21

3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 22

3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 图像检索测试数据集 23

3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 24 图像检索时间,竖轴单位为s。

3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 检索准确度 25

4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images 特点: 基于Hadoop,集群中有3个节点,可以处理1000万张图片 特征提取过程和检索过程是独立的,OpenIMAJ提取特征,ImageTerrier存储和检索图像特征。 纯Java,可以跨平台运行,OpenIMAJ也可以运行在Android和tablets上 设计和性能 使OpenIMAJ和ImageTerrier组件模块化,易于扩充和更新。 性能: 1)OpenIMAJ中SIFT算法3.94s,加上JVM启动时间为10s,David Lowe二进制版本中为3.4s。(100幅图像的平均时间) 2)ImageTerrier搜索时间: 普通PC上,对1000万张图片建立的SIFT特征索引进行搜索,时间为400ms 26

4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images OpenIMAJ 27

4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images OpenIMAJ 主要工具 全局特征提取工具 局部特征提取工具 簇量化工具 Hadoop 顺序文件工具 Hadoop簇量化工具 K-means的Hadoop实现 图像下载工具 Hadoop实现(从Flickr下载图像) 28

4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images ImageTerrier 主要工具 BasicIndexer:给指定目录建立索引 BasicSearcher:搜索 建立倒排索引 对索引进行压缩,支持单趟索引建立 应用示例 29

4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images 30

5.ImageTerrier-an extensible platform for high-performance image retrieval 单机环境下 总共做了72次实验,按照数据集大小分为8类实验,每一类实验中有9个实验,分别按照3种排序方式L1,L1/IDF,TF/IDF来做,每种方式做3次实验取平均值。 实验结果: 索引建立时间:1万张图片用时100s,10万张图片用时1000s,100万张用时10000s,1000万张用时10万s,呈线性增长(平均每幅图片的索引时间为10ms)。 31

6.Partial scalable image analysis and indexing using Hadoop 文章要点: 1)大数据处理的计算模型和技术:单机和多机 2)异构 MapReduce模型 3)通过OpenIMAJ和ImgaeTerrier案例验证Hadoop 32

谢谢您的时间, 欢迎批评指正!