Presentation is loading. Please wait.

Presentation is loading. Please wait.

学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日.

Similar presentations


Presentation on theme: "学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日."— Presentation transcript:

1 学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日

2 报告内容 NIR(2009年,日本的Waseda 早稻田大学) DIRS(2010年,北航)
Map/Reduce in CBIR application(2011,北大) OpenIMAJ and ImgeTerrier(2011年,英国 Southampton南安普顿大学) ImageTerrier-an extensible platform for high-performance image retrieval(2012年) Partial scalable image analysis and indexing using Hadoop(2012,英国)

3 1.NIR:Contented Based Image Retrieval on Cloud Computing
解决问题(减少图像分析、建立索引和搜索过程中的时间) Nutch和IR的结合,重写了Nutch中的Image Fetching、Image Indexing和Image Searching三个模块 NIR 架构 3

4 1.NIR:Contented Based Image Retrieval on Cloud Computing
Image Fetching(3个步骤) accept image suffinx files(gif|GIF|jpg|JPG|png|PNG) 通过修改conf文件夹下的crawler-urlfilter.txt文件 image parser,每一种图像格式都有对应的ImageParse类解析 <mimeType name="image/jpeg"> <plugin id="parse-image"/> </mimeType> generating thumbnails 当ImageParse将图像存到本地磁盘以后,会针对每幅图像产生一个缩略图。 4

5 1.NIR:Contented Based Image Retrieval on Cloud Computing
Image Indexing Key为图像URL路径的MD5值 Value为图像的特征向量 5

6 1.NIR:Contented Based Image Retrieval on Cloud Computing
Image Searching 6

7 1.NIR:Contented Based Image Retrieval on Cloud Computing
NIR demo 7

8 1.NIR:Contented Based Image Retrieval on Cloud Computing
NIR demo 8

9 1.NIR:Contented Based Image Retrieval on Cloud Computing
1 node 2 nodes 4 nodes 6.58ms 4.21ms 2.93ms 20.48ms 12.33ms 8.53ms 15.21ms 11.03ms 8.84ms 269.19ms 136.59ms 71.67ms 22.16ms 13.10ms 9.98ms 实验环境:Intel Core2 Quad;2.66G Hz; XP; 1770副图片建立索引总时间

10 1.NIR:Contented Based Image Retrieval on Cloud Computing
LIRE对比 10

11 2.DIRS: Distributed Image Retrieval System Based on MapReduce
采用HBase作为存储层,存储Hadoop提取的图像特征; 特征提取算法采用LIRE包中的算法; 数据集是ImageNet数据集,数据较小,实验中最多用了20000张图片 Hadoop集群节点为9个。实验数据规模分别为100、500、1000、2000、5000、10000、20000张图片 DIRS系统目标特性 支持并行的CBIR。可以进行并行检索 支持大规模数据的分布式存储。HBase作为存储结构 容错机制。利用Hadoop本身的容错机制。 支持异步集群环境。节点中每个计算节点的配置可以不同。 可扩展性强。Hadoop集群本身的扩展能力。 11

12 2.DIRS: Distributed Image Retrieval System Based on MapReduce
12

13 2.DIRS: Distributed Image Retrieval System Based on MapReduce
HBase存储表结构 13

14 2.DIRS: Distributed Image Retrieval System Based on MapReduce
HBase存储表特征种类(9类) 颜色直方图特征:(RGB空间和HSV空间) MPEG-7特征:可扩展颜色特征、颜色布局特征和边缘直方图特征 Tamura纹理特征 颜色边缘方向特征(CEDD) 模糊颜色和纹理直方图特征(FCTH) 自动颜色相关特征 尺度不变特征(SIFT) 14

15 2.DIRS: Distributed Image Retrieval System Based on MapReduce
图像存储过程 map输出将(ID,image, thumbnail,features)写到HBase 15

16 2.DIRS: Distributed Image Retrieval System Based on MapReduce
图像检索过程 pre-输入:将查询的目标图像放到分布式缓存 输入:HBase map输出: <score, ID> 16

17 2.DIRS: Distributed Image Retrieval System Based on MapReduce
实验环境 17

18 2.DIRS: Distributed Image Retrieval System Based on MapReduce
实验结果 两种方式下存储图片的总时间(单位是秒) 18

19 2.DIRS: Distributed Image Retrieval System Based on MapReduce
实验结果 两种方式下存储每幅图片的时间(单位ms) 19

20 2.DIRS: Distributed Image Retrieval System Based on MapReduce
实验结果 两种方式下检索100幅图像总时间(单位是秒) 20

21 3.Map/Reduce in CBIR application
针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 21

22 3.Map/Reduce in CBIR application
针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 22

23 3.Map/Reduce in CBIR application
针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 图像检索测试数据集 23

24 3.Map/Reduce in CBIR application
针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 24 图像检索时间,竖轴单位为s。

25 3.Map/Reduce in CBIR application
针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 检索准确度 25

26 4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images 特点: 基于Hadoop,集群中有3个节点,可以处理1000万张图片 特征提取过程和检索过程是独立的,OpenIMAJ提取特征,ImageTerrier存储和检索图像特征。 纯Java,可以跨平台运行,OpenIMAJ也可以运行在Android和tablets上 设计和性能 使OpenIMAJ和ImageTerrier组件模块化,易于扩充和更新。 性能: 1)OpenIMAJ中SIFT算法3.94s,加上JVM启动时间为10s,David Lowe二进制版本中为3.4s。(100幅图像的平均时间) 2)ImageTerrier搜索时间: 普通PC上,对1000万张图片建立的SIFT特征索引进行搜索,时间为400ms 26

27 4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images OpenIMAJ 27

28 4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images OpenIMAJ 主要工具 全局特征提取工具 局部特征提取工具 簇量化工具 Hadoop 顺序文件工具 Hadoop簇量化工具 K-means的Hadoop实现 图像下载工具 Hadoop实现(从Flickr下载图像) 28

29 4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images ImageTerrier 主要工具 BasicIndexer:给指定目录建立索引 BasicSearcher:搜索 建立倒排索引 对索引进行压缩,支持单趟索引建立 应用示例 29

30 4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images 30

31 5.ImageTerrier-an extensible platform for high-performance image retrieval
单机环境下 总共做了72次实验,按照数据集大小分为8类实验,每一类实验中有9个实验,分别按照3种排序方式L1,L1/IDF,TF/IDF来做,每种方式做3次实验取平均值。 实验结果: 索引建立时间:1万张图片用时100s,10万张图片用时1000s,100万张用时10000s,1000万张用时10万s,呈线性增长(平均每幅图片的索引时间为10ms)。 31

32 6.Partial scalable image analysis and indexing using Hadoop
文章要点: 1)大数据处理的计算模型和技术:单机和多机 2)异构 MapReduce模型 3)通过OpenIMAJ和ImgaeTerrier案例验证Hadoop 32

33 谢谢您的时间, 欢迎批评指正!


Download ppt "学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日."

Similar presentations


Ads by Google