学习报告 Hadoop在IR中的应用 洪晨花 基础软件国家工程研究中心 2017年3月17日
报告内容 NIR(2009年,日本的Waseda 早稻田大学) DIRS(2010年,北航) Map/Reduce in CBIR application(2011,北大) OpenIMAJ and ImgeTerrier(2011年,英国 Southampton南安普顿大学) ImageTerrier-an extensible platform for high-performance image retrieval(2012年) Partial scalable image analysis and indexing using Hadoop(2012,英国)
1.NIR:Contented Based Image Retrieval on Cloud Computing 解决问题(减少图像分析、建立索引和搜索过程中的时间) Nutch和IR的结合,重写了Nutch中的Image Fetching、Image Indexing和Image Searching三个模块 NIR 架构 3
1.NIR:Contented Based Image Retrieval on Cloud Computing Image Fetching(3个步骤) accept image suffinx files(gif|GIF|jpg|JPG|png|PNG) 通过修改conf文件夹下的crawler-urlfilter.txt文件 image parser,每一种图像格式都有对应的ImageParse类解析 <mimeType name="image/jpeg"> <plugin id="parse-image"/> </mimeType> generating thumbnails 当ImageParse将图像存到本地磁盘以后,会针对每幅图像产生一个缩略图。 4
1.NIR:Contented Based Image Retrieval on Cloud Computing Image Indexing Key为图像URL路径的MD5值 Value为图像的特征向量 5
1.NIR:Contented Based Image Retrieval on Cloud Computing Image Searching 6
1.NIR:Contented Based Image Retrieval on Cloud Computing NIR demo 7
1.NIR:Contented Based Image Retrieval on Cloud Computing NIR demo 8
1.NIR:Contented Based Image Retrieval on Cloud Computing 1 node 2 nodes 4 nodes 6.58ms 4.21ms 2.93ms 20.48ms 12.33ms 8.53ms 15.21ms 11.03ms 8.84ms 269.19ms 136.59ms 71.67ms 22.16ms 13.10ms 9.98ms 实验环境:Intel Core2 Quad;2.66G Hz; XP; 1770副图片建立索引总时间
1.NIR:Contented Based Image Retrieval on Cloud Computing LIRE对比 http://sourceforge.net/projects/nir(NIR源码下载) 10
2.DIRS: Distributed Image Retrieval System Based on MapReduce 采用HBase作为存储层,存储Hadoop提取的图像特征; 特征提取算法采用LIRE包中的算法; 数据集是ImageNet数据集,数据较小,实验中最多用了20000张图片 Hadoop集群节点为9个。实验数据规模分别为100、500、1000、2000、5000、10000、20000张图片 DIRS系统目标特性 支持并行的CBIR。可以进行并行检索 支持大规模数据的分布式存储。HBase作为存储结构 容错机制。利用Hadoop本身的容错机制。 支持异步集群环境。节点中每个计算节点的配置可以不同。 可扩展性强。Hadoop集群本身的扩展能力。 11
2.DIRS: Distributed Image Retrieval System Based on MapReduce 12
2.DIRS: Distributed Image Retrieval System Based on MapReduce HBase存储表结构 13
2.DIRS: Distributed Image Retrieval System Based on MapReduce HBase存储表特征种类(9类) 颜色直方图特征:(RGB空间和HSV空间) MPEG-7特征:可扩展颜色特征、颜色布局特征和边缘直方图特征 Tamura纹理特征 颜色边缘方向特征(CEDD) 模糊颜色和纹理直方图特征(FCTH) 自动颜色相关特征 尺度不变特征(SIFT) 14
2.DIRS: Distributed Image Retrieval System Based on MapReduce 图像存储过程 map输出将(ID,image, thumbnail,features)写到HBase 15
2.DIRS: Distributed Image Retrieval System Based on MapReduce 图像检索过程 pre-输入:将查询的目标图像放到分布式缓存 输入:HBase map输出: <score, ID> 16
2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验环境 17
2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验结果 两种方式下存储图片的总时间(单位是秒) 18
2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验结果 两种方式下存储每幅图片的时间(单位ms) 19
2.DIRS: Distributed Image Retrieval System Based on MapReduce 实验结果 两种方式下检索100幅图像总时间(单位是秒) 20
3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 21
3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 22
3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 图像检索测试数据集 23
3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 24 图像检索时间,竖轴单位为s。
3.Map/Reduce in CBIR application 针对CBIR中颜色直方图(Color Histogram)用Hadoop并行 检索准确度 25
4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images 特点: 基于Hadoop,集群中有3个节点,可以处理1000万张图片 特征提取过程和检索过程是独立的,OpenIMAJ提取特征,ImageTerrier存储和检索图像特征。 纯Java,可以跨平台运行,OpenIMAJ也可以运行在Android和tablets上 设计和性能 使OpenIMAJ和ImageTerrier组件模块化,易于扩充和更新。 性能: 1)OpenIMAJ中SIFT算法3.94s,加上JVM启动时间为10s,David Lowe二进制版本中为3.4s。(100幅图像的平均时间) 2)ImageTerrier搜索时间: 普通PC上,对1000万张图片建立的SIFT特征索引进行搜索,时间为400ms 26
4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images OpenIMAJ 27
4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images OpenIMAJ 主要工具 全局特征提取工具 局部特征提取工具 簇量化工具 Hadoop 顺序文件工具 Hadoop簇量化工具 K-means的Hadoop实现 图像下载工具 Hadoop实现(从Flickr下载图像) 28
4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images ImageTerrier 主要工具 BasicIndexer:给指定目录建立索引 BasicSearcher:搜索 建立倒排索引 对索引进行压缩,支持单趟索引建立 应用示例 29
4.OpenIMAJ and ImageTerrier: Java Libraries and Tools for Scalable Multimedia Analysis and Indexing of Images 30
5.ImageTerrier-an extensible platform for high-performance image retrieval 单机环境下 总共做了72次实验,按照数据集大小分为8类实验,每一类实验中有9个实验,分别按照3种排序方式L1,L1/IDF,TF/IDF来做,每种方式做3次实验取平均值。 实验结果: 索引建立时间:1万张图片用时100s,10万张图片用时1000s,100万张用时10000s,1000万张用时10万s,呈线性增长(平均每幅图片的索引时间为10ms)。 31
6.Partial scalable image analysis and indexing using Hadoop 文章要点: 1)大数据处理的计算模型和技术:单机和多机 2)异构 MapReduce模型 3)通过OpenIMAJ和ImgaeTerrier案例验证Hadoop 32
谢谢您的时间, 欢迎批评指正!