Web图片搜索引擎设计 ——基于文本的图片信息提取.

Slides:



Advertisements
Similar presentations
雅安市教师资格定期注册 政策解读 雅安市教育局政策法规科. 一、执行文件: 一、执行文件: 1 、《四川省教育厅关于印发《四川省中小学教师资格定期 注册试点实施细则(试行)》的通知》(川教 [2014]60 号); 1 、《四川省教育厅关于印发《四川省中小学教师资格定期 注册试点实施细则(试行)》的通知》(川教.
Advertisements

一、就业系统 登陆地址: 账号及密码 - 账号: 密码: - 验证码与网页上相同, 不区分大小写。 – 具体如图:
Web 开发基础 第二章 表格与页面布局. 回顾 Internet 和 万维网 网页的工作原理 网页的基本结构 标记及其属性 段落标记,图片标记,超级链接标记 相对路径,绝对路径,物理路径.
第八次全國科學技術會議 第一議題:結合人文科技,提升生活品質
HyperText Markup Language
第六章 网页设计与制作基础.
垃圾污染 六年己班 組員: 林哲毅. 許雲泰.
岳飞( 1103——1142) 字鹏举,汉族人,是南宋著名抗金将领,相州汤阴(今河南汤阴)人。二十岁从军,因军功屡迁,后被秦桧以“莫须有”罪名污陷而杀害,时年39岁,谥“武穆”,后改谥“忠武”,有《岳武穆集》传世。《全宋词》存词三首 (《满江红·怒发冲冠》、《满江红·登黄鹤楼有感》、《小重山》)。
第5章 HTML 標籤介紹.
佛山科学技术学院 第7章 HTML Internet及多媒体应用.
第8讲 HTML与PHP基础 静态网页 vs. 动态网页.
网页制作 第一讲
动态网页制作 第1章 HTML语言1.
第三讲 站点链接与表格布局.
教学内容 1、演示并讲解用表格布局制作的网页 2、用表格制作网页.
焦作32中 108班 杨梦洁 、杨梦涛、赵 璐、赵鑫、赵恒 2009年8月2日
华南理工大学 广东省计算机网络重点实验室 成员:蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢
网页 设计与制作.
基于结构与内容的网页主题信息提取研究 作者:吴鹏飞,孟祥增,刘俊晓,马凤娟 宣讲:吴鹏飞
第8章 CSS基础知识 【学习目标】 对于一个网页设计者来说,对HTML语言一定不感到陌生,因为它是网页制作的基础,但是如果希望网页能够美观、大方,并且升级维护方便,那么仅仅知道HTML还是不够的,还需要了解CSS。了解CSS基础知识,可以为后面的学习打下基础。 本章主要内容包括: 为什么在网页中加入CSS。
學生:3A黃寶珠(35),楊偉漢(39) 教師:黃瑞勤老師
“东方瑞士” ——青岛.
模块1 网页设计基础 实训1 体验HTML文档 1.1 网页基础知识 1.2 网站配色方案 1.3 网站设计常用软件
dreamweavercs5 页面的框架结构
A級無障礙網頁製作 主講人:劉威良 臺南大學資訊教育所
第20课 迷人的动画片 威海市 高新区 初村小学 执教人:吴磊. 第20课 迷人的动画片 威海市 高新区 初村小学 执教人:吴磊.
使用HTML製作個人網頁 柴惠敏 台灣大學 物理治療學系.
第6章 网页图像处理 通过本章学习,应该掌握以下内容: 能够选择合适的网页颜色 了解网页图像的基本格式 掌握使用网页图像的要点
2.0版后台使用说明书.
客户需求书暨邀请罗老函 “中国亮点”首先是一家“外脑投资”公司 投的是“思想资产”—— 《新利益管理学》 二0一六年三月十五日.
旅游服务与管理专业 旅游服务与管理专业 旅游服务与管理专业 旅游服务与管理专业 旅游服务与管理专业
5B專題研習第六組 主題:積極人生·拒絕誘惑 吸毒的禍害
HTML.
第3章 超文本标记语言(HTML) 3.1 基本结构标记 3.2 文本格式标记 3.3 超链接标记<A></A>
建國技術學院資訊管理學系 饒瑞佶 2004/7/5 彰化縣政府補助辦理網頁設計資料庫應用班 建國技術學院資訊管理學系 饒瑞佶 2004/7/5.
Ch1.認識全球資訊網 1.1 「網際網路」與「全球資訊網」 1.2 全球資訊網的基礎 – 網頁與超連結
湖北职院计科系.
第 2 章 必備的 HTML 與 CSS 重點.
計算機概論 請老師填入姓名主講 課本:數位傳真2012 博碩文化出版發行.
非常好色軟體應用研習 數立科技推廣組 2009/02/17.
組別:第五組 小組成員:賴瑋、蔡宜瑾、曾子珊、陳玟羽 報告人:曾子珊
HTML 钟晖云 QQ:
Ch.13 HTML網頁實作.
8 网页制作基础知识 赵国庆 博士 北京师范大学教育技术学院
第3章 图像和其他媒体.
無障礙網頁 公關室.
Oh! my shop網.站.達.人 網站達人 常見問題與操作技巧教育訓練 主講人: 美儀 Mandy.
HTML & CSS.
第18章 Dreamweaver与Photoshop的完美结合
网络营销实务 第16讲 搜索引擎优化(1) 主讲人:李小斌.
实例导入:西部旅游网 | 页面属性的设置|文本的修饰|设置超级链接|制作纯文本网站|使用图像
网 站 设 计 与 建 设 Website design and developments
武汉纺织大学传媒学院 cm.wtu.edu.cn
第 3 章 圖文並茂— 在文件中加入圖片 著作權所有 © 旗標出版股份有限公司.
网页设计与制作教程第5版 机械工业出版社同名教材 配套电子教案.
程式語言與邏輯 高慧君 台北市立南港高中 2006年12月22日.
蓝色图示 — 无动画版.
第三章 HTML相关技术基础知识 纵观各种动态页面开发技术,无论是JSP、ASP还是PHP都无 法摆脱HTML的影子。这些动态的页面开发技术无非是在静 态HTML页面的基础上添加了动态的可以交互的内容。HTML 是所有动态页面开发技术的基础。在接下来的章节将要详 细介绍的就是HTML相关的一系列技术,包括HTML、
DreamWeaver MX (III) 林偉川.
W3C标准网页制作 主讲教师:张 涛.
《网页设计与制作》.
網站(web) 授課:方順展.
HTML大探索.
論四端 孟子 一. 關於孟子…… 孟子,名軻,字子輿,戰國時鄒人。他受業於孔子孫子思的門人,是繼孔子後,儒家的另一位代表人物,給人尊稱為「亞聖」。 你想了解孟子更多的生平事蹟嗎?你聽過「孟母三遷」的故事嗎? 試用滑鼠指向孟子畫像,然後在滑鼠左邊連按兩下。
海报设计 (三)面 面一般是画面中的主角,即店铺商品。一些常见的店铺首页海报基本都是通过色块也就是“面”来设计画面的,需要注意的是面与面之间需要通过不同的排列来灵活对比,另外运用几何色块元素来突出画面背景与产品层次也是海报设计不错的选择。
第6章 框架实现多窗口网页.
蓝色PPT图示 1 2.
分頁.
台北縣的歷史發展.
教师:李金双 网页制作 教师:李金双
Presentation transcript:

Web图片搜索引擎设计 ——基于文本的图片信息提取

大纲 图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算)

图片检索技术分类 基于文本 基于内容 基于语义 利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。 提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。 基于语义 理解可是特征的语义信息,可以利用文字查询可视特征。

基于文本 优点 缺点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查“奥运会”) 利用已有的技术积累(文本检索) 性能好 提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询

基于内容 优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示

基于语义 通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的) 。符合人类理解图片的自然方式。 开始大量的研究,在未来会有很大的发展。

我们的选择——基于文字 理由 目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。 性能良好 已有大量的网页资源可供使用。 开发周期较短。

我们设计的系统的结构

系统工作过程 抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询

核心——图片信息提取(Extractor) 信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利用启发式规则 将最可能与某图片相关的位置的文字作为图片的文字描述信息

常用提取模式 <img>标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤

常用提取模式(续) <a>标记 从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最准确)

常用提取模式(续) 网页的标题 图片与所在网页相关,因此和网页的标题相关 提取<title>下的文字。有时<title>下还会嵌套标记,需要去除。有时<title>使用缺省的名字(比如new page或者Untitled Document),需要过滤

常用提取模式(续) 链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关 需要跨页面的信息提取 a.html <a href=“a.htm”>Some_info</a> xxx.jpg

常用提取模式(续) 网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值

常用提取模式(续) 图片的URL 图片的URL可能含有相关信息(path和file_name) 不考虑站点的domain_name,太泛

常用提取模式(续) 关联的<a>和<img> 嵌套 并列 <a href=”foo.html”><img src=”xxx.jpg”></a> 则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息 并列 <a href=”foo”>anchor_text</a>…… <a href=”foo”><img src=”xxx.jpg”></a> 则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息

常用提取模式(续) <table>结构 组织结果比较多样化 提取时需要判断使用的是哪一种组织方式 相关的文字和图片放到同一个<td>中; 相关的文字和图片放在同一个<tr>下的两个<td>里; 相关的文字和图片放在两个相邻的<tr>内; 以某种其他的规律出现在<table>里 提取时需要判断使用的是哪一种组织方式

Hello, world<img src=“xxx.jpg”>你好,世界 常用提取模式(续) 图片周围文字 比较难于界定“周围”的含义。 基于流的方式,图片所在HTML流中位置前后一段固定的距离 Hello, world<img src=“xxx.jpg”>你好,世界

常用提取模式(续) 图片周围文字(续) 基于DOM的方式 与图片具有共同最低祖先的文字节点 <form> <div><img src=“xxx.jpg”></div> <font>some_text</font> </form> <form> <font> <div> Some_text <img>

目前系统中使用的模式 <img>标记信息 网页meta信息 <a>标记信息 链接到图片所在网页的文本 网页标题 图片的URL <table>结构 图片周围文字(DOM) 网页meta信息 链接到图片所在网页的文本 关联的<a>和<img>

信息提取方法 基于DOM的方法 将HTML文档解析为DOM树,遍历所有的节点,利用DOM接口的方法获取相关信息。 优点 缺点 实现简单,有开放的DOM解析工具可用(HTMLTidy) 利用部分结构信息,提取信息准确度稍高 缺点 需要解析DOM,效率较低

信息提取方法(续) 基于流的方法 直接通过字符串查找来定位所要提取的信息 优点 缺点 只关注几个tag,不需要解析DOM,速度快

信息提取方法(续) 基于wrapper的方法 利用HTML的半结构特点来准确的获得文字与图片的对应关系 优点 缺点 对于固定的结构模式,可以准确的提取到信息 缺点 效率较低 实现稍复杂

无用图片过滤 初衷 Web上提取到的图片有很大部分是意义不大的图片,用于装饰页面和做广告 去除这些图片可以有效的减小系统数据规模,提高图片质量和检索效率

无用图片过滤(续) 依然使用启发式规则 过滤模式 文件尺寸比较小(包括长宽和大小) 长宽比例比较大 利用HTML提取到width和height,以及实际图片的width和height 长宽比例比较大 同一网页内有多个<img>引用它 重要的图片不会在一页内出现多次 出现多次的通常是装饰图片

发现的一些统计规律 GIF和JPG图片的区别 GIF只有256色,但可动态,通常用于装饰性图片和广告 JPG压缩比高,常用于存储大尺寸文件

发现的一些统计规律(续) GIF和JPG图片的区别(续) 统计结果 人工评价样本,得到: GIF中12%有意义,JPG中49%有意义

发现的一些统计规律(续) <a>和<img>引用图片的区别

发现的一些统计规律(续) <a>和<img>引用图片的区别(续) 统计结果 人工评价样本,得到: 来自<a>的有意义图片比例为:74%,来自<img>的有意义比例为:37%

发现的一些统计规律(续) 图片引用次数的区别 引用次数的多少可以在一定程度上反映图片的重要性 通常<a>引用的图片引用次数越高则图片越重要 <img>引用的图片因为受到装饰性和广告图片的影响,引用次数规律性不强

发现的一些统计规律(续) 图片引用次数的区别(续) 统计图

发现的一些统计规律(续) 以上的这些规律对于改进无用图片过滤和查询结果图片排序有重要的价值。

结合文本和内容的方法 利用基于内容的提取方法,可以得到图片的可视特征组成的向量 考虑如何与得到的文本向量相结合来改进信息的相关性,从而改进图片搜索引擎的查询效果(作为未来系统改进方向)

结合文本和内容的方法(续) 先文本后内容的方法 拼接两个向量 先用文本查询,得到初始图片集,用户挑选相近的图片,进行内容相似查询,最终得到想要的图片 拼接两个向量 在查询时同时提供关键字和相似图片,利用类似VSM的方法进行匹配

结合文本和内容的方法(续) 利用LSI整合两个向量 将文字和内容向量拼接,然后利用LSI算法来得到整合的语义空间。 我做了一个试验:

结合文本和内容的方法(续) 整合的意义 可以得到文档和文字内容特征之间的关系 可以用于构建语义库 从文字可视特征,比如“天空” 蓝色 用于基于语义的查询 查询可以基于文本或内容,能够将一个向量中的相似关系引入另一个向量

谢谢!