信息检索 Information Retrieval (IR)

Slides:



Advertisements
Similar presentations
数据结构的引入. 通讯录管理 社团机构管理 校园导航管理 通讯录管理 社团机构管理 校园导航管理.
Advertisements

Chapter 3: SQL.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
SEWM2006 Web检索 山东大学 陈竹敏.
信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日.
经典中文期刊全文数据库检索 与通用技巧 王建涛 QQ:
2011年广西高考政治质量分析 广西师范大学附属外国语学校 蒋 楠.
知识回顾 1、通过仔细观察酒精灯的火焰,你可以发现火焰可以分为 、 、 。 外焰 内焰 焰心 外焰 2、温度最高的是 。
实用操作系统概念 张惠娟 副教授 1.
UI(用户界面)集训班 Illustrator 高级班.
常用逻辑用语复习课 李娟.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第四次大作业 登陆学校图书馆网站的电子数据库
不确定度的传递与合成 间接测量结果不确定度的评估
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
資料庫結構與組織.
如何使用CiteSpace分析Derwent专利数据
SVN的基本概念 柳峰
信息检索的评价 哈工大计算机学院 信息检索研究室 2007.
SOA – Experiment 3: Web Services Composition Challenge
Word-Entity Duet Representations for Document Ranking
管理信息结构SMI.
SQL Injection.
SPARQL若干问题的解释 刘颖颖
第17章 网站发布.
2019/1/12 GDP设计协同 超级管理员操作手册 GDP项目组.
What have we learned?.
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
ScienceDirect高级检索功能及使用视频、说明发现路径
Science and technology report service systemUsage method
DevDays ’99 The aim of this mission is knowledge..
搜 刘智 iLife信息素养协会 索.
WSDM见闻 程龚.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
《2015考试说明》新增考点:“江苏省地级市名称”简析
SOA – Experiment 2: Query Classification Web Service
ScienceDirect高级检索功能及使用视频、说明发现路径
编程作业3:网页正文抽取 (10分).
网络信息检索的基本方法.
C语言程序设计 主讲教师:陆幼利.
ASP New and other UIs: Medical Videos Searchasaurus
Date: 2012/05/14 Source: Bo Zhao et. al (CIKM’11)
VB与Access数据库的连接.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
实体描述呈现方法的研究 实验评估 2019/5/1.
本节内容 Win32 API中的宽字符 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
第4章 Excel电子表格制作软件 4.4 函数(一).
參考資料: 黃慕萱,Chap. 2-3 Harter, Chap. 3
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
基于列存储的RDF数据管理 朱敏
VB与Access数据库的连接.
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
入侵检测技术 大连理工大学软件学院 毕玲.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

信息检索 Information Retrieval (IR) 第一章 概述 (Introduction) 2007-09 ~ 2007-12

第一章 简介 信息检索( IR )定义及相关概念 IR和相关领域的关系 IR系统的建立 IR系统的评估 IR评价试验平台TREC 第一章 简介 信息检索( IR )定义及相关概念 IR和相关领域的关系 IR系统的建立 IR系统的评估 IR评价试验平台TREC 本课主要内容

IR抽象图 目的 = 在一个大的文档集合中找到和所需的信息 相关的文档 所需信息 询问 信息检索系统 文档集合 查找 答案列表

IR定义 信息检索(Information Retrieval,IR),是指将信息按一定的方式组织和存储起来,并利用一定的检索算法,借助于特定的检索工具、根据用户的需要从结构化或非结构化的数据中获取有关信息的过程。 发展的几个阶段 手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web检索(1990s) IR的两种形式: 特别检索(Ad Hoc,文档集不变) and 筛选(Filtering,用户需求不变)

信息检索原理示意图 信息存储与组织 信息检索与实施 信息结果展示 数据库 信息集合 信息处理者 外部信息 信息存储 信息加工 信息采集 处理结果 结果展示 检索模式 结果输出 特征组配 需求特征 检索需求 匹配算法

IR分类 1、书目信息检索系统 1、单纯检索服务系统 按资源形式划分 按服务功能划分 2、全文检索系统 3、多媒体信息检索系统 2、统计分析信息服务系统 3、决策支持系统

IR分类 按服务区域划分 1、单机检索系统 2、联机检索系统 3、网络检索系统 在这门课中,我们只讨论全文检索系统的形式。

IR和其他领域的关系 数据库(DB ),在DB系统中,要创建数据组织方案,这个方案定义了各种关系及关系内的属性,利用这些方案,系统可以对用户提问做出解释。例如,在DB内,可以定义如下的关系: 作者(书,名字) 其中,作者是关系的名字, 书和名字是这种关系的属性,分别对应着书的ID 和它的作者名,这只是定义的一部分。为了查找由“Knuth”编写的书,可以使用如下的SQL语句: SELECT book FROM author WHERE name= “Knuth” 问答系统(QA),两个系统中,问题回答的方式是不同的。在IR中,对问题的回答是间接的:鉴别关联的文档,然后用户寻找问题的直接答案。在问答系统中,系统提供直接的答案。

相关概念 文档(Document),是指包含各种信息的信息源,通常情况下,用户查询的问题的答案存在于此,它的表现形式可能是文本、网页、图片、音频、视频等。在这门课中,我们只讨论文本的形式。 询问(Query),表示用户所需要的信息,一般情况下,它可以用如下的形式表示:“查找和… …. 相关联的文档。” 关联(Relevance),信息检索的目的是寻找相关联的文档。通常情况下,在相关联的文档中,用户应该能够找到他们所需要的信息。可见,关联是用来判断是否某个文档能够为用户问题提供回答的。关联的概念是非常复杂的。关联是存在于C 和D 之间的通过E 进行判断的B中的A。其中, A = 测量区间,B = 关联方面(绝对关联), C = 文档,D = 上下文,在这里进行关联测量(包括需要的信息) E = 用户的判断

相关概念 文本形式,文本存在多种规范形式,通常包括非结构化(也称为纯文本)、半结构化和结构化文本。大多数情况下,文本被看作是半结构化。比如,一本书的说明书可能是如下的形式: ISBN: 0-201-12227-8 Author: Salton, Gerard Titre: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 … Content: <Text Content>

相关概念 切词(segmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。 例如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。 停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。通常这些词被放在一个列表中,称为停用词表(stoplist)。 索引词(keyword,标引词,关键词):可以用于指代文档内容的预选词语,一般为名词或名词词组。 组合词(compound words):由两个或两个以上的单词构成的词,也称为合成词,如:北京大学,建设银行等。 词干提取(stemming 英语文档处理):单、复数,人称,时态等 countries => country,interesting => interest

Web检索实例:搜索引擎 搜索引擎(Search Engine,SE),Web上的一种应用软件系统,它以一定的策略在Web上搜集和发现信息,对信息进行处理和组织后,为用户提供Web信息查询服务 搜索引擎三段式工作流程 搜集 预 处 理 服务

Google Web Example

IR系统的建立 最初应用于图书馆系统(1950s) ISBN: 0-201-12227-8 外部属性和内部属性(内容) Author: Salton, Gerard Title: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 Content: <Text> 外部属性和内部属性(内容) DB:通过外部属性查找 IR: 通过内部属性(内容)进行检索

实现方法 1. 字符串匹配 (在文档中进行线性扫描) - 速度慢 - 难于改进 1. 字符串匹配 (在文档中进行线性扫描) - 速度慢 - 难于改进 例如:查找与“数据库和人工智能在工业上的应用”相关联的文档。对于 “人工智能和数据库在工业上的应用,人工智能在工业上的应用,数据库在工业上的应用,... ... ”等情况不兼容。

实现方法 2. 索引 (*) - 速度快 易于改进 例如: 关键词表示: 2. 索引 (*) - 速度快 易于改进 例如: 关键词表示: 原句子:数据库和人工智能在工业上的应用 预处理后:数据库、人工智能、工业、应用 原句子:人工智能和数据库在工业上的应用 预处理后:人工智能、数据库、工业、应用 倒排文档: 人工智能 ——〉{d1, d3,d5, d6,d7} 查找过程描述: 用户问题:Q = {w1=数据库, w2=人工智能, w3=工业}, 且 Q= w1 AND w2 AND (NOT w3) 文档列表:w1 ——〉{d1, d2, d5, d7, d9} w2 ——〉{d1, d3, d5, d6, d7} w3 ——〉{d2, d5, d6} 应用操作: w1 AND w2 = {d1, d5,d7} w1 AND w2 AND (NOT w3) = {d1,d7}

基于索引的IR Document Query indexing indexing (Query analysis) Representation Representation (keywords) Query (keywords) evaluation

基于索引的IR系统形式化表示 Docs Index Terms doc match Ranking Information Need query Ranking match

通用IR系统框图 4, 10 6, 7 5 8 2 User Interface Text Operations Query Indexing Searching Ranking Index Text query user need user feedback ranked docs retrieved docs logical view inverted file DB Manager Module 4, 10 6, 7 5 8 2 Database

全文检索系统评估 问题 如何评价系统的好与坏? 返回的文档都是相关的吗?(精度) 所有相关的文档都被找到了吗?(全度)

系统评估主要方面 效率: 时间, 空间 效果: 常用方法: relevant retrieved 某系统是否有能力检索到相关联的文档? 哪个系统更好? 常用方法: 查准率 = 检索到的相关文档数 / 检索的文档数 查全率 =检索到的相关文档数 / 所有的相关文档数 relevant retrieved retrieved relevant

测量方法 a c a+c b d b+d a+b c+d 相关文献 不相关文献 总计 被检出文献 未检出文献 a+b+ c+d 查准率:是指在系统所找到的文档中关联文档所占的比例。 Precision = 检出的相关文献量 /检出的文献总量 = a/(a+c) 查全率:是指系统所找到的关联文档在文档库中所有的关联文档中所占的比例。 Recall= 检出的相关文献量/ 检索系统中的相关文献总量 = a/(a+b) 噪音(Noise) = 检出的不相关的文档数 / 检索的文档数=c/a+c 静音(Silence) = 没有检出的相关文档数 / 相关文档数 =b/a+b 噪音 = 1 – 求精率;静音 = 1 – 求全率 非相关检出率(Fallout)=检索出的不相关文档数/不相关文档数=c/c+d 相关文献 不相关文献 总计 被检出文献 a c a+c 未检出文献 b d b+d a+b c+d a+b+ c+d

P/R 计算图示 List Rel? Doc1 Y Doc2 Doc3 Doc4 Doc5 … 假设: 5 个相关文档

precision/recall的关系 查全率(R)和查准率(P)之间具有密切的关系(即“互逆关系”),反映了某一检索结果集合的不同方面的特征。目前,在评价试验的实践中,经常采用的方法是将R和P结合在一起, 形成某种单一指标或平均值指标,对它们进行替代。

测试集 系统间的比较:在相同的测试集上,比较不同的IR系统 测试集包括: 文档集合 询问集合 文档-询问对的相关性判断 (每个询问所对应的答案 ) 系统的结果和答案集进行比较

其他测量方法 单值测量: F-measure = 2 P * R / (P + R) E-measure = 1-(1+b*b)/(b*b/R+1/P),其中,b为参数,用以反映或调整R和P的相对重要性。注意:当b=1时,E = 1- F;当b〉1时,意味着P的重要性大于R;当b<1时, 意味着R的重要性大于P。 平均求精率 = 求全率的n个点取值所对应的求精率的平均值 在n 个文档处的求精率 (常用于 Web IR) 期待的检索长度 (在获得n个相关文档时所需检索的不相关文档数)

在方法1基础上的方法2的改善 = (方法2的性能 — 方法1的性能)/方法1的性能 平均求精度、平均求全度的计算方法 平均求精度(Average Recall)和平均求全度(Average Precision)的计算方法有3点(0.25,0.50,0.75)或(0.2,0.5,0.8) 、 10点(0.1, 0.2, ..., 1.0) 、11点(0.0, 0.1, 0.2, ..., 1.0)平均值计算三种方式。 在对系统进行测试时,为了比较新旧两个系统或两个方法,经常使用相对改善的方法,具体的计算公式如下: 在方法1基础上的方法2的改善 = (方法2的性能 — 方法1的性能)/方法1的性能

An evaluation example (SMART) Run number: 1 2 Num_queries: 52 52 Total number of documents over all queries Retrieved: 780 780 Relevant: 796 796 Rel_ret: 246 229 Recall - Precision Averages: at 0.00 0.7695 0.7894 at 0.10 0.6618 0.6449 at 0.20 0.5019 0.5090 at 0.30 0.3745 0.3702 at 0.40 0.2249 0.3070 at 0.50 0.1797 0.2104 at 0.60 0.1143 0.1654 at 0.70 0.0891 0.1144 at 0.80 0.0891 0.1096 at 0.90 0.0699 0.0904 at 1.00 0.0699 0.0904 Average precision for all points 11-pt Avg: 0.2859 0.3092 % Change: 8.2 Recall: Exact: 0.4139 0.4166 at 5 docs: 0.2373 0.2726 at 10 docs: 0.3254 0.3572 at 15 docs: 0.4139 0.4166 at 30 docs: 0.4139 0.4166 Precision: Exact: 0.3154 0.2936 At 5 docs: 0.4308 0.4192 At 10 docs: 0.3538 0.3327 At 15 docs: 0.3154 0.2936 At 30 docs: 0.1577 0.1468

实用系统评测:MAP (Mean Average Precision) rij = 询问Qi 的第j个相关文档的排序 |Ri| =询问Qi 的相关文档数 n = 测试集中询问的个数 E.g. Rank: Q1 Q2 1 4 1st rel. doc. 5 8 2nd rel. doc. 10 3rd rel. doc. 假设Q1 的相关文档数为3, Q2的相关文档数为4,则MAP计算如下: 实例

实用系统评测: MRR 第一个正确答案出现位置的倒数平均值 例子 其中,N代表测试集中的问题数;ranki表示第i 个问题的正确答案的排序。如果正确答案不包含在答案列表中,它的排序为无限大, 取值为零。 例子

信息检索评价试验平台TREC TREC= Text Retrieval Conference 文本检索会议 由美国国家标准与技术局(NIST)和国防部高级研究项目计划局(DARPA)共同发起并主办 TREC并不是一个真正意义上的学术性会议,而是一项致力于对文本信息检索技术进行大规模评价研究的试验活动 TREC的参与者,必须拥有自己研究、开发的检索系统,而且必须提交检索系统的实验数据以参加检索试验和评价。所以,有学者形象地TREC为选拔优秀检索系统的“奥林匹克”。可以说,TREC的出现,开创了检索评价研究的一个新的里程碑

TREC 的组织形式 每年一次; 1~2月份, 欲参加者提出申请(必须有自己设计、开发的系统,3月份评审者确定参加者名单并发送密码给参加者; 4月份,主办者向参加者发送标准实验文档和用户提问;随后参加者进行系统的调试,在8月份左右,将实验数据返回给主办方; 9~10月份,职业的信息分析员进行定量分析和评价,排出名次,并反馈给参加者; 11月份,TREC大会,发言或私下交流。

TREC 评估方法 已知文档集(>100K)与问题集 (50) 每位参加者对每个问题提交1000 个文档 将每位参加者的前100个文档汇集起来,形成一个可能相关的文档“池” ( global pooling) 检索评价专家进行人工判断,评出每一文档的相关性 其它的文档被认为是不相关的 系统的性能以1000个答案来计算

比赛项目分类 特殊检索Ad Hoc : 不同的提问式,在同一个文档集合中进行检索 筛选检索Routing (filtering) : 用户的需求是固定的,文档集合是变化的 跨语言检索Cross-Language: 属于Ad Hoc 检索 网页检索Web: 对WWW文档快照集合进行检索 问答系统Question-Answering: When did Nixon visit China? 交互式检索Interactive: 使用户和系统进行交互 口语文档检索Spoken document retrieval 图像和视频检索Image and video retrieval

TREC的意义 为理论检索模型和试验检索系统提供了公平、定量、具有实用价值的性能评价机会,并为前几位的系统提供了商业机会 开发了新的系统评估方法 促进了相关领域的发展 (NLP, 机器翻译, 摘要, …) 建议成立C-TREC,促进中国信息检索技术的发展

其他研究机构 CLEF = Cross-Language Experimental Forum For European languages Organized by Europeans Each per year (March – Oct.) NTCIR: Organized by NII (Japan) For Asian languages Cycle of 1.5 year

本课的主要研究内容 索引理论:如何最好地表示文档和用户询问的内容,切词、关键词选取 检索模型:如何判断询问和文档之间的关联性 自动索引的基本原理 基于词汇分布特征的索引方法 基于语言规则与内容的索引 人工智能索引法 汉语自动索引 检索模型:如何判断询问和文档之间的关联性 布尔模型(Boolean,1957):集合论,布尔代数(逻辑操作) 矢量模型(Vector Space Model, VSM,1960s末):线性代数 概率模型(Probability,1976):经典概率论 搜索引擎:Web检索实例 信息搜集 预处理 检索服务 信息处理与组织 自动分类与聚类 自动摘要 IR的高级技术(性能改善技术) 自然语言处理、语言模型 多语言检索与分布式检索 用户询问技术