信息检索的评价 哈工大计算机学院 信息检索研究室 2007
评价 评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等 信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动 从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量
信息检索的评价 针对一个检索系统,可以从功能和性能两个方面对其进行分析评价 功能评价 性能评价 可通过测试系统来判定是否支持某项功能,因此相对来说较容易 性能评价 对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序
相关度 相关度理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合 检索系统的目标就在于检出相关文档而排除不相关文档
相关性 相关性是一种主观评价 是不是正确的主题 是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息 输入:“和服”;输出:“···咨询和服务···” 由于分词错误,导致检索结果偏离主题 是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息 输入:“美国总统是谁”;输出:“克林顿” 信息已经过时 权威性,是否来自可靠的信息源
评价IR系统的困难 相关性不是二值评价,而是一个连续的量 即使进行二值评价,很多时候也很难 从人的立场上看,相关性是: 主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化
检索的评价 检索性能的评价 检索任务 实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性 检索结果的准确度 批处理查询 交互式查询 7 7
在评价和比较检索系统的检索性能需要以下条件: 一个文档集合C。系统将从该集合中按照查询要求检出相关文档 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值
相关性判断 在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。 由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。
“pooling”方法有以下两个假设 假设绝大多数的相关文档都收录在这个文档池中 没有进行判断的文档即未被认为是不相关的 “pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool” 由检索评价专家进行人工判断,最终评判出每一文档的相关性
准确率和召回率 未检出且 不相关 检出 未检出 召回率(Recall)=检出的相关文档数/相关文档数 全部文本集合 检索出的 文本 相关文本 召回率(Recall)=检出的相关文档数/相关文档数 准确率(Precision)=检出的相关文档数/检出文档数 假设:文本集中所有文献已进行了检查
准确率和召回率的关系 返回了大多数相关文档 但是包含很多垃圾 理想情况 1 准确率 召回率 返回最相关的文本 但是漏掉了很多 相关文本 1
举例 Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} 通过某一个检索算法得到的排序结果: 1. d123 6. d9 11. d38 2. d84 7. d511 12. d48 3. d56 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 15. d3 (100%,10%) (precision, recall) (50%,30%) (66%,20%) (40%,40%) (33%,50%)
一个查询的11个标准查准率 11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100% interpolation c i s o n 120 100 80 60 40 20 120 20 40 60 80 100
平均准确率 上述准确率召回率的值对应一个查询 每个查询对应不同的准确/召回率曲线 为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下: Nq: the number of queries used Pi(r): the precision at recall level r for the i-th query
多个查询下进行检索算法的比较 对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。 第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高
适应性 合理估计需要了解集合的所有文献 这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适 测的是批处理模式下查询集合性能,对现代信息检索系统,交互式是重要特征,对量化检索过程的性指标可能会更合适
新的评价指标 随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现 单值概括
单值概括(1) 已检出的相关文献的平均准确率 逐个考察检出新的相关文献,将准确率平均 Example 1. d123 (1) 6. d9 (0.5) 11. d38 2. d84 7. d511 12. d48 3. d56 (0.66) 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 (0.4) 15. d3 (0.3) (1+0.66+0.5+0.4+0.3)/5=0.57
单值概括(2) R-Precision 计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数 1. d123 6. d9 2. d84 7. d511 3. d56 8. d129 4. d6 9. d187 5. d8 10. d25 1. d123 2. d84 3. 56 R=3 and # relevant=1 R-precision=1/3=0.33 R=10 and # relevant=4 R-precision=4/10=0.4
单值概括(3) 准确率直方图 多个查询的R-Precision测度 用来比较两个算法的检索纪录 RPA/B=0:对于第i个查询,两个算法有相同的性能 RPA/B>0:对于第i个查询,算法A有较好的性能 RPA/B<0:对于第i个查询,算法B有较好的性能
单值概括(3-1) 1.5 8 1.0 0.5 0.0 3 4 5 6 7 8 9 10 1 2 -0.5 -1.0 2 -1.5 Query Number
单值概括(4) 概括统计表 查询数 检出的所有文献数量 相关文献数 应检出的相关文献数 ……
评价指标的不足 前面提到的一些评价指标,如R-准确率,MAP,P@10等,都只考虑经过pooling技术之后判断的相关文档的排序 对判断不相关文档与未经判断的文档的差别并没有考虑 而目前随着互联网的发展,测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难
Bpref指标 只考虑对返回结果列表中的经过判断后的文档进行评价 在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果 这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:
举例 下面举个例子来说明bpref的性能,假设检索结果集S为: S ={D1 ,D2 ·,D3 * ,D4 * ,D5 ·,D6 ,D7 ·,D8 ,D9 ,D10 } 其中D2、D5 和D7是相关文档,D3 和D4为未经判断的文档。 对这个例子来说, R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]
单一相关文档检索的评价 对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。 而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。 只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务
RR排序倒数和MRR平均排序倒数 RR(Reciprocal Ranking)是第一个相关文档出现位置的倒数 经常用于评价只找到一个相关文档的情况, RR值具体为1/r,其中r为第一个相关文档在结果中排序数 如果检索结果中没有相关文档,那么RR值为0。
MRR( Mean Reciprocal Ranking)平均排序倒数 MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询,分别得到每个查询的排序倒数,取平均即为MRR。计算公式如下: 例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。 然而RR评价是基于2元相关判断基础上的,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。
其它测度方法 调和平均值 R(j): the recall for the j-th document in the ranking P(j): the precision for the j-th document in the ranking
Example 1. d123 6. d9 11. d38 2. d84 7. d511 12. d48 3. d56 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 15. d3 (33.3%,33.3%) (25%,66.6%) (20%,100%)
其他测度方法 (cont.) E指标 允许用户根据需要调整精确率和召回率的比例
其他测度方法(cont.) 面向用户的测度方法 覆盖率:实际检出的相关文献中用户一致的相关文献所占比例 新颖率:检出的相关文献中用户未知的相关文献所占的比例
图示覆盖率和新颖率 结果集|A| 相关文献|R| 用户已知的相关文献|U| 检出的用户以前未知的相关文献|Ru| 检出的用户已知的相关文献|Rk|
测试集 (Test Collections) 组成要素 文件集 (Document Set; Document Collection) 查询问题 (Query; Topic) 相关判断 (Relevant Judgment) 用途 设计与发展: 系统测试 评估: 系统效能(Effectiveness)之测量 比较: 不同系统与不同技术间之比较 评比 根据不同的目的而有不同的评比项目 量化的测量准则,如Precision与Recall
国外的评测 TREC评测 NTCIR评测 CLEF评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索( IR) 界为进行检索系统和用户评价而举行的活动, 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)(美国国防部) 共同资助,开始于1992年。 NTCIR评测 NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics,简称NII)主办的搜索引擎评价型国际会议 CLEF评测 CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展, CLEF的目标只在于跨语言信息检索以及多语言信息检索方面
TREC评测(Benchmark) TREC: Text REtrieval Conference (http://trec.nist.gov/) 1992年开始,每年一次 由美国国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术研究所National Institute of Standards and Technology (NIST)联合发起 参加者免费获得标准训练和开发数据 参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者 组织者对各参赛者的结果进行评价 包括检索、过滤、问答等多个主题
Document Format <DOC> <DOCNO>WSJ880406-0090</DOCNO> Standard Generalized Mark-up Language, SGML <DOC> <DOCNO>WSJ880406-0090</DOCNO> <HL>AT&T Unveils Services to Upgrade Phone Networks Under Global Plan </HL> <AUTHOR>Janet Guyon (WSJ staff) </AUTHOR> <TEXT> American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad implications for computer and communications . </TEXT> </DOC>
TREC会议的评价测度 概括表统计 准确率-召回率平均值 文献级别平均值 平均准确率
国内863评测介绍 全名: 组织者:国家高技术研究发展计划(863计划) 方式 2005年度评测内容 863计划中文信息处理与智能人机接口技术评测 组织者:国家高技术研究发展计划(863计划) 方式 通过网络进行 各单位在自己的环境中运行参评系统 2005年11月召开研讨会 2005年度评测内容 机器翻译 信息检索 语音识别
863评测介绍—信息检索评测 项目:相关网页检索 任务定义:给定主题,返回数据中与该主题相关的网页。 数据:CWT100g (中文Web测试集100g) 根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页(有效网页:5,594,521) 包括网页内容和Web服务器返回的信息 真实容量为90GB。
主题 主题(Topic)模拟了用户需求,由若干字段组成,描述了用户所希望检索的信息。主题和查询的区别在于:主题是对信息需求的陈述,查询则是信息检索系统的实际输入。 主题由4个字段组成: 编号(num) 标题(title) 描述(desc) 叙述(narr)。
主题实例 <title> 下载"香奈儿" <desc> 描述:mp3格式歌曲“香奈儿”的下载地址 <narr> 叙述:仅检索具有歌曲“香奈儿”下载地址的网页。有关“香奈儿”的介绍不在检索范围内。提供非mp3格式下载地址的页面不在检索之列。
查询的构造 自动方式和人工方式 自动方式是指在没有任何人为因素的影响下根据主题构造查询的方式 除此之外的方式均为人工方式。 只允许以人工方式构造查询,不允许在检索过程中加入任何人为因素。
评测指标(1) MAP 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主题集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
MAP举例 假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。 对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83 对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45 MAP=(0.83+0.45)/2=0.64
评测指标(2) R-Precision 单个主题的R-Precision是检索出R篇文档时的准确率。其中,R是测试集中与主题相关的文档的数目。主题集合的R-Precision是每个主题的R-Precision的平均值。
评测指标(2) 例如:假设有两个主题,第1个主题有50个相关网页,第2个主题有10个相关网页,某个系统对于第1个主题返回的前50个结果中有17个是相关的,对于第2个主题返回的前10个结果中有7个是相关的 第1个主题上的R-Precision为17/50=0.34 在第2个主题上的R-Precision为7/10=0.7 主题集合的R-Precision为(17/50+7/10)/2=0.52
评测指标(3) P@10 单个主题的P@10是系统对于该主题返回的前10个结果的准确率。主题集合的P@10是每个主题的P@10的平均值。
2005年863评测结果 MAP R-Precision P@10 第一名 自动化所0.3175 哈工大0.3672 清华0.6280 第二名 哈工大 0.3107 自动化所0.3607 哈工大0.6240 第三名 清华大学0.2858 清华0.3293 自动化所0.5540