信息检索的评价 哈工大计算机学院 信息检索研究室 2007.

Slides:



Advertisements
Similar presentations
DOC 推廣活動 月餅星光大道. 中秋  農曆八月十五日,是中國傳統的中秋節。 古人將一年分成春夏秋冬四季,而一季又 分為孟、仲、季三月,八月是仲秋之月, 而十五又是這個月中間的一天,正處在秋 季的正中,所以把八月十五稱為「中秋」 或「仲秋」。  中秋夜,月亮最圓,月色最美,因此人們 把月圓看成是團圓的象徵,同時也稱八月.
Advertisements

信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )
中 五 級中 五 級 戰後國共關係 與 中華人民共和國成立 中國歷史科 1 )認識國共政治協商的概況 2 )認識國共內戰的概略經過及結果 3 )中華人民共和國成立.
1 主題三 網路常見衝突事件 的防範 3-1 認識網路兩性交往常見的衝突事件 3-2 瞭解處理兩性網路交往衝突之注意事項 3-3 認識處理兩性網路交往常見的衝突事件的 有效方法 有效方法.
不吃早餐的影響: 體內的葡萄糖無法 足夠供應給大腦與 肌肉,會感覺疲勞, 注意力無法集中。。 營養的早餐:乳品 + 全榖類食品 + 蛋白質 + 水果 早餐你吃了嗎?
人文地理專題研究 王志明.
泛黄的春联还残留在墙上 依稀可见几个字岁岁平安 在我没回去过的老家米缸 爷爷用楷书写一个满 黄金葛爬满了雕花的门窗 夕阳斜斜映在斑驳的砖墙 铺着榉木板的屋内还弥漫 姥姥当年酿的豆瓣酱 我对着黑白照片开始想像 爸和妈当年的模样 说着一口吴侬软语的姑娘缓缓走过外滩 消失的旧时光一九四三 在回忆的路上时间变好慢.
两汉文学及汉代诗歌.
五專醫護類科介紹 樹人醫專 職業教育組 李天豪 組長.
教育部94年度國防通識學科中心進階研習 第三波軍事科技 報告人: 龍華科技大學李守誠 中華民國九十四年十一月.
2014年爱婴医院复核方案解读 省卫生计生委妇幼处 邱灵.
四川环境信息资源中心建设总体思路探讨 ——以云计算技术构建环境数据中心 四川省环境信息中心 陈力.
電子病歷與HL7 國軍桃園總醫院 資訊中心執行長許偉閔.
近现代文学概说.
导言 第四 单元 凡尔赛—华盛顿体系与第二次世界大战
未成年少女墮胎的法律問題.
社團經費申請 及核銷相關規定 製作:世新大學會計室.
会计实验.
北師附小第十六屆(1961) 五十周年校友會 中華民國一百年十月二十二日.
信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日.
说课课件 感悟工业革命力量,闪耀科技创新光辉 ----《走向整体的世界》教学设计及反思 爱迪生 西门子 卡尔·本茨 诺贝尔 学军中学 颜先辉.
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
2 Internet概述 Internet是由成千上万个网络互联起来的规模空前的超级计算机网络。
“卓越工程师”培养的质量保障体系构建探索
土地出让转让的政策与实务 岳晓武 国土资源部利用司.
经典中文期刊全文数据库检索 与通用技巧 王建涛 QQ:
老師:鍾郁芬 老師 指導 組長:陳欣怡 組員:曾郁雯 倪敏富 王宣化 簡宏倫 黃郁涵
题目回顾 泉水在地下蓄积,一旦有机会,它便骄傲地涌出地面,成为众人瞩目的喷泉,继而汇成溪流,奔向远方。但人们对地下的泉水鲜有关注,其实,正是因为有地下那些默默不语的泉水的不断聚集,才有地上那一股股清泉的不停喷涌。 请根据你对材料的理解和感悟,自选一个角度,写一篇不少于800字的文章,文体自定,标题自拟。要求:立意明确,不要套作,不得抄袭。
美国史 美利坚合众国创造了一个人类建国史的奇迹,在短短230年的时间从一个被英帝国奴役的殖民地到成为驾驭全世界的“超级大国”、“世界警察”,美国的探索为人类的发展提供了很宝贵的经验。
广 东 技 术 师 范 学 院 美术学院 装潢专业 2012级(3)班 郑可珊
第十九章 散文 教学要求: 了解散文的含义、分类、特点,学习写作抒情散文。 重点: 散文的特点,散文的写作。 难点: 散文的写作训练。
單元一:網際空間我最大? 網路法與網路倫理:緒論
数字参考咨询服务与数据库检索技巧.
农机化项目管理培训会 柳州市农机局 郑崇宁
一二·九运动                                                                    0712班.
Homework 2 : VSM and Summary
中小学教育科研课题的选择 王典伟.
出口农产品风险管理 企业分类及监督管理表格
Google App Engine Google 應用服務引擎.
Application & Functions
● 四 (2)班 家 长 网络交 流 会 ● 快乐成长 与您 共享 家庭 学校 社会.
学科科研工作与科研 奖励政策解读讲座 朱文斌 博士 教授 2015年9月8日.
第9章 金融监管.
人类传播的发展进程.
首都师范大学.
契約 課程:文書實務與應用 教師:黃湃翔老師.
New IEEE Xplore.
ProQuest 科研数据库 (剑桥科学文摘CSA)
關心今天的老人, 就是關心明天的自己 作者:周儀.
Cloud Computing(雲端運算) 技術的現況與應用
第一章 線性方程組.
參考資料 American Association of School Librarians & Association for Education Communications and Technology (1998). Information Literacy Standards for Students.
奢侈稅成效分析與房市未來發展 吳中書 中華經濟研究院 第十九屆亞太財務經濟會計及管理會議 ~07.09.
校園網路架構介紹與資源利用 主講人:趙志宏 圖書資訊館網路通訊組.
API文档分析 张静宣 大连理工大学 2017年11月3日.
第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.
電子商務安全 Secure Electronic Commerce
《郑伯克段于鄢》 黎兰老师制作.
中美图书馆之间合作的过去、现在和未来 Sino-U. S
中国研究日文資料 Library Tutorial for Chinese Studies Module CH6670
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
仲裁处理细则及常见问题解析.
嘉義縣立溪口國民中學 辦理96年度推動自由軟體學校資訊融入教學
Format of Posters in English
长春科技学院 设 计 表 达 李雪梅.
Homework 2 : VSM and Summary
Presentation transcript:

信息检索的评价 哈工大计算机学院 信息检索研究室 2007

评价 评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等 信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动 从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量

信息检索的评价 针对一个检索系统,可以从功能和性能两个方面对其进行分析评价 功能评价 性能评价 可通过测试系统来判定是否支持某项功能,因此相对来说较容易 性能评价 对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序

相关度 相关度理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合 检索系统的目标就在于检出相关文档而排除不相关文档

相关性 相关性是一种主观评价 是不是正确的主题 是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息 输入:“和服”;输出:“···咨询和服务···” 由于分词错误,导致检索结果偏离主题 是否满足用户特定的信息需求 (information need) 时效性,是不是新的信息 输入:“美国总统是谁”;输出:“克林顿” 信息已经过时 权威性,是否来自可靠的信息源

评价IR系统的困难 相关性不是二值评价,而是一个连续的量 即使进行二值评价,很多时候也很难 从人的立场上看,相关性是: 主观的,依赖于特定用户的判断 和情景相关的,依赖于用户的需求 认知的,依赖于人的认知和行为能力 时变的,随着时间而变化

检索的评价 检索性能的评价 检索任务 实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性 检索结果的准确度 批处理查询 交互式查询 7 7

在评价和比较检索系统的检索性能需要以下条件: 一个文档集合C。系统将从该集合中按照查询要求检出相关文档 一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求 对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造 一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值

相关性判断 在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。 由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。

“pooling”方法有以下两个假设 假设绝大多数的相关文档都收录在这个文档池中 没有进行判断的文档即未被认为是不相关的 “pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool” 由检索评价专家进行人工判断,最终评判出每一文档的相关性

准确率和召回率 未检出且 不相关 检出 未检出 召回率(Recall)=检出的相关文档数/相关文档数 全部文本集合 检索出的 文本 相关文本 召回率(Recall)=检出的相关文档数/相关文档数 准确率(Precision)=检出的相关文档数/检出文档数 假设:文本集中所有文献已进行了检查

准确率和召回率的关系 返回了大多数相关文档 但是包含很多垃圾 理想情况 1 准确率 召回率 返回最相关的文本 但是漏掉了很多 相关文本 1

举例 Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123} 通过某一个检索算法得到的排序结果: 1. d123  6. d9  11. d38 2. d84 7. d511 12. d48 3. d56  8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25  15. d3  (100%,10%) (precision, recall) (50%,30%) (66%,20%) (40%,40%) (33%,50%)

一个查询的11个标准查准率 11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100% interpolation c i s o n 120 100 80 60 40 20 120 20 40 60 80 100

平均准确率 上述准确率召回率的值对应一个查询 每个查询对应不同的准确/召回率曲线 为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下: Nq: the number of queries used Pi(r): the precision at recall level r for the i-th query

多个查询下进行检索算法的比较 对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。 第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高

适应性 合理估计需要了解集合的所有文献 这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适 测的是批处理模式下查询集合性能,对现代信息检索系统,交互式是重要特征,对量化检索过程的性指标可能会更合适

新的评价指标 随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现 单值概括

单值概括(1) 已检出的相关文献的平均准确率 逐个考察检出新的相关文献,将准确率平均 Example 1. d123 (1) 6. d9 (0.5) 11. d38 2. d84 7. d511 12. d48 3. d56 (0.66) 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25  (0.4) 15. d3  (0.3) (1+0.66+0.5+0.4+0.3)/5=0.57

单值概括(2) R-Precision 计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数 1. d123  6. d9  2. d84 7. d511 3. d56  8. d129 4. d6 9. d187 5. d8 10. d25  1. d123 2. d84 3. 56  R=3 and # relevant=1 R-precision=1/3=0.33 R=10 and # relevant=4 R-precision=4/10=0.4

单值概括(3) 准确率直方图 多个查询的R-Precision测度 用来比较两个算法的检索纪录 RPA/B=0:对于第i个查询,两个算法有相同的性能 RPA/B>0:对于第i个查询,算法A有较好的性能 RPA/B<0:对于第i个查询,算法B有较好的性能

单值概括(3-1) 1.5 8 1.0 0.5 0.0 3 4 5 6 7 8 9 10 1 2 -0.5 -1.0 2 -1.5 Query Number

单值概括(4) 概括统计表 查询数 检出的所有文献数量 相关文献数 应检出的相关文献数 ……

评价指标的不足 前面提到的一些评价指标,如R-准确率,MAP,P@10等,都只考虑经过pooling技术之后判断的相关文档的排序 对判断不相关文档与未经判断的文档的差别并没有考虑 而目前随着互联网的发展,测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难

Bpref指标 只考虑对返回结果列表中的经过判断后的文档进行评价 在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果 这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:

举例 下面举个例子来说明bpref的性能,假设检索结果集S为: S ={D1 ,D2 ·,D3 * ,D4 * ,D5 ·,D6 ,D7 ·,D8 ,D9 ,D10 } 其中D2、D5 和D7是相关文档,D3 和D4为未经判断的文档。 对这个例子来说, R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]

单一相关文档检索的评价 对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。 而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。 只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务

RR排序倒数和MRR平均排序倒数 RR(Reciprocal Ranking)是第一个相关文档出现位置的倒数 经常用于评价只找到一个相关文档的情况, RR值具体为1/r,其中r为第一个相关文档在结果中排序数 如果检索结果中没有相关文档,那么RR值为0。

MRR( Mean Reciprocal Ranking)平均排序倒数 MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询,分别得到每个查询的排序倒数,取平均即为MRR。计算公式如下: 例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。 然而RR评价是基于2元相关判断基础上的,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。

其它测度方法 调和平均值 R(j): the recall for the j-th document in the ranking P(j): the precision for the j-th document in the ranking

Example 1. d123 6. d9 11. d38 2. d84 7. d511 12. d48 3. d56  8. d129  13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 15. d3  (33.3%,33.3%) (25%,66.6%) (20%,100%)

其他测度方法 (cont.) E指标 允许用户根据需要调整精确率和召回率的比例

其他测度方法(cont.) 面向用户的测度方法 覆盖率:实际检出的相关文献中用户一致的相关文献所占比例 新颖率:检出的相关文献中用户未知的相关文献所占的比例

图示覆盖率和新颖率 结果集|A| 相关文献|R| 用户已知的相关文献|U| 检出的用户以前未知的相关文献|Ru| 检出的用户已知的相关文献|Rk|

测试集 (Test Collections) 组成要素 文件集 (Document Set; Document Collection) 查询问题 (Query; Topic) 相关判断 (Relevant Judgment) 用途 设计与发展: 系统测试 评估: 系统效能(Effectiveness)之测量 比较: 不同系统与不同技术间之比较 评比 根据不同的目的而有不同的评比项目 量化的测量准则,如Precision与Recall

国外的评测 TREC评测 NTCIR评测 CLEF评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索( IR) 界为进行检索系统和用户评价而举行的活动, 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)(美国国防部) 共同资助,开始于1992年。 NTCIR评测 NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics,简称NII)主办的搜索引擎评价型国际会议 CLEF评测 CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展, CLEF的目标只在于跨语言信息检索以及多语言信息检索方面

TREC评测(Benchmark) TREC: Text REtrieval Conference (http://trec.nist.gov/) 1992年开始,每年一次 由美国国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术研究所National Institute of Standards and Technology (NIST)联合发起 参加者免费获得标准训练和开发数据 参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者 组织者对各参赛者的结果进行评价 包括检索、过滤、问答等多个主题

Document Format <DOC> <DOCNO>WSJ880406-0090</DOCNO> Standard Generalized Mark-up Language, SGML <DOC> <DOCNO>WSJ880406-0090</DOCNO> <HL>AT&T Unveils Services to Upgrade Phone Networks Under Global Plan </HL> <AUTHOR>Janet Guyon (WSJ staff) </AUTHOR> <TEXT> American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad implications for computer and communications . </TEXT> </DOC>

TREC会议的评价测度 概括表统计 准确率-召回率平均值 文献级别平均值 平均准确率

国内863评测介绍 全名: 组织者:国家高技术研究发展计划(863计划) 方式 2005年度评测内容 863计划中文信息处理与智能人机接口技术评测 组织者:国家高技术研究发展计划(863计划) 方式 通过网络进行 各单位在自己的环境中运行参评系统 2005年11月召开研讨会 2005年度评测内容 机器翻译 信息检索 语音识别

863评测介绍—信息检索评测 项目:相关网页检索 任务定义:给定主题,返回数据中与该主题相关的网页。 数据:CWT100g (中文Web测试集100g) 根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页(有效网页:5,594,521) 包括网页内容和Web服务器返回的信息 真实容量为90GB。

主题 主题(Topic)模拟了用户需求,由若干字段组成,描述了用户所希望检索的信息。主题和查询的区别在于:主题是对信息需求的陈述,查询则是信息检索系统的实际输入。 主题由4个字段组成: 编号(num) 标题(title) 描述(desc) 叙述(narr)。

主题实例 <title> 下载"香奈儿" <desc> 描述:mp3格式歌曲“香奈儿”的下载地址 <narr> 叙述:仅检索具有歌曲“香奈儿”下载地址的网页。有关“香奈儿”的介绍不在检索范围内。提供非mp3格式下载地址的页面不在检索之列。

查询的构造 自动方式和人工方式 自动方式是指在没有任何人为因素的影响下根据主题构造查询的方式 除此之外的方式均为人工方式。 只允许以人工方式构造查询,不允许在检索过程中加入任何人为因素。

评测指标(1) MAP 单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主题集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。

MAP举例 假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。 对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83 对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45 MAP=(0.83+0.45)/2=0.64

评测指标(2) R-Precision 单个主题的R-Precision是检索出R篇文档时的准确率。其中,R是测试集中与主题相关的文档的数目。主题集合的R-Precision是每个主题的R-Precision的平均值。

评测指标(2) 例如:假设有两个主题,第1个主题有50个相关网页,第2个主题有10个相关网页,某个系统对于第1个主题返回的前50个结果中有17个是相关的,对于第2个主题返回的前10个结果中有7个是相关的 第1个主题上的R-Precision为17/50=0.34 在第2个主题上的R-Precision为7/10=0.7 主题集合的R-Precision为(17/50+7/10)/2=0.52

评测指标(3) P@10 单个主题的P@10是系统对于该主题返回的前10个结果的准确率。主题集合的P@10是每个主题的P@10的平均值。

2005年863评测结果 MAP R-Precision P@10 第一名 自动化所0.3175 哈工大0.3672 清华0.6280 第二名 哈工大 0.3107 自动化所0.3607 哈工大0.6240 第三名 清华大学0.2858 清华0.3293 自动化所0.5540