检索评价 第三章.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
复习: :对任意的x∈A,都有x∈B。 集合A与集合B间的关系 A(B) A B :存在x0∈A,但x0∈B。 A B A B.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
US Dollar Index 聚金财富金融研究中心 研究员:罗晨.
孟德尔的豌豆杂交实验(一) 豌豆杂交实验为什么这么成功? 豌豆是自花传粉、闭花受粉植物; 人工异花传粉 有易于区分的性状。
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
Signals and Systems Lecture 28
Introduction To Mean Shift
信息检索 Information Retrieval (IR)
信息检索的评价 哈工大计算机学院 信息检索研究室 2007.
SOA – Experiment 3: Web Services Composition Challenge
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
SQL Injection.
走进编程 程序的顺序结构(二).
Lexicographical order VS canonical order
第一讲: 基本流程(1).
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第十章 方差分析.
数据挖掘工具性能比较.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
WSDM见闻 程龚.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
编程作业3:网页正文抽取 (10分).
数列.
C语言程序设计 主讲教师:陆幼利.
顺序表的删除.
Date: 2012/05/14 Source: Bo Zhao et. al (CIKM’11)
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Three stability circuits analysis with TINA-TI
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
VB与Access数据库的连接.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
复习.
项目二:HTML语言基础.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
实体描述呈现方法的研究 实验评估 2019/5/1.
Web安全基础教程
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.16 枚举算法及其程序实现 ——数组的作用.
第五节 缓冲溶液pH值的计算 两种物质的性质 浓度 pH值 共轭酸碱对间的质子传递平衡 可用通式表示如下: HB+H2O ⇌ H3O++B-
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
基于列存储的RDF数据管理 朱敏
VB与Access数据库的连接.
本底对汞原子第一激发能测量的影响 钱振宇
第十七讲 密码执行(1).
插入排序的正确性证明 以及各种改进方法.
§4.5 最大公因式的矩阵求法( Ⅱ ).
其解亦可表为向量形式.
第二次课后作业答案 函数式编程和逻辑式编程
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Simulink National Tsing Hua University
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

检索评价 第三章

检索评测基础 检索评测基础: 建立在测试参考集和一定的评价测度基础之上。 检索策略的评价 检索评测基础: 建立在测试参考集和一定的评价测度基础之上。 测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的一组相关文档(由专家提供)所组成。  检索策略的评价 对一个给定检索策略S,对每个信息查询实例,评测由S检出的结果集合与由专家提供的相关文档集之间的相似性,量化这一指标。

检索性能评价 评价的类型 实验室评价和真实环境评价,两者不同。有时,结果出入也较大。 由于在实验室封闭环境下的评价具有可重复性,目前仍是主流。 还有对交互查询进行评测,需要考查界面的设计、系统引导、会话持续时间等因素。

测度1:查全率和查准率 对某个测试参考集,信息查询实例为I,I对应的相关文档集合为R。假设用某个检索策略对I进行处理后,得到一个结果集合A。令Ra表示R与A的交集。 Ra 查全率(Recall):检出的相关文档个数与相关文档集合总数的比值,即R=|Ra| / |R| 查准率(Precision):检出的相关文档个数 与检出文档总数的比值,即P=|Ra| / |A| R A

测度2: F1 值 F1 标准则综合了精度和查全率,将两者赋予同样的重要性来考虑。F1的计算由下面的公式决定

F1 值的其他说法 调和平均值 调和平均数定义为:数值倒数的平均数的倒数。其数值恒小于算术平均数。 计算查准率p和查全率r的调和平均数作为度量指标。F的取值在[0,1]。

测度3:查准率/查全率曲线 由于用户的查看是逐条进行相关性检查。故此,常用查准率/查全率曲线作为评价指标。   11点标准查全率下的查准率曲线,计算查全率分别为(0%,10%, 20%,…, 100%)下的查准率。即利用查全率,限制一下文档数,以此计算查准率。这种方法实质上考虑了输出元素的顺序。

Example Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38 d48 d250 d113 d3* 对查询q,专家判定的相关文档集合为 Rq = {d3,d5,d9,d25, d39,d44,d56,d71, d89,d123}. |Rq|=10. 假设某一检索算法对查询q,输出如右列的检索结果 此时,查全率Recall=5/10, 查准率 Precision=5/15。  还可以看到:对应查全率为10%时的查准率为100%;对应查全率为20%时的查准率为66%;。。。。。对应查全率为60%时的查准率降为0。图示如下

Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38

多个查询下的查准率/查全率曲线,可通过计算其平均查准率得到,公式如下(Nq为查询的数量) P(r) 是指查全率为r时的平均查准率, pi(r)指查全率为r时的第i个查询的查准率 .

由于每个查询的查全率值不一定就是这11个标准查全率,因此需要对查准率进行插补。 如上例中,若Rq只含有3个文档 Rq = {d3, d56, d129}. 此时,如何计算11点标准查全率呢?(查全率1/3,2/3,1} 设rj{j=0,1,2,…,10}为第j个标准查全率的一个参量 (如r3是查全率为30%的参量),则: 即第j个标准查全率水平的查准率是介于第j个和第j+1个查全率之间任意一个查全率所对应的查准率的最大值。

Rq = {d3, d56, d129} Ranking for query q: d123* d84 d56* d6 d8 d9* 检出d56, |A| = 3, 0.33, 检出2个, |A| = 8,2/8= 0.25, 检出d3, |A| = 15; 3/15= 0.2

多个查询下进行检索算法的比较 对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。 如下为两个检索算法在多个查询下的查准率/查全率的值。 第一个检索算法在低查全率下,其查准率较高。 另一个检索算法在高查全率下,其查准率较高 两个不同算法的平均查全率/查准率

另一种方法是:计算给定文档临界值处的平均查准率。如检出相关文档数为:5、10、15、20、30、50、100时的平均查准率。   目前平均查准/查全率的值已经成为信息检索系统的一项标准评价指标。 它能对整个结果集的质量和检索算法的适用范围进行量化评价,因此非常有效。

测度4: R-查准率 R-查准率 p@10 (目前Web信息检索中最常用的测度),最常用语检查网页排序算法的好坏。 R=10, R-查准率=4/10; R=3, R-查准率=1/3, R-查准率显示了对检索结果排序的重要性.

测度5: 查准率直方图 用于快速比较两个检索算法的性能。 方法:在多个查询下,分别计算每一查询下的R-查准率,计算其差值,并用直方图表示。 具体地: 用RPA(i)和RPB(i) 分别表示使用检索算法A和检索算法B检索第i个查询时得到的R-查准率,它们之间的差值: RPA-B(i)=RPA(i)-RPB(i)

查准率直方图 假设10个查询的查准率直方图。(在8个查询中检索算法A好于算法B的性能) 假设十个查询的查询直方图.

意义: RPA/B(i) >0 时, 算法A(对第i个查询)比算法B好,反之B (对第i个查询)好.

测度6: E测度指标 思想:允许用户指出他更关心查准率或查全率 b=1, E= F; b>1表明用户对更查全率感兴趣(由于r/b2的值更小,相对地,P的值变大) b <1, 用户对查全率更感

其他测度 MPOS (n个查询对应的第1个相关结果的平均出现位置,Mean Position of the first relevant result):所有查询的第一个相关结果位置的平均; MRR (第1个相关结果位置的倒数平均,Mean Reciprocal Ranking):所有查询的第一个相关结果位置倒数的平均;MRR=0.5,意味着检索列表中前2项有相关文档。 Ranki 第i个查询所排的位置。

测度7:NDCG (Normalized discounted cumulative gain)

两个假设 应该把按相关度由小到大的顺序排序 相关度大的文档比相关度小的文档对用户来说应该更重要),相关度大小可以 >1,如取0-7.

Cumulative Gain Cumulative Gain (CG) :位于位置1 到p 的检索结果的相关度之和。 reli 表示第 i 个文档与查询语句的相关度。 特点:未考虑位置,即前p项中两文档交换不影响计算结果。 DCG 则希望改变这个特性。

Discounted Cumulative Gain 基本思想,若搜索算法把相关度高的文档排在后面,则应该给予惩罚。一般用log 函数表示这种惩罚。DCG 的计算如下:

另一种计算公式为:更强调前面的文档重要性。 The function is equivalent to the previous DCG function when the relevance values of documents are binary, i.e., reli {0,1}.

Normalizing DCG 显然,检索结果和具体查询有关,和序列的长度有关。为了规范化,我们把检索结果进行从大到小排序得到理想的输出序列。在这个理想的序列上计算DCG, 得到在位置p 的ideal DCG(IDCG) 。具体计算为:

Example Presented with a list of documents in response to a search query. Each document is to be judged on a scale of 0-3 with 0 meaning irrelevant, 3 meaning completely relevant, and 1 and 2 meaning "somewhere in between". For the documents ordered by the ranking algorithm as D1,D2,D3,D4,D5,D6 the IR system provides the following order list with relevance scores: 3,2,3,0,1,2 That is: document 1 has a relevance of 3, document 2 has a relevance of 2, etc. The Cumulative Gain of this search result listing is:

= 3 +(2+1.887+0+0.431+0.772) = 8.09

To normalize DCG values, an ideal ordering for the given query is: 3,3,2,2,1,0 The DCG of this ideal ordering, or IDCG, is then: IDCG6 = 8.693 And so the nDCG for this query is given as: nDCG6 = DCG6 / IDCG6 = 8.09/8.693= 0.9306

面向用户的测度方法  前述方法,相关文档集合是固定,并且独立于用户。而相关性是一个主观的概念,不同的用户有不同的看法。为此,可以采用面向用户的测度方法。 覆盖率(coverage):实际检出的相关文档中,用户已知的相关文档所占的比例。原理如同查全率。区别是分母是用户自己的估计,而不是公认的数据。 新颖率(novelty): 检出的相关文档中,用户未知的相关文档所占的比例。

Relevant Docs previously unknown to the user which were retrieved |Ru| Relevant Docs |R| Result set A Relevant Docs known to the user |U| The retrieved new docs unknown to users, Ru Relevant Docs known to the user which were retrieved |Rk|

检索结果的多样性(diversity)

续 目前约有17%的文档是语义上非常相似或近似copy. 目前信息检索的相似性只考虑query 与document之间的相似性,而没有考虑收集到文档之间的相似度。使得近似copy的文档输出在一起。 如何使得输出的结果能覆盖多个相关的文档簇,改善检索的覆盖率

图像检索的rerank 首先基于关键词得到输出(可能语义相关文档) 然后再根据图像特征,尽量使得图像统计特征太相似的图像只保存一个

对文本文档检索的多样性 是否可以把文档按不同的主题分簇组织,输出结果从每簇当中均选; 按文档的元数据特征,如时间、长短,地域等进行选择 对收集的文档集合进行clean,去除太相似或copy的文档

测试平台  检索性能的评价指标 测试集 检索性能评价的平台 TREC 中文Web测试集 CWT100g

TREC文献集合(测试集、语料库) 测试文档集合、检索问题集合、答案集合 测试文档集合的语料来源:  Wall Street Journal (华尔街时报) Associated Press(联合通讯社(简称美联社)) US Patents computer Selects, Ziff-Davis Federal Register US DOC Publications (abstracts) …

文档存放格式 <doc> <docno>WSJ880406-0090</docno> <h1>AT&T Unreils Services to Upgrade Phone Networks Under Global Plan</h1> <author>Janet Guyon(WSJ Staff)</author> <text American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad… </text> </doc>

CWT100g的Web文档存放格式 version: 1.0 // 版本号 url: http://www.pku.edu.cn/ // URL origin: http://www.somewhere.cn/ // 原来的URL date: Tue, 15 Apr 2003 08:13:06 GMT // 抓取时间 ip: 162.105.129.12 // IP地址 unzip-length: 30233 // 如果数据经过压缩,则需有此属性 length: 18133 // 数据长度 // 空行 XXXXXXXX // 以下为数据 XXXXXXXX ⋯. XXXXXXXX // 数据结束 // 最后再插入一个空行

信息查询实例(主题) 信息查询实例用自然语言描述 <top>  信息查询实例用自然语言描述  <top> <num> Number: 168</num> <title>Topic: Financing MATRAK <desc> Description>: A document will address the role of the Federal Government in financing the operation of the National Railroad Transportation Corporation (AMTRAK) <narr> Narrative: A relevant document must provide information on the government’s … </top>

各信息查询实例的相关文档集合 采用一种称为 pooling的技术来得到每一信息查询实例的相关文档集合。 pooling技术:针对某一信息查询实例,所有参与检索的系统分别给出各自检索结果中的前k个文档(如k=100),将这些结果文档汇集起来,得到一个可能相关的文档“池”(pool),然后由检索评价专家进行人工判断,最终评判每一文档的相关性。 已有的TREC评价实践表明,该方法产生的结果是准确的。

TREC的评价测度 11点标准查全率下的查准率(曲线或图) 计算给定文档临界值处的平均查准率, 如检出相关文档数为5、10、15、20、30、50、100时的平均查准率。 查准率直方图 概括表统计