检索评价第三章.

Slides:

Advertisements

Similar presentations

第五节函数的微分一、微分的定义二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分形式不变性五、微分在近似计算中的应用六、小结.

Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

练一练：在数轴上画出表示下列各数的点，并指出这些点相互间的关系： -6 ， 6 ， -3 ， 3 ， -1.5, 1.5.

复习：：对任意的x∈A，都有x∈B。集合A与集合B间的关系 A(B) A B ：存在x0∈A，但x0∈B。 A B A B.

杨宇航百度社区技术部推荐技术在百度UGC产品中的应用杨宇航百度社区技术部

第三章数据类型和数据操作对海量数据进行有效的处理、存储和管理 3.1 数据类型数据源数据量数据结构

US Dollar Index 聚金财富金融研究中心研究员：罗晨.

孟德尔的豌豆杂交实验（一）豌豆杂交实验为什么这么成功？豌豆是自花传粉、闭花受粉植物；人工异花传粉有易于区分的性状。

不确定度的传递与合成间接测量结果不确定度的评估

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

2-7、函数的微分教学要求教学要点.

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

初中数学八年级下册（苏科版） 10.4 探索三角形相似的条件（2）.

C++中的声音处理在传统Turbo C环境中，如果想用C语言控制电脑发声，可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为： Beep(频率,持续时间) , 单位毫秒暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒引用这两个函数时，必须包含头文件

Signals and Systems Lecture 28

Introduction To Mean Shift

信息检索 Information Retrieval (IR)

信息检索的评价哈工大计算机学院信息检索研究室 2007.

SOA – Experiment 3: Web Services Composition Challenge

李杰首都经济贸易大学安全与环境工程学院个人主页：

走进编程程序的顺序结构（二）.

Lexicographical order VS canonical order

第一讲: 基本流程（1）.

以ISI平台为例，为您演示一下如何在Endnote文献中查看该文献的References

第十章方差分析.

数据挖掘工具性能比较.

绿色圃中小学教育网比例比例的意义绿色圃中小学教育网

WSDM见闻程龚.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

SOA – Experiment 2: Query Classification Web Service

编程作业3：网页正文抽取（10分）.

C语言程序设计主讲教师：陆幼利.

顺序表的删除.

Date: 2012/05/14 Source: Bo Zhao et. al (CIKM’11)

概率统计主讲教师叶宏山东大学数学院.

Three stability circuits analysis with TINA-TI

线性代数厦门大学线性代数教学组 2019年4月24日6时8分 / 45.

VB与Access数据库的连接.

2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统北京爱琴海乐之技术有限公司.

项目二：HTML语言基础.

Lightweight Data-flow Analysis for Execution-driven Constraint Solving

实体描述呈现方法的研究实验评估 2019/5/1.

Web安全基础教程

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

§6.7 子空间的直和一、直和的定义二、直和的判定三、多个子空间的直和.

3.16 枚举算法及其程序实现 ——数组的作用.

第五节缓冲溶液pH值的计算两种物质的性质浓度 pH值共轭酸碱对间的质子传递平衡可用通式表示如下： HB+H2O ⇌ H3O++B-

一测定气体分子速率分布的实验实验装置金属蒸汽显示屏狭缝接抽气泵.

第4课时绝对值.

多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

分数再认识三真假带分数的练习课.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

正弦、余弦函数的性质华容一中伍立华 2017年2月24日.

§2 方阵的特征值与特征向量.

基于列存储的RDF数据管理朱敏

VB与Access数据库的连接.

本底对汞原子第一激发能测量的影响钱振宇

第十七讲密码执行(1).

插入排序的正确性证明以及各种改进方法.

§4.5 最大公因式的矩阵求法（ Ⅱ ）.

其解亦可表为向量形式.

第二次课后作业答案函数式编程和逻辑式编程

§2 自由代数定义19.7:设X是集合，G是一个T-代数，为X到G的函数,若对每个T-代数A和X到A的函数，都存在唯一的G到A的同态映射,使得=，则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变， 变 变， 也变对给定的 和A，是唯一的.

Simulink National Tsing Hua University

学习目标 1、什么是列类型 2、列类型之数值类型.

Presentation transcript:

检索评价第三章

检索评测基础检索评测基础: 建立在测试参考集和一定的评价测度基础之上。检索策略的评价检索评测基础: 建立在测试参考集和一定的评价测度基础之上。测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的一组相关文档（由专家提供）所组成。检索策略的评价对一个给定检索策略S，对每个信息查询实例，评测由S检出的结果集合与由专家提供的相关文档集之间的相似性，量化这一指标。

检索性能评价评价的类型实验室评价和真实环境评价，两者不同。有时，结果出入也较大。由于在实验室封闭环境下的评价具有可重复性，目前仍是主流。还有对交互查询进行评测，需要考查界面的设计、系统引导、会话持续时间等因素。

测度1：查全率和查准率对某个测试参考集,信息查询实例为I，I对应的相关文档集合为R。假设用某个检索策略对I进行处理后，得到一个结果集合A。令Ra表示R与A的交集。 Ra 查全率(Recall)：检出的相关文档个数与相关文档集合总数的比值，即R=|Ra| / |R| 查准率(Precision)：检出的相关文档个数与检出文档总数的比值，即P=|Ra| / |A| R A

测度2： F1 值 F1 标准则综合了精度和查全率，将两者赋予同样的重要性来考虑。F1的计算由下面的公式决定

F1 值的其他说法调和平均值调和平均数定义为：数值倒数的平均数的倒数。其数值恒小于算术平均数。计算查准率p和查全率r的调和平均数作为度量指标。F的取值在[0,1]。

测度3：查准率/查全率曲线由于用户的查看是逐条进行相关性检查。故此，常用查准率/查全率曲线作为评价指标。 11点标准查全率下的查准率曲线，计算查全率分别为(0%,10%, 20%,…, 100%)下的查准率。即利用查全率，限制一下文档数，以此计算查准率。这种方法实质上考虑了输出元素的顺序。

Example Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38 d48 d250 d113 d3* 对查询q,专家判定的相关文档集合为 Rq = {d3,d5,d9,d25, d39,d44,d56,d71, d89,d123}. |Rq|=10. 假设某一检索算法对查询q，输出如右列的检索结果此时,查全率Recall=5/10，查准率 Precision=5/15。还可以看到：对应查全率为10%时的查准率为100%；对应查全率为20%时的查准率为66%；。。。。。对应查全率为60%时的查准率降为0。图示如下

Ranking for query q: d123* d84 d56* d6 d8 d9* d511 d129 d187 d25* d38

多个查询下的查准率/查全率曲线，可通过计算其平均查准率得到，公式如下(Nq为查询的数量) P(r) 是指查全率为r时的平均查准率, pi(r)指查全率为r时的第i个查询的查准率 .

由于每个查询的查全率值不一定就是这11个标准查全率，因此需要对查准率进行插补。如上例中，若Rq只含有3个文档 Rq = {d3, d56, d129}. 此时，如何计算11点标准查全率呢？(查全率1/3,2/3,1} 设rj{j=0,1,2,…,10}为第j个标准查全率的一个参量（如r3是查全率为30%的参量），则：即第j个标准查全率水平的查准率是介于第j个和第j+1个查全率之间任意一个查全率所对应的查准率的最大值。

Rq = {d3, d56, d129} Ranking for query q: d123* d84 d56* d6 d8 d9* 检出d56, |A| = 3, 0.33, 检出2个， |A| = 8，2/8= 0.25，检出d3, |A| = 15; 3/15= 0.2

多个查询下进行检索算法的比较对多个查询，进行平均，有时该曲线也称为：查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。第一个检索算法在低查全率下，其查准率较高。另一个检索算法在高查全率下，其查准率较高两个不同算法的平均查全率/查准率

另一种方法是：计算给定文档临界值处的平均查准率。如检出相关文档数为:5、10、15、20、30、50、100时的平均查准率。目前平均查准/查全率的值已经成为信息检索系统的一项标准评价指标。它能对整个结果集的质量和检索算法的适用范围进行量化评价，因此非常有效。

测度4： R-查准率 R-查准率 p@10 （目前Web信息检索中最常用的测度）,最常用语检查网页排序算法的好坏。 R=10, R-查准率=4/10; R=3, R-查准率=1/3, R-查准率显示了对检索结果排序的重要性.

测度5：查准率直方图用于快速比较两个检索算法的性能。方法：在多个查询下，分别计算每一查询下的R-查准率，计算其差值，并用直方图表示。具体地：用RPA(i)和RPB(i) 分别表示使用检索算法A和检索算法B检索第i个查询时得到的R-查准率，它们之间的差值： RPA-B(i)=RPA(i)-RPB(i)

查准率直方图假设10个查询的查准率直方图。（在8个查询中检索算法A好于算法B的性能）假设十个查询的查询直方图.

意义: RPA/B(i) >0 时, 算法A(对第i个查询)比算法B好,反之B (对第i个查询)好.

测度6： E测度指标思想：允许用户指出他更关心查准率或查全率 b=1, E= F； b>1表明用户对更查全率感兴趣（由于r/b2的值更小，相对地，P的值变大） b <1, 用户对查全率更感

其他测度 MPOS (n个查询对应的第1个相关结果的平均出现位置，Mean Position of the first relevant result)：所有查询的第一个相关结果位置的平均； MRR (第1个相关结果位置的倒数平均，Mean Reciprocal Ranking)：所有查询的第一个相关结果位置倒数的平均；MRR=0.5,意味着检索列表中前2项有相关文档。 Ranki 第i个查询所排的位置。

测度7：NDCG (Normalized discounted cumulative gain)

两个假设应该把按相关度由小到大的顺序排序相关度大的文档比相关度小的文档对用户来说应该更重要）,相关度大小可以 >1,如取0-7.

Cumulative Gain Cumulative Gain (CG) ：位于位置1 到p 的检索结果的相关度之和。 reli 表示第 i 个文档与查询语句的相关度。特点：未考虑位置，即前p项中两文档交换不影响计算结果。 DCG 则希望改变这个特性。

Discounted Cumulative Gain 基本思想，若搜索算法把相关度高的文档排在后面，则应该给予惩罚。一般用log 函数表示这种惩罚。DCG 的计算如下：

另一种计算公式为：更强调前面的文档重要性。 The function is equivalent to the previous DCG function when the relevance values of documents are binary, i.e., reli {0,1}.

Normalizing DCG 显然，检索结果和具体查询有关，和序列的长度有关。为了规范化，我们把检索结果进行从大到小排序得到理想的输出序列。在这个理想的序列上计算DCG, 得到在位置p 的ideal DCG（IDCG) 。具体计算为：

Example Presented with a list of documents in response to a search query. Each document is to be judged on a scale of 0-3 with 0 meaning irrelevant, 3 meaning completely relevant, and 1 and 2 meaning "somewhere in between". For the documents ordered by the ranking algorithm as D1,D2,D3,D4,D5,D6 the IR system provides the following order list with relevance scores: 3,2,3,0,1,2 That is: document 1 has a relevance of 3, document 2 has a relevance of 2, etc. The Cumulative Gain of this search result listing is:

= 3 +(2+1.887+0+0.431+0.772) = 8.09

To normalize DCG values, an ideal ordering for the given query is: 3,3,2,2,1,0 The DCG of this ideal ordering, or IDCG, is then: IDCG6 = 8.693 And so the nDCG for this query is given as: nDCG6 = DCG6 / IDCG6 = 8.09/8.693= 0.9306

面向用户的测度方法前述方法，相关文档集合是固定，并且独立于用户。而相关性是一个主观的概念，不同的用户有不同的看法。为此，可以采用面向用户的测度方法。覆盖率(coverage)：实际检出的相关文档中，用户已知的相关文档所占的比例。原理如同查全率。区别是分母是用户自己的估计，而不是公认的数据。新颖率(novelty)：检出的相关文档中，用户未知的相关文档所占的比例。

Relevant Docs previously unknown to the user which were retrieved |Ru| Relevant Docs |R| Result set A Relevant Docs known to the user |U| The retrieved new docs unknown to users， Ru Relevant Docs known to the user which were retrieved |Rk|

检索结果的多样性（diversity）

续目前约有17%的文档是语义上非常相似或近似copy. 目前信息检索的相似性只考虑query 与document之间的相似性，而没有考虑收集到文档之间的相似度。使得近似copy的文档输出在一起。如何使得输出的结果能覆盖多个相关的文档簇，改善检索的覆盖率

图像检索的rerank 首先基于关键词得到输出（可能语义相关文档）然后再根据图像特征，尽量使得图像统计特征太相似的图像只保存一个

对文本文档检索的多样性是否可以把文档按不同的主题分簇组织，输出结果从每簇当中均选；按文档的元数据特征，如时间、长短，地域等进行选择对收集的文档集合进行clean，去除太相似或copy的文档

测试平台检索性能的评价指标测试集检索性能评价的平台 TREC 中文Web测试集 CWT100g

TREC文献集合（测试集、语料库）测试文档集合、检索问题集合、答案集合测试文档集合的语料来源: Wall Street Journal (华尔街时报) Associated Press（联合通讯社(简称美联社)） US Patents computer Selects, Ziff-Davis Federal Register US DOC Publications (abstracts) …

文档存放格式 <doc> <docno>WSJ880406-0090</docno> <h1>AT&T Unreils Services to Upgrade Phone Networks Under Global Plan</h1> <author>Janet Guyon(WSJ Staff)</author> <text American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad… </text> </doc>

CWT100g的Web文档存放格式 version: 1.0 // 版本号 url: http://www.pku.edu.cn/ // URL origin: http://www.somewhere.cn/ // 原来的URL date: Tue, 15 Apr 2003 08:13:06 GMT // 抓取时间 ip: 162.105.129.12 // IP地址 unzip-length: 30233 // 如果数据经过压缩，则需有此属性 length: 18133 // 数据长度 // 空行 XXXXXXXX // 以下为数据 XXXXXXXX ⋯. XXXXXXXX // 数据结束 // 最后再插入一个空行

信息查询实例（主题）信息查询实例用自然语言描述 <top> 信息查询实例用自然语言描述 <top> <num> Number: 168</num> <title>Topic: Financing MATRAK <desc> Description>: A document will address the role of the Federal Government in financing the operation of the National Railroad Transportation Corporation (AMTRAK) <narr> Narrative: A relevant document must provide information on the government’s … </top>

各信息查询实例的相关文档集合采用一种称为 pooling的技术来得到每一信息查询实例的相关文档集合。 pooling技术：针对某一信息查询实例，所有参与检索的系统分别给出各自检索结果中的前k个文档（如k=100），将这些结果文档汇集起来，得到一个可能相关的文档“池”（pool），然后由检索评价专家进行人工判断，最终评判每一文档的相关性。已有的TREC评价实践表明，该方法产生的结果是准确的。

TREC的评价测度 11点标准查全率下的查准率（曲线或图）计算给定文档临界值处的平均查准率，如检出相关文档数为5、10、15、20、30、50、100时的平均查准率。查准率直方图概括表统计