Lucene检索模型 IR-LAB 胡晓光.

Slides:

Advertisements

Similar presentations

青少年儿童常见伤害的预防. 伤害的定义伤害是指各种物理性、化学性或生物性事件而导致人体发生暂时或永久性损伤、死亡和残疾的一类疾病的总称。

Advertisements

导数导数一、主要内容微分第二章习题课二、典型例题. 求导法则求导法则求导法则求导法则基本公式导数导数高阶导数一、主要内容微分微分微分微分.

飲料備製 ( 作業十 ) 組員 : 9A0M0009 林昆樺 9A0M0026 李元盛 9A0M0031 林殷正 ( 組長 ) 9A0M0046 邱于倫 9A0M0048 林裕嘉 9A0M0054 巫紀樺指導老師 : 葉佳聖.

第一节三怎样实现合理膳食. 饮食与健康探究竟探究竟 1. 根据课本后的部分食物营养成分表（附表一），分组将聪聪和明明一天所吃的食物重量分别换算成糖类、蛋白质、脂肪和钙的重量。聪聪（女 12 岁）明明（男 13 岁）鸡蛋 75g 油条 200g 牛奶 250g.

美丽的鹿城 —— 包头包头简介包头旅游景区包头美食. 包头, 中国内蒙古自治区第一大城市，又称鹿城、草原钢城。随着包头钢铁（集团）有限责任公司和包头稀土研究院的建成与发展，这里又被称作稀土之都。包头稀土研究院包头位于内蒙古自治区中部，东与呼和浩特市相邻，西与巴彦淖尔盟市连接，北与蒙古国接壤.

三信家商「 105 學年度」升學進路暨報名作業說明會教務處實研組教務處實研組日期︰ 104 年 10 月 19 日時間： am 10:00~11:50 地點：教學行政大樓 7F 講堂.

《地方名人文化资源网站的建设与应用研究》. 乐至名人叶镛 KJ09001 乐至县吴仲良中学邓祖明.

中國 (China) 組長 : 葉品宏組員 : 王柏偉、戴瑞賢、張凱奇、曾宏榮、趙方澤組長 : 葉品宏組員 : 王柏偉、戴瑞賢、張凱奇、曾宏榮、趙方澤.

1 网络工程专业 Major of Network Engineering 2009 HeFei 网络工程专业介绍钟伯成合肥学院计算机科学与技术系

第二章资源环境信息系统分析.

如何做一个明白人？罗辑思维51期，俞熹 2015年4月.

郑州新世纪女子医院是一家专业治乳腺疾病的特色专科医院,巨资引进一系列全进口尖端设备，汇集全国著名乳腺病专家及知名乳腺病外科专家组,以"打造专业品牌、创建专科名院"的办院方针，以科学规范防治乳腺病与乳腺癌为重点，以女性身心健康为目标，遵循"敬爱生命"，"亲情、温馨、真诚"的人性化理念服务于患者，提供系统、全面、专业化的医疗服务，构建女人的温馨家园。

第三十七章四环素类与氯霉素类抗生素.

勇闖「卡勒居」學長姐經驗分享(文組).

环科系12级毕业实习动员会－平安、感恩、责任

第6章应收应付款管理.

考点作文十大夺魁技法第28课时写作（二）考点作文十大夺魁技法 6-10 ·新课标.

現在最幸福 (Lee 上) 曹宇.

青岛，一座有故事的城市…… 刘瑞昌青岛理工大学汽车与交通学院 2013年12月.

職安法新挑戰，身心健康促進預防對策台灣員工協助專業協會范淑婷常務監事.

舊石器時代位置: 亞洲大陸東緣，西太平洋弧狀列島一部份背景形成: 兩千多萬年前逐漸隆起，形成島嶼生物: 大角鹿、猛瑪象、亞洲大陸原始人臺東長濱文化苗栗網形文化臺南左鎮人目前臺灣發現最早人類化石代表文化 1.住在海邊洞穴－短期定居小型隊群 2.以採集、狩獵為生 3.使用礫石砍伐器、片器、尖器.

等你知道但以理書4.

债券信用评级简介刘洪芳鹏元资信评估有限公司. 债券信用评级简介刘洪芳鹏元资信评估有限公司.

江苏省灌云高级中学 2009年高考语文专题复习语言表达之图文转换 2017/3/10.

主要内容 1. 利用估值对债券组合估价的优势 2. 如何评估债券估值的合理性 3. 产业债的定价与估值.

中国古代诗歌散文欣赏地点:福建福州报告人:张华娟.

恒泰期货研究所2016年期债暴跌告一段落，短期波动降低国债期货周报

第十二章网络计划技术第一节概述一、网络计划的基本原理

就业指导 · 培训资料大学生就业指导讲座系列毕业生就业流程与手续主讲：董梅 2011年12月.

證道: 我是羊的門，我是好牧人講題:「耶穌說：”I Am”『我是…』」之（四） : 講員: 梁淑英牧師

县域经济现代农业突破之道汪战仓

投資技術分析 (非同步遠距教學課程) 區國强.

合生创展 “八大楼盘联展”活动方案. 合生创展 “八大楼盘联展”活动方案内容一、推广策略二、投放媒体广告创意三、现场活动规划四、活动广告物料创意五、媒介方案.

案例五：发行债券－－中国国际航天科技集团

第二章股票市场第三章证券投资工具 ----债券股票概述股票的发行与流通

信用评级机构 ——标准普尔 ——穆迪 ——惠誉王也张幻宇韦永芳

小组成员杨云、王雯、曾明发刘凤、祝会、陈丹凤.

第3讲　无产阶级革命家.

第三章企业资信评估第一节企业资信评估概述一、企业资信评估的含义

第11章金融风险及其防范 11.1 金融风险概述 金融风险的含义

105年推甄及登記分發說明會教務處註冊組課務組.

第五章证券发行市场第一节证券发行市场的构成与发行方式第二节证券发行的条件与程序第三节证券发行定价第四节证券信用评级.

第2课古代手工业的进步课标：列举古代中国手工业发展的基本史实，认识古代中国手工业发展的特征.

复习 1. 注意最值与极值的区别. 最值是整体概念而极值是局部概念. 极大值可能小于极小值,极小值可能大于极大值.

中国的富饶之地 —东北.

。星。星。の。承。諾。 6年15班　7號　張靖旋作者：不明.

复习 1. 微分中值定理的条件、结论及关系费马引理拉格朗日中值定理罗尔定理柯西中值定理 2. 微分中值定理的应用关键:

第21章信息检索概述利用项进行相关性排名利用超链接的相关性同义词, 多义词, 本体文档的索引检索有效性度量 Web抓取和索引

北京汉邦高科数字技术股份有限公司 2015年年报交流.

財務管理 E組周玉蔻林宥瑩倪健育葉欣蓁白貢帆林聖峰蔡政華

重点难点参考文献教学目标一、中央集权国家的建立二、秦始皇巩固统一的措施三、统一的多民族封建国家的形成练习与思考.

Chapter 5 利率的風險結構與期間結構. Chapter 5 利率的風險結構與期間結構.

A1 “奔腾少年” 学校生活本刊第001期本刊共 28 版出版人：刘雨清 2014年6月1日星期日五月初四甲午年己巳月癸卯日.

自然科教學觀摩教學者：黃藍萩教學班級：3年9班教學日期：

Financing PPP PPP项目融资以印度为例普拉蒂普·辛格

Python Final Project Hello Idol

第17章网站测试与发布在网页制作完成后，就要进入最后一个环节——网站的测试与发布。Dreamweaver CS4具有网站测试与发布的功能，可以对网站的浏览器兼容性、链接进行检查，还可以清理HTML标签，并将本地站点上传到服务器上。

指導老師:蘇明俊組員: 陳柔安潘依蓮張壹凱

薪資保密或公開? 第十一組組員： 4970L064 丁妤芳 4970L071 林鈺雯 4970L045 王思婉 4970L003 何思穎

上市公司信用風險評估蔡東松協理中華信用評等公司 90 年 5 月 29 日

白城师范学院经济管理系成本会计学制作：吴威名.

指導老師：邱登裕老師組員：B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真

團隊介紹活動動機前言活動目的【畢業典禮的意義】為什麼要有畢業典禮？每個階段性的里程碑畢業典禮：凝聚向心力，聯繫學校的情感。

讀人 Auto Play with Music From : TF

共現索引典之自動建構、評估與應用前言相關之研究關鍵詞自動擷取關聯詞自動擷取應用範例成效評估結語曾元顯輔仁大學圖書資訊學系

（注意）表示的飽和度、亮度是基準值。因為色頻的關係，有可能有所調整。

教材计划管理模块注意要点：教师自编讲义，出版社设置为自编讲义，由学院负责发给学生；

教師檔案系統資料如何填寫？如何對應教師評鑑共同基準？.

Presentation transcript:

Lucene检索模型 IR-LAB 胡晓光

检索模型检索模型是一个四元组[D, Q, F, R(qi, dj)] D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框架(Frame) R(qi, dj): 给query qi 和document dj评分

空间向量模型把索引中的每个词作为空间的一个维度把每一篇文档作为空间中的一个向量把每一个查询也作为空间中的一个向量通过计算文档和查询的内积或余弦等来表示文档和查询的相关程度

余弦相似度计算

词项的权重根据词项在文档( tf)和文档集( idf)中的频率(frequency)计算词项的权重 tf(i , j) = 词项j在文档i中的频率 df( j ) = 词项j的文档频率= 包含词项j的文档数量 idf( j ) = 词项j的反文档频率= log2( N/ dfj)

词项的权重文档中词项的权重查询中词项的权重 w i,j= tf i,j * idf i 其中tf i,j可以先归一化处理 tfi,j = tfi,j / maxk tf k,j 查询中词项的权重 Salton and Buckley推荐公式 wi,q = (0.5 + 0.5*tfi,q/maxk tfk,q) * idfi

TermQuery TermQuery为Lucene支持的最简单的查询方式 Query为一个关键词Term TermQuery的计算公式 score = sqrt(freq) * idf * boost * norm idf = ln(maxDoc/(docFreq + 1) )+ 1.0 norm = fieldboost / sqrt(fieldlength) 结论其中的idf和boost值与文档无关不影响排名排名因子 sqrt(freq) * fieldboost / sqrt(fieldlength) fieldboost人为赋予的经验值默认值都为1.0 此时lucene按照单位长度的文档包含的关键词个数freq/fieldlength来排列相关文档

BooleanQuery BooleanQuery是一种复合式的Query 支持多种不同Query的逻辑组合 BooleanQuery例子＋俄罗斯恐怖事件－美国＋（俄罗斯美国) 恐怖事件可以对不同的query赋予不同的boost值表示该query在整个BooleanQuery中的重要程度例如: 俄罗斯3.0 恐怖2.0 事件1.0

BooleanQuery分值计算计算查询的querynorm 计算每个查询的Term和匹配文档的分值对每篇匹配文档计算总得分 querynorm = boost / sqrt(∑i idfi*idfi*boosti*boosti) 计算每个查询的Term和匹配文档的分值 weight = queryWeight * fieldWeight; queryWeight = boost * idf * querynorm; fieldWeight = tf * idf * fieldnorm; 对每篇匹配文档计算总得分 score = coord * (∑i weight i ) coord = 匹配词项数/总词项数

BooleanQuery计算公式整理可得计算公式如下 scorej = coordj*∑i(boost i*idf i*tfi,j*idf i*fieldnorm) / sqrt(∑i (idf i *idf i *boost i *boost i)) fieldnorm = fieldboost / sqrt(fieldlength) 其中sqrt(∑i (idf i *idf i *boost i *boost i))和文档无关，不会影响文档的排名

Lucene检索模型标准向量空间模型一种简化的空间向量模型文档中词项的权重查询中词项的权重 w i,j = tfi,j*idf i wi,q = boost q*idf q 标准向量空间模型一种简化的空间向量模型文档中词项的权重 w i,j = tfi,j*idf i 查询中词项的权重 wi,q = boost q*idf q 文档向量模∣ dj∣≈sqrt(fieldlength) ∣ dj∣≈sqrt(fieldlength)

逻辑操作对分值计算的影响 Lucene支持的逻辑操作例子对于强制符号+ 和－会首先对匹配结果进行过滤去除不符合条件的文档＋俄罗斯恐怖事件－美国＋（俄罗斯美国) 恐怖事件对于强制符号+ 和－会首先对匹配结果进行过滤去除不符合条件的文档然后对剩下的文档根据和每个关键词的相关程度计算得分

Lucene检索实例有三篇文本内容如下按照缺省方式建索引 fieldboost = 1.0 aaa.txt: bbb.txt: You are a student. He is a student. bbb.txt: I am a student. ccc.txt: Lee is a student.He comes from China. 按照缺省方式建索引 fieldboost = 1.0 根据公式fieldnorm = fieldboost / sqrt(fieldlength) 首先可算得fieldnorm分别为 0.3125，0.5，0.3125 注意 norm在实现时只用了1个字节表示故误差较大

Lucene检索实例现在输入查询 student 计算每篇文档分值可得计算结果如下文档 docFreq idf freq norm score = sqrt(freq) * idf * boost * norm idf = ln(maxDoc/(docFreq + 1) )+ 1.0 可得计算结果如下文档 docFreq idf freq norm score aaa 3 0.7123 2 0.3125 0.3148 bbb 1 0.5 0.3561 ccc 0.2225

Lucene检索实例输入多个关键词 student china 可得计算结果如下文档 student china coord score scorej = coordj*∑i(boost i*idf i*tfi,j*idfi*fieldnorm) / sqrt(∑i (idf i *idf i *boost i *boost i)) 可得计算结果如下文档 queryNorm student china coord score aaa 0.6346 0.1423 0.0 0.5 0.0711 bbb 0.1610 0.0805 ccc 0.1006 0.3917 1.0 0.4923

Any Question?