Lucene检索模型 IR-LAB 胡晓光.

Slides:



Advertisements
Similar presentations
青少年儿童常见伤害的预防. 伤害的定义 伤害是指各种物理性、化学性或生物性 事件而导致人体发生暂时或永久性损 伤、死亡和残疾的一类疾病的总称。
Advertisements

导数 导数 一、主要内容 微分 第二章 习题课 二、典型例题. 求 导 法 则求 导 法 则 求 导 法 则求 导 法 则 基本公式 导 数 导 数 高阶导数 一、主要内容 微 分微 分 微 分微 分.
飲料備製 ( 作業十 ) 組員 : 9A0M0009 林昆樺 9A0M0026 李元盛 9A0M0031 林殷正 ( 組長 ) 9A0M0046 邱于倫 9A0M0048 林裕嘉 9A0M0054 巫紀樺 指導老師 : 葉佳聖.
第一节三 怎样实现合理膳食. 饮食与健康 探 究 竟探 究 竟 1. 根据课本后的部分食物营养成分表(附表一),分组将聪聪和明明一天所吃的 食物重量分别换算成糖类、蛋白质、脂肪和钙的重量。 聪聪(女 12 岁)明明(男 13 岁) 鸡 蛋 75g 油 条 200g 牛 奶 250g.
美丽的鹿城 —— 包头 包头简介 包头旅游景区 包头美食. 包 头, 中国内蒙古自治区第一大城市,又称鹿城、草原钢城。 随着包头钢铁(集团)有限责任公司和包头稀土研究院的建成与 发展,这里又被称作稀土之都。 包头稀土研究院 包 头位于内蒙古自治区中部,东与呼和浩特市相邻,西与巴彦 淖尔盟市连接 ,北与蒙古国接壤.
三信家商「 105 學年度」 升學進路暨報名作業說明會 教務處實研組 教務處 實研組 日期︰ 104 年 10 月 19 日 時間: am 10:00~11:50 地點:教學行政大樓 7F 講堂.
《地方名人文化资源网站的建设与应用研究》. 乐至名人 叶 镛 KJ09001 乐至县吴仲良中学 邓祖明.
中國 (China) 組長 : 葉品宏 組員 : 王柏偉、戴瑞賢、張凱奇、 曾宏榮、趙方澤 組長 : 葉品宏 組員 : 王柏偉、戴瑞賢、張凱奇、 曾宏榮、趙方澤.
1 网络工程专业 Major of Network Engineering 2009 HeFei 网络工程专业介绍 钟伯成 合肥学院 计算机科学与技术系
第二章 资源环境信息系统分析.
如何做一个明白人? 罗辑思维51期, 俞熹 2015年4月.
郑州新世纪女子医院是一家专业治乳腺疾病的特色专科医院,巨资引进一系列全进口尖端设备,汇集全国著名乳腺病专家及知名乳腺病外科专家组,以"打造专业品牌、创建专科名院"的办院方针,以科学规范防治乳腺病与乳腺癌为重点,以女性身心健康为目标,遵循"敬爱生命","亲情、温馨、真诚"的人性化理念服务于患者,提供系统、全面、专业化的医疗服务,构建女人的温馨家园。
第三十七章 四环素类与氯霉素类抗生素.
勇闖「卡勒居」 學長姐經驗分享(文組).
环科系12级毕业实习动员会 -平安、感恩、责任
第6章 应收应付款管理.
考点作文十大夺魁技法 第28课时 写作(二) 考点作文十大夺魁技法 6-10 ·新课标.
現在最幸福 (Lee 上) 曹宇.
青岛, 一座有故事的城市…… 刘瑞昌 青岛理工大学汽车与交通学院 2013年12月.
職安法新挑戰,身心健康促進 預防對策 台灣員工協助專業協會 范淑婷 常務監事.
舊石器時代 位置: 亞洲大陸東緣,西太平洋弧狀列島一部份 背景 形成: 兩千多萬年前逐漸隆起,形成島嶼 生物: 大角鹿、猛瑪象、亞洲大陸原始人 臺東 長濱文化 苗栗 網形文化 臺南 左鎮人目前臺灣發現最早人類化石 代表 文化 1.住在海邊洞穴-短期定居小型隊群 2.以採集、狩獵為生 3.使用礫石砍伐器、片器、尖器.
等你知道 但以理書4.
债券信用评级简介 刘洪芳 鹏元资信评估有限公司. 债券信用评级简介 刘洪芳 鹏元资信评估有限公司.
江苏省灌云高级中学 2009年高考语文专题复习 语言表达之图文转换 2017/3/10.
主要内容 1. 利用估值对债券组合估价的优势 2. 如何评估债券估值的合理性 3. 产业债的定价与估值.
中国古代诗歌散文欣赏 地点:福建福州 报告人:张华娟.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
第十二章 网络计划技术 第一节 概述 一、网络计划的基本原理
就业指导 · 培训资料 大学生就业指导讲座系列 毕业生就业流程与手续 主讲:董梅 2011年12月.
證道: 我是羊的門,我是好牧人 講題:「耶穌說:”I Am”『我是…』」之(四) : 講員: 梁淑英牧師
县域经济现代农业突破之道 汪战仓
投資技術分析 (非同步遠距教學課程) 區國强.
合生创展 “八大楼盘联展”活动方案. 合生创展 “八大楼盘联展”活动方案 内 容 一、推广策略 二、投放媒体广告创意 三、现场活动规划 四、活动广告物料创意 五、媒介方案.
案例五:发行债券 --中国国际航天科技集团
第二章 股票市场 第三章 证券投资工具 ----债券 股票概述 股票的发行与流通
信用评级机构 ——标准普尔 ——穆迪 ——惠誉 王也 张幻宇 韦永芳
小组成员 杨云、王雯、曾明发 刘凤、祝会、陈丹凤.
第3讲 无产阶级革命家.
第三章 企业资信评估 第一节 企业资信评估概述 一、企业资信评估的含义
第11章 金融风险及其防范 11.1 金融风险概述 金融风险的含义
105年推甄及登記分發說明會 教務處 註冊組課務組.
第五章 证券发行市场 第一节 证券发行市场的构成与发行方式 第二节 证券发行的条件与程序 第三节 证券发行定价 第四节 证券信用评级.
第2课 古代手工业的进步 课标:列举古代中国手工业发展的基本史实,认识古代中国手工业发展的特征.
复习 1. 注意最值与极值的区别. 最值是整体概念而极值是局部概念. 极大值可能小于极小值,极小值可能大于极大值.
中国的富饶之地 —东北.
。星。星。の。承。諾。 6年15班 7號 張靖旋 作者:不明.
复习 1. 微分中值定理的条件、结论及关系 费马引理 拉格朗日中值定理 罗尔定理 柯西中值定理 2. 微分中值定理的应用 关键:
第21章 信息检索 概述 利用项进行相关性排名 利用超链接的相关性 同义词, 多义词, 本体 文档的索引 检索有效性度量 Web抓取和索引
北京汉邦高科数字技术股份有限公司 2015年年报交流.
財務管理 E組 周玉蔻 林宥瑩 倪健育葉欣蓁 白貢帆 林聖峰蔡政華
重点难点 参考文献 教学目标 一、中央集权国家的建立 二、秦始皇巩固统一的措施 三、统一的多民族封建国家的形成 练习与思考.
Chapter 5 利率的風險結構與期間結構. Chapter 5 利率的風險結構與期間結構.
A1 “奔腾少年” 学校生活 本刊第001期 本刊共 28 版 出版人:刘雨清 2014年6月1日 星期日 五月初四 甲午年 己巳月 癸卯日.
自然科教學觀摩 教 學 者:黃藍萩 教學班級:3年9班 教學日期:
Financing PPP PPP项目融资 以印度为例 普拉蒂普·辛格
Python Final Project Hello Idol
第17章 网站测试与发布 在网页制作完成后,就要进入最后一个环节——网站 的测试与发布。Dreamweaver CS4具有网站测试与发 布的功能,可以对网站的浏览器兼容性、链接进行检 查,还可以清理HTML标签,并将本地站点上传到服务 器上。
指導老師:蘇明俊 組員: 陳柔安 潘依蓮 張壹凱
薪資保密或公開? 第十一組 組員: 4970L064 丁妤芳 4970L071 林鈺雯 4970L045 王思婉 4970L003 何思穎
上市公司信用風險評估 蔡東松 協理 中華信用評等公司 90 年 5 月 29 日
綠色能源.
使徒行傳.
白城师范学院经济管理系 成 本 会 计 学 制作:吴威名.
指導老師:邱登裕老師 組員:B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真
團隊介紹 活動動機 前言 活動目的 【畢業典禮的意義】 為什麼要有畢業典禮? 每個階段性的里程碑 畢業典禮:凝聚向心力,聯繫學校的情感。
讀人 Auto Play with Music From : TF
共現索引典之自動建構、評估與應用 前言 相關之研究 關鍵詞自動擷取 關聯詞自動擷取 應用範例 成效評估 結語 曾元顯 輔仁大學圖書資訊學系
(注意)表示的飽和度、亮度是基準值。因為色頻的關係,有可能有所調整。
教材计划管理模块 注意要点: 教师自编讲义,出版社设置为自编讲义,由学院负责发给学生;
教師檔案系統資料如何填寫? 如何對應教師評鑑共同基準?.
Presentation transcript:

Lucene检索模型 IR-LAB 胡晓光

检索模型 检索模型是一个四元组[D, Q, F, R(qi, dj)] D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框架(Frame) R(qi, dj): 给query qi 和document dj评分

空间向量模型 把索引中的每个词作为空间的一个维度 把每一篇文档作为空间中的一个向量 把每一个查询也作为空间中的一个向量 通过计算文档和查询的内积或余弦等来表示文档和查询的相关程度

余弦相似度计算

词项的权重 根据词项在文档( tf)和文档集( idf)中的频率(frequency)计算词项的权重 tf(i , j) = 词项j在文档i中的频率 df( j ) = 词项j的文档频率= 包含词项j的文档数量 idf( j ) = 词项j的反文档频率= log2( N/ dfj)

词项的权重 文档中词项的权重 查询中词项的权重 w i,j= tf i,j * idf i 其中tf i,j可以先归一化处理 tfi,j = tfi,j / maxk tf k,j 查询中词项的权重 Salton and Buckley推荐公式 wi,q = (0.5 + 0.5*tfi,q/maxk tfk,q) * idfi

TermQuery TermQuery为Lucene支持的最简单的查询方式 Query为一个关键词Term TermQuery的计算公式 score = sqrt(freq) * idf * boost * norm idf = ln(maxDoc/(docFreq + 1) )+ 1.0 norm = fieldboost / sqrt(fieldlength) 结论 其中的idf和boost值与文档无关 不影响排名 排名因子 sqrt(freq) * fieldboost / sqrt(fieldlength) fieldboost人为赋予的经验值 默认值都为1.0 此时lucene按照单位长度的文档包含的关键词个数freq/fieldlength来排列相关文档

BooleanQuery BooleanQuery是一种复合式的Query 支持多种不同Query的逻辑组合 BooleanQuery例子 +俄罗斯 恐怖 事件 -美国 +(俄罗斯 美国) 恐怖 事件 可以对不同的query赋予不同的boost值表示该query在整个BooleanQuery中的重要程度 例如: 俄罗斯3.0 恐怖2.0 事件1.0

BooleanQuery分值计算 计算查询的querynorm 计算每个查询的Term和匹配文档的分值 对每篇匹配文档计算总得分 querynorm = boost / sqrt(∑i idfi*idfi*boosti*boosti) 计算每个查询的Term和匹配文档的分值 weight = queryWeight * fieldWeight; queryWeight = boost * idf * querynorm; fieldWeight = tf * idf * fieldnorm; 对每篇匹配文档计算总得分 score = coord * (∑i weight i ) coord = 匹配词项数/总词项数

BooleanQuery计算公式 整理可得计算公式如下 scorej = coordj*∑i(boost i*idf i*tfi,j*idf i*fieldnorm) / sqrt(∑i (idf i *idf i *boost i *boost i)) fieldnorm = fieldboost / sqrt(fieldlength) 其中sqrt(∑i (idf i *idf i *boost i *boost i))和文档无关,不会影响文档的排名

Lucene检索模型 标准向量空间模型 一种简化的空间向量模型 文档中词项的权重 查询中词项的权重 w i,j = tfi,j*idf i wi,q = boost q*idf q 标准向量空间模型 一种简化的空间向量模型 文档中词项的权重 w i,j = tfi,j*idf i 查询中词项的权重 wi,q = boost q*idf q 文档向量模∣ dj∣≈sqrt(fieldlength) ∣ dj∣≈sqrt(fieldlength)

逻辑操作对分值计算的影响 Lucene支持的逻辑操作例子 对于强制符号+ 和-会首先对匹配结果进行过滤去除不符合条件的文档 +俄罗斯 恐怖 事件 -美国 +(俄罗斯 美国) 恐怖 事件 对于强制符号+ 和-会首先对匹配结果进行过滤去除不符合条件的文档 然后对剩下的文档根据和每个关键词的相关程度计算得分

Lucene检索实例 有三篇文本 内容如下 按照缺省方式建索引 fieldboost = 1.0 aaa.txt: bbb.txt: You are a student. He is a student. bbb.txt: I am a student. ccc.txt: Lee is a student.He comes from China. 按照缺省方式建索引 fieldboost = 1.0 根据公式fieldnorm = fieldboost / sqrt(fieldlength) 首先可算得fieldnorm分别为 0.3125,0.5,0.3125 注意 norm在实现时只用了1个字节表示 故误差较大

Lucene检索实例 现在输入查询 student 计算每篇文档分值 可得计算结果如下 文档 docFreq idf freq norm score = sqrt(freq) * idf * boost * norm idf = ln(maxDoc/(docFreq + 1) )+ 1.0 可得计算结果如下 文档 docFreq idf freq norm score aaa 3 0.7123 2 0.3125 0.3148 bbb 1 0.5 0.3561 ccc 0.2225

Lucene检索实例 输入多个关键词 student china 可得计算结果如下 文档 student china coord score scorej = coordj*∑i(boost i*idf i*tfi,j*idfi*fieldnorm) / sqrt(∑i (idf i *idf i *boost i *boost i)) 可得计算结果如下 文档 queryNorm student china coord score aaa 0.6346 0.1423 0.0 0.5 0.0711 bbb 0.1610 0.0805 ccc 0.1006 0.3917 1.0 0.4923

Any Question?