InfoMall数据检索服务的设计以及全文检索系统的初步实现

Slides:

Advertisements

Similar presentations

第二章中国的自然环境地理组王铁塔. §2.1 地形和地势学习目标： 1 、知道我国主要的地形、山脉的名称及山脉走向的概念。 2 、通过阅读统计图表，总结我国山区面积广大的地形特征。 3 、了解山区开发、利用的有利条件和不利条件。考试要求： 1 、了解我国地形复杂多样，山区面积广大的特征。

Advertisements

偵辦侵害營業秘密犯罪之執行情形法務部調查局. 一、前言 ( 一 )102 年 1 月 30 日公告施行營業秘密法 ( 一 )102 年 1 月 30 日公告施行營業秘密法修正案，增加侵害營業秘密之刑事修正案，增加侵害營業秘密之刑事責任，對於意圖在境外使用而竊取責任，對於意圖在境外使用而竊取.

国家税务总局关于修改企业所得税年度纳税申报表（ A 类， 2014 年版）部分申报表的公告（国家税务总局公告 2016 年第 3 号）一、对《企业基础信息表》（ A ）及填报说明修改如下：（一） “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”

2014 年 12 月企业所得税年度纳税申报表 (A 类， 2014 版 ) 辅导材料（二） A 企业基础信息 A 主表.

1 計量技術人員考訓制度. 2 簡報大綱計量考訓制度簡介應考須知說明考試範圍內容、題型及配分權重.

高级服务器设计和实现 1 —— 基础与进阶余锋

传媒学生应该如何度过四年大学生活？. 进入大学一个多月了，用一个词形容大学生活自卑感不适应空虚感被动感孤独感失望感一、大学新生不适应大学生活的表现：

徐州工业职业技术学院. 人才市场需求 2013 年我国安全类专业统计表学历层次专业名称专业代码毕业生数招生数在校生数开设学校数本科安全工程专科安全技术管理中专 0000.

景观水池渗漏的研究年级专业：12级土木工程指导教师： ××× 教学点： ××××教学点新疆工程学院继续教育学院 20 年月日

上海九晶电子材料股份有限公司招聘简章.

政府採購錯誤行為態樣報告人：張錦川日　期：96年7月.

現代中國議題: 「一帶一路」.

2015年广东省有色金属学会铝加工专业委员会工作总结

学党章党规、学系列讲话，做合格党员学习教育

2009年周口市公共机构高效照明产品推介会

工程定额与计价方法教材名称：工程建设定额原理与实务

卫生处理单位安全质量检查考核评分表释义刘云凯天津出入境检验检疫局 2007年5月.

信息检索中效率问题的研究报告人：赵江华北京大学计算机科学与技术系网络与分布式系统实验室 2002年4月21日.

SQL的简单查询.

政府採購法規概要報告人：杜國正行政院公共工程委員會企劃處.

阳光工程引导性培训宁夏自治区盐池县农广校

採購法規概要報告人：臺北市政府法規委員會編審陳世超土木技師高考及格結構技師高考及格公務人員高考及格國立中興大學土木工程碩士

《毛泽东思想和中国特色社会主义体系概论》第一章马克思主义中国化两大理论成果

運輸安全白皮書（Ⅲ）軌道安全篇主辦單位：運輸安全組.

之魔析妖鬼解怪大沈家仪小组出品.

微博红人：留几手.

招投标知识培训培训人：日期：2011年04月08日西安翼舞时风数码科技有限公司.

採購法規概要報告人：臺北市政府法規委員會編審陳世超土木技師高考及格結構技師高考及格公務人員高考及格國立中興大學土木工程碩士

『兩岸四地－校園節能文化推廣』座談會 2008年1月26日澳門大學校園管理總監宋傑堯.

低碳生活，从小事做起编辑人：刘瑞兴指导老师：麦文燕吴霞编辑地址;岭南师范学院附属中学编辑时间：

中国教科文卫体工会全国委员会陈志标（2012年5月9日，中山大学）

中国Web信息博物(Infomall) 十年来资源维护和保存

第九章长期资产及摊销 2017/3/21.

俄语字母的发音体系阅读规则.

东宝大厦简介及服务特色.

滨海学坛周刊总第13期 2012年10月22日本期编辑：李秀青温州滨海学校教科室主办.

质量管理刘春霞

项目申报及投资推进工作实务更多模板、视频教程：兰溪市发展和改革局 2013年9月 1.

商品学高学芹.

財物及勞務採購作業程序及注意事項報告人劉麗琴

Hadoop I/O By ShiChaojie.

Chinese Virtual Observatory

SOA – Experiment 3: Web Services Composition Challenge

大学计算机基础典型案例之一构建FPT服务器.

第17章网站发布.

数据挖掘工具性能比较.

DevDays ’99 The aim of this mission is knowledge..

第3章信息与信息系统陈恭和.

SOA – Experiment 2: Query Classification Web Service

编程作业3：网页正文抽取（10分）.

C语言程序设计主讲教师：陆幼利.

第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.

資料庫系統李翊豪 2017/12/21 Reference

如何查询论文的收录号？.

VisComposer 2019/4/17.

Cassandra应用及高性能客户端董亚军来自Newegg-NESC.

本讲内容 SQL 概述 SQL 的查询功能 SQL 的操作功能 SQL 的定义功能.

2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统北京爱琴海乐之技术有限公司.

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

Web安全基础教程

中国农业科学院博士后学术论坛博士后基金申请的经验及体会中国农业科学院生物技术研究所秦华博士

国家学生体质健康标准数据管理与分析系统使用培训

基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

方案假設因果連結 (如果…就會…) 將問題情況轉變為所需服務確保方案的合理性利於方案評估例：青少年墮胎

基于列存储的RDF数据管理朱敏

插入排序的正确性证明以及各种改进方法.

Presentation transcript:

InfoMall数据检索服务的设计以及全文检索系统的初步实现杨志丰 1、Infomall的问题 2、解决模型 3、服务原语 4、服务系统组成 5、全文索引系统结构 6、索引构建流程 7、压缩算法 8、实验结果 9、本文贡献 10、谢谢

InfoMall万维网信息博物馆中国万维网历史信息的存储和展示系统维护2001年以来从中国万维网上搜集的近12亿篇网页（约20TeraByte）以每月1000万的速度增长

现有服务及问题目前提供三种服务局限根据URL检索历史网页提供人工整理的历史事件专题回放免费提供网页和日志数据整理历史事件专题需要大量的人工工作只能获得某个时间段搜集的全部网页，且免费数据的获取需要很多人工维护工作

InfoMall数据检索服务目的 InfoMall数据检索服务整合现有服务通过统一的数据访问接口，提供更加丰富，更加自动和便利的数据服务 InfoMall数据检索服务提供以InfoMall历史网页文档为核心数据，以内容、空间、时间为查询纬度的，面向高层应用的客户服务器体系结构的数据检索服务。

“三维”的数据模型

检索服务原语 Augmented BNF 语法定义（部分摘录如下）例子 <query> = “select” <data-type> “from” <data-repository> “where” 1*<conditions> [“max” <maximum-item-number>] <conditions> = <content-condition> / <time-condition> / <location-condition> 例子 select Web-pages from http://search.infomall.cn:1234 where content contains 民主 time between 1997-02 to 2005-02 location at GEO: 150000 location at URL: *.gov.cn” <time>的表示采用国际标准ISO8601[7]中定义的时间日期的表示格式。这种格式兼顾了可读性和机器处理的方便性。例如，2000年1月30日8点30分59秒可以表示为”2000-01-30 08:30:59”。 <URL>为RFC1738[10]规定的统一资源定位符。地区编码<region-code>采用中国国家标准GB2260-84[11]规定的中国地区编码。这样可以借助标准化数据带来的好处为客户提供统一灵活的服务。例如，150000代表内蒙古自治区，152700代表内蒙古自治区伊克昭盟，152701代表内蒙古自治区伊克昭盟东胜市。

系统组成

全文检索系统 4260+1500 lines

索引构建流程（1）从文档源取得文档（2）对文档进行分词得到<DocID, Term, Positions>三元组（3）查看词典，把新出现的索引词合并到词典中，得到<DocID, TermID, Positions> （4）当<DocID, TermID, Positions>三元组的数量恰好填满内存时，对整个三元组集合执行快速排序（5）使用“游程编码”处理递增排序的三元组，然后编码压缩，输出到临时顺串文件（run file）（6）对所有顺串文件执行多路归并，结果输出为最终索引文件（7）将最终得到的词典存入文件

索引压缩目的方法减少索引数据空间提高索引构建的速度第一步，游程编码，也就是把递增整数序列变换为差分序列（原来相邻整数之间的增量序列）第二步，采用某种编码方法对整数进行编码

编码方法统计方法字典方法哈夫曼编码（Huffman coding）算术编码（arithmetic coding）特定分布的ad-hoc编码 Unary Code (Pr[x]=2-x ) Delta Code Golomb Code 字典方法 Ziv-Lempel编码

实验结果

本文贡献设计了一个服务：如何利用宝贵的历史网页数据提供公共信息服务以充分发挥信息作为研究工作基础设施的作用设计和实现了全文索引系统：重点讨论了利用压缩技术减少全文索引的倒排文件索引的大小，为海量历史网页数据的检索服务提供现实可行的基础设施保障

谢谢！