InfoMall数据检索服务的设计以及全文检索系统的初步实现

Slides:



Advertisements
Similar presentations
第二章 中国的自然环境 地理组 王铁塔. §2.1 地形和地势 学习目标: 1 、 知道我国主要的地形、山脉的名称及山脉 走向的概念。 2 、通过阅读统计图表,总结我国山区面积广大的地 形特征。 3 、了解山区开发、利用的有利条件和不利条件 。 考试要求: 1 、了解我国地形复杂多样,山区面积广大的特征。
Advertisements

偵辦侵害營業秘密犯罪之執行情形 法務部調查局. 一、前言 ( 一 )102 年 1 月 30 日公告施行營業秘密法 ( 一 )102 年 1 月 30 日公告施行營業秘密法 修正案,增加侵害營業秘密之刑事 修正案,增加侵害營業秘密之刑事 責任,對於意圖在境外使用而竊取 責任,對於意圖在境外使用而竊取.
国家税务总局关于修改企业所得税年度纳税申报表( A 类, 2014 年版) 部分申报表的公告(国家税务总局公告 2016 年第 3 号) 一、对《企业基础信息表》( A )及填报说明修改如下: (一) “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”
2014 年 12 月 企业所得税年度纳税申报表 (A 类, 2014 版 ) 辅导材料(二) A 企业基础信息 A 主表.
1 計量技術人員考訓制度. 2 簡 報 大 綱 計量考訓制度簡介 應考須知說明 考試範圍內容、題型及配分權重.
高级服务器设计和实现 1 —— 基础与进阶 余锋
传媒学生应该如何度 过四年大学生活?. 进入大学一个多月了,用一个词形容大 学生活 自卑感 不适应 空虚感 被动感 孤独感 失望感 一、大学新生不适应大学生活的表现:
徐州工业职业技术学院. 人才市场需求 2013 年我国安全类专业统计表 学历层次专业名称专业代码毕业生数招生数在校生数开设学校数 本科 安全工程 专科 安全技术管理 中专 0000.
景观水池渗漏的研究 年级专业:12级土木工程 指导教师: ××× 教 学 点: ××××教学点 新疆工程学院继续教育学院 20 年 月 日
上海九晶电子材料股份有限公司 招聘简章.
政府採購錯誤行為態樣 報告人:張錦川 日 期:96年7月.
現代中國 議題: 「一帶一路」.
2015年广东省有色金属学会铝加工专业委员会工作总结
学党章党规、学系列讲话,做合格党员 学习教育
2009年周口市公共机构高效照明产品推介会
工程定额与计价方法 教材名称:工程建设定额原理与实务
卫生处理单位安全质量检查考核评分表释义 刘 云 凯 天津出入境检验检疫局 2007年5月.
信息检索中效率问题的研究 报告人:赵江华 北京大学计算机科学与技术系 网络与分布式系统实验室 2002年4月21日.
SQL的简单查询.
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
阳光工程引导性培训 宁夏自治区盐池县农广校
採購法規概要 報告人:臺北市政府法規委員會 編審 陳世超 土木技師高考及格 結構技師高考及格 公務人員高考及格 國立中興大學土木工程碩士
《毛泽东思想和中国特色社会主义体系概论》 第一章马克思主义中国化两大理论成果
運輸安全白皮書(Ⅲ) 軌道安全篇 主辦單位:運輸安全組.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
微博红人:留几手.
招投标知识培训 培训人: 日期:2011年04月08日 西安翼舞时风数码科技有限公司.
採購法規概要 報告人:臺北市政府法規委員會 編審 陳世超 土木技師高考及格 結構技師高考及格 公務人員高考及格 國立中興大學土木工程碩士
『兩岸四地- 校園節能文化推廣』 座談會 2008年1月26日 澳門大學 校園管理總監 宋傑堯.
低碳生活,从小事做起 编辑人:刘瑞兴 指导老师:麦文燕 吴霞 编辑地址;岭南师范学院附属中学 编辑时间:
中国教科文卫体工会全国委员会 陈志标 (2012年5月9日,中山大学)
中国Web信息博物(Infomall) 十年来资源维护和保存
第九章 长期资产及摊销 2017/3/21.
俄语字母的发音体系 阅读规则.
东宝大厦简介及服务特色.
滨海学坛 周刊 总第13期 2012年10月22日 本期编辑:李秀青 温州滨海学校教科室主办.
质量管理 刘春霞
项目申报及投资推进工作实务 更多模板、视频教程: 兰溪市发展和改革局 2013年9月 1.
商品学 高学芹.
財物及勞務採購作業程序及注意事項 報告人 劉麗琴
Hadoop I/O By ShiChaojie.
Chinese Virtual Observatory
存储系统.
SOA – Experiment 3: Web Services Composition Challenge
大学计算机基础 典型案例之一 构建FPT服务器.
SQL Injection.
第17章 网站发布.
数据挖掘工具性能比较.
DevDays ’99 The aim of this mission is knowledge..
第3章 信息与信息系统 陈恭和.
SOA – Experiment 2: Query Classification Web Service
编程作业3:网页正文抽取 (10分).
C语言程序设计 主讲教师:陆幼利.
第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.
資料庫系統 李翊豪 2017/12/21 Reference
如何查询论文的收录号?.
VisComposer 2019/4/17.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
本讲内容 SQL 概述 SQL 的查询功能 SQL 的操作功能 SQL 的定义功能.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Web安全基础教程
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
国家学生体质健康标准数据管理与分析系统使用培训
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
方案假設 因果連結 (如果…就會…) 將問題情況轉變為所需服務 確保方案的合理性 利於方案評估 例:青少年墮胎
基于列存储的RDF数据管理 朱敏
插入排序的正确性证明 以及各种改进方法.

Presentation transcript:

InfoMall数据检索服务的设计以及全文检索系统的初步实现 杨志丰 1、Infomall的问题 2、解决模型 3、服务原语 4、服务系统组成 5、全文索引系统结构 6、索引构建流程 7、压缩算法 8、实验结果 9、本文贡献 10、谢谢

InfoMall万维网信息博物馆 中国万维网历史信息的存储和展示系统 维护2001年以来从中国万维网上搜集的近12亿篇网页(约20TeraByte) 以每月1000万的速度增长

现有服务及问题 目前提供三种服务 局限 根据URL检索历史网页 提供人工整理的历史事件专题回放 免费提供网页和日志数据 整理历史事件专题需要大量的人工工作 只能获得某个时间段搜集的全部网页,且免费数据的获取需要很多人工维护工作

InfoMall数据检索服务 目的 InfoMall数据检索服务 整合现有服务 通过统一的数据访问接口,提供更加丰富,更加自动和便利的数据服务 InfoMall数据检索服务 提供以InfoMall历史网页文档为核心数据,以内容、空间、时间为查询纬度的,面向高层应用的客户服务器体系结构的数据检索服务。

“三维”的数据模型

检索服务原语 Augmented BNF 语法定义(部分摘录如下) 例子 <query> = “select” <data-type> “from” <data-repository> “where” 1*<conditions> [“max” <maximum-item-number>] <conditions> = <content-condition> / <time-condition> / <location-condition> 例子 select Web-pages from http://search.infomall.cn:1234 where content contains 民主 time between 1997-02 to 2005-02 location at GEO: 150000 location at URL: *.gov.cn” <time>的表示采用国际标准ISO8601[7]中定义的时间日期的表示格式。这种格式兼顾了可读性和机器处理的方便性。例如,2000年1月30日8点30分59秒可以表示为”2000-01-30 08:30:59”。 <URL>为RFC1738[10]规定的统一资源定位符。 地区编码<region-code>采用中国国家标准GB2260-84[11]规定的中国地区编码。这样可以借助标准化数据带来的好处为客户提供统一灵活的服务。例如,150000代表内蒙古自治区,152700代表内蒙古自治区伊克昭盟,152701代表内蒙古自治区伊克昭盟东胜市。

系统组成

全文检索系统 4260+1500 lines

索引构建流程 (1)从文档源取得文档 (2)对文档进行分词得到<DocID, Term, Positions>三元组 (3)查看词典,把新出现的索引词合并到词典中,得到<DocID, TermID, Positions> (4)当<DocID, TermID, Positions>三元组的数量恰好填满内存时,对整个三元组集合执行快速排序 (5)使用“游程编码”处理递增排序的三元组,然后编码压缩,输出到临时顺串文件(run file) (6)对所有顺串文件执行多路归并,结果输出为最终索引文件 (7)将最终得到的词典存入文件

索引压缩 目的 方法 减少索引数据空间 提高索引构建的速度 第一步,游程编码,也就是把递增整数序列变换为差分序列(原来相邻整数之间的增量序列) 第二步,采用某种编码方法对整数进行编码

编码方法 统计方法 字典方法 哈夫曼编码(Huffman coding) 算术编码(arithmetic coding) 特定分布的ad-hoc编码 Unary Code (Pr[x]=2-x ) Delta Code Golomb Code 字典方法 Ziv-Lempel编码

实验结果

本文贡献 设计了一个服务:如何利用宝贵的历史网页数据提供公共信息服务以充分发挥信息作为研究工作基础设施的作用 设计和实现了全文索引系统:重点讨论了利用压缩技术减少全文索引的倒排文件索引的大小,为海量历史网页数据的检索服务提供现实可行的基础设施保障

谢谢!