Presentation is loading. Please wait.

Presentation is loading. Please wait.

信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )

Similar presentations


Presentation on theme: "信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )"— Presentation transcript:

1 信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( http://ir.ict.ac.cn/~wangbin )

2 信息检索概念  从大规模的具有非结构化特性 ( 通常是文本 ) 的资料集合 ( 通常保存在计算机上 ) 中找出满足用户信息需求的资料 ( 通常是文档 ) 的一门学科 2 大规模 文档集合 信息需求 查询查询 相关文档列表 信息检索 系统 查找

3 信息检索概念  文档( Document ) : 指以文本内容为主的信息源, 如纯文本、网页、邮件、论文、专利、图书等  非结构化文档: 指没有清晰和明显结构的文档, 主要是纯文本  半结构化文档: 指带有简单结构表示的文档,如 网页 李甲主页 … … 3

4 4 信息检索概念 GoogleGoogle Web 一般涉及信息的获取、分 析、组织、存储、比对和 展示

5 信息检索 vs. 关系数据库  IR 系统 主要用于查询文档  RDB 系统 主要用于查询结构化数据,即记录集合,这 些记录中包含预先定义的语义属性及属性值,如一本书 的作者、标题、出版年份等 5

6 信息检索 vs. 相关学科 6

7 信息检索技术的重要性  用户需要信息检索技术: 信息时代的信息量爆炸 式增长、噪音太多,寻找所需要的信息非常不容易  使用搜索引擎 寻找所需要的信息已经成为很多人 的日常行为; 使用专业信息检索系统, 如专利、 法律条文、科技论文等检索系统,则是专业人员的 经常行为  但目前的搜索引擎和专业信息检索系统还不尽 如人意 7

8 信息检索技术的重要性  公司需要信息检索技术: Yahoo 、 Google 、 Baidu ,还有 Microsoft 、 Sina 、 Sohu 、 Tecent 、 Netease 等都加入到搜索引擎的竞争行列  包含搜索的应用很多: 电子商务 ( 如亚马逊网站、 阿里巴巴 ) 、社交网 ( 微博、 Facebook 、 twitter 、校 内网 ) 、数字图书馆、大规模数据分析等都需要信 息检索技术  搜索是未来操作系统的重要组成部分 8

9 9 搜索 推荐 挖掘 IR 技术 情报处理 内容安全 舆情分析

10 信息检索技术的发展历史  1960-70’s: 开始探索使用计算机为一些小规模科技、法律 和商业文献的摘要建立文本检索系统 形成最基本的概念、模型和算法 Salton 教授是奠基人  1980’s: 由公司主导开发大规模文档数据库系统,如 Lexis-Nexis, Dialog, MEDLINE 10

11 信息检索技术的发展历史  1990’s: 第一个网络搜索工具: 1990 年加拿大 McGill 大 学开发的 FTP 搜索工具 Archie 第一个 WEB 搜索引擎: 1994 年美国 CMU 开发的 Lycos Yahoo 搜索引擎: 1995 斯坦福大学博士生开发 开始进行 IR 软件评测: NIST TREC 推荐系统的出现: Ringo,Amazon 11

12 信息检索技术的发展历史  2000’s : Google 搜索引擎:斯坦福大学博士生开发,采 用链接分析技术 信息抽取 : Whizbang,Fetch,Burning Glass 问答系统 : TREC Q/A track 跨语言 IR: DARPA Tides 知识图谱的研发和使用 12

13 基于规模的信息检索分类  个人信息检索: 个人相关文档的搜索,如桌面搜 索 (Desktop Search) ,属小规模  企业级信息检索: 企业内部文档的搜索,行业文 档的搜索等,属中大规模  Web 信息检索: 数万亿网页的搜索,属超大规模。 13

14 信息检索的基本内容  信息检索原理图 14

15 信息检索的基本内容  信息检索原理图 15

16 信息检索的基本内容  文档采集 功能:自动获取有用的文档,用于建立文档库 主要内容: Web 采集器( web crawler )  文本分析 功能:文档预处理,用于将文档转化成索引词项或 特征 主要内容:词条化、去除停用词、词项归一化、词 干还原和词干归并、链接分析等 16

17 信息检索的基本内容  索引构建 功能:创建索引数据结构,用于支持快速搜索 主要内容:倒排索引、词典索引、基于块排序的索 引构建、单遍内存式扫描构建、分布式 (MapReduce) 及动态索引构建  索引压缩 功能:对索引数据结构进行压缩表示,用于节省磁 盘空间,提高检索系统效率 主要内容:词项的统计特性 (Heaps 定律、 Zipf 定律 ) 、 词典的压缩、倒排记录表的压缩 17

18 信息检索的基本内容  检索模型与排序算法 功能:用于判断查询和文档之间的关联性 主要内容:布尔检索模型、向量空间模型、概率检 索模型、 TF-IDF 词项权重计算机制以及基于 TF-IDF 的文档排序算法、概率排序原理、 PageRank 算法、 HITS 算法、基于向量空间模型的 XML 文档排序算法 18

19 信息检索的基本内容  用户交互 功能:支持用户创建和精化查询,支持检索结果的 展示 主要内容:查询输入、查询变换、相关反馈和伪相 关反馈、查询扩展及重构、检索结果展示等  检索评价 功能:对检索系统的效果和效率进行评价 主要内容:正确率、召回率、 正确率 - 召回率曲线、标准 测试集及评测会议、 用户体验及结果摘要等 19

20 课程目标  通过本课程的学习,使同学们能够掌握信息检索和 Web 搜索的基本思想和基础知识,包括基本的概念、 原理、模型和算法,并具备一定的信息检索系统和 搜索引擎研发能力  不是教同学们怎么使用信息检索工具,而是了解信 息检索工具背后的基本原理和技术,为今后能够从 事与信息检索和 Web 搜索相关的研发工作打好基础 20

21 老师介绍  主讲高曙明: 浙江大学应用数学系博士毕业,教授, 博士生导师。现为浙江大学 CAD&CG 国家重点实验 室 CAD 方向学术带头人 办公电话: 88206081-514 Email : smgao@cad.zju.edu.cn 办公地点:紫金港校区图书信息 B 楼 525 室 个人主页: http://mypage.zju.edu.cn/smgao http://mypage.zju.edu.cn/smgao  助教: 秦孝廉,浙大计算机学院研究生 qqz003@163.com, 18368035135 qqz003@163.com,

22 课程基础  数学基础 概率统计 线性代数  计算机基础 算法和数据结构 编程 22

23 考核方式  平时作业 + 期末考试 ( 开卷 ) 不定期考勤和课堂发言 5% 若干小作业 15% 简单搜索引擎开发(小组项目) 30% 期末考试 50% ( 课堂开卷 ) 具体参考课程网站 http://www.cad.zju.edu.cn/home/smgao/IR 23

24 重要会议  国际会议: SIGIR 、 ACL 、 WWW 、 SIGKDD 、 WSDM 、 ICML CIKM 、 EMNLP 、 COLING TREC 、 NTCIR 评测会议 ECIR 、 AIRS  国内会议: 全国信息检索学术会议 (1 年一届 ) 全国计算语言学联合会议 (2 年一届 ) 搜索引擎和 WEB 挖掘学术会议 (1 年一届,上半年 ) 24

25 ACM SIGIR  ACM :美国计算机学会  SIGIR : special interest group on information retrieval ,特定兴趣组  ACM SIGIR Conference : IR 领域的最重要 会议,起始于 1971 年, 2014 年是第 37 届。 25

26 重要期刊  国际: ACM Transactions on Information Systems (TOIS) ACM Transactions on Asian Language Information Processing (TALIP) Information Processing & Management (IP&M) Information Retrieval  国内: 中文信息学报 情报学报 26

27 重要工具  Lemur 、 Indri :包含各种 IR 模型的实验平台, C++  SMART :向量空间模型工具, C 编写  Lucene :开源检索工具, Java 版本受维护,存在各种 语言编写的其他版本  Nutch :开源爬虫, Java 版本  Sphinx :开源检索工具, C++  Larbin :采集工具, C++  更多: http://www.searchtools.com/tools/tools- opensource.html http://www.searchtools.com/tools/tools- opensource.html 27

28 教材  教材主页: http://ir.ict.ac.cn/~wangbin/iir- book/  注意要选第二次印刷的版本, 可以直接上图灵出版社的淘 宝店订购。  网上有英文电子版 ( 对照阅读 ) http://nlp.stanford.edu/IR-book/ 28

29 参考书籍及文献 --1  Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 Electronic version (draft) can be downloaded from http://www- csli.stanford.edu/~hinrich/information-retrieval-book.htmlhttp://www- csli.stanford.edu/~hinrich/information-retrieval-book.html  B. Croft, D. Metzler, T. Strohman , Search Engine: Information Retrieval in Practice, Pearson Education, 2009 ( 国内机械工业出版社 出版的影印版和中文翻译版 )  张华平等译. 信息检索:算法与启发式方法. 人民邮电出版社, 2010  Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 ( 国内有机械工业出版社出版的影印版和 中文翻译版 )  李晓明,闫宏飞,王继民著,搜索引擎 -- 原理、技术与系统,北京: 科学出版社, 2005 29

30 参考书籍及文献 --2  李国辉等著,信息的组织与检索,科学出版社, 2003 年  Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999  William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992  Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997  刘挺等著,信息检索系统导论,机械工业出版社, 2008  SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings  More resources see: http://nlp.stanford.edu/IR- book/information-retrieval.htmlhttp://nlp.stanford.edu/IR- book/information-retrieval.html 30


Download ppt "信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )"

Similar presentations


Ads by Google