信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )
信息检索概念 从大规模的具有非结构化特性 ( 通常是文本 ) 的资料集合 ( 通常保存在计算机上 ) 中找出满足用户信息需求的资料 ( 通常是文档 ) 的一门学科 2 大规模 文档集合 信息需求 查询查询 相关文档列表 信息检索 系统 查找
信息检索概念 文档( Document ) : 指以文本内容为主的信息源, 如纯文本、网页、邮件、论文、专利、图书等 非结构化文档: 指没有清晰和明显结构的文档, 主要是纯文本 半结构化文档: 指带有简单结构表示的文档,如 网页 李甲主页 … … 3
4 信息检索概念 GoogleGoogle Web 一般涉及信息的获取、分 析、组织、存储、比对和 展示
信息检索 vs. 关系数据库 IR 系统 主要用于查询文档 RDB 系统 主要用于查询结构化数据,即记录集合,这 些记录中包含预先定义的语义属性及属性值,如一本书 的作者、标题、出版年份等 5
信息检索 vs. 相关学科 6
信息检索技术的重要性 用户需要信息检索技术: 信息时代的信息量爆炸 式增长、噪音太多,寻找所需要的信息非常不容易 使用搜索引擎 寻找所需要的信息已经成为很多人 的日常行为; 使用专业信息检索系统, 如专利、 法律条文、科技论文等检索系统,则是专业人员的 经常行为 但目前的搜索引擎和专业信息检索系统还不尽 如人意 7
信息检索技术的重要性 公司需要信息检索技术: Yahoo 、 Google 、 Baidu ,还有 Microsoft 、 Sina 、 Sohu 、 Tecent 、 Netease 等都加入到搜索引擎的竞争行列 包含搜索的应用很多: 电子商务 ( 如亚马逊网站、 阿里巴巴 ) 、社交网 ( 微博、 Facebook 、 twitter 、校 内网 ) 、数字图书馆、大规模数据分析等都需要信 息检索技术 搜索是未来操作系统的重要组成部分 8
9 搜索 推荐 挖掘 IR 技术 情报处理 内容安全 舆情分析
信息检索技术的发展历史 ’s: 开始探索使用计算机为一些小规模科技、法律 和商业文献的摘要建立文本检索系统 形成最基本的概念、模型和算法 Salton 教授是奠基人 1980’s: 由公司主导开发大规模文档数据库系统,如 Lexis-Nexis, Dialog, MEDLINE 10
信息检索技术的发展历史 1990’s: 第一个网络搜索工具: 1990 年加拿大 McGill 大 学开发的 FTP 搜索工具 Archie 第一个 WEB 搜索引擎: 1994 年美国 CMU 开发的 Lycos Yahoo 搜索引擎: 1995 斯坦福大学博士生开发 开始进行 IR 软件评测: NIST TREC 推荐系统的出现: Ringo,Amazon 11
信息检索技术的发展历史 2000’s : Google 搜索引擎:斯坦福大学博士生开发,采 用链接分析技术 信息抽取 : Whizbang,Fetch,Burning Glass 问答系统 : TREC Q/A track 跨语言 IR: DARPA Tides 知识图谱的研发和使用 12
基于规模的信息检索分类 个人信息检索: 个人相关文档的搜索,如桌面搜 索 (Desktop Search) ,属小规模 企业级信息检索: 企业内部文档的搜索,行业文 档的搜索等,属中大规模 Web 信息检索: 数万亿网页的搜索,属超大规模。 13
信息检索的基本内容 信息检索原理图 14
信息检索的基本内容 信息检索原理图 15
信息检索的基本内容 文档采集 功能:自动获取有用的文档,用于建立文档库 主要内容: Web 采集器( web crawler ) 文本分析 功能:文档预处理,用于将文档转化成索引词项或 特征 主要内容:词条化、去除停用词、词项归一化、词 干还原和词干归并、链接分析等 16
信息检索的基本内容 索引构建 功能:创建索引数据结构,用于支持快速搜索 主要内容:倒排索引、词典索引、基于块排序的索 引构建、单遍内存式扫描构建、分布式 (MapReduce) 及动态索引构建 索引压缩 功能:对索引数据结构进行压缩表示,用于节省磁 盘空间,提高检索系统效率 主要内容:词项的统计特性 (Heaps 定律、 Zipf 定律 ) 、 词典的压缩、倒排记录表的压缩 17
信息检索的基本内容 检索模型与排序算法 功能:用于判断查询和文档之间的关联性 主要内容:布尔检索模型、向量空间模型、概率检 索模型、 TF-IDF 词项权重计算机制以及基于 TF-IDF 的文档排序算法、概率排序原理、 PageRank 算法、 HITS 算法、基于向量空间模型的 XML 文档排序算法 18
信息检索的基本内容 用户交互 功能:支持用户创建和精化查询,支持检索结果的 展示 主要内容:查询输入、查询变换、相关反馈和伪相 关反馈、查询扩展及重构、检索结果展示等 检索评价 功能:对检索系统的效果和效率进行评价 主要内容:正确率、召回率、 正确率 - 召回率曲线、标准 测试集及评测会议、 用户体验及结果摘要等 19
课程目标 通过本课程的学习,使同学们能够掌握信息检索和 Web 搜索的基本思想和基础知识,包括基本的概念、 原理、模型和算法,并具备一定的信息检索系统和 搜索引擎研发能力 不是教同学们怎么使用信息检索工具,而是了解信 息检索工具背后的基本原理和技术,为今后能够从 事与信息检索和 Web 搜索相关的研发工作打好基础 20
老师介绍 主讲高曙明: 浙江大学应用数学系博士毕业,教授, 博士生导师。现为浙江大学 CAD&CG 国家重点实验 室 CAD 方向学术带头人 办公电话: : 办公地点:紫金港校区图书信息 B 楼 525 室 个人主页: 助教: 秦孝廉,浙大计算机学院研究生
课程基础 数学基础 概率统计 线性代数 计算机基础 算法和数据结构 编程 22
考核方式 平时作业 + 期末考试 ( 开卷 ) 不定期考勤和课堂发言 5% 若干小作业 15% 简单搜索引擎开发(小组项目) 30% 期末考试 50% ( 课堂开卷 ) 具体参考课程网站 23
重要会议 国际会议: SIGIR 、 ACL 、 WWW 、 SIGKDD 、 WSDM 、 ICML CIKM 、 EMNLP 、 COLING TREC 、 NTCIR 评测会议 ECIR 、 AIRS 国内会议: 全国信息检索学术会议 (1 年一届 ) 全国计算语言学联合会议 (2 年一届 ) 搜索引擎和 WEB 挖掘学术会议 (1 年一届,上半年 ) 24
ACM SIGIR ACM :美国计算机学会 SIGIR : special interest group on information retrieval ,特定兴趣组 ACM SIGIR Conference : IR 领域的最重要 会议,起始于 1971 年, 2014 年是第 37 届。 25
重要期刊 国际: ACM Transactions on Information Systems (TOIS) ACM Transactions on Asian Language Information Processing (TALIP) Information Processing & Management (IP&M) Information Retrieval 国内: 中文信息学报 情报学报 26
重要工具 Lemur 、 Indri :包含各种 IR 模型的实验平台, C++ SMART :向量空间模型工具, C 编写 Lucene :开源检索工具, Java 版本受维护,存在各种 语言编写的其他版本 Nutch :开源爬虫, Java 版本 Sphinx :开源检索工具, C++ Larbin :采集工具, C++ 更多: opensource.html opensource.html 27
教材 教材主页: book/ 注意要选第二次印刷的版本, 可以直接上图灵出版社的淘 宝店订购。 网上有英文电子版 ( 对照阅读 ) 28
参考书籍及文献 --1 Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 Electronic version (draft) can be downloaded from csli.stanford.edu/~hinrich/information-retrieval-book.htmlhttp://www- csli.stanford.edu/~hinrich/information-retrieval-book.html B. Croft, D. Metzler, T. Strohman , Search Engine: Information Retrieval in Practice, Pearson Education, 2009 ( 国内机械工业出版社 出版的影印版和中文翻译版 ) 张华平等译. 信息检索:算法与启发式方法. 人民邮电出版社, 2010 Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 ( 国内有机械工业出版社出版的影印版和 中文翻译版 ) 李晓明,闫宏飞,王继民著,搜索引擎 -- 原理、技术与系统,北京: 科学出版社,
参考书籍及文献 --2 李国辉等著,信息的组织与检索,科学出版社, 2003 年 Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999 William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992 Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997 刘挺等著,信息检索系统导论,机械工业出版社, 2008 SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings More resources see: book/information-retrieval.htmlhttp://nlp.stanford.edu/IR- book/information-retrieval.html 30