信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )

Slides:



Advertisements
Similar presentations
食品安全 行政院長 : 江宜樺. 目錄 1. 什麼油能吃? 2. 椰子油 3. 牛油事件 4. 豬油事件篇 5. 解決問題 6. 心得.
Advertisements

第十六週:個資外洩與資訊安全 國 立 高 雄 餐 旅 學 院 餐飲管理系 副教授 劉聰仁博士 編撰.
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
退休規劃之應用與實例討論退休規劃之應用與實例討論 誠心誠意 從聽做起. 長壽的趨勢 有人說生是偶然、意外也是偶然 但是老是必然 ……….. 您同意嗎 ? 又有人說老一點都不可怕,病也不可怕 老又病也不可怕 但是 …… 又老又病又沒錢才可怕 所以一定要規劃退休養老、投資理財.
陆铭 mingler.ccshu.org 第四讲 WEB检索研究(WEB IR) 陆铭 mingler.ccshu.org.
Renmin University of China School of Information Spring, 2009
主管不管 員工才會變聰明 組員: 黃彥碩    林宏澤    徐淞穎    張智翔.
如何準備社工師考試 講 師:張雅惠 社工師 演講日期:
信息技术组 因特网信息的查找.
第一章 会计信息系统 第一节 计算机会计概述.
研究所升學考試 準備策略 蘇武楨.
資訊科技挑戰獎勵計劃 樂善堂梁銶琚學校 6A(06)陳芷蘊 中華白海豚. 資訊科技挑戰獎勵計劃 樂善堂梁銶琚學校 6A(06)陳芷蘊 中華白海豚.
“台北旅遊網”專案報告 報告單位:台北市政府交通局 日期:94年3月21日.
搜索引擎的使用技巧.
報告題目:遊戲交易平台 二技資管三甲 1A 張永成 1A 賴嘉宏 1A 郭俊佑
框架结构下重点考点解析 必修二中国经济史 南师附中 张倩.
保良局何壽南小學 使用牙膏對我們生活的影響 六年級專題報告 姓名﹕李燊樺 班別﹕6B 日期﹕
乞丐有尊严吗? 广州白云机场有一乞丐在行乞时,有一个乘客鄙夷的将施舍的钱用力的扔在乞丐的脸上,该乞丐不满这种施舍态度,认为有伤他的自尊,他说:宁可饿死、冻死也不需要这种施舍。) 说一说: 根据这件事,许多网友发表了评论,请你以“乞丐有尊严吗”加入网评。
中國歷史人物武則天 G組組員 韋紫恩, 余詩琪 蔡煦齡, 黃榮紳,.
从“阿拉伯之春” 看新媒体的政治传播能力.
一年级家长学校第一课 与孩子共同成长.
第八章 了解法律制度 自觉遵守法律.
人工智能 Artificial Intelligence 第十一章
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
柯皓仁 國立臺灣師範大學圖書館、圖書資訊學研究所
日本体贴入微的服务业.
海南省琼州学院:胡爱民 联系QQ: 搜索引擎概述          海南省琼州学院:胡爱民    联系QQ:
因特网信息的查找 学习目标 了解搜索引擎的不同分类 利用搜索引擎有效地获取信息.
第21章 信息检索 概述 利用项进行相关性排名 利用超链接的相关性 同义词, 多义词, 本体 文档的索引 检索有效性度量 Web抓取和索引
班級:觀光一B 姓名:李詩涵 座號: 18 指導老師:杜光玉
關愛 親情無價 關愛無價.
關鍵字廣告工具、 搜尋引擎最佳化、 損益表實例
ACM简介及使用指南.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Department of Computer Science & Information Engineering
Cloud Computing(雲端運算) 技術的現況與應用
信息检索的评价 哈工大计算机学院 信息检索研究室 2007.
现代信息检索 Modern Information Retrieval
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚.
北極熊 華德學校 田根繩.
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
语文专题课 执教者: 平望二中 黄小林 视频.
信息素养知识 信息素养系列讲座第1讲: 主讲人:赵建庆 (中北校区) 电 话:
厦门大学《高等代数》课程组 国家精品课程 《高等代数》建设情况汇报.
API文档分析 张静宣 大连理工大学 2017年11月3日.
暑期活动见闻 程龚.
Facebook 内部高效工作指南
電子商務安全 Secure Electronic Commerce
資訊概論 授課教師 : 吳寂絹
第六章 社群與人脈經營- Facebook與Google+ 課前指引
培生电子教材使用说明 外国教材中心 2014年5月.
電子公文系統 操作暨設定說明.
瀕臨絕種—北極熊 設計者:吳柏曦 班別:5B1 學校:華德學校.
  Google    雲端技術   曹晉翊 | 陳正偉 | 施泓銘 | 郭軒志 | 王士豪.
Chapter8 搜尋引擎之使用 網路應用入門(一) Chapter8 搜尋引擎之使用
康河畔 最深情的溫柔      再別康橋.
ACM Digital Library 進階利用與實作 郭珮琪主講
第8章 Agent系统 8.1 Agent的概念 8.2 Agent的结构 8.3 Agent实例─Web Agent
如何使用均一教育平台: 給家長、老師與家教看的說明
目 录: 一、网络存储系统的登录 二、网络存储系统的基本使用 三、学生提交作业功能的使用 四、教师开放资源功能的使用.
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
第8章 Agent系统 8.1 Agent的概念 8.2 Agent的结构 8.3 Agent实例─Web Agent
共現索引典之自動建構、評估與應用 前言 相關之研究 關鍵詞自動擷取 關聯詞自動擷取 應用範例 成效評估 結語 曾元顯 輔仁大學圖書資訊學系
老厝老街老心情……. 一起尋找老街人文的感動 組員:家榕、瑞旂、子寧、琪芬
Presentation transcript:

信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )

信息检索概念  从大规模的具有非结构化特性 ( 通常是文本 ) 的资料集合 ( 通常保存在计算机上 ) 中找出满足用户信息需求的资料 ( 通常是文档 ) 的一门学科 2 大规模 文档集合 信息需求 查询查询 相关文档列表 信息检索 系统 查找

信息检索概念  文档( Document ) : 指以文本内容为主的信息源, 如纯文本、网页、邮件、论文、专利、图书等  非结构化文档: 指没有清晰和明显结构的文档, 主要是纯文本  半结构化文档: 指带有简单结构表示的文档,如 网页 李甲主页 … … 3

4 信息检索概念 GoogleGoogle Web 一般涉及信息的获取、分 析、组织、存储、比对和 展示

信息检索 vs. 关系数据库  IR 系统 主要用于查询文档  RDB 系统 主要用于查询结构化数据,即记录集合,这 些记录中包含预先定义的语义属性及属性值,如一本书 的作者、标题、出版年份等 5

信息检索 vs. 相关学科 6

信息检索技术的重要性  用户需要信息检索技术: 信息时代的信息量爆炸 式增长、噪音太多,寻找所需要的信息非常不容易  使用搜索引擎 寻找所需要的信息已经成为很多人 的日常行为; 使用专业信息检索系统, 如专利、 法律条文、科技论文等检索系统,则是专业人员的 经常行为  但目前的搜索引擎和专业信息检索系统还不尽 如人意 7

信息检索技术的重要性  公司需要信息检索技术: Yahoo 、 Google 、 Baidu ,还有 Microsoft 、 Sina 、 Sohu 、 Tecent 、 Netease 等都加入到搜索引擎的竞争行列  包含搜索的应用很多: 电子商务 ( 如亚马逊网站、 阿里巴巴 ) 、社交网 ( 微博、 Facebook 、 twitter 、校 内网 ) 、数字图书馆、大规模数据分析等都需要信 息检索技术  搜索是未来操作系统的重要组成部分 8

9 搜索 推荐 挖掘 IR 技术 情报处理 内容安全 舆情分析

信息检索技术的发展历史  ’s: 开始探索使用计算机为一些小规模科技、法律 和商业文献的摘要建立文本检索系统 形成最基本的概念、模型和算法 Salton 教授是奠基人  1980’s: 由公司主导开发大规模文档数据库系统,如 Lexis-Nexis, Dialog, MEDLINE 10

信息检索技术的发展历史  1990’s: 第一个网络搜索工具: 1990 年加拿大 McGill 大 学开发的 FTP 搜索工具 Archie 第一个 WEB 搜索引擎: 1994 年美国 CMU 开发的 Lycos Yahoo 搜索引擎: 1995 斯坦福大学博士生开发 开始进行 IR 软件评测: NIST TREC 推荐系统的出现: Ringo,Amazon 11

信息检索技术的发展历史  2000’s : Google 搜索引擎:斯坦福大学博士生开发,采 用链接分析技术 信息抽取 : Whizbang,Fetch,Burning Glass 问答系统 : TREC Q/A track 跨语言 IR: DARPA Tides 知识图谱的研发和使用 12

基于规模的信息检索分类  个人信息检索: 个人相关文档的搜索,如桌面搜 索 (Desktop Search) ,属小规模  企业级信息检索: 企业内部文档的搜索,行业文 档的搜索等,属中大规模  Web 信息检索: 数万亿网页的搜索,属超大规模。 13

信息检索的基本内容  信息检索原理图 14

信息检索的基本内容  信息检索原理图 15

信息检索的基本内容  文档采集 功能:自动获取有用的文档,用于建立文档库 主要内容: Web 采集器( web crawler )  文本分析 功能:文档预处理,用于将文档转化成索引词项或 特征 主要内容:词条化、去除停用词、词项归一化、词 干还原和词干归并、链接分析等 16

信息检索的基本内容  索引构建 功能:创建索引数据结构,用于支持快速搜索 主要内容:倒排索引、词典索引、基于块排序的索 引构建、单遍内存式扫描构建、分布式 (MapReduce) 及动态索引构建  索引压缩 功能:对索引数据结构进行压缩表示,用于节省磁 盘空间,提高检索系统效率 主要内容:词项的统计特性 (Heaps 定律、 Zipf 定律 ) 、 词典的压缩、倒排记录表的压缩 17

信息检索的基本内容  检索模型与排序算法 功能:用于判断查询和文档之间的关联性 主要内容:布尔检索模型、向量空间模型、概率检 索模型、 TF-IDF 词项权重计算机制以及基于 TF-IDF 的文档排序算法、概率排序原理、 PageRank 算法、 HITS 算法、基于向量空间模型的 XML 文档排序算法 18

信息检索的基本内容  用户交互 功能:支持用户创建和精化查询,支持检索结果的 展示 主要内容:查询输入、查询变换、相关反馈和伪相 关反馈、查询扩展及重构、检索结果展示等  检索评价 功能:对检索系统的效果和效率进行评价 主要内容:正确率、召回率、 正确率 - 召回率曲线、标准 测试集及评测会议、 用户体验及结果摘要等 19

课程目标  通过本课程的学习,使同学们能够掌握信息检索和 Web 搜索的基本思想和基础知识,包括基本的概念、 原理、模型和算法,并具备一定的信息检索系统和 搜索引擎研发能力  不是教同学们怎么使用信息检索工具,而是了解信 息检索工具背后的基本原理和技术,为今后能够从 事与信息检索和 Web 搜索相关的研发工作打好基础 20

老师介绍  主讲高曙明: 浙江大学应用数学系博士毕业,教授, 博士生导师。现为浙江大学 CAD&CG 国家重点实验 室 CAD 方向学术带头人 办公电话: : 办公地点:紫金港校区图书信息 B 楼 525 室 个人主页:  助教: 秦孝廉,浙大计算机学院研究生

课程基础  数学基础 概率统计 线性代数  计算机基础 算法和数据结构 编程 22

考核方式  平时作业 + 期末考试 ( 开卷 ) 不定期考勤和课堂发言 5% 若干小作业 15% 简单搜索引擎开发(小组项目) 30% 期末考试 50% ( 课堂开卷 ) 具体参考课程网站 23

重要会议  国际会议: SIGIR 、 ACL 、 WWW 、 SIGKDD 、 WSDM 、 ICML CIKM 、 EMNLP 、 COLING TREC 、 NTCIR 评测会议 ECIR 、 AIRS  国内会议: 全国信息检索学术会议 (1 年一届 ) 全国计算语言学联合会议 (2 年一届 ) 搜索引擎和 WEB 挖掘学术会议 (1 年一届,上半年 ) 24

ACM SIGIR  ACM :美国计算机学会  SIGIR : special interest group on information retrieval ,特定兴趣组  ACM SIGIR Conference : IR 领域的最重要 会议,起始于 1971 年, 2014 年是第 37 届。 25

重要期刊  国际: ACM Transactions on Information Systems (TOIS) ACM Transactions on Asian Language Information Processing (TALIP) Information Processing & Management (IP&M) Information Retrieval  国内: 中文信息学报 情报学报 26

重要工具  Lemur 、 Indri :包含各种 IR 模型的实验平台, C++  SMART :向量空间模型工具, C 编写  Lucene :开源检索工具, Java 版本受维护,存在各种 语言编写的其他版本  Nutch :开源爬虫, Java 版本  Sphinx :开源检索工具, C++  Larbin :采集工具, C++  更多: opensource.html opensource.html 27

教材  教材主页: book/  注意要选第二次印刷的版本, 可以直接上图灵出版社的淘 宝店订购。  网上有英文电子版 ( 对照阅读 ) 28

参考书籍及文献 --1  Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008 Electronic version (draft) can be downloaded from csli.stanford.edu/~hinrich/information-retrieval-book.htmlhttp://www- csli.stanford.edu/~hinrich/information-retrieval-book.html  B. Croft, D. Metzler, T. Strohman , Search Engine: Information Retrieval in Practice, Pearson Education, 2009 ( 国内机械工业出版社 出版的影印版和中文翻译版 )  张华平等译. 信息检索:算法与启发式方法. 人民邮电出版社, 2010  Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 ( 国内有机械工业出版社出版的影印版和 中文翻译版 )  李晓明,闫宏飞,王继民著,搜索引擎 -- 原理、技术与系统,北京: 科学出版社,

参考书籍及文献 --2  李国辉等著,信息的组织与检索,科学出版社, 2003 年  Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999  William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992  Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997  刘挺等著,信息检索系统导论,机械工业出版社, 2008  SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings  More resources see: book/information-retrieval.htmlhttp://nlp.stanford.edu/IR- book/information-retrieval.html 30