现代信息检索 Modern Information Retrieval

Slides:



Advertisements
Similar presentations
科技文献检索 常 唯 2011年7月. 2  中科院研究生院空中课堂   有关科技文献和网络资源实用技巧的课程  管理学院开设  可通过关键词“网络资源”检索 使用条件: 中科院 IP 范围内.
Advertisements

常用电子资源举例 2012 年北京师范大学图书馆 参考咨询部制 2012 年 7 月. 馆藏电子资源概况 总体情况  截至 2011 年底,我馆共引进各类型中外 文数据库 257 个,中外文全文电子期刊 6 万余种、学位论文 万篇、中外文电 子图书 340 万余册,建设各类型特色馆藏.
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
信息检索与 Web 搜索 第 1 讲 概述 授课人:高曙明 * 改编自 “ 现代信息检索 ” 网上公开课件( )
2016年9月8日 2016年9月8日 2016年9月8日 1 Semi-supervised Learning by Sparse Representation Shuicheng Yan Huan Wang Lecturer: Yitao Zhai.
退休規劃之應用與實例討論退休規劃之應用與實例討論 誠心誠意 從聽做起. 長壽的趨勢 有人說生是偶然、意外也是偶然 但是老是必然 ……….. 您同意嗎 ? 又有人說老一點都不可怕,病也不可怕 老又病也不可怕 但是 …… 又老又病又沒錢才可怕 所以一定要規劃退休養老、投資理財.
科技部專題研究計畫撰寫與分析 國際及兩岸事務暨研究發展處 時 間:2015年11月4日 報 告 人:曾俊堯 博士
Renmin University of China School of Information Spring, 2009
An Introduction to Database Systems
工程技术领域的文献资源查找与利用 国家科学图书馆 杨小薇.
2013新生入馆培训 ----法学(研究生)
古典風華,現代視野 人文薈萃,桃李成蹊 招生說明 (參考簡報) 台師大教務處提供.
对应用型本科建设中若干问题的认识 张家钰
陆铭 mingler.ccshu.org 现代信息检索 陆铭 mingler.ccshu.org.
提纲 主要参考书目 AI的基础及萌芽 AI的创立及发展 AI的主要研究范围 国外著名的AI研究机构 AI在中国 AI的最新动态
???.
95年度工程教育認證 淡江大學資訊工程學系 整體概況簡報
第一章 会计信息系统 第一节 计算机会计概述.
研究所升學考試 準備策略 蘇武楨.
论文检索、投稿和搜集 经验交流 清华大学信息网络工程研究中心 王之梁
CALIS 引 进 电 子 资 源 介 绍 杨 毅 CALIS全国工程文献信息中心
为教育与工程的完美结合而努力 汪镭 同济大学 2009年7月7日.
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
图书馆订购的纸质外文期刊目录 F:经济 H:语言、文字 I:文学 O:数理科学和化学 Z:综合性图书 T:工业技术 TB:一般工业技术
報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2. 報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2.
GIS教学体系探讨 ——以北京大学本科教育为例 邬 伦
欢 迎 您 ! 荣县电大 毕忠权.
工业工程介绍
管理系统工程案例 Management systems engineering cases
簡歷與辦學理念 報告人: 徐敬文 國立台灣科技大學講座教授 Fellow, IEEE 中華民國101年6月14日.
課程:高等微處理機設計專題(0309) 授課老師:陳友倫 老師 連絡信箱:
管理系统工程案例 Management systems engineering cases
決策分析研究室 巫沛倉 劉浩天 胡承方 義守大學工業工程與管理學系.
課程發展處 小學校本課程發展組 尹志華 周偉志
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
管理系统工程案例 Management systems engineering cases
ACM简介及使用指南.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
IEEE/IET Electronic Library
New IEEE Xplore.
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
Department of Computer Science & Information Engineering
遍寻全馆无觅处,足不出户获全文 ----如何免费获得所需文献 罗平
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
IET Digital Library 電子電機電通全文資料庫
「嗨!老同學…」 S. Chen & F. Chen.
.利用数据库分析功能高效获取文献 .充分利用国家科学图书馆资源服务
An Introduction to Computer Science (計算機概論)
Mobile Communications Networking Lab. 行動通訊網路實驗室
DATASET 查询概念树 相关调研 2018/12/6 刘庆霞 Websoft NJU.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
方便无限,精彩尽现 SAGE学术期刊及 科研成果辅助
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
柯皓仁 臺灣師範大學圖書資訊學研究所教授兼所長、圖書館館長
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚.
Data Scientists 資料科學學位學程 新生說明會
圖書館電子資源利用講習 報告人:楊明仁 校內分機:3100
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
The First Course in Speech Lab
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
API文档分析 张静宣 大连理工大学 2017年11月3日.
第五章 資訊管理導論 本章重點 5-1 資訊管理導論 5-2 企業電子化的潮流與工具.
第十一章 管理知識.
暑期活动见闻 程龚.
IEEE Computer Society 長亨文化事業有限公司.
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
高效洁净机械制造实验室是 2009 年教育部批准立项建设的重点实验室。实验室秉承“突出特色、创新发展“的宗旨,以求真务实的态度认真做好各项工作。 实验室主任为黄传真教授,实验室副主任为刘战强教授和李方义教授。学术委员会主任为中国工程院院士卢秉恒教授。实验室固定人员中,有中国工程院院士艾兴教授,教育部.
学术报告 文献检索与论文写作的几点体会 生态环境系.
本教學投影片係屬教科書著作之延伸,亦受著作權 法之保護。
Presentation transcript:

现代信息检索 Modern Information Retrieval 主讲:刘德喜 dexi.liu@163.com

课程简介 Information retrieval (IR) deals with the representation, storage, organization of, and access to information items.

为什么不是数据库呢?

Unstructured (text) vs. structured (database) data in 1996

Unstructured (text) vs. structured (database) data in 2006

市场就是导向 用户需要信息检索技术:互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术:信息检索技术可以挣大钱,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争 人才的竞争:搜索人才人数出现缺口,他们非常抢手,待遇如日中天

不是一门怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。

国际著名研究机构和代表人物 美国康奈尔大学Salton(1927-1995) 现代信息检索的奠基人 SMART的完成人 1983年度首届Salton奖得主,Salton就是以他名字命名,ACM Fellow 英国剑桥大学Karen Sparck Jones (1935-2007) 概率检索模型的提出者之一 IDF NLP和IR中的先辈 曾获ACL终身成就奖和1988年Salton奖

国际著名研究机构和代表人物 英国微软剑桥研究院、伦敦城市大学Stephen Robertson 概率检索模型的倡导者 开发了OKAPI 2000年Salton奖得主 美国UMassCIIR W. B. Croft,ACM Fellow 基于统计语言建模IR模型的提出者和倡导者 和CMU共同开发了Lemur工具 2003年Salton奖得主 英国Glasgow大学Rijsbergen,ACM Fellow 信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决IR问题 2006年Salton奖得主

国际著名研究机构和代表人物 Cyril Cleverdon(1914-1997) 英国伦敦The Institute of Information Scientists 。 1991年度Salton奖得主。 评测信息检索系统常用的指标recall 和 precision William Cooper,Univ. of California, Berkeley. 1994年度Salton奖得主 IR中引入概率的先驱。 Tefko Saracevic 美国Rutgers大学Communication, Information and Library Studies学院。 1997年度Salton奖得主。

国际著名研究机构和代表人物 美国CMU语言技术中心LTI 美国南加州大学ISI 美国UIUC 微软研究院 IBM研究院 Google研究院 Jamie Callan,Yiming Yang http://www.lti.cs.cmu.edu/ 美国南加州大学ISI Eduard Hovy, Chin-Yew Lin http://www.isi.edu/natural-language/ 美国UIUC 微软研究院 IBM研究院 Google研究院

一些活跃的华裔学者 加拿大蒙特利尔大学聂建云教授 美国UIUC ChengxiangZhai博士 美国CMU YimingYang教授 跨语言检索 IR模型 美国UIUC ChengxiangZhai博士 美国CMU YimingYang教授 文本分类

国内一些相关研究机构 北京大学: http://icl.pku.edu.cn/ 北京大学: http://icl.pku.edu.cn/ 复旦大学:http://www.cs.fudan.edu.cn/mcwil/irnlp/ 清华大学  http://www.csai.tsinghua.edu.cn/ 哈尔滨工业大学:http://ir.hit.edu.cn/ 中科院计算所:http://ir.ict.ac.cn/irgroup/ TRS公司:http://www.trs.com.cn 中科院软件所 中科院自动化所 ……

重要会议 国际会议: ACM SIGIR International World Wide Web Conference(WWW) ACM SIGMOD International Conference on Data Engineering (ICDE) ACM Conference on Information and Knowledge Management (CIKM) ACM SIGKDD International conference on Web Intelligence ACM VLDB Europe Conference on Information retrieval(ECIR) International Conference on Machine Learning ICML Asia Pacific Web Conference (APWeb) International Conference on Web Information Systems Engineering International Conference on Artificial Intelligence(IJCAI) TREC(Text REtrieval Conference)

国内会议 全国信息检索学术会议(CCIR) 全国计算语言学学术会议(CCL) 自然语言处理与中文计算会议(NLPCC) 2015洛阳 洛阳外国语 全国计算语言学学术会议(CCL) 2015广州 广州外国语 自然语言处理与中文计算会议(NLPCC) 2015南昌 江西师大 全国社会媒体处理会议(SMP) 2015广州 华南理工

重要期刊 国际: ACM Transactions on Information Systems(TOIS) ACM Transactions on Asian Language Information Processing(TALIP) ACM Transaction on Information Systems IEEE Transaction on Knowledge and Data Engineering Information Retrieval ACM Transaction on Database system Journal of Intelligent information systems Applied Intelligence Machine Learning Artificial Intelligence Information and Management Information Science Journal of the American Society for Information Science and Technology Information Processing and Management 国内 中文信息学报,情报学报,计算机学报, 软件学报,计算机研究与发展,自动化学报, 电子学报, 高技术通讯

重要工具 Lemur,Indri:包含各种IR模型的实验平台,C++ SMART:向量空间模型工具, C编写 Lucene:开源检索工具,各种语言编写的版本 Weka:分类工具,Java编写 Larbin:采集工具,C++ Firtex:检索平台,C++,计算所开发

参考书籍及文献 Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 李国辉等著,信息的组织与检索,科学出版社,2003年 Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999 William Frakes& Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992 Karen SparckJones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997 SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings Christopher D. Manning, PrabhakarRaghavan& HinrichSchütze, Introduction to Information Retrieval, Cambridge University Press, 2007 Cambridge University Press. Electronic version can be downloaded from http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 中文自然语言处理开放平台:http://www.nlp.org.cn/

授课内容简介 信息检索的基本概念 信息采集与预处理 信息组织和索引 信息检索模型和算法 信息检索的评价 信息检索相关应用 检索模型 相关反馈、查询扩展 信息检索的评价 信息检索相关应用 搜索引擎 XML信息检索 文本分类、聚类 倾向性分析

考核方式 分数构成 要求:掌握下列三个工具或语言,并能利用需要完成简单的任务: 考勤 30% 作业 70% Python:编写课程相关的程序 考勤   30% 作业   70% 要求:掌握下列三个工具或语言,并能利用需要完成简单的任务: Python:编写课程相关的程序 Lemur,Indri:包含各种IR模型的实验平台, Weka:分类工具,Java编写 Lucene:开源检索工具,各种语言编写的版本

考核方式 形式: 每个实验在完成调试参考程序的基础上进行改进、扩展、应用,并演示、提交实验报告。 演示为抽查 实验报告必交

考核方式 实验报告 主要内容:为什么改进、如何改进、改进后的效果,源码 格式:标题“为XXX实验改进”、负责人、小组成员、日期、引言(为什么改进)、方法(如何改进)、实验评测(改进后的效果)、展望(还存在什么问题)、总结(完成过程中的体会、对课程的建议等) 文件名:负责人学号_负责人姓名_实验名称_实验报告.RAR (或ZIP) 源码(多加注释、可读性好)