Presentation is loading. Please wait.

Presentation is loading. Please wait.

现代信息检索 Modern Information Retrieval

Similar presentations


Presentation on theme: "现代信息检索 Modern Information Retrieval"— Presentation transcript:

1 现代信息检索 Modern Information Retrieval
主讲:刘德喜

2 课程简介 Information retrieval (IR) deals with the representation, storage, organization of, and access to information items.

3 为什么不是数据库呢?

4 Unstructured (text) vs. structured (database) data in 1996

5 Unstructured (text) vs. structured (database) data in 2006

6 市场就是导向 用户需要信息检索技术:互联网的信息量太大,寻找信息非常不容易
公司需要信息检索技术:信息检索技术可以挣大钱,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争 人才的竞争:搜索人才人数出现缺口,他们非常抢手,待遇如日中天

7 不是一门怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。

8 国际著名研究机构和代表人物 美国康奈尔大学Salton(1927-1995)
现代信息检索的奠基人 SMART的完成人 1983年度首届Salton奖得主,Salton就是以他名字命名,ACM Fellow 英国剑桥大学Karen Sparck Jones ( ) 概率检索模型的提出者之一 IDF NLP和IR中的先辈 曾获ACL终身成就奖和1988年Salton奖

9 国际著名研究机构和代表人物 英国微软剑桥研究院、伦敦城市大学Stephen Robertson
概率检索模型的倡导者 开发了OKAPI 2000年Salton奖得主 美国UMassCIIR W. B. Croft,ACM Fellow 基于统计语言建模IR模型的提出者和倡导者 和CMU共同开发了Lemur工具 2003年Salton奖得主 英国Glasgow大学Rijsbergen,ACM Fellow 信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决IR问题 2006年Salton奖得主

10 国际著名研究机构和代表人物 Cyril Cleverdon( ) 英国伦敦The Institute of Information Scientists 。 1991年度Salton奖得主。 评测信息检索系统常用的指标recall 和 precision William Cooper,Univ. of California, Berkeley. 1994年度Salton奖得主 IR中引入概率的先驱。 Tefko Saracevic 美国Rutgers大学Communication, Information and Library Studies学院。 1997年度Salton奖得主。

11 国际著名研究机构和代表人物 美国CMU语言技术中心LTI 美国南加州大学ISI 美国UIUC 微软研究院 IBM研究院 Google研究院
Jamie Callan,Yiming Yang 美国南加州大学ISI Eduard Hovy, Chin-Yew Lin 美国UIUC 微软研究院 IBM研究院 Google研究院

12 一些活跃的华裔学者 加拿大蒙特利尔大学聂建云教授 美国UIUC ChengxiangZhai博士 美国CMU YimingYang教授
跨语言检索 IR模型 美国UIUC ChengxiangZhai博士 美国CMU YimingYang教授 文本分类

13

14

15

16 国内一些相关研究机构 北京大学: http://icl.pku.edu.cn/
北京大学: 复旦大学: 清华大学  哈尔滨工业大学: 中科院计算所: TRS公司: 中科院软件所 中科院自动化所 ……

17 重要会议 国际会议: ACM SIGIR International World Wide Web Conference(WWW)
ACM SIGMOD International Conference on Data Engineering (ICDE) ACM Conference on Information and Knowledge Management (CIKM) ACM SIGKDD International conference on Web Intelligence ACM VLDB Europe Conference on Information retrieval(ECIR) International Conference on Machine Learning ICML Asia Pacific Web Conference (APWeb) International Conference on Web Information Systems Engineering International Conference on Artificial Intelligence(IJCAI) TREC(Text REtrieval Conference)

18 国内会议 全国信息检索学术会议(CCIR) 全国计算语言学学术会议(CCL) 自然语言处理与中文计算会议(NLPCC)
2015洛阳 洛阳外国语 全国计算语言学学术会议(CCL) 2015广州 广州外国语 自然语言处理与中文计算会议(NLPCC) 2015南昌 江西师大 全国社会媒体处理会议(SMP) 2015广州 华南理工

19 重要期刊 国际: ACM Transactions on Information Systems(TOIS)
ACM Transactions on Asian Language Information Processing(TALIP) ACM Transaction on Information Systems IEEE Transaction on Knowledge and Data Engineering Information Retrieval ACM Transaction on Database system Journal of Intelligent information systems Applied Intelligence Machine Learning Artificial Intelligence Information and Management Information Science Journal of the American Society for Information Science and Technology Information Processing and Management 国内 中文信息学报,情报学报,计算机学报, 软件学报,计算机研究与发展,自动化学报, 电子学报, 高技术通讯

20 重要工具 Lemur,Indri:包含各种IR模型的实验平台,C++ SMART:向量空间模型工具, C编写
Lucene:开源检索工具,各种语言编写的版本 Weka:分类工具,Java编写 Larbin:采集工具,C++ Firtex:检索平台,C++,计算所开发

21 参考书籍及文献 Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 李国辉等著,信息的组织与检索,科学出版社,2003年 Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999 William Frakes& Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992 Karen SparckJones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997 SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings Christopher D. Manning, PrabhakarRaghavan& HinrichSchütze, Introduction to Information Retrieval, Cambridge University Press, 2007 Cambridge University Press. Electronic version can be downloaded from 中文自然语言处理开放平台:

22 授课内容简介 信息检索的基本概念 信息采集与预处理 信息组织和索引 信息检索模型和算法 信息检索的评价 信息检索相关应用 检索模型
相关反馈、查询扩展 信息检索的评价 信息检索相关应用 搜索引擎 XML信息检索 文本分类、聚类 倾向性分析

23 考核方式 分数构成 要求:掌握下列三个工具或语言,并能利用需要完成简单的任务: 考勤 30% 作业 70% Python:编写课程相关的程序
考勤   30% 作业   70% 要求:掌握下列三个工具或语言,并能利用需要完成简单的任务: Python:编写课程相关的程序 Lemur,Indri:包含各种IR模型的实验平台, Weka:分类工具,Java编写 Lucene:开源检索工具,各种语言编写的版本

24 考核方式 形式: 每个实验在完成调试参考程序的基础上进行改进、扩展、应用,并演示、提交实验报告。 演示为抽查 实验报告必交

25 考核方式 实验报告 主要内容:为什么改进、如何改进、改进后的效果,源码
格式:标题“为XXX实验改进”、负责人、小组成员、日期、引言(为什么改进)、方法(如何改进)、实验评测(改进后的效果)、展望(还存在什么问题)、总结(完成过程中的体会、对课程的建议等) 文件名:负责人学号_负责人姓名_实验名称_实验报告.RAR (或ZIP) 源码(多加注释、可读性好)


Download ppt "现代信息检索 Modern Information Retrieval"

Similar presentations


Ads by Google