第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术
一 信息检索基本概念 1.信息检索的概念 2.信息检索的类型 3.信息检索语言
一 信息检索基本概念 1.信息检索(information retrieval) 一 信息检索基本概念 1.信息检索(information retrieval) 信息检索从广义上来说,是指将信息按照一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。全称为信息存储与检索(information storage and retrieval) 狭义的信息检索是指根据特定课题的需要,依据一定的方法,从已经组织好的大量有关文献集合中查找并获取所需信息的过程。检,查找;索,索取。又称信息查询(information search)。
信息检索原理
2.信息检索的类型 根据检索对象的不同,信息检索又可分为: 文献型信息检索(document retrieval):以特定的文献为检索对象。 比如,查找有关火电厂锅炉水处理技术方面的相关文献,或从事一项发明创造而需要文献等。 ——利用文摘、题录等各种书目文献型或全文型数据库来检索。
2.信息检索的类型 数值型信息检索(data retrieval):是以数值或数据为对象的一种检索,如某种材料的电阻;某变压器的参数;化学分子式、数据图表等。 ——主要借助于各种数值数据库和统计数据库。
例如:国内生产总值
2.信息检索的类型 事实型信息检索(fact retrieval): 是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。 “世界上最长的公路隧道有多长?” “世界上海拔最高的山峰?” “有哪些海外华人得过诺贝尔奖?” ——主要借助利用辞典、百科全书、年鉴、名录等参考工具书或事实型数据库、指南型数据库来检索。
例如:想了解一下有关“阿波罗”登月计划的有关情况。
一 信息检索的几个基本概念 3.信息检索语言 是人们在加工、存储及检索信息时所使用的标识符号。把信息的存储与检索联系起来,把标引人员与用户联系起来,以便取得共同理解、实现交流的语言。(是信息标引人员和检索用户在信息的组织、存储和检索过程中共同遵守和使用的语言。) 主要包括人工语言和自然语言
人工语言(artificial language) 是依据信息检索的需要而由人工创造的,采用规范词(controlled term),用来专指某个概念或网罗与之相应的概念,可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制,包括分类检索语言、主题检索语言和代码检索语言。
①分类检索语言 分类检索语言是以学科为基础,按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的的一种语言体系,也称分类法。目前比较常用的分类法有《中国图书馆图书分类法》简称《中图法》;《杜威十进分类法》;《国际专利分类法》等。 分类法
<< 中国图书馆图书分类法>> (简称中图法》介绍: 《中图法》基本结构: 将知识门类分为:5个基本部类,22个大类. 标记符号: 采用汉语拼音字母与阿拉伯数字相结合的混合号码
<< 中国图书馆图书分类法>> 分类: A 马克思主义、列宁主义、毛泽东思想、邓小平理论 N 自然科学总论 B 哲学、宗教 O 数理科学和化学 C 社会科学总论 P 天文学、地球科学 D 政治、法律 Q 生物科学 E 军事 R 医药、卫生 F 经济 S 农业科学 G 文化、科学、教育、体育 T 工业技术 H 语言、文字 U 交通运输 I 文学 V 航空、航天 J 艺术 X 环境科学、安全科学 K 历史、地理 Z 综合性图书
《中图法》结构示意图 基本大类 A 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书 U441 结构原理、 结构力学 U442 勘测、设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程 U41 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理 U1 综合运输 U2 铁路运输 U4 公路运输 U6 水路运输 [U8] 航空运输
分类号 书名: 高等数学 作者: 张之良 分类号:013/Zh1 著者号 大多数图书馆的索书号由中图法的分类号和著者号两部分构成。索书号是确定一本图书所在架位的依据。了解了索书号,就能准确迅速地找到自己需要的图书。 书名: 高等数学 作者: 张之良 分类号:013/Zh1 分类号 著者号
分类语言的优缺点: 优点:①强调知识的系统性,方便人们按学科、专业检索有关文献资料,达到族性检索,提高查全率。②便于图书馆资料排架。 不足点:①检索课题时,必须了解课题所属的学科体系,否则很难检索。②总是落后于科学技术的发展,难于及时反映新兴学科和边缘学科的发展及内容。③在将检索文献的主题内容转换成分类号的过程中,容易产生误差,造成误检
②主题词语言 是经人工规范化处理的最能表达文中主题概念的语词。 是经人工规范化处理的最能表达文中主题概念的语词。 所谓规范化处理,就是在文献存储时,对文献中的同义词、近义词、多义词等加以严格的控制和规范,使得同一主题概念的文献相对集中在一个主题词下。因此,主题词语言也叫人工受控语言。
例如:“自行车”一词,我们常用的词语还有单车、脚踏车等 例如:“自行车”一词,我们常用的词语还有单车、脚踏车等 这其中:单车、脚踏车不是主题词,自行车是主题词。所有有关“自行车”的文献都集中在“自行车”一词下。 用“单车” 检索 漏检 “脚踏车”和“自行车”的文献。 用“脚踏车” 检索 漏检 “单车”和“自行车”的文献。 而用“自行车”一词就可查到所有相关文献。
③代码检索语言 就事物的某一方面的特征,用某种代码系统来加以标引和排列。 分子式 C3N6H6(三聚氰胺) 专利号 ZL02121956.7(一次性照相机 ) 标准号 GB/T 6892-2006 ……
自然语言(natural language) 从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,是非规范词(uncontrolled term) 自然语言标识包括: ①关键词:文献的题名、文摘甚至是正文中抽出的具有实质检索意义的词,对揭示和描述文献主题内容比较重要和关键的词语。 ②题名:信息资源的名称,如论文的篇名、图书书名、网站名称等。 ③全文:从资源的全部内容中自动抽取、查找。
例如:下面这篇文献的记录,既有人工语言又有自然语言。(取自INSPEC数据库) Title: Collaborative knowledge management requirements for experiential learning (CKM) Author(s): Garner, B.J. Editor(s): Okamoto, T., Hartley, R., Klus, K., Klus, J.P. Source: Proceedings IEEE International Conference on Advanced Learning Technologies : 488-9, 2001 Conference Information: Proceedings IEEE International Conference on Advanced Learning Technologies Madison, WI, USA, 6-8 Aug. 2001 IEEE Comput. Soc.; IEEE Comput. Soc. Learning Technol. Task Force; Univ. Wisconsin-Madison Language: English Treatment: Practical Abstract: Exploratory studies in collaborative knowledge management (CKM) across four domains have identified significantly expanded research requirements for experiential learning. This paper reports preliminary conclusions/propositions. The quality of collaborative (group) learning, particularly in experiential processes such as problem solving and professional practice, requires the innovative support of knowledge-mediated human interaction requirements and the associated sharing of knowledge between participants.
Controlled Indexing: computer aided instruction; groupware; interactive systems; problem solving; professional aspects Uncontrolled Indexing: collaborative knowledge management; experiential learning; research requirements; collaborative learning; group learning; problem solving; professional practice; knowledge-mediated human interaction requirements; knowledge sharing Classification Code(s): C7810C Computer-aided instruction C6130G Groupware 其中绿色显示的字段为自然语言,红色显示的字段为人工语言。
二 电子资源的概念与类型 1 电子资源概述 2 主要电子资源介绍
1 电子资源概述 电子资源(Electronic Resource),亦可称为数字信息资源(digital information resources) 是以数字代码方式将图、文、声、像等信息存储在磁光电介质上,通过计算机或具有类似功能的设备阅读使用的资料。
电子资源主要类型 参考数据库 全文数据库 事实数据库 电子图书 电子期刊 电子报纸 搜索引擎、分类指南 网络学术资源学科导航 FTP资源 其他
⑴参考数据库(reference database) 指包含各种数据、信息或知识的原始来源和属性的数据库。 参考数据库主要包括:书目数据库、文摘数据库、索引数据库。 书目数据库主要是针对图书进行内容的报道与揭示,如各图书馆的馆藏机读目录数据库及各种联合书目数据库;
文摘索引数据库则相对期刊论文、会议论文、专利文献、学位论文等进行内容和属性的认识与加工,如“科学引文索引”(Science Citation Index)、“化学文摘”(Chemical Abstracts)、“工程索引”(Engineering Index)、“生物学文摘”(Biological Abstracts)、“复印报刊资料索引”等数据库。
⑵全文数据库(full-text database) 即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。ProQuest公司的“学术期刊图书馆”(Academic Research Library )、CNKI 的“中国期刊全文数据库”、“维普中文科技期刊全文数据库”等。
⑶事实数据库(factual database): 指包含大量数据、事实,分为数值数据库(numeric database)、指南数据库(directory database)、术语数据库(terminological database)等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。
⑷电子图书(electronic books). apabi电子图书 超星电子图书 书生之家 四库全书 NetLibrary电子图书 Early English Books Online Encyclopedia Britannica Online (不列颠百科全书网络版数据库)
超星电子图书
⑸电子期刊(electronic journals),包括与纸本期刊并行的电子期刊,如著名的“科学”(Science)、 “自然”(Nature)等; 纯电子期刊,如“数字图书馆杂志”(D—Lib Magazine)
⑹ 电子报纸(electronic newspaper) 目前网上已有数千种报纸供用户使用。同电子期刊一样,电子报纸同样也有印刷型报纸的电子版和纯电子报纸两种类型。
⑺ 搜索引擎/分类指南(search engine), 搜索引擎主要是使用一种计算机自动搜索软件在互联网上检索,将检索到的网页编入数据库中,并进行一定程度的自动标引,用户使用时输入检索词,搜索引擎将其与数据库中的信息匹配,然后产生检索结果。例如常用的baidu、yahoo、google等。 分类指南是将搜索到的网页按主题内容组织成等级结构(主题树),用户按照这个目录逐层深入,直到找到所需文献。通常搜索引擎与分类指南是结合在一起的。
⑻ 网络学术资源学科导航 将互联网上的开放信息加以甄别、筛选相科学整理,按学科组织起来,构成完整的学科导航系统,为教学、科研、技术人员提供各类学术信息。网络学术资源的学科导航库通常是由图书情报单位单独或联合建设的。
CALIS重点学科导航库
⑼ FTP资源:FTP含义是File Transfer Protocol,意为文件传送协议,是互联网上最早应用的协议之一,它可以使用户远程登录到远端计算机上,把其中的文件传回到自己的计算机上,或把自己计算机上的文件上传到远端计算机系统上。所谓FTP资源,是指互联网上的开放FTP站点,这些站点允许用户登录上去,从中下载各类数据、资料、软件等。 ⑽ 其他:如网站、学术论坛、新闻组等,也可以给用户提供一些有用的知识或动态信息。
三 计算机信息检索系统 1 计算机信息检索系统的组成 2 计算机信息检索类型
1 计算机信息检索系统的组成 从物理构成来讲、检索系统由硬件、软件部分组成: 1 计算机信息检索系统的组成 从物理构成来讲、检索系统由硬件、软件部分组成: (1)硬件(hardware):也可以说是硬件环境,是和计算机检索有关的各种硬件设备的总称,如大型计算机主机(服务器)、存储器(硬盘或光盘)、网络(广域网、局域网或存储区域网等)、输入输出设备(键盘、打印机、鼠标等)、计算机终端或个人计算机(Pc)等。 (2) 软件(software):与计算机检索相关的数据库系统软件及相关应用软件。包括:信息采集、存储、信息标引加工、建库、词表管理、用户检索界面、提问处理、网络发布、数据库管理等模块。
2.计算机信息检索类型 联机检索(Online searching),是指用户利用计算机终端设备,通过通信线路或网络,在联机检索中心的数据库中进行并获得信息的过程。
联机检索系统的特点是: (2) 数据库更新快,每日可随时进行更新,可以很容易检索到最新文献。 (1) 数据库数量多,信息量大,内容丰富。以DIALOG系统为例,目前已有数据库600多个,内容广泛,涉及自然科学、人文及社会科学、商贸等众多领域。检索时可以一次检索多个数据库,检索范围广泛全面。 (2) 数据库更新快,每日可随时进行更新,可以很容易检索到最新文献。 (3)检索功能强,索引多,途径多,所有的数据库使用统一的命令检索,因此可以同时保证查全,查准,检索效率和检索质量高。但系统要求必须使用统一的检索命令,用户必须记住各类检索指令并且能够灵活综合运用,因此必须由专业人员检索,例如图书馆或专业信息机构中,都有专门人员负责联机检索。 【例一】 B 34,434 ;此指令意即打开34,434号数据库文档 。 【例二】 S computer/TI 此指令意即指在题名检索字段中检索“computer”一词。
(6) 检索费用高,每下载一条记录都要求付相关费用,包括记录的显示或打印费、字符费、机时费、通信费,一般用户因此望而却步,不敢使用。 (4) 检索模式:主仆式,即所有的工作都在主机上进行,一旦主机瘫痪,所有系统都处于瘫痪状态,因此对主机的性能要求极高。 (5) 检索机制;检索功能强,索引多,途径多,所有的数据库使用统一的命令检索,因此可以同时保证查全、查准,检索效率和检索质量高。但各种检索命令繁纷复杂,用户难以掌握,因此必须由专业人员检索。 (6) 检索费用高,每下载一条记录都要求付相关费用,包括记录的显示或打印费、字符费、机时费、通信费,一般用户因此望而却步,不敢使用。
光盘数据库检索 光盘数据库通常是指CD-ROM数据库。CD-ROM(Compact Disc Read-Only Memory),意为只读光盘,它轻便、灵活、体积小、容量大,一张只读光盘的最大存储量一般为600M,可存储文字、图片、图像、声音等。 包括单机光盘检索系统 联机光盘检索系统
光盘数据库检索特点 ①由于存储介质和空间的限制,数据库的数量没有联机检索多,信息量不够大,而且多以二次文献(文摘,索引)为主。 ②更新速度比较慢,一般为每月更新或每季度更新。在这方面不如联机数据库和网络数据库,后两者的数据库更新可以随时进行,频率通常为日更新和周更新。 ③检索功能强,索引多,不同的检索系统使用不同的检索命令。具备命令检索和菜单检索两种方式,后者对非专业人员来说,易学易用。 ④系统访问通过局域网就可以进行,不受大的网络环境影响,不需支付网络通信费用。 ⑤检索环境宽松,不存在联机检索的通信费,机时费,数据费,检索费用低。 ⑥用户界面比较友好,较为直观。
网络信息检索 网络数据库(web-database)检索是指用户在自己的检索终端上,通过互联网和浏览器界面对数据库进行检索。 特点: ①数量多,信息量大。同时超文本语言和超文本传输协议的作用,提供了大量的相关资源的连接,使资源的内容更加丰富。 ②数据库的内容形式向多媒体化发展,不仅有文本,还有大量图像,动画,声音等,为用户提供了更加直观的服务。 ③数据库更新速度快,一般为每日更新。
④检索功能强,索引多,对非专业人员来说,易学易用。缺点是不同的数据库使用的检索系统不同,检索命令也不尽相同,仍需用户下一番工夫学习检索系统的使用。 ⑤检索环境宽松,检索费用较联机检索低很多。但由于数据库开发费用较高,价格较高,因此总体费用高于光盘检索。 ⑥用户界面多基于WWW浏览器开发,方便友好。
各类计算机检索的比较
四 计算机检索技术 1 逻辑运算符 2 截词算符 3 位置算符 4 字段限制 5 范围限制 6.短语检索 7.括号检索 8.全文检索
逻辑与: “*”或“and”,如 : A*B 或 A and B 逻辑或: “+”或“or”, 如:A+B 或 A or B 1、布尔逻辑运算符 逻辑与: “*”或“and”,如 : A*B 或 A and B 逻辑或: “+”或“or”, 如:A+B 或 A or B 逻辑非: “-”或“not”,如:A-B 或 A not B
“与”算符 and AND * “与”算符用于描述概念间的交叉关系和限定关系。 含义:检出文献中必须同时包含被其连接的所有词或词组。 作用:缩小检索范围,提高查准率。 例如: 儿童 * 心理学 computer AND virus
与运算示意图 A B computer virus 作用: 缩小检索范围,提高检准率 A and B
“或”算符 or OR + “或”算符可描述概念间的并列关系和相关关系,用来组配同义词或相关词等。 含义:检出文献中包含有被其连接的任意一个词或词组。 作用:扩大检索范围,提高查全率。 例如:自行车 + 脚踏车 CAD or computer aided design
或运算示意图 B A 作用:扩大检索范围,提高检全率 土豆 马铃薯 A or B
“非”算符 not NOT - “非”算符用于描述概念间的排斥关系和特殊限定关系。 含义:检出文献中必须包含这个算符前的词,必须不含这个算符后的 词。 作用:缩小检索范围,提高查准率。 例如: 水果 – 香蕉 Patent not German
非运算示意图 B A 作用: 缩小检索范围,排除某一集合概念 German Patent A not B
如:comput? computer computers computing… dam* dam dams 2、截词(?或*) 将截词符加在检索词的前后或中间,以检索一组概念相关或同一词根的词。 作用:扩大检索范围,提高文献的查全率。 如:comput? computer computers computing… dam* dam dams wom?n woman women
3、位置算符 一个检索式中词语的相对次序不同,其表达的检索意图可能也不一样。 又称为邻近度算符。 一个检索式中词语的相对次序不同,其表达的检索意图可能也不一样。 位置算符的作用是对用作检索词的词组或短语中的各个单词之间的相对位置进行描述。常用的有(W)算符、(N)算符等。
如steel(W)pipe 表示steel pipe 又如 computer(1N)application 表示 computer application 或 application of computer
4、字段限制 指将检索词限定在特定的字段中进行。 同样的检索词,选择在不同字段中进行检索,得到的结果是不同的。 在西文数据库中,字段检索有时是用代码来表示。数据库不同,字段名称和代码也有所不同,需要在检索时要进行查看。不同学科、不同类型的数据库还有许多自己的专用检索字段。
中外文数据库常用字段
缺省字段为“篇名”
缺省字段为“关键词”
缺省字段为“All fields”
如果从文献的内容特征出发查找文献,可选的检索字段有“篇(题)名 title”、“关键词 keyword”、“文摘 abstract”以及“全文 fulltext”。
一般,如果使用相同的检索词分别在这几个字段中检索,那么检到的文献数会依次递增,而命中的准确率则依次递减。 题名 关键词( 文摘 ) 全文 检 全 率 递 增 检 准 率 递 增
命中31篇 命中80篇
命中44篇 命中410篇
5 范围限制 指对检索词的范围(如时间、国别、语种、信息类型等)进行约束或压缩的方法,它大多通过检索系统的限制指令或菜单选择来实现。
工程索引检索界面
6.短语检索 用“”表示,检索出与“”内容完全相同的短语,提高检索的精度和准确度。 “international space station”
7.括号检索 用于改变运算的先后顺序,括号内的运算优先进行。 (university or college) and education
8. 全文检索(full text searching) 全文检索是指直接对原文进行检索,从而更加深入到语言细节中去。它扩展了用户查询的自由度,使用户能对原文的所有内容进行检索,检索更直接、彻底。 全文检索技术通常用于全文数据库和搜索引擎中,使用全文检索可能会提高查全率,但同样也会有很多不相关的信息出现。因此在标引工作做得比较好的数据库中,这种方法是在进行其他字段的检索后,仍无法得到满意的结果时才会使用。