第二讲 检索技术与检索技巧
2.1计算机信息检索原理 检索提问标识与存储标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索系统输出,输出的信息就是检索命中的信息。 存储:信息资源的有序化 检索:用户信息需求与信息集合匹配
2.2 关键词选取 从特征描述讲起……
体会: 1,检索的原理简单的说就是在相应的字段内关键词与描述词相匹配。 2,检索能力体现在优良的检索策略(关键词选取和检索步骤、检索工具等)以及检索结果。
文献的特征 期刊论文 题名、作者、地址、刊名、摘要、英文摘要、主题词、英文主题词、全文等 图书 题名、责任者、丛书名、出版年、出版社、ISBN、主题词、分类号等 学位论文 题名、作者、指导老师、学位级别、授予单位、时间、摘要、关键词等
关键词的选取 具有独立的主题意义,反映检索内容的实词 查找文献时需要选取良好的关键词
如果希望查找“玻璃复合薄膜的研究”这个课题相关的文献,较好的检索词应该是____________。 A.玻璃,复合,薄膜,研究 B.玻璃,复合,薄膜, C. 复合,薄膜,研究 D.玻璃,薄膜,研究
如果希望查找“对用后均法进行数据处理的讨论”这一题目的相关文献,较好的检索词应该是__________进行检索的途径。 A. 后均法 进行 数据处理 B. 后均法 数据处理 C. 后均法 进行 数据处理 讨论 D. 用 后均法 进行 数据处理
关键词的范围 同义词 近义词 反义词 上位类词 下位类词 概念______之间属于同一概念的扩展关系。 A.computer aided design与CAD B.计算机与电脑 C.材料与无机材料 D.金属与轻金属
概念________之间属于同一概念的扩展关系。 A. 因特网与局域网 B.手机与移动电话 C.电脑与通讯设备 D.color与colour
2.3计算机检索技术 (1)布尔逻辑检索 (2) 截词检索 (3) 字段检索和全文检索 (4)其他检索技术
——————————————— A 逻辑“或”(和) B 布尔逻辑检索(Boolean Logical) 用符号“or”或“+”表示,其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词B, 或同时含有检索词A和B的,均为命中文献。
———————————————— 逻辑“与” A B 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B
———————————————— 逻辑“非” A B 用符号“not”或“-”,其逻辑表达式为: A not B 或 A-B
符号 两边的词 检索结果 或 Or、+ 同义词、近义词 扩大检索范围 与 And、* 不同的词 缩小检索范围 非 Not、- 上下位关系词 排除不需要
例:课题“当前商业银行经营体系的特点” ,用布尔逻辑算符构成检索策略。(无需扩展概念,无需使用英语) 检索式: 例:课题“当前商业银行经营体系的特点” ,用布尔逻辑算符构成检索策略。(无需扩展概念,无需使用英语) 思路:以写论文、做项目、科学研究为目的得文献检索,需要获得是有价值的全面的系统的信息。 步骤 1,选取关键词 2,选择逻辑运算符 3,写出检索式 商业银行AND经营AND体系
1希望提高百度引擎搜索结果的查全率,在检索策略中可增加________。A.同义词和近义词 B.“或”运算 例:逻辑“或”算符是用来组配________。 A. 不同检索概念,用于扩大检索范围 B. 相近检索概念,用于扩大检索范围 C. 不同检索概念,用于缩小检索范围 D.相近检索概念,用于缩小检索范围 1希望提高百度引擎搜索结果的查全率,在检索策略中可增加________。A.同义词和近义词 B.“或”运算 C.“与”运算 D.词组运算
截词检索(Truncation searching) 指在检索式中用专门的符号(截词符号:?/ * / $ / %) 表示检索词的某一部分允许有一定的词形变化。 截词检索按截断部位划分有:右截断、左截断、中 截断、复合截断等 按截断长度划分有:有限截断和无限截断。
截词检索(Truncation searching) 1)右截断(后截断) Comput* 可检出: 包含Computer,computers,computering等词的文献 信息?:表示在数据库中含有信息、信息技术、信息检索等方面的文献记录均为命中文献。 2)左截断(前截断) *history 可检出:包含Prehistory,post-history, history等词的文献 ?经济:表示数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。
3)中间截断 sul*ur,可检出含有sulphur、sulfur等检索词的文献。 m?n 可检出含man、men等检索词的文献。 4)复合截断 *cognit* 可检出含有cognition、cognitive、 recognition等检索词的文献。 有限截断和无限截断的区别在于对被截断部分的字符数是否限制。 截词检索在不同的计算机检索系统中规定不同,请使用时注意查看不同检索工具的说明。
ne?t可以检出哪几个词: neat, nest,next。 *Chemi*可以检出哪几个词: chemical、chemist、chemistry、 Electrochemistry、electrochemical、 physicochemical、thermochemistry
字段检索 主要字段: 题名(TI)、作者(AU)、出处(SO)、摘要(AB)、出版年(PY)、主题(SU)等,指定字段检索可提高检索资料的相关性和精确性 不同数据库提供的检索字段不尽相同,字段标识也不一样。
指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。 利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名<关键词<摘要<主题<全文 全文检索 指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。 全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。
搜索的关键字包含在网页标题中 “intitle”和“allintitle” 示例:查找明星xxx的影片集。 搜索:intitle:xxx 影片集 搜索:intitle:爱上图书馆
查找特定格式的文件 对搜索的网站进行限制 搜索的关键字包含在URL链接中 filetype:类型名 能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等 对搜索的网站进行限制 site:网站名 示例:搜索新浪科技频道中关于搜索引擎技巧的信息。 site:tech.sina.com.cn 搜索的关键字包含在URL链接中 Inurl:关键字 示例:查找 MIDI曲“沧海一声笑” 搜索:“inurl:midi “沧海一声笑”” 注意:“inurl:”后面不能有空格
信息检索需要技术: 目的是把所有相关的有用的信息全部检索出来 选择检索工具 确定检索词、思索检索词之间的关系、检索式 不同的检索策略得到的结果也不同
查全率 查准率 查全率=(检索出的相关信息量/系统中的相关信息总量)x100% 查准率=(检索出的相关信息量/检索出的信息总量)x100% 例:检索得到文献50篇,经浏览发现30篇可以借鉴,实际上系统中相关的文献有100篇,问查全率与查准率各是多少?
请查找一段音乐