第2章 信息检索理论与方法 2.1 信息检索原理与方法 2.1.1 信息检索原理 1、信息检索的一般原理 (1)信息检索的一般原理 (2)计算机信息检索 (3)信息检索的根本目标 (4)信息检索的本质
2、信息检索的特征 3、信息检索系统与信息检索语言 (1)信息检索的相关性 (2)信息检索的不确定性 (3)信息检索的逻辑性 1)信息检索系统 信息检索系统的含义 信息检索系统的四大要素 (1)检索文档 (2)检索设备 (3)系统规则 (4)相关人员
一个完整的信息检索系统的组成 (1)信息选择子系统 (2)检索语言和名称规范子系统 (3)标引著录子系统 (4)查寻子系统 (5)交互子系统 (6)匹配子系统 2)信息检索语言 (1)按构成原理分:表述外表特征的语言、表述内容特征的语言 (2)按匹配方式分:先组式语言、后组式语言 (3)按规范化程度分:规范化语言、自然语言
2.1.2 信息检索方法 1 常规检索法 1)直接检索法 2)间接检索法 3)顺序法 4)倒查法 5)抽查法 2 回溯检索法 3 循环检索法
2.1.3 信息检索途径 1 信息外部特征检索途径 2 信息内容特征检索途径 1)题名途径 2)责任者途径 3)号码途径 1)分类途径 2)主题途径 3)分类主题途径
2.1.4 信息检索步骤 图2.3 信息检索途径的实现过程 分类途径 学科类目 确定类号,类目,页码 查分类目次表 获取原文 查馆藏目录得索书号 查检索线索 书目记录正文 主题途径 主题词 使用主题词表确定主题词 查主题索引得索书号 题名途径 题名 查题名索引 索引,页码 索引号,页码 作者姓名 查作者索引 作者途径 图2.3 信息检索途径的实现过程
明确需求,分析主题 选择数据库 确定检索词 编写检索式 提交检索式 完成 修改检索式 结果显示 不满意 满意 图2.4 信息检索步骤流程图
信息检索步骤 1 明确信息检索需求 2 选择检索系统/数据库 3 确定检索词 (1)检索词的类型 (2)检索词的选择与确定主要遵循的两个原则 4 构造检索表达式 (1)构造检索表达式的核心:既能表达检索需求,又能为检索系统识别的检索表达式。
(2)操作算符 1)逻辑算符:逻辑与、或、非 2)位置算符:W、N、S、F、C、L 3)截词符:*、?、$ 4)限制符:限制检索词出现的字段位置。如:TI、AB、AU等。 5 实施检索策略并进行结果分析 1)获取检索信息 2)索取原始信息:图书馆借、网上下载。 6 检索策略的修改与完善
2.1.5 案例分析 1 以“维普期刊” 为例介绍信息检索的方法与途径 例1:湖北大学柳剑平2008年发表的期刊论文(3) 例2:学年论文写作中的资料查找(5) 2 检索“企业管理”方面的最新报刊信息 3 检索美国1880年创刊的《科学》杂志
2.2 信息资源著录法 (1)著录 (2)著录法 (3)款目 (4)各种著录规则 (5)著录规则的含义 2.2.1 传统著录法 2 中国《文献著录总则》 (1)中国《文献著录总则》包含的内容 (2)文献著录款目格式
索取号 正题名=并列题名:副题名及说明题名文字[文献类 普通图书著录通用款目格式 索取号 正题名=并列题名:副题名及说明题名文字[文献类 型标识]/第一责任者;其他责任者.-版次及其他版本 形式/与版本有关的责任者.-文献特殊细节.-出版发行 地:出版发行者,出版发行日期(印制地:印制者, 印制日期) 页数或卷册数:图;尺寸或开本+附件.-(丛编名/责 任者,国际标准连续出版物编号;丛编编号·附属丛编) 附注 国际标准书号;中国标准书号(装订):获得方式 提要 Ⅰ.题名 Ⅱ.责任者 Ⅲ.主题词 Ⅳ.分类号
题名/作者: 乱世佳人 /(美)玛格丽特·米切尔(Margaret Mitchell)著 ISBN号: 7-5339-0289-0 出版发行项: 杭州- 浙江文艺出版社 1991 载体信息: 1032页 21cm ¥13.80 个人名称—等同责任者: 米切尔 个人名称—等同责任者: Mitchell 个人名称—等同责任者: 黄怀仁 个人名称—等同责任者: 朱攸若 中图图书分类法类号: I712.4 科图图书分类法类号: 47.6352 论题主题: 长篇小说 附注项: 本书又译《飘》
题名/作者: 飘 /(美)玛格丽特·米切尔(Margaret Mitchell)著 副题名: 全译典藏 丛编题名: 外国文学名著精品 ISBN号: 7-5339-1725-1 出版发行项: 杭州- 浙江文艺出版社 2003 载体信息: 2册(557, 545页) 23cm CNY69.00 个人名称—等同责任者: 米切尔 个人名称—等同责任者: Mitchell 个人名称—等同责任者: 傅东华 中图图书分类法类号: I712.45 论题主题: 长篇小说
2.2.2 机读目录(MARC) (1)机读目录的含义 (2)机读目录通用通信格式的类型 (3)机读目录通用通信格式的构成 1 USMARC格式 1) USMARC的记录格式结构 2) USMARC的记录头标及数据字段的说明 a 头标区 b 目次区 c 可变控制字段区 d 可变数字字段区
2 中国机读目录(CNMARC)格式 1) CNMARC的记录格式结构 2) CNMARC的记录头标及数据字段的说明 a 记录头标区 b 地址目次区 c 数据字段区 3) CNMARC的功能模块 4)样例分析
2.2.3 元数据 (1)元数据的含义 (2)搜索引擎的特点及不足 (3)新元数据的出现及RDF 1 都柏林核心集的信息描述项目 DC 的信息描述项目 包括三大部分15个基本元素。 1)内容描述部分 2)知识产权部分 3)外形描述部分 2 DC修饰词及其类型 1)元素修饰词 2)编码体系修饰词
3 资源描述框架RDF 1)RDF的语法体系框架 2)RDF的关系描述 2.2.4 都柏林元数据与机读目录之比较 1 DC与USMARC的比较 (1) DC与USMARC的区别 (2) DC与USMARC的联系 2 DC与CNMARC的比较 1) DC与CNMARC的联系 2) DC与CNMARC的区别
2.2.5 元数据的应用 1 元数据在国外的应用 1)美国的教育资料网关 2)北欧的万维网索引 3)欧洲研究与教育信息服务之开发项目 4)北欧的元数据项目 2 元数据在中国的应用 1)中国大陆的元数据研究 2)中国台湾的元数据研究 3)小结
2.3 信息资源标引法 标引(Indexing) 2.3.1 分类标引—归类 1 分类标引要求 2 分类标引方法 3 分类标引规则 1)分类标引基本规则 a. 性质标引 b. 从属标引 c. 内容标引 d. 用途标引 e. 对象标引
2)分类标引一般规则 a.单主题、多主题信息资源的分类标引 b. 简单主题、方面主题和联结主题的分类标引 c. 丛书、多卷书的分类标引 d. 参考工具书的分类标引 e. 检索工具书的分类标引 f. 对著作的研究、注释的分类标引 g. 特种文献的分类标引 h. 技术报告、学位论文的分类标引 i. 非书资料的分类标引 j. 网络信息资源的分类标引 4 对常用几种分类法的评价
2.3.2 主题标引 主题标引 1 标引方式 1)整体标引 2)全面标引 3)对口标引 4)综合标引 5)分析标引 2 标引方法 按照选词方式,可分为:标题法、元词法、叙词法三种。
3 标引规则 1)基本规则 a. 查词规则 b. 组配规则 2)一般规则 a. 单主题、多主题信息资源的标引 b. 简单主题、复合主题和联结主题信息资源的标引 c. 论及地区、时代信息资源的标引 d. 传记信息资源的标引 e. 文艺领域作品的主题标引 f. 丛书、多卷书、论文集的主题标引
g. 参考工具书的主题标引 h. 检索工具书的主题标引 i. 特种文献的主题标引 j. 非书资料的主题标引 k. 网络信息资源的主题标引 4 几种主题词表的评价 5 对主题标引与分类标引的评价
2.3.3 关键词标引 关键词标引 1 关键词标引的类型 1)题内关键词索引—KWIC 2)题外关键词索引—KWOC 3)双重关键词索引 2 关键词索引编制的步骤及特点 1)编制步骤 2)特点 3 评价 1)优点 2)缺点
2.3.4 名称标引 名称标引 1 责任者标引 2 题名标引 2.3.5 其他标引 1 自动主题标引 2 自动分类标引
2.4 信息资源排检法 2.4.1 字序法 1 中文排检法 1)形序法 a. 笔画法 b. 笔顺法 c. 部首法
2)音序法 a. 汉语拼音排检法 b. 注音字母排检法 c. 韵部排检法 d. 威妥玛式拼音排检法 e. 声部排检法 3)号码法 a. 四角号码法 b. 中国字庋撷法
2 外文排检法 1)字顺排检法 a. 拉丁文字顺排检法 b. 日文字顺排检法 c. 俄文字顺排检法 2)其他排检法
2.4.2 类序法 1 分类法 1)四部分类法。如:经、史、子、集。 2)体系分类法。如:《中图法》 3)组配分类法。如:《冒号分类法》 2 主题法 主题法 规范 1)主题词表 2)《汉语主题词表》 3)主题索引
2.4.3 其他排检法 1 时序法。如:历史文献 2 地序法。如:地理文献 3 谱序法。如:家谱