信息采集技术 信息产品的加工4/5
一、周遍性信息的处理 对一种或多种相关信息进行加工,并深入信息内部对检索关键字词进行周遍性或选择性标引,使信息索引化 使隐藏变显现、使无序变系统、使封闭变开放 形式有全文检索系统、功能信息系统等
1、全文检索系统 源自情报检索系统 情报检索系统旨在加工、存储、编排文献,并为用户的查询提供相关的输出 给文献资料赋予检索标识是情报检索的基础 全文检索是一种内容索引 源自语词索引-将文献中的字或词作为标引对象,并指明其在文献中的具体地址,使用户能够找到该字或词在文献中的具体出处 全文检索是在用户不满足仅查到简单的书目信息的背景下产生的,用户希望系统能够找到所需的词、字信息,并能提供检索要求的原始文献信息
全文检索系统 美国的Dialog全文检索系统 -全文数据库 -全文数据库的各类 将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的数据库 -全文数据库的各类 出版方式:印刷型平行出版的全文库/纯电子出版物 存储内容:直接原文型/摘录型 应用领域:法律法规/期刊/商情/新闻消息/医学等
全文检索系统 综上所述,其概念描述为: 特点: 具有全文数据库,具备全文编辑、加工和检索功能,允许用户以自然语言进行检索并获取原文的系统 检索结果的直接性和可靠性 检索的详尽性和彻底性 用户使用的便捷性 标引方法简单,具有较好的一致性和通用性
全文检索系统 功能: 开发: 位逻辑检索/截词检索/字符串检索/限定检索/同义词检索/后控制表辅助检索 数据库准备→全文数据库的建立→文本检索功能的实现 文件组织形式/记录分割技术/检索标识的提取 检索模型的构造与选取/检索算法的设计
汉字全文检索系统的模式-1 单汉字无标引全文检索系统 基本思想:以单个汉字作为标引的基本单元。在检索时,对不属于停用词范畴的单个汉字进行逻辑与运算,即对标引字所代表的概念层面进行后组配,从而获得检索结果。 特点:以单汉字为标引单元,避免了分词的障碍;组配灵活,标引深入;标引客观且一致;隐含截词功能;操作简单,维护方便。检索效率供,速度慢,浪费空间,用户使用分析较困难。
汉字全文检索系统的模式-2 全文后控检索系统 检索词不受限制,检索方便,易用,标引简便快速,统一性好 全文后控检索系统 基本思想:针对完全自然语言检索法存在的检索策略困难和检全率较低的问题提出的,充分发挥自然语言和受控语言的各自优势,通过采用后控词表对系统加以控制,达到扩检的作用。 特点:以单汉字为标引单元,避免了分词的障碍;组配灵活,标引深入;标引客观且一致;隐含截词功能;操作简单,维护方便。检索效率供,速度慢,浪费空间,用户使用分析较困难。 词间词义清晰,选词没有限制
汉字全文检索系统的模式-2 后控词表:由一个概念之下的各种相关、近义、同义的词组成的一个词表片段,在各词之间建立指引关系。类似于主题词表或入口词表,是一种转换工具,一种扩检工具,一种罗列自然语言检索标识供选择的工具。 -搜狗拼音输入法/智能狂拼输入法等
汉字全文检索系统的模式-2 例: 后按词表片段: Y :用-指向同义词,正式词汇,属等同关系 D :代-指向同义词,非正式词汇属等同关系 C: 参-指向相关或近义词,属相关关系 {李白 D 李太白,青莲居士,诗仙} ... {李太白 Y 李白} {青莲居士 Y 李白} {诗 C 诗作,诗集,诗选,诗评} {诗集鉴赏 Y 诗评} {诗集 C 诗,诗选,诗作} {诗评 C 诗,诗作,诗选,诗集 D 诗词鉴赏} {诗仙 Y 李白} {诗选 C 诗,诗集,诗作} {诗作 C 诗,诗集,诗选} 用户检索:”李太白+诗“ 执行步骤: …
汉字全文检索系统的模式-3 单汉字标引与后控词表相结合的全文检索系统
全文检索系统的发展 单一→网络化 全文数据库与全文检索系统相分离 向多媒体(文本、图像、声音)一体化发展 文本技术与全文检索技术相结合 向智能化方向发展
2、功能信息 指文献内部隐含的、潜在的各种有检索和开发利用价值的信息 深入文献,挖掘新质信息 特点: 作用: 以文献内部的单元信息为加工对象 对文献的加工具有系统性和周遍性 作用: 方便使用 帮助用户理顺检索课题的逻辑关系 提供了系统开发利用深层次文献信息的途径 完善了信息加工处理体系
二、鉴选性信息的提取 通过调查研究并根据需要对各种信息进行鉴别评价、筛选,聚其精华或录其整篇或汇成系统 其形式有文献汇编、精粹节录等
1、信息汇编 概念: 是按一定的目的和方法,依据一定的时间和空间标准,就某一学科/专题、人物、事件范围的相关原始文献进行审读、鉴评、聚合、结集、整理而成的信息加工产品
1、信息汇编 特点: 以专题或学科为范围,复印原文,一字不易,集万册为一集,质量高,信息含量大,针对性强,用户对象明确 是对一次文献进行加工、整理的产物,因而具有二次文献所特有的广泛性、系统性、检索性、动态性
1、信息汇编 作用: 节约用户浏览、寻觅、鉴选资料的时间 便于学术交流和科学研究 便于回顾、总结学术发展、把握学术动态 便于用户购买和收藏 定题情报服务
1、信息汇编 信息汇编的编制 原则: 新颖性原则 客观性原则 全面性原则 价值取向性原则 区别对待性原则 连续性原则
1、信息汇编 信息汇编的步骤 选题→选材→分类→系统编排 编制实例: 《Web of Science-SCI Expanded(2000年)收录的中国期刊论文精品资料汇编》
1、信息汇编 信息汇编的现状及发展趋势 呈现载体:印刷本与电子版共存 覆盖学科:社科类,自然科学类等 汇编选题:新颖性,独特性存在欠缺 汇编选材:文献类型单一、语种单一、时间感不强、材料陈旧,主观性强、客观性差 汇编过程:注意版权问题
2、精粹信息 概念: 原始文本中隐含的有价值的观点、方法、资料、事实、结论等片段语句 信息加工处理方法: 描述文献的外表特征,提供文献的出处线索 揭示文献的整体信息,提供文献的内容梗概 处理文献中的词语同内容,提供周遍性的信息 鉴选文献中的单元信息,提供文献中的原始信息 研究文献的内容 特点,提供参考决策信息 链接文献的相关信息,提供网状的关联信息
2、精粹信息 特点: 作用: 过滤冗余信息,获取精华信息 是文献中的片断,而非全部 智力含量较重,机械加工成分少 过滤信息,消除污染与噪声,加速信息的交流与传递 为用户提供获取和吸收信息的快捷方式 创新信息,赋予新价值 完善信息加工体系,推进用户信息系统的功能 评价信息的功能
2、精粹信息 鉴选原则: 实用性 客观性 新颖性 完整性 系统性 鉴选标准: 学术性 创新性 准确性(观点、数据、方法、事实、综述、结论)