第九章 自 动 标 引
自动标引 自动标引的定义及意义 自动标引的基本原理 自动标引的基本流程 自动分词 其他内容简介
自动标引的定义 自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。 换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。
自动标引的定义 自动标引 自动主题标引 自动分类标引 自动主题标引关键在于:词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。 当前,各标引系统都在不同程度地使用计算机系统进行辅助标引。
自动标引的意义 1.适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。 信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。
自动标引的意义 2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势: 处理能力强 处理速度快 成本低 一致性好,稳定性好
自动标引的意义 美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。
自动标引的意义 自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。
自动标引的意义 美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。
自动标引的基本原理 目前研究的自动标引的方法很多,较典型的汉语自动标引方法:词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。 根据自动标引采用的理论划分,自动标引的方法主要有3种:统计法、语言法、人工智能法。
自动标引的基本原理 统计法(Statistical Approach): 自动标引各种方法中历史最长的一种,也是目前较为成熟的一种方法。 理论基础是齐夫(Zipf)的省力法则(Principle of Least Effort)。 典型代表:词频加权方法,根据词的出现频率及出现位置等因素确定标引词。
自动标引的基本原理 语言法(Linguistic Approach): 通过对构成文献的自然语言的分析,利用一定算法产生标引词,是从语言学角度对自动标引方法的探索。 包括两种方法:句法分析、语义分析 学术界对语言法的自动标引颇有争议。但目前利用语义分析的自动标引研究还在不断升温。
自动标引的基本原理 人工智能法(Artificial Intelligence Approach,AI Approach): 让计算机从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作。 目前该方法已成为自动标引领域的热点问题,人工神经网络、遗传算法等方法的发展给自动标引增添了不少动力。不少学者认为,人工智能法代表着自动标引研究的未来。
自动标引的基本流程 确定标引源 输入标引源内容 预处理 分词处理 确定关键词 转换为受控词 给出主题标识符
确定标引源 即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。 标题是自动标引的主要标引源,大多数研究是基于标题进行的。但仅以标题为标引源,信息量少,标引质量差,难以推广使用。 如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。
确定标引源 一般选择以下内容作为标引源: 1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。 2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。 3.首尾章节:科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。
确定标引源 4.章节的首尾段:常反映章节讨论的主题,替代整个章节,节省大量无效劳动。 5.段落的首尾句:国外有学者对科技文献的200个段落进行了主题句的分析,结果:85%的段落主题句是段落的第一句,7%的段落主题句是最后一句。用段落首尾句替代整个段落,节省工作量,免除许多“杂音”。
输入标引源内容 标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。 印刷型文献:手工录入或OCR(光学字符识别)输入 电子文档(XML、DOC、TXT等格式):直接导入
文档的预处理 字符内码的检测与转换:BIG5码与GB码的自动检测与转换。 文档格式的检测与转换:去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。
分词处理 在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合。 西方文字有分隔符,切分容易实现。而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。
确定关键词 根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定可表达文档中心内容的词作为该文档的关键词。
确定关键词 主要方法: 绝对词频统计法:以词在文章中出现的绝对频次为根本依据确定文章的中心关键词,理论基础是齐夫定律。 词频权重法:除考虑词频外,还考虑词的位置、词的词性、词本身的价值、词的长度等因素,对词进行加权,然后根据权值大小确定关键词。
转换为受控词 关键词与受控词(主题词、副主题词、特征词)之间存在着一定的关系(如同义词关系、上位关系、下位关系等)。 使用一定的方法,将以上提取的关键词转换为受控词。
转换为受控词 目前有效可行的方法包括: 使用关键词-受控词对照表:该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系,由此对应转换。 利用词汇相似度:大多数意义相同或相近的词之间字符全部或部分相同,关键词与主题词之间存在一定程度的相似性,可通过某些算法计算出来,根据相似性确定相应的主题词。 两种算法:基于词素的相似度算法;给予单汉字的字面相似度算法。
给出主题标识符 根据确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。
自动分词 词语自动切分:以语言学知识为基础,通过一定算法、将组成句子的词从句子中切分出来,得到词语集合的过程。 可广泛应用于自动标引、智能检索、自动翻译、自动文摘、数据挖掘、信息过滤等领域。 词语自动切分是汉语自然语言处理中最关键的一步。
词语自动切分的方法 词语自动切分的方法有很多,如词典分词法、人工神经网络算法、语料库训练分词方法等。 根据其使用的原理和算法,归纳为三类:词典法、统计法、混和法
词典法(Lexical Method) 又称机械分词方法,是按照一定的策略将待分析的汉字串与切分词典系统中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
词典法(Lexical Method) 分词词典: 停用词表:文献中词频很高或很低的词或字 特例词表:如停用词“的”、“也”可组成“的士”、“也门”等词。使用停用词表预切分前,利用特例词表将特例词保护起来。 关键词表:系统分词的主要依据,必须尽量完备。 人名、机构名和地名词表
词典法(Lexical Method) 匹配算法: 根据匹配方向不同:正向匹配、逆向匹配 根据匹配长度不同:最大匹配法、最小匹配法 最大正向匹配、最大逆向匹配 最大匹配法切分的词长度大,专指性高,效果较好。目前使用较多。
词典法(Lexical Method) 优点:便于实现,操作简单,实际应用较多。目前报道的切分准确率高达98%以上。 缺点:歧义问题、词典问题、词缀问题、名称问题、译名问题 实际使用的分词系统,将机械分词作为一种初分手段,再利用其他的语言信息进一步提高切分准确率,如改进扫描方式、将分词与词类标注结合。
统计法(Statistical Method) 依据两个或多个汉字同时出现(相邻出现)的概率,利用语料库进行能够有监督或无监督的学习,得到描述一种语言的“语言模型”,然后通过该模型对文本进行词语切分。
统计法(Statistical Method) 优点:降低了生词(包括译名)的影响,只要有足够的训练文本就易于创建和使用。 缺点:“足够训练”非常难以做到,不可能有足够的语料库进行训练,实用性低。
混和法(Hybrid Method) 将两种方法结合,综合考虑,吸取各自优点,提高分词效率。
其他内容简介 矢量空间模型(Vector Space Model,VSM):自动标引主要依据的理论。改进:语义矢量空间模型(Semantic Vector Space Model,SVSM)。 NLM的自动标引项目——标引创始项目(Indexing Initiative,II),20世纪90年代开始实施,目的是研究出可部分或完全替代当前标引实践工作的方法。