第九章自动标引.

Slides:

Advertisements

Similar presentations

国家税务总局关于修改企业所得税年度纳税申报表（ A 类， 2014 年版）部分申报表的公告（国家税务总局公告 2016 年第 3 号）一、对《企业基础信息表》（ A ）及填报说明修改如下：（一） “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”

Advertisements

第四章信息的加工与表达（下）. 了解编程解决问题的方法与步骤信息技术基础》第四章第一节硬件基础知识：内存：内存分成两个部分 ROM （断电也能够保留数据）和 RAM （断电时其中的数据就会丢失）显卡：承担显示图形的输出声卡：实现声波／数字信号相互转换的一种硬件。网卡：计算机与外界局域网的连接硬件又称适配器.

2014 年 12 月企业所得税年度纳税申报表 (A 类， 2014 版 ) 辅导材料（二） A 企业基础信息 A 主表.

退休規劃之應用與實例討論退休規劃之應用與實例討論誠心誠意從聽做起. 長壽的趨勢有人說生是偶然、意外也是偶然但是老是必然 ……….. 您同意嗎 ? 又有人說老一點都不可怕，病也不可怕老又病也不可怕但是 …… 又老又病又沒錢才可怕所以一定要規劃退休養老、投資理財.

教育信息化专题培训王延觉 2014年5月.

学校秋季常见传染病的防控武进区疾病预防控制中心防疫科.

G－415 40亿像素相机.

景观水池渗漏的研究年级专业：12级土木工程指导教师： ××× 教学点： ××××教学点新疆工程学院继续教育学院 20 年月日

企业所得税年度纳税申报表(A类，2014版) 中小企业主要报表辅导材料

第一节汉字概说第二节现代汉字的形体第三节现代汉字的结构第四节现代汉字的构字法第五节汉字的信息处理第六节字位及其突出方式

完善固定资产加速折旧企业所得税政策.

第二章事故管理第一节事故的定义及分类第二节事故致因理论第三节事故的调查与处理第四节事故统计分析第五节事故预防控制.

秘笈 2015 不做專家也能變贏家投資其實可以很簡單簡單理財投資大師也有滑跤時債券天王葛洛斯也有看錯方向

数字化教学资源建设在大学化学教学中的探索与实践刘志广大连理工大学 2007年5月12日济南.

工程定额与计价方法教材名称：工程建设定额原理与实务

建设工程施工管理模拟卷一、单项选择题 1.下列选项中，除（）以外都属于施工机械使用费。 A.购置费 B.安拆费及场外运费 C.折旧费 D.修理费.

阳光工程引导性培训宁夏自治区盐池县农广校

金鱼青山湖区肖坊小学邹文琛.

食品添加剂生产许可情况介绍江苏省食品药品监督管理局彭弘雷 2014年12月

“炝虾”食用安全性的初步研究上海市吴淞中学生物与环境社团责任者：李胤吴蓓莉指导老师：张治许沁.

南通市卫生监督所副主任医师南京医科大学副教授施飞

《毛泽东思想和中国特色社会主义体系概论》第一章马克思主义中国化两大理论成果

第四章文字本章主要内容第一节汉字的性质和特点第二节汉字的结构第三节汉字的溯源分析第四节现代汉字的音和义

2010年春季开学学校食堂食品安全知识培训徐汇区食品药品监督所

进出口食品检验监管基础讲课内容我国进出口食品安全管理体系介绍法律法规进口食品的检验检疫出口食品的检验检疫.

美元的~前世、今生與來世資料來源：美元圈套聯合理財網\個人理財\保險理財 Smart智富月刊\個人理財\保險天地.

必修一第一章宇宙中的地球第一节地球的宇宙环境（1）.

授课班级安全技术管理0605班第 5 次课授课时间 2008年3月10日星期一授课地点科技楼401多媒体教室课题内容：

報告人：葉佳忠老師臺北市中山區永安國民小學中華民國103年7月2日

2015版《中国地震动参数区划图》对我市城乡建设的影响

典型案例---医院.

總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.

第三节渐开线圆柱齿轮精度等级及应用.

2014年企业所得税汇算清缴相关税收政策新华区地方税务局卿继红

IDH电子项目折衷与问题解决版本 2013年9月13日.

第十章季节施工 ——冬期施工准备.

危险废物环境管理情况河南省固体废物管理中心　韩晓晗 2007年6月6日.

第八章心理差异与因材施教第一节智力因素的个别差异与教育.

新北市政府第二代公文自動化系統建置推廣暨維運服務委外案文書人員-二代公文共同課程

欢迎您！荣县电大毕忠权.

食品添加剂生产许可审查通则起草说明.

车祸，四大杀手中海集团物流有限公司上海仓储——费在强.

概述检索图书的检索工具检索期刊的检索工具检索特种文献的检索工具

餐饮服务从业人员食品安全知识培训孔莉朔州市食品药品监督管理局.

首次数据采集填报说明内蒙古自治区校车信息管理系统靳丽内蒙古自治区教育信息中心 2013年5月

我国减速机行业现状和技术发展趋势乔华山.

防空地下室审批要点主讲人：陈玉亭.

治超新政相关文件解读厅执法局江涛二零一六年九月.

科技服务业统计报表填报说明江苏省科技统计中心 2008年12月镇江.

商品学高学芹.

关于加强城市排水防涝有关政策解读吉林省住房和城乡建设厅臧锐.

第一章主题标引绪论.

第一章计算机基础知识计算机的基本概念计算机系统的组成信息的编码微型计算机的硬件组成.

2016年度税收新政策解读主讲石敖湖南省中税网天一税务师事务所 2018/11/7.

人生哲理每一句話都充滿著智慧，值得和朋友們分享、共勉～ <每隔 6 秒，自動換頁！！>

零、多媒體概論郭秋田.

Formal Pivot to both Language and Intelligence in Science

向量資料結構 (vector data structure)

IT&SAMS小組 (IIT - 倉頡輸入法)

社會學-數位空間第七組-彭于娟、陳柔頻、吳丞芝、黃秋錦

第十一章管理知識.

通知一、一百零二學年度第一次博士班資格考日期為103年1 月22日、23日、1月24日（星期三、四、五）。

知识点六草原资源保护法及渔业资源保护法.

关于“十三五”规划的思考水利部农村饮水安全中心张汉松 2014年10月昆明.

貝氏刷牙法 (Bass Method) 外埔國小.

6.6 線性規劃的單體法單體法 (simplex method)

實驗 8. 4 實驗目的: 探究活的萌發種子會否產生熱能.

人工智慧＆Scratch 林俞均侯藹玲陳芸儀鄭涵庭

共現索引典之自動建構、評估與應用前言相關之研究關鍵詞自動擷取關聯詞自動擷取應用範例成效評估結語曾元顯輔仁大學圖書資訊學系

Presentation transcript:

第九章自动标引

自动标引自动标引的定义及意义自动标引的基本原理自动标引的基本流程自动分词其他内容简介

自动标引的定义自动标引（Automatic Indexing），又称计算机辅助标引（Computer Aided Indexing），是根据文献内容，依靠计算机系统全部或部分地自动给出标引符号的过程。换句话说，就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。

自动标引的定义自动标引自动主题标引自动分类标引自动主题标引关键在于：词语抽取；对所识别出的主题词进行优选，以最终产生能表达文献主题内容的标引词。当前，各标引系统都在不同程度地使用计算机系统进行辅助标引。

自动标引的意义 1.适应信息资源快速增长的需要加利福尼亚大学伯克利分校研究人员发现，仅1999-2002年的三年中，全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。信息资源的快速增长，造成信息相对过剩。只有提高信息组织的效率，才能摆脱信息相对过剩带来的困惑，因此信息标引显得非常重要。自动标引适应了这一需要。

自动标引的意义 2.相对手工标引存在很大优势，克服了手工标引难以克服的缺点。与熟练标引人员相比，自动标引的准确性不如手工标引，但在其他指标方面自动标引具有无可比拟的优势：处理能力强处理速度快成本低一致性好，稳定性好

自动标引的意义美国的Cleverton曾作过一些试验，结果：两组人员为同一主题编出的叙词表中词的同一率仅60%；两位有经验的标引员用同一叙词表对同一篇文献进行标引，其标引词的同一率仅有30%左右；两个在同一数据库中用同一检索系统检索同一问题的用户，检索出的结果同一率仅40%；两位科研人员根据同一提问判断一组指定文献的相关性，其同一率不会超过60%。

自动标引的意义自动标引不受标引人员状态和情绪的影响，稳定性好。美国学者伦兹作过两个试验，6名标引人员在不同时间标引同一文献，一致率为15.8%；由同一标引人员在不同时间标引同一文献，一致率为16.19%。采用计算机自动标引，无论何时对同一篇文献总能标引出相同的主题词。

自动标引的意义美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较，结论是：相对简单的自动文本分析系统在文献检索环境中产生的检索结果，其质量不亚于受控标引通常所能达到的水平。

自动标引的基本原理目前研究的自动标引的方法很多，较典型的汉语自动标引方法：词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。根据自动标引采用的理论划分，自动标引的方法主要有3种：统计法、语言法、人工智能法。

自动标引的基本原理统计法（Statistical Approach）：自动标引各种方法中历史最长的一种，也是目前较为成熟的一种方法。理论基础是齐夫（Zipf）的省力法则（Principle of Least Effort）。典型代表：词频加权方法，根据词的出现频率及出现位置等因素确定标引词。

自动标引的基本原理语言法（Linguistic Approach）：通过对构成文献的自然语言的分析，利用一定算法产生标引词，是从语言学角度对自动标引方法的探索。包括两种方法：句法分析、语义分析学术界对语言法的自动标引颇有争议。但目前利用语义分析的自动标引研究还在不断升温。

自动标引的基本原理人工智能法（Artificial Intelligence Approach，AI Approach）：让计算机从事标引工作中的脑力劳动，即让计算机模拟标引员完成标引文献的工作。目前该方法已成为自动标引领域的热点问题，人工神经网络、遗传算法等方法的发展给自动标引增添了不少动力。不少学者认为，人工智能法代表着自动标引研究的未来。

自动标引的基本流程确定标引源输入标引源内容预处理分词处理确定关键词转换为受控词给出主题标识符

确定标引源即确定标引所依据的文献内容（标引源）。标引源的选择是影响标引质量的一个重要因素。标题是自动标引的主要标引源，大多数研究是基于标题进行的。但仅以标题为标引源，信息量少，标引质量差，难以推广使用。如果对全文进行扫描，则存在数据量大和截取词汇太多等问题，为标引带来许多杂音，影响标引质量和速度。

确定标引源一般选择以下内容作为标引源： 1.标题：包括文章的主标题、章节标题、小结标题等。这是首选标引源。 2.文摘：较标题而言，信息量较大，一般能够完全反应文献讨论的主题，但仅利用文摘难以确定5-6个最重要的词。 3.首尾章节：科技论文首章节（引言、问题的提出等）常提出主要内容，尾章节常作总结。

确定标引源 4.章节的首尾段：常反映章节讨论的主题，替代整个章节，节省大量无效劳动。 5.段落的首尾句：国外有学者对科技文献的200个段落进行了主题句的分析，结果：85%的段落主题句是段落的第一句，7%的段落主题句是最后一句。用段落首尾句替代整个段落，节省工作量，免除许多“杂音”。

输入标引源内容标引源必须按标引系统要求的格式输入系统，才可能进行自动标引。印刷型文献：手工录入或OCR（光学字符识别）输入电子文档（XML、DOC、TXT等格式）：直接导入

文档的预处理字符内码的检测与转换：BIG5码与GB码的自动检测与转换。文档格式的检测与转换：去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号，即将不同格式文件转换成适于自动标引的纯文本格式。

分词处理在确定关键词之前，必须对文档进行切分，即将语句切分成由词组成的集合。西方文字有分隔符，切分容易实现。而汉语采用连写方式，词之间没有自然分隔符，词语的准确切分较为困难（研究相当长时间），目前自动切分已基本能满足实际需要。

确定关键词根据文本词语切分结果，以词语在文本中出现的频次、位置及词的词性等因素为依据，确定可表达文档中心内容的词作为该文档的关键词。

确定关键词主要方法：绝对词频统计法：以词在文章中出现的绝对频次为根本依据确定文章的中心关键词，理论基础是齐夫定律。词频权重法：除考虑词频外，还考虑词的位置、词的词性、词本身的价值、词的长度等因素，对词进行加权，然后根据权值大小确定关键词。

转换为受控词关键词与受控词（主题词、副主题词、特征词）之间存在着一定的关系（如同义词关系、上位关系、下位关系等）。使用一定的方法，将以上提取的关键词转换为受控词。

转换为受控词目前有效可行的方法包括：使用关键词-受控词对照表：该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系，由此对应转换。利用词汇相似度：大多数意义相同或相近的词之间字符全部或部分相同，关键词与主题词之间存在一定程度的相似性，可通过某些算法计算出来，根据相似性确定相应的主题词。两种算法：基于词素的相似度算法；给予单汉字的字面相似度算法。

给出主题标识符根据确定的主题词、副主题词、特征词，进行组配，给出主题标引符号，完成自动标引。

自动分词词语自动切分：以语言学知识为基础，通过一定算法、将组成句子的词从句子中切分出来，得到词语集合的过程。可广泛应用于自动标引、智能检索、自动翻译、自动文摘、数据挖掘、信息过滤等领域。词语自动切分是汉语自然语言处理中最关键的一步。

词语自动切分的方法词语自动切分的方法有很多，如词典分词法、人工神经网络算法、语料库训练分词方法等。根据其使用的原理和算法，归纳为三类：词典法、统计法、混和法

词典法（Lexical Method）又称机械分词方法，是按照一定的策略将待分析的汉字串与切分词典系统中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。

词典法（Lexical Method）分词词典：停用词表：文献中词频很高或很低的词或字特例词表：如停用词“的”、“也”可组成“的士”、“也门”等词。使用停用词表预切分前，利用特例词表将特例词保护起来。关键词表：系统分词的主要依据，必须尽量完备。人名、机构名和地名词表

词典法（Lexical Method）匹配算法：根据匹配方向不同：正向匹配、逆向匹配根据匹配长度不同：最大匹配法、最小匹配法最大正向匹配、最大逆向匹配最大匹配法切分的词长度大，专指性高，效果较好。目前使用较多。

词典法（Lexical Method）优点：便于实现，操作简单，实际应用较多。目前报道的切分准确率高达98%以上。缺点：歧义问题、词典问题、词缀问题、名称问题、译名问题实际使用的分词系统，将机械分词作为一种初分手段，再利用其他的语言信息进一步提高切分准确率，如改进扫描方式、将分词与词类标注结合。

统计法（Statistical Method）依据两个或多个汉字同时出现（相邻出现）的概率，利用语料库进行能够有监督或无监督的学习，得到描述一种语言的“语言模型”，然后通过该模型对文本进行词语切分。

统计法（Statistical Method）优点：降低了生词（包括译名）的影响，只要有足够的训练文本就易于创建和使用。缺点：“足够训练”非常难以做到，不可能有足够的语料库进行训练，实用性低。

混和法（Hybrid Method）将两种方法结合，综合考虑，吸取各自优点，提高分词效率。

其他内容简介矢量空间模型（Vector Space Model，VSM）：自动标引主要依据的理论。改进：语义矢量空间模型（Semantic Vector Space Model，SVSM）。 NLM的自动标引项目——标引创始项目（Indexing Initiative，II），20世纪90年代开始实施，目的是研究出可部分或完全替代当前标引实践工作的方法。