第九章 自 动 标 引.

Slides:



Advertisements
Similar presentations
国家税务总局关于修改企业所得税年度纳税申报表( A 类, 2014 年版) 部分申报表的公告(国家税务总局公告 2016 年第 3 号) 一、对《企业基础信息表》( A )及填报说明修改如下: (一) “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”
Advertisements

第四章 信息的加工与表达(下). 了解编程解决问题的方法与步骤 信息技术基础》第四章 第一节 硬件基础知识: 内存:内存分成两个部分 ROM (断电也能够保留数 据)和 RAM (断电时其中的数据就会丢失) 显卡:承担显示图形的输出 声卡:实现声波/数字信号相互转换的一种硬件。 网卡:计算机与外界局域网的连接硬件又称适配器.
2014 年 12 月 企业所得税年度纳税申报表 (A 类, 2014 版 ) 辅导材料(二) A 企业基础信息 A 主表.
退休規劃之應用與實例討論退休規劃之應用與實例討論 誠心誠意 從聽做起. 長壽的趨勢 有人說生是偶然、意外也是偶然 但是老是必然 ……….. 您同意嗎 ? 又有人說老一點都不可怕,病也不可怕 老又病也不可怕 但是 …… 又老又病又沒錢才可怕 所以一定要規劃退休養老、投資理財.
教育信息化专题培训 王延觉 2014年5月.
学校秋季常见传染病的防控 武进区疾病预防控制中心 防疫科.
G-415 40亿像素相机.
景观水池渗漏的研究 年级专业:12级土木工程 指导教师: ××× 教 学 点: ××××教学点 新疆工程学院继续教育学院 20 年 月 日
企业所得税年度纳税申报表(A类,2014版) 中小企业主要报表辅导材料
第一节 汉字概说 第二节 现代汉字的形体 第三节 现代汉字的结构 第四节 现代汉字的构字法 第五节 汉字的信息处理 第六节 字位及其突出方式
完善固定资产加速折旧 企业所得税政策.
第二章 事故管理 第一节 事故的定义及分类 第二节 事故致因理论 第三节 事故的调查与处理 第四节 事故统计分析 第五节 事故预防控制.
秘 笈 2015 不做專家也能變贏家 投資其實可以很簡單 簡單理財 投資大師也有滑跤時 債券天王葛洛斯也有看錯方向
数字化教学资源建设在大学化学教学中的 探索与实践 刘志广 大连理工大学 2007年5月12日 济南.
工程定额与计价方法 教材名称:工程建设定额原理与实务
建设工程施工管理 模拟卷 一、单项选择题 1.下列选项中,除( )以外都属于施工机械使用费。 A.购置费 B.安拆费及场外运费 C.折旧费 D.修理费.
阳光工程引导性培训 宁夏自治区盐池县农广校
金鱼 青山湖区肖坊小学 邹文琛.
食品添加剂生产许可情况介绍 江苏省食品药品监督管理局 彭弘雷 2014年12月
“炝虾”食用安全性的 初步研究 上海市吴淞中学生物与环境社团 责任者:李 胤 吴蓓莉 指导老师:张 治 许 沁.
南通市卫生监督所副主任医师 南京医科大学副教授 施 飞
《毛泽东思想和中国特色社会主义体系概论》 第一章马克思主义中国化两大理论成果
第四章 文 字 本章主要内容 第一节 汉字的性质和特点 第二节 汉字的结构 第三节 汉字的溯源分析 第四节 现代汉字的音和义
2010年春季开学学校食堂食品安全知识培训 徐汇区食品药品监督所
进出口食品检验监管 基础讲课内容 我国进出口食品安全管理体系介绍 法律法规 进口食品的检验检疫 出口食品的检验检疫.
美元的~前世、今生與來世 資料來源: 美元圈套 聯合理財網\個人理財\保險理財 Smart智富月刊\個人理財\保險天地.
必修一 第一章 宇宙中的地球 第一节 地球的宇宙环境(1).
授课班级 安全技术管理0605班 第 5 次 课 授课时间 2008年3月10日 星期一 授课地点 科技楼401多媒体教室 课题内容:
報告人:葉佳忠 老師 臺北市中山區永安國民小學 中華民國103年7月2日
2015版《中国地震动参数区划图》 对我市城乡建设的影响
典型案例---医院.
總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.
第三节 渐开线圆柱齿轮精度等级及应用.
2014年企业所得税汇算清缴相关税收政策 新华区地方税务局 卿继红
IDH电子项目 折衷与问题解决 版本 2013年9月13日.
第十章 季节施工 ——冬期施工准备.
危险废物环境管理情况 河南省固体废物管理中心  韩晓晗 2007年6月6日.
第八章 心理差异与因材施教 第一节 智力因素的个别差异与教育.
新北市政府第二代公文自動化系統 建置推廣暨維運服務委外案 文書人員-二代公文共同課程
欢 迎 您 ! 荣县电大 毕忠权.
食品添加剂生产许可审查通则起草说明.
车祸,四大杀手 中海集团物流有限公司上海仓储——费在强.
概述 检索图书的检索工具 检索期刊的检索工具 检索特种文献的检索工具
餐饮服务从业人员 食品安全知识培训 孔莉 朔州市食品药品监督管理局.
首次数据采集填报说明 内蒙古自治区校车信息管理系统 靳 丽 内蒙古自治区教育信息中心 2013年5月
我 国 减 速 机 行 业 现 状 和 技 术 发 展 趋 势 乔 华 山.
防空地下室审批要点 主讲人:陈玉亭.
治超新政相关文件解读 厅执法局 江涛 二零一六年九月.
科技服务业统计 报表填报说明 江苏省科技统计中心 2008年12月 镇江.
內容大綱.
商品学 高学芹.
关于加强城市排水防涝有关政策解读 吉林省住房和城乡建设厅 臧 锐.
第一章 主题标引绪论.
第一章 计算机基础知识 计算机的基本概念 计算机系统的组成 信息的编码 微型计算机的硬件组成.
2016年度税收新政策解读 主讲 石敖 湖南省中税网天一税务师事务所 2018/11/7.
人生哲理 每一句話都充滿著智慧,值得和朋友們分享、共勉~ <每隔 6 秒,自動換頁 !!>
零、多媒體概論 郭秋田.
Formal Pivot to both Language and Intelligence in Science
向量資料結構 (vector data structure)
IT&SAMS小組 (IIT - 倉頡輸入法)
社會學-數位空間 第七組-彭于娟、陳柔頻、吳丞芝、黃秋錦
第十一章 管理知識.
通 知 一、一百零二學年度第一次博士班資格考日期為103年1 月22日、23日、1月24日(星期三、四、五)。
知识点六 草原资源保护法及渔业资源保护法.
关于“十三五”规划的思考 水利部农村饮水安全中心 张汉松 2014年10月 昆明.
貝氏刷牙法 (Bass Method) 外埔國小.
6.6 線性規劃的單體法 單體法 (simplex method)
實驗 8. 4 實驗目的: 探究活的萌發種子會否產生熱能.
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
共現索引典之自動建構、評估與應用 前言 相關之研究 關鍵詞自動擷取 關聯詞自動擷取 應用範例 成效評估 結語 曾元顯 輔仁大學圖書資訊學系
Presentation transcript:

第九章 自 动 标 引

自动标引 自动标引的定义及意义 自动标引的基本原理 自动标引的基本流程 自动分词 其他内容简介

自动标引的定义 自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。 换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。

自动标引的定义 自动标引 自动主题标引 自动分类标引 自动主题标引关键在于:词语抽取;对所识别出的主题词进行优选,以最终产生能表达文献主题内容的标引词。 当前,各标引系统都在不同程度地使用计算机系统进行辅助标引。

自动标引的意义 1.适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。 信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。

自动标引的意义 2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势: 处理能力强 处理速度快 成本低 一致性好,稳定性好

自动标引的意义 美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。

自动标引的意义 自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。

自动标引的意义 美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。

自动标引的基本原理 目前研究的自动标引的方法很多,较典型的汉语自动标引方法:词典标引法、切分标引法、语法分析标引法、汉语自动标引专家系统、单汉字标引法等。 根据自动标引采用的理论划分,自动标引的方法主要有3种:统计法、语言法、人工智能法。

自动标引的基本原理 统计法(Statistical Approach): 自动标引各种方法中历史最长的一种,也是目前较为成熟的一种方法。 理论基础是齐夫(Zipf)的省力法则(Principle of Least Effort)。 典型代表:词频加权方法,根据词的出现频率及出现位置等因素确定标引词。

自动标引的基本原理 语言法(Linguistic Approach): 通过对构成文献的自然语言的分析,利用一定算法产生标引词,是从语言学角度对自动标引方法的探索。 包括两种方法:句法分析、语义分析 学术界对语言法的自动标引颇有争议。但目前利用语义分析的自动标引研究还在不断升温。

自动标引的基本原理 人工智能法(Artificial Intelligence Approach,AI Approach): 让计算机从事标引工作中的脑力劳动,即让计算机模拟标引员完成标引文献的工作。 目前该方法已成为自动标引领域的热点问题,人工神经网络、遗传算法等方法的发展给自动标引增添了不少动力。不少学者认为,人工智能法代表着自动标引研究的未来。

自动标引的基本流程 确定标引源 输入标引源内容 预处理 分词处理 确定关键词 转换为受控词 给出主题标识符

确定标引源 即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。 标题是自动标引的主要标引源,大多数研究是基于标题进行的。但仅以标题为标引源,信息量少,标引质量差,难以推广使用。 如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。

确定标引源 一般选择以下内容作为标引源: 1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。 2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。 3.首尾章节:科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。

确定标引源 4.章节的首尾段:常反映章节讨论的主题,替代整个章节,节省大量无效劳动。 5.段落的首尾句:国外有学者对科技文献的200个段落进行了主题句的分析,结果:85%的段落主题句是段落的第一句,7%的段落主题句是最后一句。用段落首尾句替代整个段落,节省工作量,免除许多“杂音”。

输入标引源内容 标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。 印刷型文献:手工录入或OCR(光学字符识别)输入 电子文档(XML、DOC、TXT等格式):直接导入

文档的预处理 字符内码的检测与转换:BIG5码与GB码的自动检测与转换。 文档格式的检测与转换:去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。

分词处理 在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合。 西方文字有分隔符,切分容易实现。而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。

确定关键词 根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定可表达文档中心内容的词作为该文档的关键词。

确定关键词 主要方法: 绝对词频统计法:以词在文章中出现的绝对频次为根本依据确定文章的中心关键词,理论基础是齐夫定律。 词频权重法:除考虑词频外,还考虑词的位置、词的词性、词本身的价值、词的长度等因素,对词进行加权,然后根据权值大小确定关键词。

转换为受控词 关键词与受控词(主题词、副主题词、特征词)之间存在着一定的关系(如同义词关系、上位关系、下位关系等)。 使用一定的方法,将以上提取的关键词转换为受控词。

转换为受控词 目前有效可行的方法包括: 使用关键词-受控词对照表:该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系,由此对应转换。 利用词汇相似度:大多数意义相同或相近的词之间字符全部或部分相同,关键词与主题词之间存在一定程度的相似性,可通过某些算法计算出来,根据相似性确定相应的主题词。 两种算法:基于词素的相似度算法;给予单汉字的字面相似度算法。

给出主题标识符 根据确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。

自动分词 词语自动切分:以语言学知识为基础,通过一定算法、将组成句子的词从句子中切分出来,得到词语集合的过程。 可广泛应用于自动标引、智能检索、自动翻译、自动文摘、数据挖掘、信息过滤等领域。 词语自动切分是汉语自然语言处理中最关键的一步。

词语自动切分的方法 词语自动切分的方法有很多,如词典分词法、人工神经网络算法、语料库训练分词方法等。 根据其使用的原理和算法,归纳为三类:词典法、统计法、混和法

词典法(Lexical Method) 又称机械分词方法,是按照一定的策略将待分析的汉字串与切分词典系统中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

词典法(Lexical Method) 分词词典: 停用词表:文献中词频很高或很低的词或字 特例词表:如停用词“的”、“也”可组成“的士”、“也门”等词。使用停用词表预切分前,利用特例词表将特例词保护起来。 关键词表:系统分词的主要依据,必须尽量完备。 人名、机构名和地名词表

词典法(Lexical Method) 匹配算法: 根据匹配方向不同:正向匹配、逆向匹配 根据匹配长度不同:最大匹配法、最小匹配法 最大正向匹配、最大逆向匹配 最大匹配法切分的词长度大,专指性高,效果较好。目前使用较多。

词典法(Lexical Method) 优点:便于实现,操作简单,实际应用较多。目前报道的切分准确率高达98%以上。 缺点:歧义问题、词典问题、词缀问题、名称问题、译名问题 实际使用的分词系统,将机械分词作为一种初分手段,再利用其他的语言信息进一步提高切分准确率,如改进扫描方式、将分词与词类标注结合。

统计法(Statistical Method) 依据两个或多个汉字同时出现(相邻出现)的概率,利用语料库进行能够有监督或无监督的学习,得到描述一种语言的“语言模型”,然后通过该模型对文本进行词语切分。

统计法(Statistical Method) 优点:降低了生词(包括译名)的影响,只要有足够的训练文本就易于创建和使用。 缺点:“足够训练”非常难以做到,不可能有足够的语料库进行训练,实用性低。

混和法(Hybrid Method) 将两种方法结合,综合考虑,吸取各自优点,提高分词效率。

其他内容简介 矢量空间模型(Vector Space Model,VSM):自动标引主要依据的理论。改进:语义矢量空间模型(Semantic Vector Space Model,SVSM)。 NLM的自动标引项目——标引创始项目(Indexing Initiative,II),20世纪90年代开始实施,目的是研究出可部分或完全替代当前标引实践工作的方法。