信息抽取(Information Extraction) 及其在数字图书馆中的应用研究

Slides:



Advertisements
Similar presentations
allow v. wrong adj. What’s wrong? midnight n. look through guess v. deal n. big deal work out 允许;准许 有毛病;错误的 哪儿不舒服? 午夜;子夜 快速查看;浏览 猜测;估计 协议;交易 重要的事.
Advertisements

直接引语 间接引语 在交流中,我们经常会遇到需要引用或 转述别人的话的时候,这种引用或转述别 人的话称之为引语。 引述别人的话一般采用两种方式:一种 是原封不动地引述别人的话,并将它放在引 号内,称为直接引语 (Direct Speech) ;另一 种是用自己的话转述别人的话,被转述的话 不放在引号内,称为间接引语.
张智雄、刘建华、谢靖、邹益民、钱力国家科学图书馆
Web挖掘与信息抽取系统.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
Presented By: 王信傑 Ricky Wang Date:2010/10/6
2012年 IEET工程及科技教育認證說明會 落實成果導向認證機制 與國際接軌.
Business English Reading
电子信息类专业英语.
人工智能 Artificial Intelligence 第十一章
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
Add Your Company Slogan
第四次大作业 登陆学校图书馆网站的电子数据库
在PHP和MYSQL中实现完美的中文显示
Unit 5 Dialogues Detailed Study of Dialogues (对话) Exercises(练习)
The subjunctive mood ( I ) (虚拟语气)
面向对象建模技术 软件工程系 林 琳.
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
管理信息结构SMI.
走进编程 程序的顺序结构(二).
SpringerLink 新平台介绍.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
药物和疾病啥关系 ? 李智恒.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
基于规则抽取的 时间表达式识别.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
Science and technology report service systemUsage method
DevDays ’99 The aim of this mission is knowledge..
第3章 信息与信息系统 陈恭和.
WSDM见闻 程龚.
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
Answering aggregation question over knowledge base
编程作业3:网页正文抽取 (10分).
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
PRESENTED BY OfficePLUS
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
VisComposer 2019/4/17.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
形容词及形容词短语.
实体描述呈现方法的研究 实验评估 2019/5/1.
SpringerLink 新平台介绍.
iSIGHT 基本培训 使用 Excel的栅栏问题
数据集的抽取式摘要 程龚, 徐丹云.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
计算机绘图 AutoCAD2016.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
高效洁净机械制造实验室是 2009 年教育部批准立项建设的重点实验室。实验室秉承“突出特色、创新发展“的宗旨,以求真务实的态度认真做好各项工作。 实验室主任为黄传真教授,实验室副主任为刘战强教授和李方义教授。学术委员会主任为中国工程院院士卢秉恒教授。实验室固定人员中,有中国工程院院士艾兴教授,教育部.
单击此处添加您的标题 单击此处添加副标题或简单介绍.
基于列存储的RDF数据管理 朱敏
高考英语短文改错答题技巧 砀山中学 黄东亚.
Hi This is JANE DOE’S RESUME RESUME 点击此处添加简短的个人介绍。
I’M JANE DOE WEB DESINGER GRAPGIC DESIGNER UI DESIGNER
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
LOGO HERE 单击此处添加 您的标题标题标题 PRESENTED BY JANE DOE
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

信息抽取(Information Extraction) 及其在数字图书馆中的应用研究 中国科学院国家科学图书馆 张智雄 北京 2006.8.15

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发

1.什么是信息抽取(IE) 先从CLEF项目说起 A Co-operative Clinical E-Science Framework (CLEF) Funded by the UK Medical Research Council Descriptive information: Clinical histories radiology reports pathology reports annotations on genomic and image databases technical literature Web based resources

CLEF Architecture Outline Reidentify By Hospital Pseudonymise In Hospital Depersonalise Extract Information Integrate & Aggregate Construct ‘Chronicle’ Chronicle Ethical oversight committee Pseudonymised Repository Hazard monitoring Knowledge enrichment Summarise & Formulate Queries Individual Summaries & Queries Privacy Enhancement Technologies Knowledge enrichment Hazard monitoring Integrate & Aggregate Ethical oversight committee Pseudonymised Repository Extract Information Chronicle Summarise & Formulate Queries Construct ‘Chronicle’ Depersonalise Privacy Enhancement Technologies Individual Summaries & Queries Pseudonymise In Hospital Data Acquisition Cycle Data Access Cycle automatically identify, extract and markup key information in clinical reports. Specifically we shall extract the diagnosis, stage, and treatment intent from the patient summaries. Reidentify By Hospital CLEF Architecture Outline

临床报告 ROYAL MARSDEN NHS TRUST - PATIENT CASE NOTE 324A621F:MRS Dorothy Smith DOB: 12/05/44 21, Park Crescent Basingstoke B12 Q13 16 Dec 1992 Seen in General Surgical   This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of Mr Peterson. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. Mrs Smith could be seen in the pain clinic at the Marsden but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at Basingstoke as I am sure Dotty could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time.  Mr Thomas Partridge

从文本中实现关键信息抽取 根据模版或相关的知识资源标识出重要的信息及其相关关系 Interventions Problems ##### ####### NHS TRUST - PATIENT CASE NOTE ########:######### ####### DOB: 1944 CLEF-RMH-Entry-Key: 52A4F6DB2B46E AB 1992 Seen in General Surgical   This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX. She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem. The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local, regional or distant recurrence the pain itself warrants management in a pain clinic. XXXXXXXXX could be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home. I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management. I have otherwise arranged for her to be seen in the clinic again in a year's time. There are no signs of recurrence at this time. 5213A4F612F1 根据模版或相关的知识资源标识出重要的信息及其相关关系 pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management a year’s time today at this time recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant Interventions Problems Problem Site Locations Time

从文本中实现关键信息抽取 收集抽取出的信息… 也可跨越多个文档 放射报告、病理学报告,或 其它叙述性报告 Interventions recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management Interventions Problems Title  linespacing Images? How insure non-identifiability of images  change imaging to radiology Problem Site 来自于药品或实验中的信息 Locations Time

形成病历 自动实现相关事件的链接? What happened & why ? What was done & why ? mastectomy recurrence no signs of recurrence bony lymphoedema shooting pain in the direction of ulna nerve pain left arm local, regional or distant a year’s time today at this time pain clinic General Surgical mastectomy left open capsulotomy removal of her prosthesis management Interventions Problems Problem Site Locations Time evidence caused_by bony lymphoedema

病历摘要 只有通过许可的人才可看到人名等信息 Hospital EPR EPR Drugs Refer Tools Help 形成一个非常简短的病历摘要 CLEF-RMH-Entry-Key: 52A4F6DB2B46E Female 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinib Meds: unclear Maria Sklodowska-Curie CLEF-RMH-Entry-Key: 52A4F6DB2B46E CLEF-RMH-Entry-Key: 52A4F6DB2B46E Female 66 with radiation induced leukaemia since 1931 Onset age 63. Thirty three appointments to date. Problems: Aplastic anaemia, cataract, asthenia Tx:imatinib Meds: unclear Protocol 354 Staging CT 在首页上形成一个摘要 12.10.20 Coryza: chest NAD: reassure 13.10.20 URTI: wheezy: amoxycillin 20.10.20 Anxiety: lump under arm: staging scan 24.10.21 PEFR : 300 : 10.11.21 PEFR : 400: CXR requested 12.11.21 CXR Basal Consolidation: : erythromycin 27.11.21 : Chest clear : 07.03.30 Depression: recurrence: Paroxetine 19.04.30 WCC OK 01.06.31 : : rpt Rx paroxetine 18.10.31 Pain L arm: : coproxamol 03.03.31 Viral URTI: PEFR 350: salbutamol 04.03.34 WCCAbnormal : : 30.05.34 : BP, ECG NAD : Results Letters Appt Drugs BP Animate the white box-summary Remove hyperlinks Haem Chem Immu Bact Xray ECG USS

1.什么是信息抽取(IE) 针对目前的信息过载和数据泛滥的情况 自然语言处理(NLP) 人类语言技术(HLT) 计算机语言学(CL) 知识工程(KE) 知识管理(KM) 语义网络(Semantic Web) 智能代理(Agent Based Computing) Web智能(Web Intelligence)

1.什么是信息抽取(IE) 欧洲美发达国家提出了“知识技术”(Knowledge Technologies)这一概念 知识获取 知识建模 知识表示和可视化 知识解析和共享 知识重用 知识检索 知识的出版和分发 知识维护 ……

1.什么是信息抽取(IE) 两条研究路线 基于KDD和Data Mining的线路。从结构化的数据(如数据库中的数据)中发现新的知识。 基于自然语言处理(NLP)和文本挖掘(Text Mining)的线路。从非结构化或半结构化的数据(如Word、HTML、或PDF文件)发现新知识。“从大量的非结构化的数据中标识并抽取出事件的趋势和模型,并它们转换成为有用并可理解的信息”

集两种线路于一体的数字图书馆知识发现和知识表现的解决方案

1.什么是信息抽取(IE)? 信息抽取(Information Extraction):目前日渐成熟,并得到越来越多人关注的文本挖掘方式

1.什么是信息抽取(IE)? Hamish Cunningham Information Extraction (IE) is a technology based on analysing natural language in order to extract snippets of information. 信息抽取是一个输入/输出过程。 输入:未知文本信息 输出:固定格式、无二意性数据(信息) 这些被抽取出来的数据可以 直接显示给用户 存储于数据库或电子表格中以供随后分析 被用于索引系统,以便于将来进行检索访问

1.什么是信息抽取(IE)? Douglas E. Appelt等 信息检索和信息抽取对比 信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户 而信息抽取不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户

1.什么是信息抽取(IE)? 继续对信息检索和信息抽取对比 信息检索:获取一个与检索内容相关的文章的子集,用户得分析文章内容

1.什么是信息抽取(IE)? 继续对信息检索和信息抽取对比 信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。

1.什么是信息抽取(IE)? 信息检索和信息抽取对比总结 功能不同。 如前所述 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发

2.信息抽取相关研究活动 IE的发展与以下研究活动密切相关: MUC(Message Understanding for Comprehension) MET(Multilingual Entity Task Evaluation) ACE(Automatic Content Extraction) DUC(Document Understanding Conferences)

2.1MUC MUC之于IE,正如TREC之于IR 也有人们认为MUC是Message Understanding Conference或Message Understanding Competition 20世纪80年代未由美国国防部的DARPA(Defense Advanced Research Projects Agency) 发起

2.1MUC MUC唯一任务就是“信息抽取”:对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中 总共进行7次: 最初的MUC 1-2关注的是对电子邮件信息的抽取 20世纪90年代之后的MUC 3-7主要关注对新闻文章的抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验 MUC对于信息抽取的研究内容、信息抽取方式的分类、信息抽取系统的评价等都起到重要的促进作用

2.2MET MET: Multilingual Entity Task Evaluation 也是DARPA发起的一个测评项目。

2.3ACE ACE (Automatic Content Extraction) 这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。 关注三种信息的自动化内容抽取: 网络上的在线新闻、 通过ASR(自动语音识别的)得到的广播新闻 以及通过OCR(光学字符识别)得到的报纸新闻, 两个目的: 希望在自动化内容抽取基础之上,为数据挖掘、链接分析、自动摘要等打下基础 通过将相应的信息提供给相应的分析师,以提高信息分析的能力。

2.3ACE 项目为期5年 ACE Phase-1(1999.7-2000.12)优先发展的是实体探测及追踪(EDT, Entity Detection and Tracking) 。 ACE Phase2(2001-现在)被称为EDT + RDC。其中RDC为Relation Detection and Characterization。ACE第二阶段希望在第一阶段实体探测的基础之上,引入了对实体关系的评测,需要能够将标识出的实体之间的关系揭示出来。

2.4 DUC DUC,Document Understanding Conferences 是在DARPA的TIDES (Translingual Information Detection, Extraction, and Summarization program)基础之上发起的一个对“文本概括”进行研究测评的项目 起于2000年,已经进行了DUC 01-06,DUC 2007也在规划之中 目前,系统测评会议由美国商务部技术管理部门NIST来管理。

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发

3.信息抽取的层次和类型 MUC根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型 NE。命名实体识别(Named Entity Recognition) MET。多语种实体识别任务(Multi-lingual Entity Task)信息抽取 TE。模板元素(Template Element)信息抽取 CO。参照(Coreference)信息抽取 TR。模板关系(Template Relation)信息抽取。 ST。情节模板(Scenario Template)信息抽取。

3.1 NE NE(Named Entity Recognition)命名实体识别 最为基础的类型,此类信息抽取需要系统能够识别出实体名,并将相应的实体名进行归类。 MUC测评识别并抽取出人名,组织名,日期,时间,地点,以及某种类型的数字表达式(如货币数量,百分数),并在文本中对这些信息进行标注。 NE具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,NE都是其中一个很重要的组件。

3.1NE The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets"

3.2 MET MET(Multi-lingual Entity Task)多语种实体识别任务信息抽取

3.3 TE TE模板元素(Template Element)信息抽取

3.3 TE 在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的小型的属性模板之中。 例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。

3.3 TE The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" TE: the rocket is "shiny red" and “Dr. Head's brainchild”.

3.4 CO CO 参照(Co-reference)信息抽取 CO涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。 例如 连接某同一实体的不同称谓。Tony Blair,The premier minister 将某一名词和其相应的代名词进行连接。

3.4 CO 在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。 分析 实体在文本中不同地方出现的情况 实体在不同场合与其它实体之间的关系 有助于情节信息的抽取。

3.4 CO The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" TE: the rocket is "shiny red" and Head's "brainchild". CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same

3.5 TR TR模板关系(Template Relation) TR需要在TE的基础之上标识出模板元素之间的关系。 TR是MUC-7定义的一项新任务,需要抽取模板元素之间的相互关系。 例如: 职员和组织之间的关系(employee_of) 产品和生产企业之间的关系(product_of) 以及公司和地区之间的关系(location_of) etc

3.5 TR The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same TE: the rocket is "shiny red" and Head's "brainchild". TR: Dr. Head works for We Build Rockets Inc.

3.6 ST ST 情节模板(Scenario Template)

3.6 ST The shiny red rocket was fired on Tuesday. It is the brainchild of Dr. Big Head. Dr. Head is a staff scientist at We Build Rockets Inc. NE: entities are "rocket", "Tuesday", "Dr. Head" and "We Build Rockets" CO: "it" refers to the rocket; "Dr. Head" and "Dr. Big Head“ are the same TE: the rocket is "shiny red" and Head's "brainchild". TR: Dr. Head works for We Build Rockets Inc. ST: a rocket launching event occurred with the various participants.

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发

4 信息抽取系统及其应用 GATE

4.1 GATE GATE (General Architecture for Text Engineering) 1995开始,University of Sheffield 纯Java语言开发的免费开源软件 编码方式是Unicode GATE支持的文档类型包括XML、 RTF、Email、HTML、SGML以及纯文本文件

4.1 GATE Gate项目组认为,典型的信息抽取系统的应当包括三大过程 预处理过程 命名实体探测过程 事件探测过程。

预处理过程 其中预处理过程并不实现信息抽取,但它是信息抽取的前提。 文本格式的检查(Format Detection) 特征标记(Tokenisation) 分词 (Word Segmentation) 句法分割(Sentence Splitting) 语法标记(POS tagging) 通过这些预处理,可以将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式

命名实体探测 命名实体探测过程实现对命名实体的探测,并通过参照实现实体之间的联系。 在这一过程中,通常需要借助辞典来实现人物、组织、地点、时间等命名实体的探测,辞典中也可能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。 一些系统还具有语义标记的功能。如ANNIE系统,通过JAPE(Java Annotations Pattern Engine) 书写的规则,能够对实体进行更深入的语义标注。

事件探测 事件探测过程是在命名实体探测过程基础之上实施的一个过程,它抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。

4.1 GATE GATE的作用: 1)为语言处理软件规定了一个架构,提供了有组织的结构。 2)提出了一个框架以及可以应用的类库,实现这个架构并且可以将其嵌入到各种不同的语言处理应用程序中。 3)提供了语言工程的开发环境。这个开发环境构建在整体框架之上,并且提供了方便的开发组件的图形化工具。

4.1 GATE GATE的应用领域: 知识管理和语义网络、数字图书馆和文化遗产、E-science、生物信息学、人类语言技术、数字图书馆中的文档标注和处理、数字图书馆中的多媒体 、E-science与网格、语义网络与知识技术、人类语言技术

4 信息抽取系统及其应用 除了GATE之外,还有很多IE系统和IE项目 KIM ArtEquAKT Amilcare Armadillo BioRAT ANP(Arizona Noun Phraser) DELOS WP5: Knowledge Extraction and Semantic Interoperability TAKE: Toolkit for Agent-based Knowledge Extraction SKIF:A Distributed Knowledge Extraction Framework Based on Semantic Web Services BioMeKe :BioMedical Knowledge Extraction project ……

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中IE的应用前景 中文信息抽取系统的开发

5 数字图书馆中IE的应用前景 许多与文本、信息、知识的获取、加工、分析、管理相关的应用领域都可以利用信息抽取技术。 在数字图书馆的建设中,信息抽取技术也具有很好的应用前景。

5.1自动标引及元数据获取 数字图书馆 内容标引和元数据加工是数字图书馆区别于其它低品质信息检索系统的一个重要方面 海量信息资源 检索不仅仅是关键词检索的问题 有效揭示方式 内容标引和元数据加工是数字图书馆区别于其它低品质信息检索系统的一个重要方面 国外还有多个项目:SEKT、S-CREAM、Amilcare、LASIE、SemTag

5.2数据挖掘和情报研究分析 数据挖掘的前提是大量相关数据的采集。 数字图书馆的情报研究分析亦需要从大量的相关信息中研究分析出事件发展的各种态势。 竞争情报更是有目的情报收集和研究。 这些信息和数据从何处而来? 信息抽取提供了一条进行大规模数据及信息采集的思路。 例子很多。MUC, ACE的支持者都与国家安全机构相关(DoD, CIA),主题“反恐”,“风险投资”

5.3大型知识库、数值库建设 数字图书馆的长远目标从信息检索服务转向知识提供服务。知识提供的前提是知识的获取。如何有效地获取知识呢? 从非结构化的文本中建设知识库。 中国科学院科学数据库。 Ontology驱动的信息抽取来实现知识的获取

5.4 问题解答 问题解答(Question Answering, QA)其实也是NLP研究中的一项重要内容。 信息抽取技术能够为问题解答系统提供坚实的支持。 相关研究如Prof. Rob Gaizauskas (Question Answering and Summarisation)

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发

6.中文信息抽取系统的开发 英文信息抽取相对成熟 GATE对中文信息抽取的支撑不足 1)缺乏对中文分词处理的良好支持。目前的版本并不能实现真正意义上的中文分词。 2)词表不够专业化,当需要在某个实际领域进行信息抽取应用的时候,GATE自身带的中文词表数量不够。 在命名实体识别过程中,JAPE规则对中文不能有效支持。由于目前的JAPE规则都是针对英文命名实体识别的,所以当我们进行中文命名实体识别的时候,相当多的中文命名实体不能被识别。

6.中文信息抽取系统的开发 初步解决中文信息抽取 1)缺乏对中文分词处理的良好支持。目前的版本并不能实现真正意义上的中文分词。 2)词表不够专业化,当需要在某个实际领域进行信息抽取应用的时候,GATE自身带的中文词表数量不够。 在命名实体识别过程中,JAPE规则对中文不能有效支持。由于目前的JAPE规则都是针对英文命名实体识别的,所以当我们进行中文命名实体识别的时候,相当多的中文命名实体不能被识别。

6.中文信息抽取系统的开发 三个中文信息抽取的主要问题 Chinese tokenizing Chinese gazetteers Chinese named entity recognition

相应的处理方案 中文信息抽取 应用实例 用Java的JNI调用计算所ICTCLAS实现分词和词性标注。 Chi IE Chi Tokenizing 用Java的JNI调用计算所ICTCLAS实现分词和词性标注。 基于GATE的英文、中文信息抽取,开发Chinese Annie组件。 中文信息抽取 Chi IE Chi Gazetteer 通过网上免费语料或自己制作获得。(目前已有英文词表95个;中文词表74个) Chi Rules 重新构造中文IE的JAPE规则。 和现有信息系统结合,比如RSS信息聚合系统。 应用实例 应用实验

中文预处理 中文分词与词性标注 利用了ICTCLAS的研究(C++)成果 词性标注算法:HMM(马尔可夫隐码模型) 分词算法:图的N阶最短路径问题算法 源码结构: Utility           共用函数模块 Unknown      未登录词识别模块 Tag              HMM标注模块 Segment       词语切分模块 Result          结果生成模块 Data            概率数据文件 res              Windows界面的资源

中文语料收集 语料的收集:训练语料与词表 中文语料收集(人民日报标注语料库、哈工大信息检索研究室语料等)共125M 3.3 语料的收集、加工

3.3 语料的收集、加工 词表共95张英文词表,74张中文词表(世界城市、公司名称、国家形容词形式、人名等) 制作30万词的中图法词表一张(txt与SQL) 3.3 语料的收集、加工

3.3 语料的收集、加工 共95张英文词表 已收集英文语料 词数 世界城市 1968 公司称谓 401 公司名称 2610 国家 455 国家形容词形式 1505 货币单位 257 节日名称 156 政府机构名称 112 职业名称 1443 已收集英文语料 词数 组织名称 1033 人名 874 女名 5815 男名 4377 省份名称 1211 3.3 语料的收集、加工 共95张英文词表

3.3 语料的收集、加工 此外有约30万词的中图法分类词表、约37万词的中英对照词表共74张中文词表 已收集中文语料 数量 协会名称 110 中国城市名 1309 世界城市名 140 外企公司名称 1241 国企公司名称 288 传媒公司名称 147 国家名称 222 县名称 2189 中国大学名称 1003 已收集中文语料 数量 名胜旅游 331 女名 416 政府机构名 210 男名 654 组织名称关键词 912 3.3 语料的收集、加工 此外有约30万词的中图法分类词表、约37万词的中英对照词表共74张中文词表

命名实体识别 GATE系统是基于规则的信息抽取系统,通过JAPE语言的定义。 需要针对中文重新写JAPE规则

英文JAPE规则

中文JAPE规则

最后的效果

主要内容 什么是信息抽取(IE) 信息抽取相关研究活动 信息抽取的层次和类型 信息抽取系统及其应用 数字图书馆中信息抽取技术的应用前景 中文信息抽取系统的开发

谢谢 欢迎批评指正! zhangzhx@mail.las.ac.cn