Download presentation
Presentation is loading. Please wait.
1
中文信息抽取专题 苏州大学计算机科学与技术学院
2
信息抽取概述 含义 从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入数据库中供用户查询使用的过程。
从文本中抽取用户感兴趣的事件、实体和关系 被抽取的信息以结构化的形式描述 存储到数据库中 为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务
3
信息抽取应用 灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况 从病人的医疗记录中抽取出症状、诊断记录和检验结果 税务分析不同企业交税记录、发现异常模型和趋势 。。。
4
信息抽取与文本理解 信息抽取需要一定程度的理解 只关心有限的感兴趣的事实信息 不关心文本意义的细微差别 不关心作者的写作意图等深层理解问题 信息抽取只能算一种浅层的文本理解 信息抽取可以看作信息检索的进一步深化
5
信息抽取实例 课本P252 从新闻中抽取出相关信息
6
信息抽取与信息检索 密切相关但又存在差异 功能不同 处理技术不同 使用领域不同 检索:从文档集合中找文档子集
抽取:从文本中获取用户感兴趣的事实信息 处理技术不同 检索:通常利用统计与关键词等技术 抽取:借助于自然语言处理技术 使用领域不同 检索:通常领域无关 抽取:通常领域相关
7
中文信息抽取的特殊性 词典、词语切分和词性标注 句法与语义分析 句群分析与篇章表示
句法成分的识别与标引、关键字抽取、检索特征集的抽取、索引等 句群分析与篇章表示
8
历史与现状 20世纪60年代 起步 Linguistic String Roger Schank 纽约大学 大规模的英语计算语法
从医疗领域的X光报告和出院记录抽取信息格式 Roger Schank 耶鲁大学 故事理解 期望驱动与数据驱动
9
历史与现状(续) 20世纪80年代 商业应用 蓬勃发展 ATRANS 自动处理银行坏账 JASPER 通过新闻分析公司收入和盈利
SCISOR 分析公司合并与盈利 蓬勃发展 MUC会议 Message Understanding Conference 美国国防高级研究计划委员会资助 评测信息抽取系统 87-98进行了7次
10
中文信息抽取起步 中文起步晚 主要研究工作 中文命名实体的识别 参加MUC-7评测 台湾国立大学 新加坡肯特岗数字实验室
11
信息抽取系统的评测 召回率 准确率 F指数 召回率和准确率的加权几何平均
12
信息抽取任务(一) 命名实体NE 最主要的任务 命名实体是文本中基本的信息元素,是正确理解文本的基础 狭义:指现实世界中具体或抽象的实体
如 人、组织、公司、地点等 广义:还可以包含时间、数量表达式等 确切含义,根据具体应用来确定
13
信息抽取任务(二) 模板元素TE 模板元素又称为实体的属性 通过槽(Slots)描述了命名实体的基本信息
为命名实体建立各种属性槽从而更加清楚地描述命名实体 槽Slots 名称 类别 描述符 种类
14
信息抽取任务(三) 共指 CR 不同的命名实体表达了相同的含义,这些实体之间的关系就是共指,也称为等价概念
共指任务在于抽取关于共指表达的信息 包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述 抽取方法: 基于句法、基于“优先知识”、基于简单共现、基于统计、基于决策树、基于聚类、基于记忆的学习MBL、基于HNC理论
15
信息抽取任务(四) 模板关系TE 模板元素之间的各种关系,又称为事实 研究方法 法拉利-舒马赫 雇佣关系 基于知识库的方法
基于特征的机器学习方法 基于kernel的方法 Bootstrapping方法
16
信息抽取任务(五) 场景模板 ST 又称事件,是指实体发生的事件 主要研究点 研究核心 模板的获取
手工写模板 自动获取 主流研究方向 研究核心 基于抽取事件动词来将其转化为模板。首先抽取事件动词以及其主语动宾形成候选模板,对候选模板排序,然后为事件动词建立域本体论,最后对其分类
17
信息抽取系统的构建方法 知识工程方法 基于规则的方法 靠手工编制规则使系统能处理特定只是领域的信息抽取问题 性能好、易开发
缺乏人才、开发过程耗时
18
信息抽取系统的构建方法(续) 自动训练方法 通过学习已经标记好的语料获取规则
通过学习已经标记好的语料库获取规则,任何对该领域比较熟悉的人都可以根据事先的约定的规范标记语料库。经过训练的系统能够处理没见过的新文本。 开发速度快于知识工程 需要足够数量的训练数据,才能保证其处理质量
19
通用信息抽取结构 Hobbs 1993 通用体系结构 文本分块 预处理 过滤 预分析 分析 片段组合 语义解释 词汇消歧 共指消解或篇章处理
模板生成
20
Bare Bones结构 Hobbs结构的简化版本 由Applet和Israel提出 符号化 词汇和词法处理 句法分析 领域分析
21
信息抽取中的自然语言处理技术 命名实体识别 句法分析 文章分析和推理 知识理解
22
信息抽取技术 基于规则的抽取技术 信息抽取系统模型 词法分析 命名实体识别 部分句法分析 场景模板匹配 共指分析 推理与事件整合
23
隐马尔可夫模型 HMM Hidden Markov Model 一种随机的有限状态自动机 容易建立、无需大规模的词典集和规则集,适应性好、抽取精度高 马尔可夫模型 基于HMM的信息抽取过程
24
Web信息抽取 基于自然语言处理方式的信息抽取 包装器方式的信息抽取 基于本体方式的信息抽取 基于HTML结构的信息抽取 基于Web查询的信息抽取
Similar presentations