中文信息抽取专题 苏州大学计算机科学与技术学院.

Slides:



Advertisements
Similar presentations
PROJECT NAME 项目名称 上海xx文化传播有限公司.
Advertisements

第六 章数据库访问页 6.1 数据访问页视图 6.2 创建数据访问页 6.3 编辑数据访问页 6.4 查看数据访问页 退出.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
龙星课程—肿瘤生物信息学上机课程 曹莎
学 生:王莉峰 指导老师:秦 兵 老师 日 期: 基于有指导的音乐实体关系抽取 学 生:王莉峰 指导老师:秦 兵 老师 日 期:
证券投资技术分析.
会计学专业基础课堂之 基础会计(初级会计) 安徽财经大学会计学院.
第四次大作业 登陆学校图书馆网站的电子数据库
第三篇 组织工作.
《数据结构》课程简介 李武军 南京大学计算机科学与技术系 2016年秋季.
程序的形式验证 - 简介 中国科学院软件研究所 张文辉 1.
如何使用CiteSpace分析Derwent专利数据
Hadoop I/O By ShiChaojie.
SVN的基本概念 柳峰
面向对象建模技术 软件工程系 林 琳.
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
SOA – Experiment 3: Web Services Composition Challenge
管理信息结构SMI.
数 控 技 术 华中科技大学机械科学与工程学院.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第17章 网站发布.
第二章 Java语言基础.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
基于规则抽取的 时间表达式识别.
整合思维导图的初中英语教学设计 主讲人:卢璐.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
《编译原理与技术》 期末复习 计算机科学与技术学院 郑启龙 李 诚 25/12/2018.
DevDays ’99 The aim of this mission is knowledge..
第3章 信息与信息系统 陈恭和.
WSDM见闻 程龚.
京师数学大讲坛 第六讲 北京师范大学 数学科学学院
SOA – Experiment 2: Query Classification Web Service
编程作业3:网页正文抽取 (10分).
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
C语言程序设计 主讲教师:陆幼利.
EBNF与操作语义 请用扩展的 BNF 描述 javascript语言里语句的结构;并用操作语义的方法描述对应的语义规则
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
如何查询论文的收录号?.
模型分类问题 Presented by 刘婷婷 苏琬琳.
2019/4/20 关注NE官方微信,获取更多服务.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
实体描述呈现方法的研究 实验评估 2019/5/1.
第4章 Excel电子表格制作软件 4.4 函数(一).
第九节 赋值运算符和赋值表达式.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
数据集的抽取式摘要 程龚, 徐丹云.
PROJECT NAME 项目名称 张三 安徽xx文化传播有限公司.
LOGIX500软件入门 西安华光信息技术有限公司 2008年7月11日.
Chapter 18 使用GRASP的对象设计示例.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
基于最大margin的决策树归纳 李 宁.
计算机绘图 AutoCAD2016.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
主讲教师 欧阳丹彤 吉林大学计算机科学与技术学院
基于列存储的RDF数据管理 朱敏
Continuous Authentication for Voice Assistants
Adj + Noun映射到知识库中的classes
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

中文信息抽取专题 苏州大学计算机科学与技术学院

信息抽取概述 含义 从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入数据库中供用户查询使用的过程。 从文本中抽取用户感兴趣的事件、实体和关系 被抽取的信息以结构化的形式描述 存储到数据库中 为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务

信息抽取应用 灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况 从病人的医疗记录中抽取出症状、诊断记录和检验结果 税务分析不同企业交税记录、发现异常模型和趋势 。。。

信息抽取与文本理解 信息抽取需要一定程度的理解 只关心有限的感兴趣的事实信息 不关心文本意义的细微差别 不关心作者的写作意图等深层理解问题 信息抽取只能算一种浅层的文本理解 信息抽取可以看作信息检索的进一步深化

信息抽取实例 课本P252 从新闻中抽取出相关信息

信息抽取与信息检索 密切相关但又存在差异 功能不同 处理技术不同 使用领域不同 检索:从文档集合中找文档子集 抽取:从文本中获取用户感兴趣的事实信息 处理技术不同 检索:通常利用统计与关键词等技术 抽取:借助于自然语言处理技术 使用领域不同 检索:通常领域无关 抽取:通常领域相关

中文信息抽取的特殊性 词典、词语切分和词性标注 句法与语义分析 句群分析与篇章表示 句法成分的识别与标引、关键字抽取、检索特征集的抽取、索引等 句群分析与篇章表示

历史与现状 20世纪60年代 起步 Linguistic String Roger Schank 纽约大学 大规模的英语计算语法 从医疗领域的X光报告和出院记录抽取信息格式 Roger Schank 耶鲁大学 故事理解 期望驱动与数据驱动

历史与现状(续) 20世纪80年代 商业应用 蓬勃发展 ATRANS 自动处理银行坏账 JASPER 通过新闻分析公司收入和盈利 SCISOR 分析公司合并与盈利 蓬勃发展 MUC会议 Message Understanding Conference 美国国防高级研究计划委员会资助 评测信息抽取系统 87-98进行了7次

中文信息抽取起步 中文起步晚 主要研究工作 中文命名实体的识别 参加MUC-7评测 台湾国立大学 新加坡肯特岗数字实验室

信息抽取系统的评测 召回率 准确率 F指数 召回率和准确率的加权几何平均

信息抽取任务(一) 命名实体NE 最主要的任务 命名实体是文本中基本的信息元素,是正确理解文本的基础 狭义:指现实世界中具体或抽象的实体 如 人、组织、公司、地点等 广义:还可以包含时间、数量表达式等 确切含义,根据具体应用来确定

信息抽取任务(二) 模板元素TE 模板元素又称为实体的属性 通过槽(Slots)描述了命名实体的基本信息 为命名实体建立各种属性槽从而更加清楚地描述命名实体 槽Slots 名称 类别 描述符 种类

信息抽取任务(三) 共指 CR 不同的命名实体表达了相同的含义,这些实体之间的关系就是共指,也称为等价概念 共指任务在于抽取关于共指表达的信息 包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述 抽取方法: 基于句法、基于“优先知识”、基于简单共现、基于统计、基于决策树、基于聚类、基于记忆的学习MBL、基于HNC理论

信息抽取任务(四) 模板关系TE 模板元素之间的各种关系,又称为事实 研究方法 法拉利-舒马赫 雇佣关系 基于知识库的方法 基于特征的机器学习方法 基于kernel的方法 Bootstrapping方法

信息抽取任务(五) 场景模板 ST 又称事件,是指实体发生的事件 主要研究点 研究核心 模板的获取 手工写模板 自动获取 主流研究方向 研究核心 基于抽取事件动词来将其转化为模板。首先抽取事件动词以及其主语动宾形成候选模板,对候选模板排序,然后为事件动词建立域本体论,最后对其分类

信息抽取系统的构建方法 知识工程方法 基于规则的方法 靠手工编制规则使系统能处理特定只是领域的信息抽取问题 性能好、易开发 缺乏人才、开发过程耗时

信息抽取系统的构建方法(续) 自动训练方法 通过学习已经标记好的语料获取规则 通过学习已经标记好的语料库获取规则,任何对该领域比较熟悉的人都可以根据事先的约定的规范标记语料库。经过训练的系统能够处理没见过的新文本。 开发速度快于知识工程 需要足够数量的训练数据,才能保证其处理质量

通用信息抽取结构 Hobbs 1993 通用体系结构 文本分块 预处理 过滤 预分析 分析 片段组合 语义解释 词汇消歧 共指消解或篇章处理 模板生成

Bare Bones结构 Hobbs结构的简化版本 由Applet和Israel提出 符号化 词汇和词法处理 句法分析 领域分析

信息抽取中的自然语言处理技术 命名实体识别 句法分析 文章分析和推理 知识理解

信息抽取技术 基于规则的抽取技术 信息抽取系统模型 词法分析 命名实体识别 部分句法分析 场景模板匹配 共指分析 推理与事件整合

隐马尔可夫模型 HMM Hidden Markov Model 一种随机的有限状态自动机 容易建立、无需大规模的词典集和规则集,适应性好、抽取精度高 马尔可夫模型 基于HMM的信息抽取过程

Web信息抽取 基于自然语言处理方式的信息抽取 包装器方式的信息抽取 基于本体方式的信息抽取 基于HTML结构的信息抽取 基于Web查询的信息抽取