Some discussions on Entity Identification

Slides:



Advertisements
Similar presentations
讀經教育  第一組:吳碧霞、陳鍾仁  第二組:吳雪華、謝濰萁  第三組:邱國峰、林佳玫. 不論上智下愚 成功的教育 讓每個孩子 都能成為最優秀的人才.
Advertisements

FREE-TYPE POEM GENERATION QIXIN WANG, TIANYI LUO, DONG WANG, CHAO XING AAAI & IJCAI 2016.
如何使用多重死因統計 進行縣市別主要死因排序分析
2015年6月论文头脑风暴 大连理工大学 郭君
自然语言处理 第07章 汉语自动分词 软件学院 陈鄞.
十二年國民基本教育 高雄區入學方式說明 報告人:中山工商 楊薇主任.
Teaching the Chinese Copula 是 for CSL Purposes
二十一世紀的知識人 高 希 均 美國威斯康辛大學榮譽教授 財團法人知識經濟與管理研究院董事長 淡江大學「名人講座」 2005年11月21日
Chapter 29 English Learning Strategy Of High School Students
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
数据库技术及应用 华中科技大学管理学院 课程网址:
第6章 系统分析 6.1 概述 6.2 逻辑模型 6.3 逻辑结构分析 6.4 用例分析 6.5 概念类分析.
一个独特智库的要素 Arthur Hanson.
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
libD3C: 一种免参数的、支持不平衡分类的二类分类器
The Construction of a Chinese Named Entity Tagged Corpus: CNEC1.0
A Question Answering Approach to Emotion Cause Extraction
THE JOURNAL OF CHINA UNIVERSITIES OF POSTS AND TELECOMMUNICATIONS
Some Effective Techniques for Naive Bayes Text Classification
Platypus — Indoor Localization and Identification through Sensing Electric Potential Changes in Human Bodies.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
NLP Group, Dept. of CS&T, Tsinghua University
Manifold Learning Kai Yang
机器翻译前沿动态 张家俊 中国科学院自动化研究所
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
北京饭店 Tell them that 我是服务员, 我是北京饭店的服务员, 欢迎,欢迎您们来中国。欢欢迎您们来北京饭店吃饭。
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
統計套裝軟體 輔大統計資訊系 黃孝雲.
Prominent Manufacturing Management
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
Fundamentals of Physics 8/e 27 - Circuit Theory
CCF-ADL 58 大媒体与大数据分析 北京·清华大学
关于“理解名词短语”的 重新思考 丁文韬.
文字探勘與知識工程 Text Mining & Knowledge Engineering
第五組 : 廖震昌 / 謝坤吉 / 黃麗珍 陳曉伶 / 陳思因 / 林慧佳
Word-Entity Duet Representations for Document Ranking
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
971研究方法課程第九次上課 認識、理解及選擇一項適當的研究策略
Time Objectives By the end of this chapter, you will be able to
药物和疾病啥关系 ? 李智恒.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
BEd(Special Education)
产品造型与设计II 向辉 山东大学软件学院 工程硕士-2003年秋季.
从百科类网站抽取infobox 报告人:徐波.
—— 周小多.
API文档分析 张静宣 大连理工大学 2017年11月3日.
Answering aggregation question over knowledge base
研究技巧與論文撰寫方法 中央大學資管系 陳彥良.
模式识别与智能系统研究中心介绍 2017年8月.
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
Unit 5 Reading A Couch Potato.
虚 拟 仪 器 virtual instrument
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
Review and Analysis of the Usage of Degree Adverbs
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
Representation Learning of Knowledge Graphs with Hierarchical Types
從 ER 到 Logical Schema ──兼談Schema Integration
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
2008 TIME USE SURVEY IN CHINA
第十二章 顧客關係管理.
都;和 “both, all”; “and” 几 “how many” 做什么的 “do what (occupation)”
More About Auto-encoder
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
怎樣把同一評估 給與在不同班級的學生 How to administer the Same assessment to students from Different classes and groups.
活動主題:能「合」才能「作」 指導教授:張景媛教授 設 計 者:協和國小團隊 李張鑫 × 陳志豪.
技專校院多元入學管道 國立臺北科技大學 教務處 涂雅筑.
WiFi is a powerful sensing medium
地点识别调研 施林锋.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Section 1 Basic concepts of web page
Presentation transcript:

Some discussions on Entity Identification 丁文韬 2019/12/19

Outlines What is entity identification? How to identity them? Identify what? When to identify those entities? How to identity them? Learning with supervision Direct matching with knowledge Combined approaches Discussion 2019/12/19

What is entity identification? Entity identification/recognition/discovery/extraction/… 常见误读: 给定一个知识库和语料,找出知识库上所有实体在语料上的全部出现? 对通用知识库往往不成立 什么算“文本中出现的实体” Identify what? When to identify those entities? Jim bought 300 shares of Acme Corp. in 2006. [Jim]Person bought 300 shares of [Acme Corp.]Organization in [2006]Time. 2019/12/19

What is entity identification? Identify what? Defined by annotations 根据Supervision学习什么样的实体应该被识别 Open world assumption成立吗? Defined by knowledge Recognizing entities of restricted types 缺乏充足Supervision时必然的选择 Defined by knowledge & annotations e.g. OKE Task 2 2019/12/19

What is entity identification? When to identify those entities? Defined by linguistic restriction(?) “Named” entity recognition: the word “Named” aims to restrict the task to only those entities for which one or many rigid designators “the automotive company created by Henry Ford in 1903” -> “Henry Ford” “the automotive company created by Henry Ford in 1903” -> “Ford Motor Company” Defined by annotations 根据Supervision学习什么样的实体应该被识别 需要标注者能在相当程度上保持粒度的一致性 Just try to identify more 当identification被视为一个模块时经常采用的真实方案 2019/12/19

How to identity them? Direct matching with knowledge matching with a dictionary exact/inexact matching learning based dictionary augmentation Learning with supervision Sequential tagging model (CRF) Combined approaches 2019/12/19

Dictionary based identification Exact/inexact matching prefix/suffix: “China” -> “People’s republic of China” acronym: “NJU” -> “Nanjing University” edit distance: “Michael Jordan” -> “Michael I. Jordan” Learning based dictionary augmentation The overview of AutoPhrase 2019/12/19

Identification as sequential tagging CRF model Y (tagging scheme) BIO/SBIEO (Single, Begin, Intermediate, End, Other) Type (Class) X (feature) Discrete feature Fixed word embedding Language model 2019/12/19

Combined approaches Dictionary Sequential tagging high precision, completeness incomplete, context-independent Sequential tagging robust, context-dependent hard to model long dependencies Enhancing sequential tagging models by dictionary Chinese NER Using Lattice LSTM (ACL 18) Learning Named Entity Tagger using Domain-Specific Dictionary (EMNLP 18) 2019/12/19

Chinese NER Using Lattice LSTM Segmentation和NER之间存在相互关系 但Segmentation -> NER流水线可能造成错误传播 2019/12/19

Learning Named Entity Tagger using Domain-Specific Dictionary Domain-Specific: without large amounts of manually-labeled training data Distant supervision (matching with a dictionary) Fuzzy-LSTM-CRF for distant supervision Unknown type 2019/12/19

Learning Named Entity Tagger using Domain-Specific Dictionary “Tie-or-Break” tagging scheme The connection between two adjacent tokens is labeled as: Tie, when the two tokens are matched to the same entity; Unknown, if at least one of the tokens belongs to an unknown-typed high- quality phrase; Break, otherwise. 2019/12/19

Learning Named Entity Tagger using Domain-Specific Dictionary Results 2019/12/19

Discussion Entity Identification= Triggering + Boundary fining + Classification? SynTime: Pipelined triggering & boundary fining PTime: 使用词典应考虑置信度 2019/12/19

Discussion Entity Identification= Triggering + Boundary fining + Classification? 纯人工标注提供的Supervision是准确的,但可能不完备 (扩充的)词典提供的Distant Supervision的准确性存在问题 是否能(应该)带置信度的提供标注信息? 在dev上分别计算多个条件组合的质量 对token计算置信度 2019/12/19

Discussion 显式的Syntax应该提供一定帮助 (Segmentation, Syntax Tree) Entity Identification= Triggering + Boundary fining + Classification? 显式的Syntax应该提供一定帮助 (Segmentation, Syntax Tree) 2019/12/19

Discussion Classification Entity Identification= Triggering + Boundary fining + Classification? Classification Classification到底如何帮助前两个步骤? 或者说,同时做多个类型的NER有什么好处? Classification真的有帮助吗? 猜想:仅对一个短语内部的处理有好处 “the automotive company created by Henry Ford in 1903” -> “Henry Ford” “the automotive company created by Henry Ford in 1903” -> “Ford Motor Company” 2019/12/19

Discussion 对于监督信息不充足的Entity Identification任务 寻找标准词典和可迁移标注信息(e.g. anchor text) 带置信度的扩充词典 对非标准信息分级估算置信度 构建多任务(?)的Fuzzy-CRF模型 同时学习Segmentation和Entity Identification Segmentation以token之间的标记体现 考虑分类别进行Entity Identification 将多个类的识别结果合并视为一个单独的问题 2019/12/19

References Khaled Shaalan: A Survey of Arabic Named Entity Recognition and Classification. Computational Linguistics 40(2): 469-510(2014) Wei Shen, Jianyong Wang, Jiawei Han: Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions. IEEE Trans. Knowl. Data Eng. 27(2): 443- 460 (2015) Xiaoshi Zhong, Aixin Sun, Erik Cambria: Time Expression Analysis and Recognition Using Syntactic Token Types and Ge neral Heuristic Rules. ACL (1) 2017: 420-429 Jingbo Shang, Jialu Liu, Meng Jiang, Xiang Ren, Clare R. Voss, Jiawei Han: Automated Phrase Mining from Massive Text Corpora. IEEE Trans. Knowl. Data Eng. 30(10): 1825-1837(2018) Jingbo Shang, Liyuan Liu, Xiaotao Gu, Xiang Ren, Teng Ren, Jiawei Han: Learning Named Entity Tagger using Domain-Specific Dictionary. EMNLP 2018: 2054-2064 Yue Zhang, Jie Yang: Chinese NER Using Lattice LSTM. ACL (1) 2018: 1554-1564 2019/12/19

Thanks for listening Q & A 2019/12/19