Nominal Phrase Understanding 进度报告 Wentao Ding
理解名词短语的子任务 识别名词短语中的构成单元边界 识别构成单元的连接顺序 向特定知识源的整体映射 Segmentation/NER Role Labeling/Parsing 向特定知识源的整体映射 Entity Linking/Ontology Matching
例子 Scottish people of Pakistani descent Scottish people of Pakistani NEntity Class IN CommonConcept RConstraint RelationalConstraint ConstraintedCollection CollectionWithConstraint
输入数据 数据集 输入短语应为名词性的而非句子 每个短语指示或描述一个明确的语义对象 Wikipedia Categories Appositives in New articles Short Search logs without verbs 输入短语应为名词性的而非句子 每个短语指示或描述一个明确的语义对象
输出结果 中间粒度的知识表述 面向知识库的语义表达 将语义单元映射到对应的类别,构建结构化表示 E.g. Provide 2 examples of real life objects that incorprate parabolic shapes? 面向知识库的语义表达
输出结果的评估 每个短语最终的语义结构应该明确的描述了一个 语义对象,因此可以视为对该对象的断言 完整性:短语中每个重要的部分都得到了表达 # 正确表达的单元 # 总单元 语义正确性:每个原子断言对描述的实体成立 # 正确的原子断言 # 总断言
挑战 (cited from “Scalable Semantic Parsing with Partial Ontologies”) 短语结构的正确处理 On the apposition dataset, 65% of errors stems from parsing, either in apposition detection or CCG parsing. The typing features encouraged compound nouns to be split into separate attributes. 语义映射 Choosing a superset or subset of the desired meaning. “novel” to book Domain ambiguity “stage actor” to film.film actor
方法 构建基于语义单元的规则集,限定候选结构 (已实现一个基本框架) 基于语义单元彼此的coherence在多个候选的情 况下,逐级推断结果 Attribute Entity -> AttributeOfEntity CommonConcept Class -> ConstraintedCollection “a” ConstraintedCollection -> Entity (已实现一个基本框架) 基于语义单元彼此的coherence在多个候选的情 况下,逐级推断结果 难点 规则构建 Coherence的度量
基于结构收集规则 从语法规则的数据出发,给定正确的语法结构, 从中推断语义单元的结合顺序,收集规则 使用easyccg自动构建的结果 http://114.212.87.166:8080/download/wpc-dev500.html http://114.212.87.166:8080/download/app-test300.html 刘畅手工标注的结果 http://114.212.87.166:8080/download/dev500byLC.txt
Thanks for listening Q & A