关于“理解名词短语”的 重新思考 丁文韬
提纲 “理解”“名词短语” 对于事实型问答的“理解”和“求解” “理解复杂名词短语” QALD上的“复杂名词短语” 经典知识库问答方法上的“理解”/“求解” “理解”与“求解”的目标差异 “理解复杂名词短语” 面向问答的“理解”名词短语 通过求解来“理解”名词短语
“理解”“名词短语” 通常来说,一个名词短语指示一个对象 Companies in China -> 一些Company A Chinese company -> 一个Company Their company -> 特定的Company Largest fintech company in China -> 蚂蚁金服
“理解”“名词短语” “You shall know a word by the company it keeps” ——Firth (1957) Question: what is Obama’s citizenship? Query parsing: (Obama, Citizenship,?) Identify and infer over relevant subgraphs: (Obama, BornIn, Hawaii) (Hawaii, PartOf, USA) correlating semantically relevant relations: BornIn~Citizenship Answer: USA MSR-DL-Summer School
QALD上的“复杂名词短语” 常见模式 常见结构 NP1 wh-word VB (IN) NP2 NP1 (VBN) IN NP2 NP1 of NP2 N1 N2 ? total population of Melbourne members of the Star Alliance 附着动作 求序数 the first with highest 计总数 more than 3 the number of …… NP NP ? NP films starring Clint Eastwood agencies in the Maldives ? NP the owner of Facebook Father of Singapore ?
提纲 “理解”“名词短语” 对于事实型问答的“理解”和“求解” “理解复杂名词短语” QALD上的“复杂名词短语” 经典知识库问答方法上的“理解”/“求解” “理解”与“求解”的目标差异 “理解复杂名词短语” 面向问答的“理解”名词短语 通过求解来“理解”名词短语
事实型问答 自然语言问题 -> 结构化查询 -> 执行结果 MSR-DL-Summer School
对于事实型问答的“理解”和“求解” 事实型问答 “理解” -> 得到结构 “求解” -> 得到答案 自然语言问题 -> 结构化查询 -> 执行结果 “理解” -> 得到结构 “求解” -> 得到答案 GAnswer / STAGG
经典(结构化)知识库问答方法 CCG Parsing (Yoav Artzi) Parsing on QA-Pairs (Percy Liang) Staged Query Graph (Scott Yih) Subgraph Matching (Lei Zou)
CCG Parsing (Yoav Artzi) Scaling Semantic Parsers with On-the-Fly Ontology Matching 理解 49 domain independent lexical items 56 underspecified lexical categories 求解 Structure Match Constant Matches
Parsing on QA-Pairs (Percy Liang) Semantic Parsing on Freebase from Question-Answer Pairs “理解”/求解 𝜆-DCS: -> Alignment Distant Supervision Bridging U vs U U vs B B vs B Unary Binary Join Intersection Aggregation Entity Property Property(Entity, ⋅) Unary1⊓Unary2 Count(unary)
Staged Query Graph (Scott Yih) Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base “理解”/求解 “Who first voiced Meg on Family Guy?
Subgraph Matching (Lei Zou) Natural Language Question Answering over RDF —A Graph Data Driven Approach “理解”/求解
经典(结构化)知识库问答方法 事实型问答 定位 -> 对齐 -> 求值 全局信息 vs 局部信息 存在知识支撑 -> 一定有连通子图 -> 知识图的稀疏性 定位 -> 对齐 -> 求值 实体链接 目标理解 查询 全局信息 vs 局部信息
“理解”与“求解”的目标差异 理解“难”和求解“难”不是同一个“难” How old is Michael Jordan? 结构:Age(Michael Jordan) 求解: Give me all writers that won the Nobel Prize in literature. 结构:&^$%$^@!#*^@@! 求解:Wikipedia:List_of_Nobel_laureates_in_Literature ?x ?p dbpedia_categories:Nobel_Prize_in_Literature ?x a dbo:Writer
“理解”与“求解”的目标差异 什么时候理解和求解是一致的? 需要理解的是求解的目标 What is the birth place of Michael Jordan? 不是death place, 不是birth date. 必须先“理解”,才能得到正确的对象 Among the caves with more than 3 entrances, which is the largest in Africa? 不能简单拼图,需要先求值
提纲 “理解”“名词短语” 对于事实型问答的“理解”和“求解” “理解复杂名词短语” QALD上的“复杂名词短语” 经典知识库问答方法上的“理解”/“求解” “理解”与“求解”的目标差异 “理解复杂名词短语” 面向问答的理解名词短语 “理解”名词短语以改进问答方法
理解复杂名词短语 面向问答的名词短语理解 问答场景下有复杂的名词短语,“理解”能够消除 这个复杂性,提升求解效果。
理解复杂名词短语 问答场景下的名词短语理解 问答场景下有复杂的名词短语,“理解”能够消除 这个复杂性,提升求解效果。 面向问答的名词短语理解 完成问答任务需要处理一些复杂现象,其中一些 复杂性恰好来自于名词短语。
面向问答的“理解”名词短语 理解的目标是得到结构 通过结构可以求值,因此有助于问答 复杂短语 收集复杂短语(需要千量级) 完成理解任务 把复杂短语替换入简单问题(百量级即可) 复杂短语 Complex Entity Alias father of Singapore, the first man in space Time/Event Expression Normalization 3 months before the World War II
“理解”名词短语以改进问答方法 “理解”名词短语以改进问答方法 不能做的问题 收集不能做的问题 在baseline上增加处理模块 收集问题出于名词短语复杂性的(至少千量级) 在baseline上增加处理模块 不能做的问题 聚合型问题(Aggregation) 排除比较、最高结构带来的句式复杂性 主要与名词短语相关的复杂性应该集中在列表/集合上 the total amount of statutory transfers in Nigerias 不能直接对应到图结构的惯用陈述 the first man in space (实体链接失败的情况下)
Thanks for listening Q & A