Download presentation
Presentation is loading. Please wait.
1
常见的选择题求解方法2 丁基伟
2
主要参考文献 Daniel Khashabi, Tushar Khot, Ashish Sabharwal, Peter Clark, Oren Etzioni, Dan Roth: Question Answering via Integer Programming over Semi-Structured Knowledge. IJCAI 2016: 整数规划表格QA
3
知识的表示 从半结构化知识到表格: 表格的构建:人工与半自动相结合的方式 每张表格对应一个谓词,谓词的每个元都是自然语言表示的字符串。 例:
rctry-hems(Canada, Northern) rctry-hems(Brazil, Southern) 表格的构建:人工与半自动相结合的方式 表格的模式是人工定义的,参照了教学大纲、学习指南、训练问句集 表格的填充是人工+半自动的,使用IKE(AllenAI研发的交互式知识抽取系统) 对于教科书上不能满足人工设定模式的知识,使用Open IE方式抽取三元组知识 Country Hemisphere Canada Northern Brazil Southern
4
基于支持图模型的QA 支持图的顶点集包括: 支持图的(无向)边集包括: 问句的主要组成部分,去除停用词的短语集合 q = {ql}
所有选项的集合 a = {am} 每张表格Ti的每个单元格集合 t = {tijk} 每张表格Ti的表头集合 h = {hik} 支持图的(无向)边集包括: 问句、选项到单元格、表头的边(文本蕴含值) ((q∪a) X (t∪h)) (不同表格)单元格之间的边(Wordnet相似度) (t X t) (不同表格)表头之间的边(人工确定0或1) (h X h)
5
0-1规划问题建模 核心思路:定义大量0-1变量,表示支持图参与到求解中的部分;定义一个优化目标,在满足约束条件的前提下,获得一组最优的变量赋值,从而完成问题的求解。 约束条件:(共43条) 简单变量 高阶变量 优化目标:
6
实验及结果 知识:65张表格,人工设计模式,使用教科书知识填充,约5000行;4张Open IE表格,约2600行。(用于其他求解器)80K个句子,来源于教材及教辅;280GB网络文本。 训练集:108个选择题 测试集:129个选择题
7
谢谢 欢迎提问
Similar presentations