Download presentation
Presentation is loading. Please wait.
1
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚
2
目录 背景介绍 系统功能和架构 模块介绍 实验结果
3
背景介绍 知识来源 自然语言问题分析 主要技术路线 语义网知识库:结构化知识 NLP技术:浅层次问题分析 基于知识库的模板方法
直接转知识库查询 实体标注和三元组 知识库和文本检索方法 知识库作为语义标注和答案来源
4
背景介绍 基于知识库的模板方法 知识库和文本检索方法 问题转知识库查询:AutoSPARQL [2012]
How many films did Leonardo DiCaprio star in? SELECT COUNT(?y) WHERE { ?x ?p ?y . } Slots: <?x; resource; Leonardo DiCaprio> <?p; property, films> 背景介绍 Treo: From which university did the wife of Barack Obama graduate? 基于知识库的模板方法 问题转知识库查询:AutoSPARQL [2012] 知识库覆盖度:不能查询文本 知识库格式:严格符合RDF格式 问题实体标注和三元组:Treo [2013] 实体匹配准确度 知识库和文本检索方法 知识库作为语义标注和答案来源:QuASE [2015] 答案全部来源于文本标注的知识库实体 协助语义分析、答案生成 QuASE:
5
系统功能 基于语义网知识库的问答系统 事实型特殊疑问句 自然语言问题分析结果利用知识库查询 不同于问题直接转查询
知识库形式异构:RDF形式,<实体,属性,属性值>文本形式 事实型特殊疑问句 钓鱼岛的面积有多大? 平方公里 日本中央快速反应部队指挥官是谁? 日本防卫大臣
6
系统架构 知识库: 规范化文本:《军语》 结构化网站内容:http://weapon.huanqiu.com/ 非结构化文本:百科新闻
实体词表信息,上下位关系信息等 知识库内匹配及查询 “华盛顿号航空母舰”, “排水量” 问题分析: FNLP Tools 知识库相关信息(词条等) 模板匹配: 自定义的树结构正则模板匹配依存分析树 知识库查询: 自定义的树结构正则模板匹配依存分析树 问题: 华盛顿号航空母舰的排水量是多少? 依存树信息 中间结果表示 答案: [([101,600吨], (乔治·华盛顿号核动力航空母舰, 满载排水量))] 是 排水量 多少 ? 的 航空母舰 华盛顿号 是 排水量 多少 ? 的 航空母舰 华盛顿号 文本查询: 文本检索 命名实体识别 答案类型匹配排序 可能性较大的数字类型答案 (Q (A: “航空母舰”, M: “华盛顿号”) P: “排水量”)
7
模块介绍——领域知识库 作用 异构性 领域词表:实体和属性标签 同义词:实体标签 知识库查询 RDF:军语知识库
军语知识库: < a rdfs:Class ; rdfs:comment ; rdfs:label , "service ; 勤务舰船 英文名 [service ship] 别名 [辅助舰船]、[军辅船] 作用 领域词表:实体和属性标签 同义词:实体标签 <CVN-73/华盛顿号, 乔治·华盛顿号核动力航空母舰> <F-22‘猛禽’战斗机, F-22> 知识库查询 异构性 RDF:军语知识库 RDF和文本混合:装备知识库 文本三元组格式:背景知识、演习信息等 装备知识库: 名称:苏-30…… 首飞时间:1989年 …… 装备 飞行器 导弹 轰炸机 B-52 图-22 战斗机 苏-30 歼-11 歼-16 作战单位知识库: 日本西南航空混成团 驻地 日本冲绳 包括 一个航空联队 日本航空自卫队 任务 担负防空作战任务 防空作战机种 F-15J战斗机
8
模块介绍——问题分析 将自然语言问题进行初步分析 方法 输入:自然语言问题 输出:分词、词性标注、依存树 工具:FNLP Tools
华盛顿号航空母舰的排水量是多少? 序号 内容 词性标注 依存树父节点 依存关系 华盛顿号 型号名 1 定语 航空母舰 专有名 2 的字结构 的 结构助词 3 排水量 名词 4 主语 是 动词 -1 核心词 5 多少 疑问代词 补语 6 ? 标点 将自然语言问题进行初步分析 输入:自然语言问题 输出:分词、词性标注、依存树 方法 工具:FNLP Tools 扩展词库:知识库中实体和属性 标签等,网络等外部资源 是 排水量 多少 ? 的 航空母舰 华盛顿号
9
模块介绍——模板匹配 模板匹配问题依存树信息匹配, 提取问题主干 方法 输入:问题分析的分词、词性标注、 依存树 输出:中间结果
节点模板 "modifier": "noun": "(& "的": "what": …… 模块介绍——模板匹配 模板匹配问题依存树信息匹配, 提取问题主干 输入:问题分析的分词、词性标注、 依存树 输出:中间结果 方法 树节点模板:匹配单个依存树节点 树路径正则模板:匹配树的生成路 径 中间表示生成 是 排水量 多少 ? 的 航空母舰 华盛顿号 路径:"^is (modifier|noun) 的? (noun) (noun)$“ 路径:"^is (what)$", noun 的? is what 路径约束:"(!= 中间表示模板 "Ent_Pro: 中间结果 (Q A: “华盛顿号” +“航空母舰” P: “排水量”)
10
模块介绍——知识库查询 中间结果修正 查询 通用修正:同义词修正等 特定知识库修正:模糊匹配等 优先匹配实体 然后匹配属性
(Q A: “华盛顿号”+“航空母舰” P: “排水量”) “华盛顿号航空母舰,排水量” 中间结果修正 通用修正:同义词修正等 特定知识库修正:模糊匹配等 查询 优先匹配实体 然后匹配属性 属性匹配度 实体匹配结果 实体属性匹配结果 乔治·华盛顿号核动力航空母舰 满载排水量 满排吨位 下水时间 本宁顿号航空母舰 型宽 普林斯顿号航空母舰 小鹰号航空母舰 瑞鹤号航空母舰 实体匹配度 乔治·华盛顿号核动力航空母舰,满载排水量 101,600吨
11
实验结果 测试问题集 答题 事实型特殊疑问句的简单句型 45个问题,42个问题来自某军事 研究所给出,3个为自行添加 正确回答16题
答准率35.6% 钓鱼岛的经度和纬度是多少? [([25.75°N(北纬25°40′~26°)], (钓鱼岛, 纬度))] [([123.47°E(东经123°~124°34′)], (钓鱼岛, 经度))] 日本西南航空混成团驻扎在哪里? [([日本冲绳], (日本西南航空混成团, 驻地))] f22的续航里程是多少? [([3,200千米], (F-22, 最大航程)) ([6000海里/18节], (F-22P级, 续航距离)) ([3,200千米], (F-22“猛禽”, 最大航程))] 美国第七舰队拥有多少架飞机? [([若干气垫船、辅助船只, 5至6艘攻击型舰艇, 核动力航母一艘,……], (美国海军第七舰队, 装备部署))]
12
引用 Unger C, Bühmann L, Lehmann J, et al. Template-based question answering over RDF data[C]//Proceedings of the 21st international conference on World Wide Web. ACM, 2012: Freitas A, Oliveira J G, O’Riain S, et al. Querying linked data using semantic relatedness: a vocabulary independent approach[M]//Natural Language Processing and Information Systems. Springer Berlin Heidelberg, 2011: Sun H, Ma H, Yih W, et al. Open Domain Question Answering via Semantic Enrichment[C]//Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015:
13
谢谢 Q&A
Similar presentations