基于人类认知分类体系的实体搜索方法 李祥乾 2015届毕业生毕业设计 设计方案
目录 第1章 绪论 第2章 预备知识 第3章 异构本体类型到知识体系的映射 第4章 基于映射后的一致分类体系的实体搜索方法 第5章 实验评估 1.1 课题背景 1.2 相关工作 1.3 主要研究内容 1.4 论文结构 第2章 预备知识 2.1 语义网相关概念 2.2 本体匹配 2.3 WordNet介绍 2.4 本体类型向分类体系单元的映射 第3章 异构本体类型到知识体系的映射 3.1 问题描述 3.2 方法概览 3.3 数据预处理 3.4 匹配过程 3.5 映射选择过程 3.6 匹配结果分析 第4章 基于映射后的一致分类体系的实体搜索方法 4.1 问题描述 4.2 方法概览 4.3 约束条件下的过滤器选择优化 4.4 实体排序与摘要 第5章 实验评估 5.1 实验方法概述 5.2 匹配性能评测 5.3 系统有效性评测 第6章 结束语
第1章 绪论 1.1 课题背景 语义网正在飞速发展:数据增长,应用场景更多,更为大家熟知。 实体的搜索与浏览对于用户使用语义网满足信息、知识需求很重要。 人类认知中对世界中的事物与事件有一个分类体系,借助这个认知上的知识储备,可以帮助用户寻找到想要的事物。 借助它改进语义网中的语义搜索,帮助用户更方便、快速找到感兴趣的实体。
用户搜索实体的习惯
用户搜索实体的习惯 通过商品细分的类型与属性特征进一步过滤结果 不同的排序规则,满足用户不同的需求 简洁、有用的摘要帮助用户选择感兴趣的商品以进一步详细了解
第1章 绪论 1.2 相关工作 Falcons Object Search:基于ontology class的过滤器,优化排序规则,来搜索实体 Tags Cloud: Xing jian Zhang,etc, Exploring Linked Open Data with Tag Clouds 基于ontology class/property的迭代式过滤 SNAKET: Paolo Ferragina, etc, A Personalized Search Engine Based on Web-Snippet Hierarchical Clustering 基于对ontology class的聚类 1.3 主要研究内容 通过将大量异构的本体类型映射到一个一致的符合人类认知的分类体系,可以用一致的分类体系中的概念单元对实体进行标注。(电子商城中 的商品也有一致的分类和属性体系) 借助一致的分类体系,提升用户搜索实体的使用体验,帮助用户快速定位到感兴趣的实体。 对候选实体列表中可能的标注概念单元进行筛选,选择数量合适、语义具体、能够很好覆盖并能有效过滤当前实体集合的单元作为过滤器推荐 给用户。(与搜索商品相同,符合用户的搜索习惯)
第2章 预备知识 2.1 语义网相关知识 RDF 2.本体与RDFS/OWL 3. Open Linked Data 2.2 本体匹配 本体匹配主要的相关技术与过程,流行的工具 2.3 WordNet介绍 2.4 本体类型向分类体系的映射
第3章 异构本体类型到知识体系的映射 消除大量本体类型的由于不同本体的异构性带来的 不易理解与重复、繁杂的特征。 得到一个一致、符合人类认知、由广泛使用的语义 知识库WordNet得到的分类体系,并与大量异构 本体类型建立了映射关系。 WordNet Synset hyponym graph
第3章 异构本体类型到知识体系的映射 Construct taxonomy for the ontology and corresponding SHG. 数据预处理 blocking matching with multiple strategies Concept Cone Matcher 匹配过程 Linguistic Matcher Similarity Flooding method based on SPG blocking select mappings via homomorphism constraint Naive selection based on greedy strategy Select suitable strategies 映射选择过程 skeleton selection supplement selection
第3章 异构本体类型到知识体系的映射 需要改进、加强的: 保证准确率的情况下更加scalable. 改进算法,提高准确率(通过一个评测平台抽样人工判断)
第4章 基于映射后的一致分类体系的实体搜索方法 对整体实体的分布做一个概览,可以通过认知体系的类型定位到实体。 实体搜索基于关键字。 对搜索结果提供合适的过滤器,通过多步迭代式的方式过滤到用户真正感兴趣的实体。这是 一种符合用户操作习惯的方式。在线购物的时候,大多数用户也是通过关键词搜索、类型与 条件过滤来找到感兴趣的商品的。 使用基于丁基伟同学EBMC模型与相应算法来选择合适的过滤语义标签。
样例 实体分布概览
示例 london search London place music event University of London company label: London comment: London /ˈlʌndən/ is the capital city of England and the United Kingdom. It is the most populous region, urban zone and metropolitan area in the United Kingdom. Standing on the River Thames, London has been a major settlement for two millennia, its history going back to its founding by the Romans, who named it Londinium. music event University of London company label: University of London comment: The University of London (informally referred to as London University) is a collegiate research university located in London, England, consisting of 18 constituent colleges, 10 research institutes and a number of central bodies. London is the second-largest university by number of full-time students in the United Kingdom, with around 135,000 campus-based students and over 50,000 distance learning students in the University of London International Programmes. organization Others
london search 1958 FA Cup Final festival sport Others All > event X 1958 FA Cup Final festival label: 1958 FA Cup Final comment: The 1958 FA Cup Final was contested on 3 May 1958 by Bolton Wanderers and Manchester United at Wembley Stadium, London, in front of a crowd of almost 100,000. The referee was J. Sherlock. Bolton won 2–0, with a double by Nat Lofthouse, who scored the goals in the 3rd and 55th minutes. United, who had lost the previous final to Aston Villa, had been decimated three months earlier in the Munich air disaster, and fielded only four crash survivors, along with several newcomers. sport Others 2012 Summer Olympics label: 2012 Summer Olympics comment: The 2012 Summer Olympics, formally the Games of the XXX Olympiad and commonly known as London 2012, was a major international multi-sport event celebrated in the tradition of the Olympic Games, as governed by the International Olympic Committee (IOC). It took place in London, United Kingdom and a lesser extent across the country from 25 July to 12 August 2012. The first event, the group stage in women's football began on 25 July at the Millennium Stadium in Cardiff.
第5章 实验评估 基于Dbpedia 2014实体数据集及相关的本体数据集,搭建实验系统。 搭建对比系统: 基于相同数据集的Falcons Object Search方式的按照选择出的class来搜索的实体搜索系统; 基于相同数据集的SNAKET方式的对class做聚类后过滤的实体搜索系统; 无过滤器的实体搜索系统。
第5章 实验评估 对本体class向wordnet synset graph映射的算法进行性能评测。 设计实验任务,让语义网开发者、用户参与实验,对各个实验系统进行评分与SUS测评。通过显 著性分析得出结论,证明我们的系统确实能够提高用户搜索目标实体完成任务的速度与准确度, 并有一个更快捷、方便的搜索体验。
时间表 本学期完成毕设论文除实验部分的初稿,映射算法的优化,实验系统的搭建。 下学期3月完成对比系统的搭建,进行实验,完成论文实验部分。 4月初,论文修缮及完成。
Thank you! 在 “幻灯片放映”模式,单击箭头进入 PowerPoint 入门中心。