基于关键词的RDF数据系统的交互与搜索研究

Slides:



Advertisements
Similar presentations
1 曾老師、各位同學大家好 ! 首先自我介紹 ; 個人聯合大學電機系 畢業,服完兩年兵役後, 75 年開始就 業 ; 四年內換了幾個工作, 79 年創立貿 特科技, 90 年、 91 年分別於大陸寧波 與昆山設立特一電子與柏特電子,經 歷 20 年的工作磨鍊,今天事業上算是 穩定、成熟 ! 承蒙曾老師看重,利用一.
Advertisements

平衡飲食保健強身 整理至簡體版,作者不可考。內容為 參加國際健康會議所發表的心得。. 人應該活多久 有人告訴我五六十歲就差不多了。 我在醫院工作四十年了,絕大部分病死的人是 很痛苦的。 我在美國遇見張學良,一進門見到他就大吃ㄧ驚, 他眼不花,耳不聾,很多人問他:少帥,您怎 麼能活這麼久? 他回答:不是我活的久,是他們活的太短了。
教育部 1 教育部技職司 南區: 2010 年 11 月 5 日 北區: 2010 年 11 月 8 日 中區: 2010 年 11 月 9 日 產學攜手合作計畫 政策宣導.
中正國中 特教組長 粘玉芳 校內分機 : /02/21. 下列條件擇一: 一、身心障礙手冊 二、特殊教育學生鑑定及就學輔導會證明.
104 年度環保小學堂 經費編列注意事項 會計室 : 丁子芸 中華民國 103 年 10 月 22 日 會計室 : 丁子芸 中華民國 103 年 10 月 22 日.
湘雅路街道 刘韬 2014 年 4 月 微时代 · 新挑战. 什么是微时代 : 微时代即以微博、微信 等作为传播媒介代表,以短 小精炼作为文化传播特征的 时代。 开福区湘雅路街道工委 微博:微型博客的简称,即一句话 博客,是一种通过关注机制分享简 短实时信息的广播式的社交网络平 台。 微信:是腾讯公司于.
示範課 -- 作文立意. 重溫作文構思課  構思嘗試深化  多角度思考  宜先剖析題目, 運用聯想, 循序漸進擴大範圍, 然後歸納材料, 定訂主題  同學的作品, 反映部分能夠掌握, 主線清晰, 層 層深入, 舉例恰當  但有部分同學只有枝葉, 欠缺主線, 更無中心思 想, 反映立意不足.
幼教人員法律事件探討 ─ 幼兒教育及照顧法 姚其壯 第一章 總則〈第一條至第六條〉 第二章 幼稚園設立及其教保服務 〈第七條至第十四條〉 第三章 幼稚園組織與人員資格及權益 〈第十五條至第二十八條〉 第四章 幼稚權益保障 〈第二十九條至第三十三條〉 第五章 家長之權利與義務 〈第三十四條至第四十條〉
畫面中的兩個人要去參加金融業儲備幹部的面試 活動,你認為誰的面試穿著是正確的? V.S 動動腦 V.S 動動腦 慎重 讓人感到 尊重 輕便 讓人聯想 隨便 畫面中的兩個人要去參加金融業儲備幹部的面試 活動,你認為誰的面試穿著是正確的?
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
高考心理辅导  福建中医药大学  林山  高考是什么?  真有那么 “ 苦大仇深 ” ?  为什么不能是 “ 快乐挑战 ” ?  高考(事) --- 认知(怎么个事 - 压力大小) --- 情绪反应(烦躁、焦虑、害怕 VS 自信、 从容、期盼) --- 行为表现(发挥正常.
社工之路的通行證 --- 社工師證照 考試心得分享 東吳大學社工系碩一 呂錦綸. 一、考前準備 閱讀主流老師的書籍、掌握各科概要。 閱讀主流老師的書籍、掌握各科概要。 重視概念性的知識,打好基礎是很重要低 ~ 重視概念性的知識,打好基礎是很重要低 ~ 是必備讀物 ! 是必備讀物 ! 勤作考古題,參考當年度碩士班考試及高.
你愛美食嗎? 很多人都有這種體會,在廚房熱火朝天忙活了好一陣,好不容易美味佳餚端上桌,卻絲毫沒了胃口。難道真的是像大家開玩笑說的,都是在做飯時“偷吃”飽啦?經常有一些人在烹飪過後卻沒有食欲,出現嗅覺遲鈍、口渴、頭暈,眼、鼻、喉受刺激的症狀,國外把這種現象稱為“醉油綜合征”。
心理学辅导.
联合国提出个口号:“千万不要死于无知” 保健的三个里程碑 平衡饮食 有氧运动 心理状态.
“321人才计划”情况介绍 南京高新技术产业开发区 人才工作办公室.
兩岸融合教育之議題: 以東莞台商子弟學校為例
南宁市中考网上报名录取系统 使用手册 2014年5月.
平衡飲食保健強身.
大南海文化園區 (國立歷史博物館 -初期計畫) 簡介
从生命伦理学角度 对转基因食品市场准入标准及道德评价标准的研究
小綠葉蟬的『祕蜜』~ 蜜香烏龍茶.
职业教育.课程改革.项目课程 江苏省太仓中等专业学校校长 江苏省职业教育教学改革创新指导委员会委员 江苏省职业教育课程开发研究中心组组长
個人投資理財與策略 富蘭克林:邱良弼.
穿越迷雾,读懂全球化经济本质 谈美国次贷危机与人民币升值问题.
劳动关系法务-实操篇 规章制度修审与员工手册撰写.
婴幼儿米粉 准妈妈适用新鲜活米.
作者簡介 路寒袖.
恒泰期货研究所2016年 期债暴跌告一段落,短期波动降低 国债期货周报
邮币卡开户、银行签约、出入金流程.
实验一:分析“征途游戏”网站的类型与推广手段
第五章 策划用文体写作.
簡報內容 網路請購系統說明 經費授權注意事項 請購單&授權應用範例 系統環境及設定. 簡報內容 網路請購系統說明 經費授權注意事項 請購單&授權應用範例 系統環境及設定.
第八章 网络课程的设计与开发.
第9章 工程索赔管理.
解放軍論壇 中共信息戰發展 對我國軍事戰略之影響.
项目进度管理.
人力资源管理师 基础知识 厦门理工学院 姜丽.
青春期男生女生交往.
专题五 高瞻远瞩 把握未来 ——信息化战争 主讲教师:.
文書檔案與實務概述 103年7月30日 主講人:總務處文書組單秀琴組長.
第十一章 理气剂.
第十章 现代秘书协调工作.
金属学与热处理 主讲: 杨慧.
让微笑伴您一生.
北京市医师定期考核信息管理系统 在线考试培训会 北京市卫生和计划生育委员会 北京市医师定期考核办公室 2016年9月
第三节 固精缩尿止带药 1.特点:酸涩收敛,主归肾、膀胱经。 2.功效:固精、缩尿、止带。兼补肾。
互联网时代班主任的挑战 万玮 2014年9月20日.
权力的行使:需要监督 北京市京源学校 冯 悦.
中文元数据标准研究及其示范数据库 项目进展及其成果应用
教学目的和要求 通过阐述新民主主义革命理论,使我们能够深入了解和掌握新民主主义革命理论的形成、基本内容及其意义,认识这一理论是中国革命实践经验的结晶,是中国革命胜利的指南,是马克思主义中国化的重要成果。
社会背景 :我国新民主主义革命的开端期,几千年来被奉为正统的旧秩序、道德观念被颠覆,新的秩序、观念和道德标准尚未建立,“五四”思想启蒙者大多数以西方文学作品及文艺学、哲学理论作为批判现存社会、探询社会出路的武器。外国小说和理论的输入也促进了“五四”新小说的发生、发展。
利用关联数据实现机构知识库的语义扩展方法研究
A1 “奔腾少年” 学校生活 本刊第001期 本刊共 28 版 出版人:刘雨清 2014年6月1日 星期日 五月初四 甲午年 己巳月 癸卯日.
鄉村尋根-農具篇.
吉林省信息技术与教学融合优质课大赛 参赛教师提交大赛作品流程 吉林省电化教育馆.
网络营销实务 第16讲 搜索引擎优化(1) 主讲人:李小斌.
第三章 凝固 3.1 金属结晶的基本规律 3.2 金属结晶的基本条件 3.3 晶核的形成 3.4 晶体的长大 3.5 陶瓷、聚合物的凝固
指導老師:邱登裕老師 組員:B 張萬鈞 B 鄭瑞傑 B 蔡譯陞 B 胡瑜真
杭州国家粮食交易中心 欢迎您!.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
大葉服務學習執行說明 課外活動暨服務學習中心:黃泰元.
目 录: 一、网络存储系统的登录 二、网络存储系统的基本使用 三、学生提交作业功能的使用 四、教师开放资源功能的使用.
一切都是課程 『國際教育』在明道.
僅首頁出現本title即可 責任的故事(二年級) 生命最美麗動人的本能 簡報製作:瑞柑國民小學 鄭雙慧 文/ 何秀芳.
道家的中心觀念.
6-1磁的基本概念 沒有磁沒有人類 磁力的由來 磁能
學生學習診斷與進展評量 測驗科目:第一次國語文、第二次數學 (數學要帶紙筆計算)
第1章 HTML基础 主讲人:刘泰然 经济管理学院.
Presentation transcript:

基于关键词的RDF数据系统的交互与搜索研究 刘敏 2018/11/28

Outline 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

流程 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

研究背景 Surface Web Deep Web(BrightPlanet white book) 超链接文本数据 关键词搜索 增长速度更快 月访问量是Surface Web的1.5倍 结构化数据 2018/11/28

研究背景 结构化数据的访问 关键词搜索 网络上的结构化数据 结构化查询语言(SQL, SPARQL等) 固定模板的表单 异构性,格式多样,Schema不明确 传统数据库不太适合 流行方案:语义网的RDF数据模型 固定模板表单往往应用于垂直搜索 2018/11/28

流程 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

基础知识与问题定义 基础知识 SPARQL RDF(Resource Description Framework) URI、主语-谓语-宾语的三元组(SPO)形式 <The Godfather> <writer> <Mario Puzo> RDF图 RDFS 类似于关系数据库中的schema信息 <#Film> <writer> <#Writer> SPARQL 类似于SQL 描述和表示RDF数据的概念和其之间的关系 2018/11/28

基础知识与问题定义 问题定义 数据图G(V, E, L) 关键词映射:一个从q中的关键词到数据图G中的点或者边的映射。 连接查询 V : C-Vertices ∪E-Vertices ∪D-Vertices E: IE-Edges ∪ED-Edges ∪S-Edges(type、subclass) L:E的label的集合 关键词映射:一个从q中的关键词到数据图G中的点或者边的映射。 自然假设:关键词含义单一;关键词有意义 连接查询 (x1,...xk).A1∧…∧Ar的形式 x1,…xk被称为变量(variables) A1…Ar被称为查询原子:P(v1,v2),其中P是谓词(Predicate),v1,v2是变量或者常量 描述和表示RDF数据的概念和其之间的关系 2018/11/28

流程 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

星型查询的探索 定义3.1-1(星型查询)如果产生的连接查询(定义2.2-2) 是一颗树T,树T的高度为2,且树T仅有一个根节点r(即其他节点均为根节点r的孩子节点,同时也是树T的叶子节点,这些节点或是文本节点或是由文本映射得到的实体节点或类节点)时,我们将此连接查询称之为星型查询,根节点我们称之为主题节点,根节点的类型(即type属性值)我们称之为主题类型。 正如1.1背景所述,对于Deep Web中的数据的检索,通用搜索引擎无能为力。对此的一种解决办法就是垂直搜索,所谓垂直搜索引擎即搜索特定的内容类型信息,例如旅游,电影,图片,商户等等的搜索引擎。一般来说,通用搜索引擎不能够发现或者很难发现这些内容,因此垂直搜索与Deep Web紧密联系在了一起。 对于当前的垂直搜索中,有很大一部分的搜索(例如yelp,大众点评等为代表的本地商户搜索)都可以归结为星型查询。所谓星型查询,我们可以将其建模为一棵树(RDF数据我们将其看作一个图G,详见2.2),树的根节点我们称之为为主题节点,树的高度为2,除了主题节点之外的其他节点均为叶子节点,即均为主题节点的孩子节点。所谓主题节点即阐明用户输入的查询意图的关键节点,例如在本地搜索网站例如大众点评中,用户输入关键词进行查询时,其查询的默认且唯一的主题是商户,而用户输入的关键词是对商户的直接描述。 2018/11/28

星型查询的探索 当前的垂直搜索系统实现方式: 设计原则 传统的全文本的检索 直接返回答案,而非查询的检索 表单方式 交互方式不能过于繁琐 交互有效性 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询的探索 利用探索式搜索的基本思想,提出新的交互: 字面搜索 减少交互负担 “所见即所得”的交互设计原理 字面搜索VS结构化搜索(语义搜索) 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询的探索 功能模块: 预处理:字面搜索 预处理 关键词映射 打分函数 查询构造 确定主题类型,将主题节点的描述看作文档建立索引 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询的探索 关键词映射: 类型预测索引和元素定位索引 句法映射 语义映射 字符串匹配技术找形态相似的词:去停用词,词干抽取,子字符串,编辑距离等 语义映射 词典如wordnet找语义上相关的词:同义词,上位词,下位词等 类型预测索引和元素定位索引 类型预测索引:关键词->[term of keywords, type, C-Vertex1,….C-Vertexn] 元素定位索引:[term of keywords, C-Vertexi]-> C-Vertexi的前k个具体值 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询的探索 打分函数 定义3.1-2(整体映射)对所有关键词分别可能映射到的类别进行组合,形成查询的整体映射。 关键词输入序列{k1, k2,…..,kn}, 每个词项 ki都与一个类别集合{ C-Vertex1,….C-Vertexmi}相关联 基本思想:已知数据图G,构造出产生形式化查询的整体映射TM来自于用户输入的关键词查询KQ的概率的大小-----P(TM|G, KQ) 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询的探索 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询的探索 查询构造 排序原则:我们认为一种整体映射得到的形式化查询更有可能反映了用户的意图,如果它的检索结果数量更多。 对于P(TM|G),即从数据图G中产生TM的概率,我们将其定义为由数据图G中的满足这条整体映射TM的实例的个数与数据图G中属于主题类型的总的实例的个数的比值。 查询构造 通过Schema信息 当前的垂直搜索系统大部分是基于传统信息检索的方式,即将用户输入的关键词与将文档中的词与文档建立的倒排索引通过打分函数(例如TF-IDF)进行匹配,然后按照打分的结果返回关联文档的相应排序,显然这种将结构化数据当文本数据进行处理的方法存在很大缺陷。不仅浪费了结构化数据的元信息;而且文本进行传统信息检索返回的结果的精确度还有很大的提高空间。 传统的全文本搜索,搜索引擎将用户输入的关键词看作词袋(bag of words),不考虑这些关键词的具体含义及相互关系,仅仅返回那些包含所有用户输入关键词的文档(按照一定的打分函数进行排序); 通过直接将用户的关键词构造成结构化查询并将结构化查询提交给相应的结构化语言引擎进行处理,返回执行结构化查询的结果,但由于当前自然语言处理的水平、关键词查询天生的歧异性等原因,致使这种方法返回的检索结果也并不令人满意。 2018/11/28

星型查询探索 2018/11/28

流程 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

前k条查询的图探索 原因: 当前的前K条查询的图探索: 图数据越来越多 星型查询过于简单 用户输入关键词查询系统产生的前k条结果或者查询 关键词映射时不存在交互 例如:”river mississippi state” 系统产生的前k条查询中存在含有这种错误映射元素的查询,不仅降低了系统的准确度,还降低了前k条查询的多样性,以及影响用户的体验效果。 2018/11/28

前k条查询的图探索 原因: 当前的前K条查询的图探索: 图数据越来越多 星型查询过于简单 用户输入关键词查询系统产生的前k条结果或者查询 关键词映射时不存在交互 例如:”river mississippi state” 系统产生的前k条查询中存在含有这种错误映射元素的查询,不仅降低了系统的准确度,还降低了前k条查询的多样性,以及影响用户的体验效果。 2018/11/28

前k条查询的图探索 交互方式 优势: 交互模式简单明了并与当前的传统搜索引擎给出的交互模式相一致 交互次数少,用户负担低 系统产生的前k条查询中存在含有这种错误映射元素的查询,不仅降低了系统的准确度,还降低了前k条查询的多样性,以及影响用户的体验效果。 2018/11/28

前k条查询的图探索 功能模块 预处理 关键词映射 打分函数 图探索 前K条子图结构计算 查询映射 2018/11/28

前k条查询的图探索 预处理:获得增强Schema图 定义3.1-2(Schema图)一个数据图G(V, E, L)的Schema图GS(VS, ES, LS)是一个图。 定义3.1-2(增强Schema图)已知用户输入的K个关键词对应的M个数据图元素KEm = {kEm1, kEm2,…kEmm} (M的值不大于K),增强Schema图AGS是一个包含Schema图GS以及以下信息的数据图: e(kEm, c),对任意的关键词匹配得到的数据图元素kEm,数据图G中包含e(kEm, v)以及type(v, c),其中v∈E-Vertices。 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 但由于仅仅获有Schema图并不能进行子图结构探索,因为用户输入的关键词进行映射后得到的可能是类元素,或者属性元素或者实体元素,而Schema图中只含有类与属性元素。 2018/11/28

前k条查询的图探索 关键词映射 索引:数据图G中的每一个E-Vertices顶点,将其邻接的D-Vertices节点值、E边的标签以及E-Vertices的label值或者title值或name值看作一个文档,进行索引。 提供自动补全功能 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 打分函数 得到的分数表示的是生成的子图的权重而非与用户查询的相关性 当前的研究的打分函数一般考虑”图的结构”以及”图元素与关键词的相似度”,但并未考虑用户输入的关键词之间的相互关系 权重: 结构权重 上下文权重----基本思想:越相关的关键词则其位置彼此更临近 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 打分函数 思想:图中的顶点的关系越密切(即顶点间的权重距离越小)则其越可能符合用户的信息需求 衡量标准:子图的权重越小,则其越可能符合用户的信息需求 得到的分数表示的是生成的子图的权重而非与用户查询的相关性 当前的研究的打分函数一般考虑”图的结构”以及”图元素与关键词的相似度”,但并未考虑用户输入的关键词之间的相互关系 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 打分函数 图的权重 思想:图中的顶点的关系越密切(即顶点间的权重距离越小)则其越可能符合用户的信息需求 衡量标准:子图的权重越小,则其越可能符合用户的信息需求 得到的分数表示的是生成的子图的权重而非与用户查询的相关性 图的权重 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 路径权重 当前的研究的打分函数一般考虑”图的结构”以及”图元素与关键词的相似度”,但并未考虑用户输入的关键词或者映射得到的数据图元素之间的相互关系 权重: 结构权重 上下文权重----基本思想:越相关的关键词则其位置彼此更临近 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 结构权重 默认权重 流行权重: 顶点权重:Schema图中每个顶点(Schema中的每个顶点都是类型顶点)的实例数据的数目与数据图中总的实体数据的数目的比值来衡量 边权重:每条边在数据图中出现的次数与数据图中总的IE-edges的数目的比值来衡量 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 上下文权重 直观思想:使存在于增强Schema图中那些与用户输入直接以及间接相关的数据图元素的权重减小 举例:查找”The Godfather”的Director与”Superman”的Writer合作的电影 关键词输入:” godfather director superman writer film” 关键词元素序列:[”The Godfather I(Film)”,”Director”, ”Superman(Film)”,”Writer”,”Film”] 关键词元素在增强Schema图中的权重减小 关键词元素序列中元素之间的位置关系也表明了用户对构造出的查询的偏好 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 形式化公式:已知关键词元素KEm = {kEm1, kEm2,…kEmm}以及增强Schema图 基于用户输入的观察,如果用户查找”The Godfather”的”Director”,则用户输入”godfather director”的可能性一般比输入”director godfather”的可能性高 实体数据元素与其所属的类的数据元素之间的距离的远近并不太重要 ”director superman film”[“Director”,”Superman(Film)”,”Film”],则查询更可能是”Superman(Film)”的”Director”拍的Film,这也与我们前面的每个关键词都是有用的假设相一致。 形式化公式:已知关键词元素KEm = {kEm1, kEm2,…kEmm}以及增强Schema图 关键词元素权重 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 间接数据图元素---边元素(点元素类似) 边元素不是type边元素。 边元素不是与用户查询直接相关的数据图元素,边元素没有没有出现在KEm中。 边元素关联的两个顶点emi与emj必须都出现在KEm中,即emi与emj在KEm中必须有相互对应的顶点kEml与kEmt。 如果kEmi是实体顶点,kEmj是类顶点且i<j或者kEmi是类顶点,kEmj是实体顶点且i>j,则β= 0, dist(kEmi, kEmj)=|i-j| 如果kEmi与kEmj同是类顶点,则β= 0且dist(kEmi, kEmj)=0 否则β= γ*[(1+dist(kEmi, kEmj)/m)*C(ke)],其中γ是一个(0,1)之间的参数, dist(kEmi, kEmj)=|i-j| 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 间接元素为type边时的权重 C(type)=μ*C(ke) 注意每条路径都是独立被计算的,这就表明如果一个元素出现在多条路径之上,那么路径中的这个元素的权重被重复计算多次 通过实验对比,我们将λ设为0.1,γ设为0.5,μ设为0.5效果较优。但由于时间仓促,我们并没有深入研究各个参数之间的关联关系,这也将是未来工作的一部分。 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 图探索 找到最小权重联通子图,使得子图包含所有关键词元素 图探索算法的输入包括: 数据结构 带权重的增强Schema图AGS 关键词元素序列KEm = {kEm1, kEm2,…kEmm} 进行图探索生成前K个子图结构的k值 限制算法在图中探索的最大长度maxDistance 数据结构 cursor(n, kEm, parent, distance, cost):记录已经访问的路径 PathInfos,其数据结构为(C1,…,Cm),其中Ci是一个cursor的有序链表,表示从数据图元素kEmi到n的不同的路径:记录图元素n的相关信息以及在探索中发现的到n的不同路径 全局变量LQ。其内包含m个有序列表,分别对应m个关键词元素 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 图探索基本思想: 以关键词元素kEmi (1=<i<=m)开始进行探索。一开始,对于第i关键词元素(1=<i<=m),创建一个带有空路径记录的cursor,并将cursor置入按照权重非递减的有序列表Qi中(在权重相同时按照插入顺序的先后依次排序) 。在探索过程中,每次都会从LQ中选择权重最小的cursor进行进一步探索。在每一步的cursor探索中,会为当前被访问的数据图元素的邻居元素创建新的cursor。在每进行一次探索后,会调用Topk函数,检测当前被访问的元素是否是一个连接元素(connecting element) 或者当前是否可以安全终止探索。 安全终止条件:LQ为空或者探索距离超过maxDistance或者产生了前k条查询 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 前K个子图结构的计算: 连接元素:一个元素与所有关键词元素都有至少一条路径的元素 候选子图集LG:如果一个元素是连接元素,则其会产生若干候选子图。其被加入全局列表LG中,LG按照权重进行非递减排列。 剩余子图集RG:除去候选子集中的子图,剩余所有的子图(即未包含所有的关键词元素的那些子图)组成的子图集。 核心思想:使得LG中权重最大的子图比RG中权重最小的子图都要小的时候便将LG中的子图分别进行查询映射,转换为各自对应的SPARQL查询。 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

前k条查询的图探索 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

流程 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

实验评估 有效性评估 性能评估 利用MRR值: 2018/11/28 为了更有效的进行图探索,我们预处理数据图,建立图索引。图索引本质上是对数据图的一个摘要,仅仅包含类型元素,即其是数据图的Schema图。在进行查询处理时,系统通过添加来自于关键词映射中的数据图元素来增强这个图索引。这个增强的Schema图将含有总够的信息来产生用户需要的查询。 2018/11/28

流程 研究背景 基础知识与问题定义 星型查询的探索 前k条查询的图探索 实验评估 总结 2018/11/28

关键词到语义搜索 谢谢! 2018/11/28