基于相关性语义的高效XML Twig查询处理方法

Slides:



Advertisements
Similar presentations
手工加工全框眼镜技术 前调整确定加工基准制作模板割边 磨边磨安全角 (抛光) 装配 后调整检测.
Advertisements

融资融券业务的保证金与保证金比例 光大证券 · 信用业务管理总部 2015 年 12 月 ★融资融券业务投资者教育活动材料★
道家養生保健長壽藥膳 藥膳應用原則: 天人相應,道法自然 藥膳有兩個職能: 一是保健增壽,一是治療疾病。 ◎ 黃蕙棻.
月經異常的原因及警訊 組員: 陳少康、張康樂、許晉愷、何曄、方泠瑩、張 顓麟、蘇梓喬、溫鵬皓、林雅雯.
《公路纵断面设计》 —— 纵断面设计的要求 道桥系 二○○七年五月. 纵断面设计的一般要求 1 .纵坡设计必须满足《公路工程技术标准》中的各项规定。 2 .为保证汽车能以一定的车速安全舒顺地行驶,纵坡应具有 — 定 的平顺性,起伏不宜过大及过于频繁。尽量避免采用极限纵坡 值.缓和坡段应自然地配合地形设置,在连续采用极限长度的.
第二节 脉搏的评估及异 常时的护理. 教学目标  1 、解释有关名词  2 、说出脉搏、呼吸的正常值  3 、叙述脉搏、呼吸的测量方法;识别脉搏、 呼吸的异常变化  4 、叙述测量脉搏、呼吸的注意事项  5 、正确记录脉搏、呼吸,做到认真负责,实 事求是。
公務員申領小額款項專案法紀宣導 法務部廉政署 編製
消失的吸管 隊名:吸管應該消失才隊.
项目四、腻子的施工  一、准备工作  二、安全与卫生  三、板件表面的处理  四、准备腻子  五、刮腻子  六、腻子的干燥  七、腻子的打磨  结束.
助學工作說明會 及 教育訓練.
U8V10.0顾问验证新增应用培训-总账 用友软件股份有限公司 职务:需求 姓名:郄文静 2011年2月15日.
冷 热 疗 法.
個人理財規劃 第八章 投資規劃.
文書檔案組Q&A 崇右技術學院 文書檔案組 Q & A 總務處.
举国上下抗击风雪灾害专刊 温暖行动 灾情告急年关近 万众一心齐抗灾 可歌可泣留千古 温暖行动遍人间 导读提示 阳关雨露出版社
保育员工作职责.
指 导:高歌老师 责任编辑:汤杰林 杜峥 供 稿:课代表 班委会 团长 栏目创编:张廷信 技术编辑:汤杰林 杜峥 常务编辑:杜峥
公職人員財產信託簡介 第一銀行信託處 編製.
經分表聘用兼任助理流程 完成 新增/修改 經分表 計畫無聘任兼任助理(新增) 紙本送所屬單位審核 計畫聘任兼任助理(新增)
开天门 梅州市中医医院 郑雪辉.
小儿斜颈的诊断与治疗.
近 距 摄 影.
未婚懷孕:你想清楚了嗎 瑞芳國中 林碧欣.
國科會經費報銷說明 報告人:陳秀合 分 機: 年11月 12日(一).
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
中式面点技艺 长春市商业职业技术学校 王成贵 中式面点技艺 长春市商业职业技术学校 授课教师: 王 成 贵.
舌尖上的昭通.
作文选刊 作文之窗
手太阳小肠经.
消防安全知识讲座 ---校园防火与逃生 保卫科.
實用技能學程答客問 Q&A 大明高中附設進修學校 教導處 編製.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
快乐假期 2010年第6期 总第54期 贝尔芬 主编 暑期作文专刊 《快乐假期》杂志社 出版.
財團法人台北市任兆璋修女林美智老師教育基金會
游泳四式技術分析暨初級教法.
地質篇 Unit_02_岩石.
秘密/蜜花園 台灣女性散文的繁麗圖景 楊 翠.
第三章 儿童少年、女子及 中老年的体育卫生 第一节 儿童少年的体育卫生
100學年度719班 親師懇談.
資 訊 報 告 世界(含台灣)資訊業界的成功 名人.
学生学业水平诊断与提升策略探究 平阳中学 周秀丽.
老师:如何撰写教研文章? 主讲:石修银 谨以此赠与孜孜追求的老师 谨以此赠与改变人生的老师.
征服火灾是全社会的事业,它需要科技的进步,需要消防监督,也需要消防科学知识的普及和提高。通过各类的消防安全培训,从而使人们更好的掌握消防常识和了解消防法规,提高消防安全意识,提高自防自救能力,使我们的生产和生活远离火灾的侵袭。
社團資料製作 亞東技術學院課外組 岳擎天
道路、管線事故緊急應變處理課程.
依“标”据“本”,命制考题 发表于《数学教学》2006年第9期 (华东师大核心“CN”刊物)
12星座 对于星座,你又知道多少呢? 第一刊.
足球運動情報蒐集與分析 趙榮瑞 教授.
花的構造- (資料參考--鄭元春 植物Q&A一書) 花瓣 花萼 雌蕊 雄蕊.
認識股票 認識股票.
講師:賴玉珊 心理師 證照:諮商心理師(諮心字第001495號) 學歷:國立台南大學諮商與輔導研究所 畢 現任:長榮大學諮商中心專任心理師
二、汽化和液化.
复习: 一、细胞膜的成分 1、脂质 2、蛋白质 3、糖类 二、生物膜的功能: 1、界膜 2、控制物质的进出 3、进行细胞间信息交流.
第九章 长期资产及摊销 2017/3/21.
数学通报简介 ——如何写稿及投稿 数学通报 郑亚利 2014年8月.
第1节人体内物质的运输 人体的组织细胞每时每刻都需要营养物质和氧,并不断产生二氧化碳、尿素等废物。这些物质在人体内运输主要依靠 系统。人体的血液循环系统由 、 和 组成。 血液循环 血管 心脏 血液.
腦癇症.
推进《玻璃钢制品工》 国家职业资格证书制度的建设
本期导读: 1版 习 惯 2版 的 十个做人的好习惯 3版 力 4版 量 5版 6版 7版 8版
第3节 以水为主要传热介质 的烹调方法.
友信不銹鋼工程有限公司 台北市康定路4號 工廠:台北縣三重市竹圍仔街22-3號
第一章 汽车的解体与清洗 第一节 汽车解体工艺 一、零件的拆卸原则 1、拆卸前应熟悉被拆总成的结构
門市服務丙級術科測試 第一站 筆試.
網路遊戲版 幸福農場168號.
評分標準.
地質篇 Unit_04_地質年代.
实验八 石蜡切片法.
自动控制原理.
Module_5_Unit_4_ppt Unit4:非线性系统的描述函数法 东北大学《自动控制原理》课程组.
实验三 革兰氏染色法 显微镜测定技术.
Presentation transcript:

基于相关性语义的高效XML Twig查询处理方法 朱金清, 王伟, 周军锋, 孟小峰 中国人民大学WAMDM实验室 http://idke.ruc.edu.cn

大纲 背景 动机 基于相关性语义的Twig查询处理方法rTwigStack 实验分析 总结

背景 XML XML的应用 互联网数据的表示和交换的标准 可以表示结构化和半结构化的数据 政府数据数据交换 各业务部门易于理解 跨平台、多种数据源 国税 工商 国土 公安

背景(2) XML的应用 电子病例数据(EMR) … 性别 民族 籍贯 诱因 症状 部位 形状 定义 大小 时间 机能 婚姻状况 职业技能 XML pieces 检查 活动 损伤 处置 性质 方式 程度 修饰 家庭成员 一般表述 生理指标 生理指征 … XML structure <性别> <value>男</value> <value>女</value> </性别> <籍贯> <value>北京</value> <value>上海</value> <value> … </value> </籍贯> <诱因> <value>活动后</value> <value>体检时</value> <value> … </value> </诱因> <症状 t=“Dict”> <value>气促</value> <value>疼痛</value> <value> … </value> </症状> <部位 t=“Dict”> <value>头部</value> <value>胸部</value> <value> … </value> </部位> <检查 t=“Dict”> <value id=“n”>常规</value> <value id=“m”>生化</value> <value> … </value> </检查> <民族> <value>汉</value> <value>蒙</value> <value>…</value> </民族> <婚姻> <value>已婚</value> <value>未婚</value> <value> … </value> </婚姻> <时间> <format>yyyy-mm-dd</format> <format>yyyy年mm月dd日</format> <format unit=“天” max=“7” min=“1”> </format> <format unit=“小时” max=“24” min=“1”> </format> </时间> <指标 t=“Dict”> <value id=“n” n=“RBC” cn=“红血球” unit=“/L”></value> <value id=“m” n=“RBC” cn=“红血球” unit=“/L”></value> <value> … </value> </指标>

背景(3) 越来越多的数据采用XML来表示和传输 随之而来的问题: 如何高效查询XML数据??

2) 必须学会复杂的查询语言,如XQuery等 背景(4) 结构化查询方法 XPath XQuery … 1) 必须掌握文档的结构 2) 必须学会复杂的查询语言,如XQuery等

大纲 背景 动机 基于相关性语义的Twig查询处理方法rTwigStack 实验分析 总结

XML查询存在的挑战性 XML文档结构的复杂性 信息的对称性和文档组织结构的不对称性 XML文档结构的不断演变性

返回不相关的元素(Intel生的产Chip) 动机 Pansisa公司 的购买记录: 在这种情况下,如何获取想要的数据? 必须了解详细的Schema 查询Dell公司卖的计算机部件: Q1: S[N=‘dell’]/IS/I Q2: S[N=‘dell’]//I 返回不相关的元素(Intel生的产Chip)

一点观察 XML文档中关系组织的复杂性 实际上,复杂性只是对应了语义的简单性 元素S在I的祖先结点,也可以在I的后代结点 实际上,复杂性只是对应了语义的简单性 总之,S和I是相关的(卖、卖家等) 所以,通过定义简单的语义来避免数据的复杂性,即相关性(related)语义

动机 扩展XPath的语法使之支持Related轴(“~>”) 扩展的好处 用户了解文档结构,用精确XPath定位 [26] RelativePathExpr ::= StepExpr ( ("/" | "//" | "~>" ) StepExpr)* [27] StepExpr ::= FilterExpr | AxisStep [28] AxisStep ::= (ReverseStep | ForwardStep | RelatedStep) PredicateList [n1] RelatedStep ::= RelatedAxis NodeTest [n2] RelatedAxis ::= "Related" "::"

大纲 背景 动机 基于相关性语义的Twig查询处理方法rTwigStack 实验分析 总结

相关性(related)语义 related轴(“~>”) 返回一系列数据元素,这些数据元素是当前context节点的最邻近的后代或者祖先. S~>I:返回红色的元素I 对两个文档(内容相同但组织形式不同)的返回结果一样

相关性语义(2) 同样,查找Dell公司卖的计算机部件: 查询Q:Intel生产的Chip不作为结果返回。

含related轴的整体匹配方法难点 related轴的对称性 related轴与A-D或P-C轴的不可相互表示 u~v可能对应文档中的u//v, u/v , v//u , v/u中的一种或几种,如: related轴与A-D或P-C轴的不可相互表示

rTwigStack 优点: 一次扫描即可得到所有的结果 支持related轴的扩展XPath查询 可以移植到XQuery中以增强XQuery的功能 同时兼容包含PC、AD边的Twig查询处理

大纲 背景 动机 基于相关性语义的Twig查询处理方法rTwigStack 实验分析 总结

实验分析 实验设置: 度量指标: 三种方法:TwigStack(TS), rTwigStack和rTwigStack+ 1~200M的不同大小XMark文档 6个查询 3个含related查询 3个不含related查询数据集: 度量指标: (1) 运行时间 (2) 扫描的元素数量

与TS相比,rTS在处理不包含related轴时仍具有很高的效率 运行时间对比 rTS 和rTS+所用时间少于TS 与TS相比,rTS在处理不包含related轴时仍具有很高的效率

扫描元素数量、扩展性 rTS 和rTS+扫描的元素数量少于TS 算法具有很好的可扩展性

大纲 背景 动机 基于相关性语义的Twig查询处理方法rTwigStack 实验分析 总结

总结和下一步工作 提出了一种新的related查询语义 提出了一种高效查询处理算法rTwigStack和基于DTD提出一种优化算法rTwigStack+ 实验表明,本文提出的算法不但可以高效处理包含related轴的查询,而且可以高效处理不包含related轴的查询. 下一步将考虑在XML图上的related语义和求解

谢谢~ Q&A