基于相关性语义的高效XML Twig查询处理方法

Slides:

Advertisements

Similar presentations

手工加工全框眼镜技术前调整确定加工基准制作模板割边磨边磨安全角（抛光）装配后调整检测.

Advertisements

融资融券业务的保证金与保证金比例光大证券 · 信用业务管理总部 2015 年 12 月 ★融资融券业务投资者教育活动材料★

道家養生保健長壽藥膳藥膳應用原則：天人相應，道法自然藥膳有兩個職能：一是保健增壽，一是治療疾病。 ◎ 黃蕙棻.

月經異常的原因及警訊組員：陳少康、張康樂、許晉愷、何曄、方泠瑩、張顓麟、蘇梓喬、溫鵬皓、林雅雯.

《公路纵断面设计》 —— 纵断面设计的要求道桥系二○○七年五月. 纵断面设计的一般要求 1 ．纵坡设计必须满足《公路工程技术标准》中的各项规定。 2 ．为保证汽车能以一定的车速安全舒顺地行驶，纵坡应具有 — 定的平顺性，起伏不宜过大及过于频繁。尽量避免采用极限纵坡值．缓和坡段应自然地配合地形设置，在连续采用极限长度的.

第二节脉搏的评估及异常时的护理. 教学目标  1 、解释有关名词  2 、说出脉搏、呼吸的正常值  3 、叙述脉搏、呼吸的测量方法；识别脉搏、呼吸的异常变化  4 、叙述测量脉搏、呼吸的注意事项  5 、正确记录脉搏、呼吸，做到认真负责，实事求是。

公務員申領小額款項專案法紀宣導法務部廉政署編製

消失的吸管隊名：吸管應該消失才隊.

项目四、腻子的施工　一、准备工作　二、安全与卫生　三、板件表面的处理　四、准备腻子　五、刮腻子　六、腻子的干燥　七、腻子的打磨　结束.

助學工作說明會及教育訓練.

U8V10.0顾问验证新增应用培训-总账用友软件股份有限公司职务：需求姓名：郄文静 2011年2月15日.

個人理財規劃第八章投資規劃.

文書檔案組Q&A 崇右技術學院文書檔案組 Q & A 總務處.

举国上下抗击风雪灾害专刊温暖行动灾情告急年关近万众一心齐抗灾可歌可泣留千古温暖行动遍人间导读提示阳关雨露出版社

保育员工作职责.

指导:高歌老师责任编辑：汤杰林杜峥供稿:课代表班委会团长栏目创编：张廷信技术编辑：汤杰林杜峥常务编辑：杜峥

公職人員財產信託簡介第一銀行信託處編製.

經分表聘用兼任助理流程完成新增/修改經分表計畫無聘任兼任助理(新增) 紙本送所屬單位審核計畫聘任兼任助理(新增)

开天门梅州市中医医院郑雪辉.

小儿斜颈的诊断与治疗.

未婚懷孕：你想清楚了嗎瑞芳國中林碧欣.

國科會經費報銷說明報告人：陳秀合分機：年11月 12日(一).

政府採購法規概要報告人：杜國正行政院公共工程委員會企劃處.

中式面点技艺长春市商业职业技术学校王成贵中式面点技艺长春市商业职业技术学校授课教师：王成贵.

舌尖上的昭通.

作文选刊作文之窗

手太阳小肠经.

消防安全知识讲座 ---校园防火与逃生保卫科.

實用技能學程答客問 Q&A 大明高中附設進修學校教導處編製.

之魔析妖鬼解怪大沈家仪小组出品.

快乐假期 2010年第6期总第54期贝尔芬主编暑期作文专刊《快乐假期》杂志社出版.

財團法人台北市任兆璋修女林美智老師教育基金會

游泳四式技術分析暨初級教法.

地質篇 Unit_02_岩石.

秘密／蜜花園台灣女性散文的繁麗圖景楊翠.

第三章儿童少年、女子及中老年的体育卫生第一节儿童少年的体育卫生

100學年度719班親師懇談.

資訊報告世界(含台灣)資訊業界的成功名人.

学生学业水平诊断与提升策略探究平阳中学周秀丽.

老师：如何撰写教研文章？主讲：石修银谨以此赠与孜孜追求的老师谨以此赠与改变人生的老师.

征服火灾是全社会的事业，它需要科技的进步，需要消防监督，也需要消防科学知识的普及和提高。通过各类的消防安全培训，从而使人们更好的掌握消防常识和了解消防法规，提高消防安全意识，提高自防自救能力，使我们的生产和生活远离火灾的侵袭。

社團資料製作亞東技術學院課外組岳擎天

道路、管線事故緊急應變處理課程.

依“标”据“本”，命制考题发表于《数学教学》2006年第9期（华东师大核心“CN”刊物）

12星座对于星座，你又知道多少呢？第一刊.

足球運動情報蒐集與分析趙榮瑞教授.

花的構造- （資料參考--鄭元春植物Q＆A一書）花瓣花萼雌蕊雄蕊.

認識股票認識股票.

講師：賴玉珊心理師證照：諮商心理師（諮心字第001495號）學歷：國立台南大學諮商與輔導研究所畢現任：長榮大學諮商中心專任心理師

二、汽化和液化.

复习：一、细胞膜的成分 1、脂质 2、蛋白质 3、糖类二、生物膜的功能： 1、界膜 2、控制物质的进出 3、进行细胞间信息交流.

第九章长期资产及摊销 2017/3/21.

数学通报简介 ——如何写稿及投稿数学通报郑亚利 2014年8月.

第1节人体内物质的运输人体的组织细胞每时每刻都需要营养物质和氧，并不断产生二氧化碳、尿素等废物。这些物质在人体内运输主要依靠系统。人体的血液循环系统由、和组成。血液循环血管心脏血液.

推进《玻璃钢制品工》国家职业资格证书制度的建设

本期导读：１版习惯２版的十个做人的好习惯３版力４版量５版６版７版 8版

第3节以水为主要传热介质的烹调方法.

友信不銹鋼工程有限公司台北市康定路4號工廠:台北縣三重市竹圍仔街22-3號

第一章汽车的解体与清洗第一节汽车解体工艺一、零件的拆卸原则 1、拆卸前应熟悉被拆总成的结构

門市服務丙級術科測試第一站筆試.

網路遊戲版幸福農場168號.

地質篇 Unit_04_地質年代.

实验八石蜡切片法.

自动控制原理.

Module_5_Unit_4_ppt Unit4:非线性系统的描述函数法东北大学《自动控制原理》课程组.

实验三革兰氏染色法显微镜测定技术.

Presentation transcript:

基于相关性语义的高效XML Twig查询处理方法朱金清, 王伟, 周军锋, 孟小峰中国人民大学WAMDM实验室 http://idke.ruc.edu.cn

大纲背景动机基于相关性语义的Twig查询处理方法rTwigStack 实验分析总结

背景 XML XML的应用互联网数据的表示和交换的标准可以表示结构化和半结构化的数据政府数据数据交换各业务部门易于理解跨平台、多种数据源国税工商国土公安

背景(2) XML的应用电子病例数据(EMR) … 性别民族籍贯诱因症状部位形状定义大小时间机能婚姻状况职业技能 XML pieces 检查活动损伤处置性质方式程度修饰家庭成员一般表述生理指标生理指征 … XML structure <性别> <value>男</value> <value>女</value> </性别> <籍贯> <value>北京</value> <value>上海</value> <value> … </value> </籍贯> <诱因> <value>活动后</value> <value>体检时</value> <value> … </value> </诱因> <症状 t=“Dict”> <value>气促</value> <value>疼痛</value> <value> … </value> </症状> <部位 t=“Dict”> <value>头部</value> <value>胸部</value> <value> … </value> </部位> <检查 t=“Dict”> <value id=“n”>常规</value> <value id=“m”>生化</value> <value> … </value> </检查> <民族> <value>汉</value> <value>蒙</value> <value>…</value> </民族> <婚姻> <value>已婚</value> <value>未婚</value> <value> … </value> </婚姻> <时间> <format>yyyy-mm-dd</format> <format>yyyy年mm月dd日</format> <format unit=“天” max=“7” min=“1”> </format> <format unit=“小时” max=“24” min=“1”> </format> </时间> <指标 t=“Dict”> <value id=“n” n=“RBC” cn=“红血球” unit=“/L”></value> <value id=“m” n=“RBC” cn=“红血球” unit=“/L”></value> <value> … </value> </指标>

背景(3) 越来越多的数据采用XML来表示和传输随之而来的问题：如何高效查询XML数据？？

2) 必须学会复杂的查询语言，如XQuery等背景(4) 结构化查询方法 XPath XQuery … 1) 必须掌握文档的结构 2) 必须学会复杂的查询语言，如XQuery等

大纲背景动机基于相关性语义的Twig查询处理方法rTwigStack 实验分析总结

XML查询存在的挑战性 XML文档结构的复杂性信息的对称性和文档组织结构的不对称性 XML文档结构的不断演变性

返回不相关的元素(Intel生的产Chip) 动机 Pansisa公司的购买记录：在这种情况下，如何获取想要的数据？必须了解详细的Schema 查询Dell公司卖的计算机部件: Q1： S[N=‘dell’]/IS/I Q2： S[N=‘dell’]//I 返回不相关的元素(Intel生的产Chip)

一点观察 XML文档中关系组织的复杂性实际上，复杂性只是对应了语义的简单性元素S在I的祖先结点，也可以在I的后代结点实际上，复杂性只是对应了语义的简单性总之，S和I是相关的（卖、卖家等）所以，通过定义简单的语义来避免数据的复杂性，即相关性(related)语义

动机扩展XPath的语法使之支持Related轴(“~>”) 扩展的好处用户了解文档结构，用精确XPath定位 [26] RelativePathExpr ::= StepExpr ( ("/" | "//" | "~>" ) StepExpr)* [27] StepExpr ::= FilterExpr | AxisStep [28] AxisStep ::= (ReverseStep | ForwardStep | RelatedStep) PredicateList [n1] RelatedStep ::= RelatedAxis NodeTest [n2] RelatedAxis ::= "Related" "::"

大纲背景动机基于相关性语义的Twig查询处理方法rTwigStack 实验分析总结

相关性(related)语义 related轴(“~>”) 返回一系列数据元素,这些数据元素是当前context节点的最邻近的后代或者祖先. S~>I:返回红色的元素I 对两个文档（内容相同但组织形式不同）的返回结果一样

相关性语义(2) 同样，查找Dell公司卖的计算机部件：查询Q：Intel生产的Chip不作为结果返回。

含related轴的整体匹配方法难点 related轴的对称性 related轴与A-D或P-C轴的不可相互表示 u~v可能对应文档中的u//v, u/v , v//u , v/u中的一种或几种，如： related轴与A-D或P-C轴的不可相互表示

rTwigStack 优点：一次扫描即可得到所有的结果支持related轴的扩展XPath查询可以移植到XQuery中以增强XQuery的功能同时兼容包含PC、AD边的Twig查询处理

大纲背景动机基于相关性语义的Twig查询处理方法rTwigStack 实验分析总结

实验分析实验设置：度量指标：三种方法：TwigStack(TS), rTwigStack和rTwigStack+ 1~200M的不同大小XMark文档 6个查询 3个含related查询 3个不含related查询数据集：度量指标： (1) 运行时间 (2) 扫描的元素数量

与TS相比,rTS在处理不包含related轴时仍具有很高的效率运行时间对比 rTS 和rTS+所用时间少于TS 与TS相比,rTS在处理不包含related轴时仍具有很高的效率

扫描元素数量、扩展性 rTS 和rTS+扫描的元素数量少于TS 算法具有很好的可扩展性

大纲背景动机基于相关性语义的Twig查询处理方法rTwigStack 实验分析总结

总结和下一步工作提出了一种新的related查询语义提出了一种高效查询处理算法rTwigStack和基于DTD提出一种优化算法rTwigStack+ 实验表明,本文提出的算法不但可以高效处理包含related轴的查询,而且可以高效处理不包含related轴的查询. 下一步将考虑在XML图上的related语义和求解

谢谢~ Q&A