XML查询处理技术简介 周军锋.

Slides:



Advertisements
Similar presentations
C A D C D.
Advertisements

职业教育.课程改革.项目课程 江苏省太仓中等专业学校校长 江苏省职业教育教学改革创新指导委员会委员 江苏省职业教育课程开发研究中心组组长
10-1 資料庫管理系統簡介 10-2 關聯式資料模式和查詢語言 10-3 Access 簡介 10-4 XML 簡介
校园信息管理系统 河北科技大学网络中心 2000/4/10.
通訊科技教育改進計畫 「網路應用與服務組」 行動電子商務課程 XML之簡介.
OrientX4.0系统开发报告 XML Group July 25, 2009.
第六章 数据库和ADO.NET 褚龙现 软件学院.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
教育研究成果的生成与呈现 曾继耘 北京师范大学 博士 山东师范大学 教授.
第四部分 会计信息系统中的高级技术 第十八章 XBRL 上海财经大学会计学院 钱玲.
元培科技大學 國泰人壽 為貴校創造 千萬福利金 員工福利專案 Department / Author:國泰人壽 / 黃國華 首頁:
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
数据库应用技术 天津大学计算机基础教学部 2013年9月.
北京市汽车消费市场与媒介 研究分析报告 北京大学市场与媒介研究中心.
让微笑伴您一生.
血脉: 血液 、脉络. 血脉: 血液 、脉络 黄鹤楼送孟浩然之广陵 ——唐 李白 故人西辞黄鹤楼, 烟花三月下扬州。 孤帆远影碧空尽, 唯见长江天际流。 京杭大运河.
翰林自然 六年級上學期 第二單元 聲音與樂器.
数据库管理软件 Access 2003的使用 安丘市职业中专 雷云龙 1.
第四次大作业 登陆学校图书馆网站的电子数据库
廠商 習題 5.舉例說明外來鍵與它所參考的主鍵 可以屬於同一關聯表。
第四章 地理資訊蒐集與處理.
J2EE与中间件技术 ——Lab.
勞工退休金新制說明 Joe 78.
如何使用CiteSpace分析Derwent专利数据
第 3 章 XML文件的轉換 –XSLT與XPath
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
Schema 與DTD的比較 XML Schema 的特性 XML 資料型態 XML Schema 屬性宣告
.利用数据库分析功能高效获取文献 .充分利用国家科学图书馆资源服务
SQL Injection.
第一章 線性方程組.
SPARQL若干问题的解释 刘颖颖
何謂名稱空間 何謂URI 名稱空間的作用方式 使用名稱空間的注意事項
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
後設資料(Metadata)的規劃、分析與建置方法
第二章 Java语言基础.
1085至1125年间的官员地域分布与社会关系 1.
DevDays ’99 The aim of this mission is knowledge..
<title> XML與XQuery ,新一代資料儲存標準 </title>
编程作业3:网页正文抽取 (10分).
第 1 章 簡介XML.
第一章 数 据 库 概 述 第一节 引言 第二节 数据库基本概念 第三节 数据库系统结构 第四节 数据模型 第五节 数据库管理系统
SView /4/16.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
OrientX3.0及其改进之处 XML小组.
项目二:HTML语言基础.
实体描述呈现方法的研究 实验评估 2019/5/1.
Web安全基础教程
微信商城系统操作说明 色卡会智能门店.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
毕业论文写作过程中 文献资料的查找与利用 杜少霞 2015年3月25日.
电子资源检索入门 杜少霞 2015年9月17日.
第 6 章 XLink、XBase與XPointer
数据集的抽取式摘要 程龚, 徐丹云.
Javascript 基础 面向非JS语言的开发人员.
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
树和图 tree and graph 蔡亚星.
第六节 用频率特性法分析系统性能举例 一、单闭环有静差调速系统的性能分析 二、单闭环无静差调速系统的性能分析
Visual Basic程序设计 第13章 访问数据库
基于最大margin的决策树归纳 李 宁.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
創造不一樣的人生 -如何與身心障礙者接觸 新竹教育大學 薛明里.
僅首頁出現本title即可 責任的故事(二年級) 生命最美麗動人的本能 簡報製作:瑞柑國民小學 鄭雙慧 文/ 何秀芳.
基于列存储的RDF数据管理 朱敏
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
WEB程序设计技术 数据库操作.
第十七讲 密码执行(1).
西南科技大学网络教育系列课程 动态网页设计(JSP) 补充 JSP操作XML文件.
Presentation transcript:

XML查询处理技术简介 周军锋

数据组织 … XML:eXtensible Markup Language 作用:用于网络数据的表述和交换 无结构数据 XML文档 结构化数据 XML文档 …

数据组织 BOOK <Root> <BOOK> <Name> XML </Name> DB XML 2000 1999 32 20 Mike Joe Author Price Year Name <Root> <BOOK> <Name> XML </Name> <Year> 1999 </Year> <Price> 20 </Price> <Author> Joe <Author> </BOOK> <Name> DB </Name> <Year> 2000 </Year> <Price> 32 </Price> <Author> Mike <Author> </Root> BOOK Name Year Author Price XML 1999 Joe 20 Root DB 2000 Mike 32 …

XPath: //BOOK[/Name=“XML”] 结构化查询 Root BOOK BOOK … Name Year Price Author Name Year Price Author XML 1999 20 Joe DB 2000 32 Mike BOOK Name XML // / XPath: //BOOK[/Name=“XML”] 问题: 已知文档结构 掌握相关的查询语言 大量高效算法

Partial 查询 Motivation schema or structure knowledge is not fully available Heterogeneous data Schema evolution

Partial 查询 name author book title // name author book title publisher XML John Q1 // name author book title publisher price Addison Academic XML 46.95 DB 9.99 John location Beijing Washington name author John location Beijing book title publisher price Addison Academic XML 46.95 DB 9.99 Washington Root book title XML name author John Q2 //

Partial 查询 ≡ ≡ name author book title // name author book title // XML John Q1 Q2 // name author book title XML John Q3 // ≡ book title XML name author John // ≡ Q4

Partial 查询 与结构化查询相比 使用灵活 求解麻烦 用户无需了解所有具体的结构信息

存在的问题 没有根的查询 P-C边的处理 语义还不够丰富

基于关键字的查询处理 Q:XML,1999 好处: 用户无需了解结构信息 用户无需学习相关的查询语言 问题: Root BOOK BOOK … Name Year Price Author Name Year Price Author XML 1999 20 Joe DB 2000 32 Mike Q:XML,1999 好处: 用户无需了解结构信息 用户无需学习相关的查询语言 问题: 如何在用户仅仅提交关键字的情况下,返回尽可能多的高度相关的结果?

已有方法 Tree上的关键字查询 Graph上的关键字查询 LCA: Lowest Common Ancestor SLCA or MLCA: Smallest LCA or Meaningful LCA Graph上的关键字查询 包含关键字的最小连通图

LCA & S(M)LCA BOOK Q1: Year, price LCA会产生很多无用结果 BOOK Name Year Author XML 1999 Joe 20 Root DB 2000 Mike 32 … BOOK Name Year Price Author XML 1999 20 Joe DB 2000 32 Mike Q1: Year, price LCA会产生很多无用结果

LCA & S(M)LCA Q1: name, location Q1: name, location Q1: name, location Root author author books books Q1: name, location book book name name book location location publisher John title price title coauthors Linda London title price Beijing name location XML 46.95 DB authorRef DBMS 41.2 Addison Beijing Q1: name, location Q1: name, location SLCA会丢失有用结果

Motivation XML相关的信息检索技术变得越来越重要 数据 相关技术 XML仅仅是一种数据表示方式 对于有结构信息的数据,已有方法很少结合数据的结构信息来辅助关键字查询

需要重点考虑的问题 如何判断有意义的解 需要将数据的结构信息纳入考虑的范围 高效的求解方法 结果的构造:sigmod07 如何对结果进行评价

关系数据XML数据 过渡元素 实体 属性 值 AUTHOR AUTHOR-BOOK ID 1 2 Name Location John Beijing Linda London AID BID 1 2 3 过渡元素 BOOK Root ID 1 2 3 Title Price XML 46.95 DB NULL DBMS 41.2 PubID 1 NULL 实体 author author books books book publisher 属性 name book name book location location ID 1 Name location Addison Beijing publisher John title price title coauthors 值 Linda London title price Beijing name location XML 46.95 DB authorRef DBMS 41.2 Addison Beijing

什么是有意义的结果 LCA为过渡元素,其上有实体节点 Q3: title, price Q1: name, location Root Q3: title, price author author books books Q1: name, location book book name LCA为实体,关键字属于同一实体 name book location location publisher John title price title coauthors Linda London title price Beijing name location XML 46.95 DB authorRef DBMS 41.2 Addison Beijing Q1: name, location Q2: DB, Linda LCA为实体,关键字属于不同实体 LCA为实体,关键字属于不同实体

什么是有意义的结果 BOOK Q1: Year, price 没有意义的结果,根节点是过渡节点,且其上没有实体 Q1: Year, XML Name Year Author Price XML 1999 Joe 20 Root DB 2000 Mike 32 … Name Year Price Author XML 1999 20 Joe DB 2000 32 Mike BOOK Name Year Author Price XML 1999 Joe 20 Root DB 2000 Mike 32 BOOKS … Q1: Year, price 有意义的结果,尽管BOOKS是过渡节点且其上没有实体节点,由于Year是BOOK的属性,因此真正的LCA是BOOK,而BOOK是实体 Q1: Year, XML

其他问题 元素类型的确定 没有一套成熟的规则可以确认元素类型,需要继续考虑 数据库管理员进行确认 根据DTD进行判断 扫描一次文档的方式进行确认 没有一套成熟的规则可以确认元素类型,需要继续考虑

其他问题 关于Rank方法 结果的Rank 相关文献看的太少,还需要继续了解别人的工作 由于XML文档可以表示不同类型的数据,因此Rank方法也不能单一化 数据为中心:可以借鉴DB上的关键字查询的Rank方法并结合XML文档特性来制定,考虑数据的对称性 文档为中心:需要借助于其他的方法来Rank结果 结果的Rank 结果的Size,如何定义Size? 关键字的频率,类似于IR的方式 其他问题,是否需要考虑 过渡元素 属性元素 若只考虑实体元素,结果如何? 考虑实体之间的距离 考虑单词频率对Rank的影响 Rank的时候以实体为基础,这样不同的关键字可能对应相同的返回结果,这样的结果应该评价高一些 和已有XML关键字查询结果的Rank方法不同,已有方法考虑了所有包含关键字的叶子的影响,这里不用考虑,因为有些叶子节点可能不属于当前实体的属性 相关文献看的太少,还需要继续了解别人的工作

其他问题 查询求解 考虑IDREF边,问题变成了图上的关键字查询问题,如何提供高效算法进行求解? 如何针对本文提出的语义构建高效索引以加速求解? 需要继续考虑