本体方法及其时空推理应用 胡鹤 2004-10-20.

Slides:



Advertisements
Similar presentations
陋室銘 劉禹錫 立人國中小丹老師編製 劉禹錫二三事 司空見慣 劉禹錫才氣縱橫,卻恃才傲物,一生落拓時候 多,當他貶為蘇州刺史時,司空李紳請他喝酒, 並請了一個貌美清秀的歌妓獻唱,他大為心動 寫了一首詩:「高髻雲鬢新樣妝,春風一曲杜 韋娘,司空見慣渾閒事,斷盡蘇州刺史腸。」 李紳明白其中寓意,便將歌妓送給他。而「司.
Advertisements

A A A.
—— 海淀区高三化学《考试说明》解读 2015 年 1 月 29 日 学习《考试说明》 备考理综化学.
2010高考科学备考策略 夯实基础 抓纲织网 掌握技巧 提高能力 辽宁省实验中学 徐广宇 2010年9月13日.
第一节 人口的数量变化.
APEX数据和知识管理实验室简介 上海交通大学 计算机科学与工程系.
小学科学中的化学 武威十九中 刘玉香.
国际数据标准发展趋势及典型案例分析 东北石油大学 袁满 2015年7月23日.
普通高等学校 本科教学工作水平评估方案.
7.4 用矩阵初等行变换 解线性方程组 主要内容: 一.矩阵的行初等变换 二.用行初等变换求逆矩阵 三.用矩阵法求线性方程组.
第二章 知识与知识表示 第一节 引言 一、知识 知识是信息经过加工整理、解释、挑选和改造而成的。 二、知识类型 1、事实性知识
成才之路 · 语文 人教版 • 中国古代诗歌散文欣赏 路漫漫其修远兮 吾将上下而求索.
第二章 复式记账原理*** 主要内容、重点难点: 1.会计要素与会计等式*** 2.会计科目与账户*** 3. 借贷记账法***
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
小微企业融资担保产品介绍 再担保业务二部 贾天
1、分别用双手在本上写下自己的名字 2、双手交叉
语义网(Semantics Web) 语义网概述 RDF 本体 语义网描述语言.
平面直角坐标系(1) 营口市第十七中学 杨晋.
温州二中 高三生物 第一轮复习 孟德尔定律之分离定律 考纲要求:1、孟德尔遗传实验的科学方法 Ⅱ 2、基因的分离定律 Ⅱ.
第三课 走向自立人生.
中小企業新增租稅優惠介紹 (研究發展支出適用投資抵減辦法 、增僱員工薪資費用加成減除辦法及智慧財產權讓與所得之減免規定)
神奇的宇宙 我们的太阳系 宇宙中天体有哪些类型? 刊号:CN77-87 编辑: 施雅苑 今日一叠4版 第1期 认识宇宙 16岁的哈勃
2007年11月考试相关工作安排 各考试点、培训中心和广大应考人员:
分式的乘除(1) 周良中学 贾文荣.
高考历史答题 技巧与方法.
第四章 制造业企业 主要经济业务核算.
人工智能 Artificial Intelligence 第十一章
Part I 上海土地市场.
《思想品德》七年级下册 教材、教法与评价的交流 金 利 2006年1月10日.
华南区 2016校园宣讲会 宣讲会日期:.
Web of Distributed Ontologies
市级个人课题交流材料 《旋转》问题情境引入的效果对比 高淳县第一中学 孔小军.
你不得不知的几件事 2、图书《10天行测通关特训》 3、网络课程 《网校9元课程系列》《考前强化夜校班》 4、地面课程 《10天10晚名师密授营》《考前预测集训营》
物 资 供 应 简 报 第三期 2014年3月 中铁二局物资重庆分公司项目物资简报.
数据库技术及应用 华中科技大学管理学院 课程网址:
三级综合医院评审解读-生物安全 安徽医科大学第一附属医院检验科 徐元宏.
“08高考化学学业水平(必修科目)测试的命题和教学对策研究”
课标教材下教研工作的 实践与思考 山东临沂市教育科学研究中心 郭允远.
Thinking of Instrumentation Survivability Under Severe Accident
高级人工智能 第四章 定性推理 史忠植 中国科学院计算技术研究所.
语义网若干基本问题的讨论 申思 2003年5月.
陳郁惠老師 賦予音樂生命 以小提琴揮灑美麗的樂章 奇幻的生命旋律 由此開始 班級:114 組別: 四 組長:陳柔妘
Resources Construction of Distance Education
反比例函数 2018/11/20.
从制造业的发展看计算机科学与技术的热点问题
黃居仁 中央研究院語言學研究所 92年9月10日 「語言座標」研習營
软件服务生态中的非确定性科学问题、互操作性的应用基础问题
广西师范大学 计算机科学与信息工程学院 王 驹
設計網際網路技術為基礎的跨機構資訊交換平台 --以RoHS為例
第 4 章 组合逻辑电路 4.1 组合逻辑电路的分析 4.2 组合逻辑电路的设计 4.3 常用MSI组合逻辑器件及应用
第六章 : 資料模型之繪製 1. 前言 資料流程圖 ( DFD ) 及 處理邏輯工具
校園網路架構介紹與資源利用 主講人:趙志宏 圖書資訊館網路通訊組.
課程名稱:_____________ 指導教授:_____________
CALIS资源整合服务模式探讨 ——云计算下的变革
網路遊戲版 幸福農場168號.
資料精簡 (Data Reduction).
第三篇 Excel 2002 第六章 認識Excel 2002 第七章 深入Excel Excel 2002的功能特色
计算机问题求解 – 论题1-1 - 为什么计算机能解题
線性規劃模式 Linear Programming Models
邱奕南2001/4/16及王怡舜「僑光技術學院資管會刊」,2001,第五期,pp.6-11所撰文章
组合逻辑电路 ——中规模组合逻辑集成电路.
IEEM 5352 Enterprise Integration
面向高考地理智能问答的知识库体系设计进展及问题讨论
增進單元>第1章 中文字處理的基本概念 [T_CS11CH01_1.ppt] 5.1應用於生活層面的電腦通訊 5.2電腦通訊的網上應用
智慧與恩典 2015年12月5/6日 香港聖經教會.
DNS CACHE POISONING A 曾子桐 指導教授: 梁明章.
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
DATASET 0.2 设计方案 (第一阶段) 2019/7/20 刘庆霞 Websoft NJU.
成本會計 在決策中的功能 第四課 1.
電子表單 簡介 高雄市鳳山區新甲國小 陳信宏.
Presentation transcript:

本体方法及其时空推理应用 胡鹤 2004-10-20

本体方法目前已经成为计算机科学中的一种重要方法,随着对语义Web研究的深入,本体方法受到了越来越多的关注。人们普遍认为它是建立语义Web的核心技术。

语义Web 目前在万维网(WWW)上的网页资料以几何级数爆炸性增长,但由于缺乏组织和整理,人们难以充分利用这些信息资源。 语义Web能够为Web上的资源附加上计算机可以理解的内容,给出了一种计算机能够理解的表示资源的手段,便于计算机处理 。通过显式的、机器可读的方式对Web进行概念化构造,使得人们可以借助软件agent自动完成目前需要人类参与的许多工作。

目前本体已经成为建立语义Web的基础骨架。在语义Web领域本文主要研究了相关的本体表示语言,并对这些本体表示语言进行了比较,给出了一些本体表示语言与描述逻辑系统的对应关系。下图是Berners-Lee提出的堆栈式语义Web体系结构: 语义Web体系结构[4]

搜索引擎 随着Internet技术的应用与发展,网络已经成为信息的重要来源地,搜索引擎也成为必不可少的网络基础设施。 传统的搜索引擎使用的是基于关键字的词汇层次上的信息检索,这种方法并不能处理用户的真实语义,导致当前的搜索引擎的召回率和准确率不能令人满意。本文提出了一种基于本体的语义搜索框架,可以从语义上处理用户的搜索请求,这在理论上将提高搜索引擎的召回率和准确率性能。

知识处理服务平台 语义Web的实现需要工具支撑软件的支持 ,因此很多科研机构、学校、公司在语义Web技术(主要是RDF)的基础上开展了研究工作,开发了许多工具和平台。 针对目前对基于本体技术的知识服务平台的需求,本文分别提出了基于Web的本体服务器模型和在专家系统中的本体中间件模型设计。

时空推理 时空推理是指对占据空间并随时间变化的对象所进行的推理,它是从时态推理和空间推理发展而来的。 在时空推理领域,分析了刻画时间关系的IA理论和刻画空间拓扑关系的RCC理论之间的关系,指出了IA理论所区分的十三种时段关系是RCC-8关系组合了一维方向关系而形成的。在介绍时空推理研究进展的基础上,通过将一阶谓词逻辑的时空本体映射到描述逻辑系统,构造了基于描述逻辑的时空本体并给出了OWL格式的时空本体定义。

§2.1 本体论的含义 本体论原本是哲学中的概念,是指一种存在的系统化解释,将本体论的这种含义用到计算机领域中,人们赋予本体论更具体的意义。 在人工智能界,最早给出Ontology 定义的是Neches 等人,他们将Ontology 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993 年, Gruber 给出了Ontology 的一个最为流行的定义,即“Ontology 是概念模型的明确的规范说明”。后来, Borst 在此基础上,给出了Ontology 的另外一种定义: “Ontology 是共享概念模型的形式化规范说明”。Studer 等对上述两个定义进行了深入的研究,认为 Ontology是共享概念模型的明确的形式化规范说明。

§2.2 本体的形式化模型 根据ontology的定义(概念模型的明确的规范说明),在计算机领域存在有多种形式化模型可以用于表示本体。在这其中,比较重要的有一阶谓词逻辑、语义网络、基于框架的系统以及从后两种方法发展而来的描述逻辑系统。 描述逻辑是基于对象的形式化知识表示的方法,建立在概念(concept)和关系(role)的基础上。一个描述逻辑系统包括四个基本的组成部分:表示概念和关系的构造集,Tbox断言集,Abox断言集,Tbox和Abox上的推理机制。 描述逻辑在近十多年来受到人们的特别关注,主要原因在于:它们有清晰的模型论语义;很适合于通过概念分类来表示应用领域;并提供了可判定的推理服务。

几种描述逻辑系统 在描述逻辑领域比较经典的逻辑系统是ALC描述逻辑。1991年,Schmidt和Smolka首先发现了用于ALC的Tableau算法[17],该算法能在多项式时间内判定ALC概念的可满足性问题。Horrocks给出了用于SHOQ(D)逻辑的Tableau算法[18]。1996年,Borgida[129]给出了一阶谓词逻辑与描述逻辑系统DL之间的映射关系,指出了如何使用DL系统表示一阶谓词逻辑的方法。下表列出了ALC、SHOQ(D)和DL三种描述逻辑的语法和语义。(\ 表示不支持相应功能)

语言构造 ALC语法 SHOQ(D)语法 DL语法 语义 C 原子概念 A C AI  ∆I 关系 R p RI  ∆I×∆I 概念合取 C∧D and[C, D] (C∧D)I = CI∩DI 概念析取 C∨D or[C, D] (C∨D)I = CI∪DI 概念取反 C not[C] (C)I = ∆I \ CI 存在约束  R.C some[p, C] ( R.C)I={x | y. <x,y>  RI 且 y  CI } 值约束  R.C all[p, C] ( R.C)I={x | y. <x,y>  RI → y  CI } 全概念 丅 TOP-CONCEPT ∆I 空概念 丄 NOTHING  最小基数约束 \ (≥n S.C) at-least-c[n, p, C] (≥n S.C)I = {x | #(y. <x,y>  SI ∩ CI ) ≥ n } 最大基数约束 (≤n S.C) at-most-c[n, p, C] (≤n S.C)I = {x | #(y. <x,y>  SI ∩ CI ) ≤ n } 命名 O a oI  ∆I, #oI=1 数据类型 D dD  ∆D 全关系 TOP-ROLE ∆I×∆I 反关系 inverse[p] { ( , ’) | ( ’, ) RI }

§2.3基于区间模糊理论扩展的描述逻辑系统 描述逻辑原本是描述对象精确信息的形式化知识表示,它所支持的概念和关系都是精确、良定义的(well defined),也就是说,一个实例(对象)或者属于某个概念的实例集,或者不属于该实例集。在现实世界中,这种处理方法常常会遇到困难,因为人们常常不能给出隶属(成员)关系的精确定义条件。根据实例的具体属性,我们可以认为它在某种程度上属于某个概念的实例集,这种情况下的概念就是模糊而非精确的了。在时空表示领域中的远近、大小、长短等都属于这类概念。 文献[22]首次提出了模糊描述逻辑处理方法,并给出了相应的推理方法。它表达的概念形如<C(a),n>,(n∈ (0,1)),其中n为实例a属于概念C的隶属度。该种方法使用的模糊描述是基于单值的。在该方法的基础上,本文给出了基于区间模糊理论扩展的描述逻辑系统。

§2.3基于区间模糊理论扩展的描述逻辑系统 系统的语法和语义 概念与关系 描述逻辑中的概念对应一阶谓词逻辑中的一元谓词,关系对应二元谓词。在描述逻辑ALC中的概念(C,D)通过如下的语法规则组合原子概念来产生复合概念: C,D  丅 |(顶层概念) 丄 |(底层概念) A |(基元概念) C∧D |(概念合取) C∨D |(概念析取) C |(概念取反)  R.C |(存在约束)  R.C |(值约束)

§2.3基于区间模糊理论扩展的描述逻辑系统 语义 描述逻辑系统具有清晰的基于解释的模型论语义。一个解释I是一个二元组I = (∆I, · I ),由称为领域的非空集合∆I和解释函数 · I构成。解释函数把原子概念A映射到∆I的子集,把原子关系R映射到∆I×∆I的子集。对应具体语言成份的语义解释如下: A AI  ∆I R RI  ∆I×∆I C∧D (C∧D)I = CI∩DI C∨D (C∨D)I = CI∪DI C (C)I = ∆I \ CI  R.C ( R.C)I={x | y.<x,y>  RI 且 y  CI }  R.C ( R.C)I={x | y.<x,y>  RI → y  CI } 丅 ∆I 丄 

§2.3基于区间模糊理论扩展的描述逻辑系统 一个模糊解释I是一个二元组I = (∆I, · I ),由称为领域的非空集合∆I和模糊解释函数 · I构成,其中模糊解释函数定义如下: 1:对实例的解释,模糊解释函数与解释函数相同,如aIbI,当且仅当ab; 2:概念 C 被映射到包含于[0,1]的一个模糊区间,如CI: ∆I→[a-, a+]; 3:关系 R 被映射到包含于[0,1]的一个模糊区间,如RI: ∆I×∆I→[a-, a+] . 如果C为概念,CI 将被解释为概念C相对于模糊解释 I 的精确程度(模糊区间)。例如:如果 d∈∆I 是领域 ∆I 中的一个对象,则 CI(d) 表示在模糊解释 I 下对象 d 属于概念 C 的精确程度;对关系的解释与之类似。对所有的 d∈∆I,模糊解释函数· I 必须满足如下等式: 丅I (d) =[1,1] 丄I (d) =[0,0] (C∧D) I (d) =C I∧D I (区间的逻辑积,取小,详见2.3.2节) (C∨D) I (d) =C I ∨D I (区间的逻辑和,取大,详见2.3.2节) C I(d) =1 – C I (区间的逻辑补,详见2.3.2节)  R.C I (d) =inf d’∈∆I {max{1 – RI(d,d’), C I (d’) }}  R.C I (d) = sup d’∈∆I {min{RI(d,d’), C I (d’) }} 其中 R.C I (d)和 R.C I (d)的语义是通过将其转换成一阶谓词逻辑的形式得到的, R.C 被转换为y.R(x,y)∧C(y),存在算符被解释成域元素之间的析取; R.C 被转换为y.  R(x,y) ∨C(y),任意算符被解释成域元素之间的合取。

§2.3基于区间模糊理论扩展的描述逻辑系统

§2.3基于区间模糊理论扩展的描述逻辑系统

Tableaux-based algorithms: the Tableaux Calculus is a decision procedure for solving the problem of satisfiability. the basic idea is to incrementally build the model by looking at the formula, by decomposing it in a top/down fashion. The procedure exhaustively looks at all the possibilities, so that it can eventually prove that no model could be found for unsatisfiable formulas.

§2.3基于区间模糊理论扩展的描述逻辑系统

§2.3基于区间模糊理论扩展的描述逻辑系统 与文献[22]中支持单值的模糊方法相比,区间模糊方法往往具有更大优势:在一些实际应用中,获取的数据符合某个概念的程度常常是一个区间值,而非一个单值。近几年区间值模糊集的研究和应用越来越受到重视,其原因就在于实际应用中难以获得精确的数据,对象对于概念的隶属程度往往不易确定,而区间值隶属度相对而言较易确定,判断、推理所产生的结果用区间值来表示更能反映人类推理的模糊性和不确定性。

WordNet系统介绍 WordNet是由普林斯顿大学的George Miller等人开发的电子词典系统[34]。WordNet中的每个单词都具有一个或若干个含义,而每个含义都有与其它不同的同义词集,由不同的连接关系组成不同的单词集合。其连接关系包括:antonymy 反义关系;hypernymy 上位关系(泛称);hyponymy 下位关系(特指);holonymy 整体-部份关系;meronymy 部份-整体关系;synonymy同义关系;troponymy 方式关系等等。通过合并 WordNet 同义词集Synset可以将语义知识添加到应用之中。有了这种添加的 WordNet 词汇数据库知识,系统可以一次性搜索具有相关概念的一组数据,而不是一次只能搜索一个关键字。 WordNet是一个十分庞大的在线语义词典。WordNet包含了152059 个不同的单词、115424 个不同的同义词集合和203145 个不同的单词含义。

WordNet元模型 根据WordNet系统的结构特点,我们给出了如下图所示的WordNet系统元模型: 利用WordNet中语义关系与OWL本体语言中的语言成份的对应关系,可以直接将处理自由文本中单词信息的WordNet资源映射成OWL本体的定义。将上图表示的WordNet系统元模型用OWL语言可以表示定义如下:

应用WordNet的本体建造方法 <owl:Class rdf:ID="Synset"> </owl:Class> <owl:Property rdf:ID="gloss"> <rdfs:domain rdf:resource="#Synset"/> <rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/> </owl:Property> <owl:Property rdf:ID="example"> <owl:Property rdf:ID="synsetRelation"> <rdfs:range rdf:resource="#Synset"/> <owl:Property rdf:ID="antonym"> <rdf:type rdf:resource="&owl; SymmetricProperty" /> <rdfs:subPropertyOf rdf:resource="#synsetRelation"/> <owl:Property rdf:ID="hypernym"> <rdf:type rdf:resource="&owl;TransitiveProperty" /> <owl:Property rdf:ID="hyponym"> <rdf:type rdf:resource="&owl;TransitiveProperty" /> <rdfs:subPropertyOf rdf:resource="#synsetRelation"/> </owl:Property> <owl:Property rdf:ID="troponym"> <owl:FunctionalProperty rdf:ID="typeOfSynset"> <rdfs:domain rdf:resource="#Synset"/> <rdfs:range rdf:resource="#TypeOfSynset"/> </owl:FunctionalProperty> <owl:Property rdf:ID="hasSense"> <rdfs:domain rdf:resource="#Word"/> <rdfs:range rdf:resource="#Synset"/> <owl:Property rdf:ID="wordHasTheSense"> <rdfs:range rdf:resource="#Word"/> </owl:Property>1

应用WordNet的本体建造方法 通过这种方法将WordNet系统中的Synset等概念映射到OWL概念和关系上,可以将WordNet电子词典系统转换为OWL格式的本体库系统,得到了一种使用WordNet资源的本体构造途径,方便了本体的建造,一定程度上缓解了本体获取困难的问题。应用这种映射方法,用户可以使用整个WordNet系统进行转换也可以仅转换与自己具体应用密切相关的WordNet中的某些子部分。由于整个WordNet系统的规模十分庞大,用户有针对性的转换其中的相关部分将控制产生的本体库规模,使之在应用时具有较高的效率。与一些现有的本体获取系统相比,这种方法能够产生最新的OWL格式的本体库。当然,由于WordNet词典是与领域无关的词汇资源,在实际应用中需要用户对生成的本体库作进一步的细化和扩充。使用WordNet系统的本体建造系统的体系结构如下图所示:

图3.5 应用WordNet的本体建造系统

本体服务器体系结构 目前世界范围内的许多研究机构已经开发了许多不同的本体服务系统: 英国的WebOnto (http://eldora.open.ac.uk:3000/webonto) 美国斯坦福大学的Ontolingual (http://www-ksl-svc.stanford.edu:5915/) 美国DARPA的DAML Ontology library system (http://www.daml.org/ontologies/) 比利时的OntologyServer (http://www.starlab.vub.ac.be/research/dogma/ OntologyServer.htm) 德国的OntoServer (http://ontoserver.aifb.uni-karlsruhe.de/) 意大利的ONIONS (http://saussure.irmkant.rm.cnr.it/onto/) 荷兰的Sesame系统 (http://sesame.aidministrator.nl/) 上述这些本体系统往往侧重单一方面的本体服务功能,如编辑功能,推理功能等。包含完整的本体获取、存储和应用的本体服务器系统目前还未实现,本节提出的基于Web的本体服务器相对上述系统在设计上更加全面的考虑了本体系统的各种服务功能。该服务器体系结构如下图所示:

本体服务器体系结构

本体服务器体系结构 服务器的Web接口部分使用HTTP接口支持Web用户的浏览、编辑和查询使用,使用HTTP+SOAP接口支持软件agent的功能调用。这两种接口都是通过链接到指定的系统网址实现的。本体服务器从内部功能的角度分为三层:本体访问层、本体表示层和信息集成层。本体访问层负责处理本体的使用问题,包括处理来自外部的本体检索、编辑和查询等请求,这种请求一般通过本体查询语言表示出来;本体服务器中的查询处理部分将在本体表示层的支持下解释执行本体查询语句;本体表示层负责本体的存储问题,包括提供集中的索引和查询辅助机制,本体库中的本体语句使用标准的本体语言(OWL)存储。本体库的一致性检查和推理由本体推理器辅助完成;信息集成层负责本体的获取问题,其本体学习模块可以通过处理来自异构数据源的各种数据形成系统内部的本体,本体映射模块可以将系统以外的各种格式的本体库中的信息转换成系统内部使用的格式。 基于Web的本体服务器主要通过其内部的Web接口实现与软件agent和Web用户之间的交互。为了重用系统之外已经建立起来的本体库,系统还需要与一些已有本体库系统进行交互,这是通过本体访问层的本体编辑器和信息集成层的本体映射模块来实现的。它们实现了不同格式本体之间的转换与(不完全)映射。在整个体系结构中,信息集成层为本体表示层提供信息集成的结果-OWL形式的本体;本体表示层实现统一的本体存储服务。同时还在本体推理器的支持下进行本体的一致性检查等必要的本体维护工作;本体表示层向本体访问层提供数据源支持,通过本体访问层提供的接口实现其对软件agent和Web用户的支持。

为了方便、快捷地建造基于Web的农业专家系统,在863计划的支持下设计并实现了网络版专家系统开发平台BAPDES,该平台将Internet技术与专家系统相关技术相结合,能够用于开发运行于Internet上基于标准协议(HTTP、SOAP等)的农业专家系统。随着大量智能应用系统的应用,基于不同知识表示的系统之间的知识转换和互操作问题成为人们关注的焦点。本体为不同系统之间的互操作提供了基本的框架,是解决这类问题的有效方法。下面讨论BAPDES平台中用于知识访问的本体中间件系统的特性和设计。 本体中间件的功能 本体中间件为知识访问提供了简便的集成、互操作以及知识维护和重用等功能,它作为处理知识访问的灵活而可扩展的平台,应提供以下特性:[44] u  提供可伸缩的、可靠的基本本体存储服务(repository)。 u 知识控制,包括知识库版本控制、知识访问的安全控制和知识库的元信 息管理。 u  支持多种协议的客户访问功能,允许用户和应用通过不同的协议方式使用 系统。 u   支持适合各种领域和应用的推理模块。保证单一的计算环境可以支持不同 的应用。

本体中间件的体系结构 本体中间件的体系结构如下图所示,本体中间件系统的使用者分为两类:普通用户和知识工程师。普通用户并不直接与本体中间件交互,而是通过应用程序调用本体中间件系统的API访问系统功能。知识工程师使用本体编辑器实现对本体的编辑处理,并通过本体中间件API将结果存入本体库中。本体中间件接口负责处理来自用户和知识工程师的服务请求。本体中间件接口通过调用推理模块提供的服务完成相关的推理任务。推理器是对应OWL的某个描述逻辑系统(SHOQ(D))的具体实现。 图4.3 本体中间件的系统结构

基于关键字的搜索是目前Web搜索引擎常用的方法,召回率和准确率是广泛使用的衡量搜索引擎信息检索效率的两个指标。所谓召回率是指一次搜索结果集中符合用户要求的数目与和用户查询相关的总数之比。所谓准确率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比。由于同形多义(polysemy) 和 同义多形(synonym)的问题影响了搜索引擎的性能[46] ,Web用户常常不能有效的搜索到自己想要的信息。 同形多义(polysemy)问题:同一个词有多个不同的含义; (搜索引擎对单词建立索引而不是对语义单元建立索引。) 同义多形(synonym)问题:不同的词有相同的含义;(因为在同一含义使用了不同的单词,搜索引擎可能会在结果集合中忽略掉相关的页面。)

本体模型 本体模型用于解决同义多形(synonym)问题。例如"plane", "aeroplane" 和 "airplane" 都有"flying machine" 的含义; 当某个Web用户在其查询中包含单词 “plane” 时,本体模型应该自动的将另外两个同义的单词列入考虑范围。我们设计的本体库中包含了领域中的主要概念、概念间的关系、概念的基本属性、同义词等相关内容。在用户提交的查询中分析抽取核心的关键词,然后查找它在本体库所在位置(分类树中的位置)。由此可以精确地定位用户所关心的分类(概念)以及关键词(同义词)。当然,在理想的情况下,数据库中的每个网页都是已经依据本体库进行了分类。可以在传统搜索引擎的关键词匹配的基础上来过滤掉那些不属于用户关心的分类的网页,进而配合用户定义的规则以找到较为精确的网页。下图列出了由本体模型支持的查询过程: 图4.5 本体模型支持的查询过程

规则模型 同形多义(polysemy)问题是基于规则系统模型要处理的主要问题。在建立的基于规则的信息过滤系统中包含了用户查询的设定信息(profile),这些设定信息由一系列体现用户信息过滤策略的过滤规则组成。每个用户都可以设定自己特定的规则来过滤掉不相干的信息。这里设计的规则模型扩展了文献[52]提出的基于规则的方法。在规则模型中我们设计了如下所示的谓词,过滤过程基于对HTML文件结构的分析过程。 规则体由下列表示单词以及HTML标签之间关系的谓词构成: – ap(region type, word): 当word出现在region type类型的区域时,该谓词为真。例如当 "plane" 单词出现在网页的标题区域时,ap(title, "plane") 为真。 – near(region type, word1, word2, n): 当 word1 和 word2 同时出现在region type类型的区域并且它们之间相隔的单词数量不大于n时,该谓词为真。在这里对单词的顺序并未作任何限定。例如near(para, "plane", "ticket", 4). before(word1, word2,n): 当 word1 出现在 word2 之前并且它们之间相隔的单词数量不大于n时,该谓词为真。在这里对单词的顺序作了限定。例如 before("plane", "China", 3). ……

系统体系结构 通过将上述本体模型和基于规则系统模型组合在一起,我们得到了Web搜索框架系统的设计,如下图所示。该框架要求Web用户来完成本体选择(创建)任务和过滤规则的定义。因为只有Web用户真正理解他要查询的含义,语义信息应该主要由Web用户给出。这种体系结构设计可以保证整个Web搜索应用具有最大的灵活性。通过仔细设计的用户界面和软件精灵(wizard)可以尽可能的减轻用户的负担。图4.8给出了该框架以及它与Web用户和Web搜索引擎之间的交互过程: 图4.8 Web搜索框架

OIL & DAML+OIL 本体推理层OIL[8](Ontology Inference Layer)是欧洲科研机构在对描述逻辑的长期研究基础上建立起来的。OIL使用了许多框架表示系统(frame-based system)中的构造成分以及描述逻辑的推理过程和形式化语义。OIL有以下的设计特点: 提供了一般用于基于框架的本体的建模原语; 有基于描述逻辑的简单、清晰和良定义的语义; 提供有良好计算属性的推理支持(一致性和概念包含检查)。 DAML+OIL[9]是组合最初的美国DAML组织提出的DAML-ONT本体语言和OIL本体语言而产生的。它的语法建立在RDF和RDFS基础上,并用更丰富的建模原语对这些语言进行了扩展。W3C将DAML+OIL作为开发Web本体语言标准OWL的基础。

§5. 6 OWL OWL是最新的Web本体语言标准。 2002年7月,W3C组织公布了网络本体描述语言(Web Ontology Language, OWL)的工作草案1.0版,2003年8月该工作草案发展成W3C的候选建议,在今年的2月10号,OWL成为W3C正式推荐的标准。OWL已经发展成公认的未来的Web本体语言标准。 OWL的目的是希望提供一个标准的语言,用以描述Web文件或Web应用中使用的实体类和各类之间的关系,以便支持描述Web环境中文件和应用的语义。 W3C提出了一些与语义Web有关的建议,包括XML[5],XML模式,RDF[6],RDF模式等。XML为结构化文档提供了基本的语法,但对文档的含义并未施加任何语义上的限制;XML模式是一种约束XML文档结构的语言;RDF是一个关于对象(或资源)和它们之间关系的数据模型,并为这个数据模型提供了简单的语义。这些数据模型使用XML语法表示。RDF模式是描述RDF资源中属性和类的词汇表,并带有这些属性和类的泛化层次的语义。这些建议构成了一个堆栈结构。OWL是与语义Web有关的不断增长的堆栈结构中的一部分,为建立语义Web需要在RDF模式层之上建立一个本体层用于形式化的描述Web文档中各个词汇的含义。如果我们期待可以利用机器来完成在Web文档上有用的推理任务,那么本体描述语言就必须要超越RDF模式所能提供的基本语义能力。OWL增加了更多的词汇用于描述更多的语义特征:如类之间的关系(如‘分离’关系);基数(如‘只有一个’);相等关系;更丰富的属性类型;属性特征(如‘对称的’)和枚举类。OWL提供了比XML、RDF和RDF模式更强大的功能,在它们的基础上增加了自己的带有形式语义的词汇。

§5. 6. 1 OWL的三个子语言 OWL有三个表达能力递增的子语言:OWL Lite、OWL DL和OWL Full。 OWL Lite是表达能力最弱的子语言,提供了类分层的能力和简单的约束功能。它支持基数约束,但只容许基数值为0或1。因为表达能力较弱,为OWL Lite开发支持工具要比其他两个子语言容易一些。 OWL DL(DL表示描述逻辑)在保持计算完整性(所有的结论可以保证计算出来)和可判定性(所有的计算在有限时间内结束)的前提下,提供了尽可能大的表达能力。OWL DL包含了OWL的全部语言构造成分,但它们的使用受到一些限制(如,一个类可以是许多类的子类,但不能是另一个类的实例(instance))。描述逻辑是OWL的形式化基础,OWL DL提供了描述逻辑的推理功能。 OWL Full包含OWL的全部语言构造成分并取消了OWL DL中的限制。在OWL Full中,一个类可以看成是个体的集合,也可以看成是一个个体。由于OWL Full取消了OWL DL中的保证可计算性的某些限制,不存在完整的推理算法支持OWL Full的全部特性。

图5.4 OWL Lite的语言构造成分

图5.5 OWL DL和OWL Full的附加语言构造成分

§5. 7 本体语言特性对比 按照本体语言的不同特性对这些本体语言进行分析和比较,这些特性包括:有界列表(bounded lists)、基数约束(cardinality constraints)、类表达式(class expressions)、数据类型(data types)、定义类(defined classes)、枚举(enumerations)、相等(equivalence)、可扩展性(extensibility )、形式化语义(formal semantics)、继承(inheritance)、推理(inference)、局部约束(local restrictions)、定量约束(qualified constraints)和具体化(reification),有关这些特性的详细说明参见论文正文。对比列表如下:(在表中,X:表示具备相应功能;O:表示不具备相应功能)

语言特性 RDF&RDFS OIL DAML+OIL OWL (bounded lists) 有界列表 X (cardinality constraints)基数约束 O (class expressions)类表达式 (data types)数据类型 (defined classes)定义类 (enumerations)枚举 (equivalence)相等 (extensibility)可扩展性 (formal semantics)形式化语义 (inheritance)继承 (inference)推理 (local restrictions)局部约束 (qualified constraints)定量约束 (reification)具体化

§5. 8 本体语言与描述逻辑系统 OIL、DAML+OIL和OWL本体语言的推理能力是它们的重要特性之一,这种推理能力是通过映射到某种形式逻辑系统中实现的,这样的映射可以重用逻辑系统中的易处理方面的结果和推理算法。目前在此领域中与这些本体语言比较相近的逻辑系统是描述逻辑系统SHOQ(D)。在文献[18]中给出了SHOQ(D)逻辑系统的推理过程。其实现基于FaCT推理系统。总结的SHOQ(D)语言构造成份与对应的OIL、DAML+OIL 和OWL语言关键字之间的对比关系如下表所示:

语言构造成份 SHOQ(D)语法 OIL关键字 DAML+OIL关键字 OWL关键字 原子概念 A class-def Class 关系 R slot-def rdfs:Property 概念合取 C∧D and intersectionOf 概念析取 C∨D or unionOf 概念取反 C not complementOf 存在约束  R.C domain hasClass someValuesFrom 值约束  R.C range toClass allValuesFrom 全概念 丅 top Thing 空概念 丄 Bottom Nothing 最小基数约束 (≥n S.C) min-cardinality minCardinalityQ minCardinality 最大基数约束 (≤n S.C) max-cardinality maxCardinalityQ maxCardinality 命名 O has-Value hasValue 数据类型 D Value-type rdf:datatype

§6. 2 时空关系模型分析 在时态推理的各种模型中,最重要的一种是由Allen引入的描述两个凸区间之间可能关系的关系系统(称为区间代数理论)。两个区间之间可能存在13种不同的JEPD基本关系:Before (‹), Meets (m), Overlaps (o), Starts (s), During (d), Ends (e), 它们的反关系: After (›), Met-by(m~), Overlapped-by(o~), Started-by(s~), Includes(i~), Ended-by(e~), 以及相等关系 equal (≡)[60]。下图显示了这些关系以及与其对应的端点关系:

§6. 2 时空关系模型分析 区域连接演算 (RCC) 是由Randell , Cui 和Cohn提出的用于空间表示和推理的拓朴方法[61]。 RCC基于空间区域之间的一个基本关系,连接关系C(x,y),其中x,y 是空间区域。对C(x,y)的拓朴解释是:x和y是连接的,当且仅当它们的拓朴闭包共享一个公共点。使用C(x,y) 可以定义大量不同的关系。其中一些如下,括号中是它们的含义。P(x,y) (x 是 y 的一部分),PP(x,y) (x 是y的一个真部分),EQ(x,y) (x 等同 y), O(x,y) (x 与 y重叠),PO(x,y) (x 与 y部分重叠),DR(x,y) (x 与 y相离),EC(x,y) (x 与 y外部相连),TPP(x,y) (x 是 y的相切真部分), NTPP(x,y) (x 是 y的非相切真部分).关系 P,PP,TPP 和 NTPP 是非对称性的,它们的反关系分别是P-1,PP-1,TPP-1 和 NTPP-1。 RCC-8由8个基本的JEPD关系 DC, EC, TPP, TPP-1, PO, EQ, NTPP 和 NTPP-1 以及这些基本关系的所有可能并集组成。下图显示了RCC-8关系的一个二维例子:

§6. 2 时空关系模型分析 当忽略时间轴的方向,将时间轴看成是一维空间时,关系Before 和 After 是拓朴相等的, 都对应RCC-8模型中的 DC 关系,其他关系也具有类似性质。下图显示了Allen的13个JEPD关系和RCC-8 JEPD关系之间的联系:

§6. 2 时空关系模型分析 在一维空间情况下,有两种方向:{ Forward, Backward }. RCC-8中的五种关系{ DC,EC,PO,TPP,TPP-1 } 可以与方向关系{Forward, Backward}相组合, 得到十种关系。另外三种RCC-8 关系{ NTPP,NTPP-1,EQ }不能与方向关系相组合(因为组合后不会产生新的关系)。这样关系数为10+3=13 种关系。因此Allen的13 种区间代数关系实际上是三种RCC-8 关系加上另外五种RCC-8 关系乘以两种一维空间的方向关系: {Before, Meet, Overlaps, Starts, During, Ends, After, Met-by, Overlapped-by, Started-by, Includes, Ended-by, Equal} = {DC,EC,PO,TPP,TPP-1}  {Forward, Backward} + { NTPP,NTPP-1,EQ }. 或者使用如下精简的格式: {‹,m,o,s,d,e,›,m~,o~,s~,d~,e~,≡} = {DC,EC,PO,TPP,TPP-1}  {→,←} + {NTPP,NTPP-1,EQ}. (1) 当考虑n维空间的情况时(n>1),方向数不只是两个。事实上,方向数量可以是无穷多的,因此不能得到将RCC关系与方向关系相结合的唯一的理论。但是在某些特定的应用环境中,可能只有固定数量的方向关系。这样我们就可以使用上述的结果来将拓朴和方向关系结合在一起以形成特定应用的JEPD集合。例如,某个应用中允许有n个方向(就象有四个或更多路口的交叉路口),我们可以通过将{ DC,EC,PO,TPP,TPP-1 } 与n个方向相乘再加上{ NTPP,NTPP-1,EQ } 来构造JEPD关系集合,这样的关系集合中将包含5n+3 个关系。得到的JEPD关系集合可以用于表示应用中实体之间的空间关系并用于在特定的推理任务。如果我们用RCC(D)表示{ DC,EC,PO,TPP,TPP-1 } ; RCC(ND) 表示{ NTPP,NTPP-1,EQ },则构造过程可以表示如下: JEPD-SET = RCC(D)  DIRECTIONS-SET +RCC(ND). (2)

§7. 1 时空本体模型 Grenon使用一阶谓词逻辑作为形式化工具定义了时空本体[133],给出了时空本体的二十条公理(所有未加量词限定的公理都是全称量化的)如下所示: (A1) x Existent(x) (A2) Existent(x) ↔ (Endurant(x) ∨ Perdurant(x)) (A3) ~ (Endurant(x) ∧ Perdurant(x)) (A4) x Endurant(x) (A5) x Perdurant(x) (A6) ~ (Ω(ω) ∧ Existent(x) ∧ ω=x) (A7) const(x, ω) → (Existent(x) ∧ Ω(ω)) (A8) Ω(ω) →x (Existent(x) ∧ const(x, ω)) (A9) Existent(x) →ω (Ω(ω) ∧ const(x, ω)) (A10) ω Ω(ω) (A11) (Endurant(x) ∧ const(x, ω)) → Ωe(ω) (A12) (const(x, ω) ∧ Ωe(ω)) → Endurant(x) (A13) index(ω, x) → (Ωe(ω) ∧ Time(x)) (A14) exists-at(x, y) → (Existent(x) ∧ Time(y)) (A15) (Perdurant(x) ∧ const(x, ω)) → Ωp(ω) (A16) (const(x, ω) ∧ Ωp(ω)) → Perdurant(x) (A17) at-time(x, y) → (Perdurant(x) ∧ Time(y)) (A18) Perdurant(x) →y (Time(y) ∧ at-time(x, y)) (A19) Time(x) → Perdurant(x) (A20) part-in(x, y)→ (Endurant(x)∧Processual(y))

§7. 1 时空本体模型 Grenon给出的形式化时空本体在时空表示方面区分了两种对象:持续对象,可以在给定时刻存在的物质、性质、关系、功能等;连续对象,对应某个过程,并不在某个给定时刻存在,而是作为整体存在于一段时间之内。这两种对象分别对应e-本体和p-本体。持续对象可以作为连续对象的组成部分,参与连续对象对应的过程。以下是对这二十条公理的解释:存在于时空之中的任何事务称之为存在物,用一元谓词Existent表示, (A1)说明至少有一个存在物。 (A2)将存在物进一步分为持续物(Endurant)和连续物(Perdurant)。 (A3)说明持续物(Endurant)和连续物(Perdurant)这两类事务是相互分离的。 (A4)与(A5)说明至少有一个持续物和连续物。 (A6)区分了本体和存在物,其中Ω(ω)表示ω是本体。 (A7)说明了组成本体的要素(Constituent)是存在物,其中const(x, ω)表示x是ω的组成要素。 (A8)说明没有空的本体。 (A9)说明每个存在物至少是一个本体的要素。 (A10)说明至少有一个本体,(A10)可以由(A1)和(A9)推出。 (A11)说明持续物(Endurant)只能是e-本体的组成要素,其中Ωe(ω)表示ω是e-本体(即持续本体)。 与之相对的, (A12)说明e-本体的组成要素只能是持续物(Endurant)。 e-本体总是与时间相关联, (A13)定义了这种关联关系,其中index(ω, x)表示x是ω的时间索引, 一元谓词Time(x)表示x是时间区域。 (A14)定义了存在物与时间的关系,其中exists-at(x, y)表示x在时间y处存在。公理(A15)和(A16)与公理(A11)、(A12)对应, (A15)说明连续物(Perdurant)只能是p-本体的组成要素,其中Ωp(ω)表示ω是p-本体(即连续本体)。反过来, (A16)说明p-本体的组成要素只能是连续物(Perdurant)。(A17)定义了连续物与时间的关系,其中at-time(x, y)表示连续物x所跨越的时间区域为y。 (A18)说明每个连续物都存在于某个时间区域中。 (A19)说明时间本身就是连续物。 (A20)说明的是元本体属性,它说明了持续物(Endurant)可以参加到过程(Processual)中,其中part-in(x, y)表示x参与y。

§7. 1 时空本体模型 Grenon提出的形式化时空本体系统包含8个一元谓词:Existent(x)、Endurant(x)、Perdurant(x)、Ω(ω)、Ωe(ω)、Ωp(ω)、Time(x)、Processual(y)和5个二元谓词:const(x, ω)、index(ω, x)、exists-at(x, y)、at-time(x, y)、part-in(x, y)。 为了使用描述逻辑系统表达该本体系统,按照文献[129]给出的逻辑映射方法,将一元谓词映射为概念;将二元谓词映射为关系。 具体实现使用Protégé开发环境。Protégé是斯坦福大学开发的本体编辑与知识获取工具,带有OWL插件的Protégé可以支持OWL格式的本体编辑与输出。下图给出了时空本体在Protégé中的实现:

本体研究近来发展很快,成为众多领域关注的焦点。工作包括: (1)对本体进行了综述,分析讨论了本体概念、特性、形式化表示模型; (2)基于区间模糊理论扩展了精确描述逻辑系统,给出了语法和语义定义并分析了其计算性质; (3)研究了使用WordNet词汇系统的本体建造技术; (4)给出了基于Web的本体服务器设计、用于专家系统中的本体中间件结构设计和使用本体技术的搜索框架设计; (5)分析总结了用于语义Web的本体表示语言RDFS、OIL、DAML+OIL和OWL以及这些语言之间的特性比较,给出了它们与描述逻辑系统的对应关系; (6)从本体、表示模型和推理方法及其复杂性等方面分别对时态推理、空间推理和时空推理进行了概述,比较分析了Allen的经典时间关系模型和Randell等人的RCC空间模型,指出了它们JEPD(Jointly Exhausted and Pairwise Disjoint)集合之间的关系; (7)基于描述逻辑系统与一阶谓词逻辑系统的映射关系,给出了使用描述逻辑的时空信息的OWL本体表示。

未来工作计划 1:充实、完善基于Web的本体服务器设计,实现各个原型系统并对所构造的时空本体进行测试。在此过程中将尽量利用已有的开放源码的系统实现(Protégé, FaCT, Racer...); 2:类似使用 WordNet资源的英文本体库构造方法,在中文语义词典(北大的CCD等)的支持下,通过建造中文本体库实现支持中文语义查询的原型系统; 3:跟踪标准语言的最新发展动态(SWRL、OWL-RULE...),研究描述逻辑和其他知识表示系统相组合的计算性质,在表达能力和推理效率之间寻求较为优化的平衡。

谢谢大家!