Download presentation
Presentation is loading. Please wait.
1
第四章 海洋数据的处理和集成 柳 林 测绘科学与工程学院 1
2
第四章 海洋数据的处理和集成 1 2 3 4 5 6 海洋数据编辑 海洋数据提取 海洋数据变换 海洋数据重构 空间差值
地理信息系统原理与应用 1 海洋数据编辑 2 海洋数据提取 海洋数据变换 3 4 海洋数据重构 空间差值 5 6 基于地理本体的多元海洋数据集成 2
3
第四章 海洋数据的处理和集成 地理信息系统原理与应用 §4.1 海洋数据编辑 3
4
§4.1 海洋数据编辑 地理信息系统原理与应用 数据编辑 数据编辑(data edit)是将输入系统的数据进校验、检查、修改、重新编排、处理、净化、组织成便于内部处理的格式的过程。任务主要有:①对数据进行校验检查,包括检查遗漏数据、多余数据和错误数据,进行增加、删除和修改操作;②把数据重新编排组织成便于内部处理的格式。在地理信息系统中,因处理对象为空间实体,故图形编辑是数据编辑的主要方式。通常在图形显示,人机交互环境下进行点、线段的增删和属性数据修改等操作,为下一步分析处理建立符合要求的数据基础。 ( 4
5
§4.1 海洋数据编辑 为什么要进行数据编辑 常见数据输入错误 图纸移动 图纸变形 制图误差 数字化误差
地理信息系统原理与应用 为什么要进行数据编辑 常见数据输入错误 图纸移动 图纸变形 制图误差 数字化误差 各种误差将影响到海洋GIS数据处理的各个环节 第四章 空间数据的获取、处理和管理 5
6
§4.1 海洋数据编辑 为什么要进行数据编辑 修正数据输入错误 在坐标系、数据结构、数据类型上满足海洋GIS要求 维护数据的完整性和一致性
地理信息系统原理与应用 为什么要进行数据编辑 修正数据输入错误 在坐标系、数据结构、数据类型上满足海洋GIS要求 维护数据的完整性和一致性 6
7
§4.1 海洋数据编辑 误差或错误的检查与编辑 误差或错误主要包括 空间数据不完整或重复 空间数据位置不准确 空间数据比例尺不准确
地理信息系统原理与应用 误差或错误的检查与编辑 误差或错误主要包括 空间数据不完整或重复 空间数据位置不准确 空间数据比例尺不准确 空间数据变形 属性和数据连接有误 属性数据不完整 7
8
§4.1 海洋数据编辑 地理信息系统原理与应用 数字化后的错误 8
9
§4.1 海洋数据编辑 地理信息系统原理与应用 数字化后的错误 伪节点(Pseudo Node) 悬挂节点(Dangling Node) 9
10
§4.1 海洋数据编辑 地理信息系统原理与应用 电子地图多比例尺表达。比例尺越大,表达越详细。 10
11
§4.1 海洋数据编辑 地理信息系统原理与应用 几何编辑 几何编辑是纠正数据采集错误的一种手段,几何编辑的关键是点、线、面的捕捉,及如何根据光标的位置找到需要编辑的要素以及图形编辑的数据组织。下面分别做简要介绍。 点的捕捉:几何编辑是在计算机屏幕上进行的,因此首先应把图幅的坐标转换为当前屏幕状态的坐标系和比例尺。设光标点S为(x,y),图幅上某一点要素的坐标为A(X,Y),则可设以捕捉半径为D。若S和A的距离d小于D,则认为捕捉成功,即认为找到的点是A;否则失败,继续搜索其它点。 胡鹏 黄杏元 华一新编著的《地理信息系统教程》 11
12
§4.1 海洋数据编辑 地理信息系统原理与应用 几何编辑 线的捕捉:设光标点坐标S(x,y),D为捕捉半径,线的坐标为(x1,y1),(x2,y2),....(xn,yn)计算S到该线的每个直线段的距离di,若min(d1,..dn-1)<D则认为光标S捕捉到了这条线;否则认为没有捕捉到。在实际的不尊重,可以每计算一个距离di,就进行一次比较,若di<D,则认为捕捉不成功,不需要进行下面直线段到点S的距离计算了。 12
13
§4.1 海洋数据编辑 地理信息系统原理与应用 几何编辑 面的捕捉:面的捕捉实际上是判断光标点S是否在多边形内,若在多边形内则说明捕捉成功。判断点是否在多边形内的算法主要有垂线法或转角法,这里介绍一下垂线法。 垂线法的基本思想是:是从光标点引垂线(实际上可以是任意方向的射线),计算与多边形的交点个数。若交点个数为奇数则说明该点在多边形内;若交点个数为偶数,则该点在多边形外。 13
14
§4.1 海洋数据编辑 地理信息系统原理与应用 几何编辑中的图形拼接 在对底图进行数字化以后,由于图幅比较大或者使用小型数字化仪时,难以将研究区域的底图以整幅的形式来完成,这是需要将整个图幅划分成几部分分别输入,在所有部分都输入完毕后进行图形拼接。 (a)拼接前; (b)拼接中的边缘不匹配; (c)调整后的拼接结果 图幅拼接 14
15
§4.1 海洋数据编辑 图幅拼接 处理步骤: 逻辑一致性的处理 识别和检索相邻图幅的数据 相邻图幅边界点坐标数据的匹配
地理信息系统原理与应用 图幅拼接 处理步骤: 逻辑一致性的处理 交互编辑,使相邻图斑的属性相同,取得逻辑一致性。 识别和检索相邻图幅的数据 图幅编号 相邻图幅边界点坐标数据的匹配 图幅边界2cm内的数据 追踪拼接法:上下左右追踪 匹配衔接条件:①相邻图幅边界两条线段或弧段的左右码相同或相反; ②相邻图幅同名边界点坐标在某一允许范围内(±0.5mm) 相同属性多边形公共界线的删除 删除公共弧段,合并属性 31 32 33 21 22 23 11 12 13 22 15
16
§4.1 海洋数据编辑 地理信息系统原理与应用 图形拼接 拉框选择多个图幅 16
17
§4.1 海洋数据编辑 地理信息系统原理与应用 图形拼接 17
18
§4.1 海洋数据编辑 拓扑编辑 拓扑关系:是一种对空间结构关系进行明确定义的数学方法。是指图形在保持连续状态下变形,但图形关系不变的性质。
地理信息系统原理与应用 拓扑编辑 拓扑关系:是一种对空间结构关系进行明确定义的数学方法。是指图形在保持连续状态下变形,但图形关系不变的性质。 拓扑编辑就是要建立矢量数据的拓扑关系,便于之后进行空间数据的查询与分析,这是非常重要的一环。下面介绍一下矢量数据自动拓扑关系建立的步骤(以具有公共边界的简单多边形为例)。 18
19
§4.1 海洋数据编辑 地理信息系统原理与应用 拓扑编辑 结点匹配 以任一弧段的端点为圆心,以给定容差为半径,产生一个搜索圆,搜索落入该搜索圆的其他弧段的端点,若有,则取这些端点坐标的平均值作为结点的位置,并代替原来各弧段的端点坐标。 19
20
§4.1 海洋数据编辑 拓扑编辑 建立结点-弧段拓扑关系
地理信息系统原理与应用 拓扑编辑 建立结点-弧段拓扑关系 结点匹配后,再对产生的结点进行编号,并产生两个文件表,一个记录结点所关联的弧段,一个记录弧段两端的结点。 20
21
§4.1 海洋数据编辑 地理信息系统原理与应用 拓扑编辑 多边形的自动生成 多边形的自动生成实际上就是建立多边形与弧段的关系,并将弧段关联的左右多边形填入弧段文件中。 建立多边形拓扑关系时,弧段是有方向性的,与其关联的两个多边形为左多边形和右多边形。 将所有弧段的左、右多边形置空,并将已建立的结点—弧段拓扑关系中各个结点所关联的弧段按方位角大小排序。 21
22
§4.1 海洋数据编辑 拓扑编辑 方位角:是从x轴按逆时针方向量至结点与它相邻的该弧段上后一个(或前一个)顶点的连线的夹角。 22
地理信息系统原理与应用 拓扑编辑 方位角:是从x轴按逆时针方向量至结点与它相邻的该弧段上后一个(或前一个)顶点的连线的夹角。 22
23
§4.1 海洋数据编辑 拓扑编辑 建立多变性拓扑关系的算法: 在弧段文件中得到第一条弧段,其为起始弧段;
地理信息系统原理与应用 拓扑编辑 建立多变性拓扑关系的算法: 在弧段文件中得到第一条弧段,其为起始弧段; 以顺时针方向为搜索方向,搜索该弧段的后续弧段; 直到搜索到弧段追踪的起点,则形成一个弧段号顺时针排列的闭合多边形,该多边形—弧段的拓扑关系表建立,然后将形成的多边形号填入弧段—多边形关系表的左、右多边形内。 23
24
§4.1 海洋数据编辑 拓扑编辑 注意: 从起始弧段搜索后续弧段时,若起终点号相同,则搜索的弧段为一条单封闭弧段。
地理信息系统原理与应用 拓扑编辑 注意: 从起始弧段搜索后续弧段时,若起终点号相同,则搜索的弧段为一条单封闭弧段。 与每个结点有关的弧段都已按方位角大小排序,下一个待连接的弧段就是该弧段的后续弧段。 24
25
第四章 海洋数据的处理和集成 地理信息系统原理与应用 §4.2 海洋数据提取 25
26
§4.2 海洋数据提取 地理信息系统原理与应用 背景 海洋数据采集技术已经得到飞速的发展,这造成了数据的大爆炸,面对海量的数据如何准确迅速的提取出我们需要的信息已经成为迫切的需求。 特征提取与识别在陆地遥感信息处理已得到广泛应用但在海洋信息处理技术中目前尚未得到充分发展,一般仍采用目视解译,手工勾画的办法,主观性大,特别是研究海洋动力特征的时空变异规律时,不易客观的定量化。近年来,对海洋要素场中海洋现象的特征智能识别与提取,已开始受到海洋工作者的重视,并开展了一些研究和应用。 苏奋进等著《海洋地理信息系统—原理、技术与应用》 26
27
§4.2 海洋数据提取 地理信息系统原理与应用 海洋结构特征识别 早在20世纪80年代初,美国科学家就使用NOAA热红外信息经计算机处理输出海面温度彩色专题图,经海洋专家的目视解译,判读了海洋水团的冷暖锋面、大尺度海流、中尺度涡旋、沿岸流和河口冲淡水水舌的大概位置和状况。此后许多学者利用各种遥感数据,研究了其他海洋现象结构特征在遥感资料中的反映。但大多数研究是采用陆地遥感图像处理的方法对影像进行增强。然后人为对水体值进行分段或划定其边界,也有采用传统监督/非监督分类。然而由于海洋水体一般混合程度较好,缺乏陆地景物那种明确的边界和强烈的反差。从反差很小而后向散射信息微弱的海洋水体遥感影像中提取结构特征一直比较困难。前面这些定性方法对于模糊边界的提取存在主观性大,结果可靠性差等缺点。 27
28
§4.2 海洋数据提取 地理信息系统原理与应用 海洋结构特征识别 近年来,随着人工智能、模式识别、遥感技术和数据挖掘的发展,随着遥感和实测数据量飞速暴涨,人工识别与处理已不能满足实际要求,智能化已成为当前海洋数据处理分析的发展方向之一。海洋数据处理智能化通过建立知识库系统,发展具体的智能计算方法,模拟海洋学专家对海洋现象的理解和分析过程,最终从海量时空数据库中挖掘潜在的特征和知识。 在这种趋势下,一些国家和机构正在将海洋结构特征的智能化自动识别提取作为其重要的研究方向之一。最具代表性的是美国海军研究实验室的遥感部,该机构将海洋现象及其变化的智能影像分析和自动检测作为研究方向之一。其他较为典型的研究还有:Delware大学遥感中心利用模式识别的方法从卫星资料中提取海洋表面动态的线形特征,从而试图从一个时间序列的资料中推算出其运动的方向和速度;意大利的热那亚大学的遥感图像处理与模式识别实验室则正在开展海洋动态检测模式识别方法的研究。 28
29
§4.2 海洋数据提取 地理信息系统原理与应用 多尺度提取 海洋几何形态特征的提取属于海洋要素场高频信息的提取。由于海洋几何形态特征本身的强边缘和弱边缘共存的特性,利用传统的边缘提取算子进行边缘信息的提取均不能达到理想的效果。阈值选取的过大,弱边界信息和噪声信息均被屏蔽掉,弱边界信息损失较为严重;若阈值选取的过小,弱边界信息得以保留的同时,噪声干扰也较为严重,两者很难达到一个理想的折中。 近年来发展起来的空间尺度理论表明,任何的地理实体或客观现象在形成信息的过程中都依赖于空间尺度的特征,只有在特定的空间尺度下来描述信息并在相应的尺度下进行信息提取才具有科学意义和现实意义。空间认知理论也表明,信息在观察、理解和传播的过程中,其表现出来的特征不仅取决于自身特征,而且依赖于观察者所用的尺度和方向,因而进行一系列的尺度和方向分析则能有效地反映出信息的本质特征。 29
30
§4.2 海洋数据提取 地理信息系统原理与应用 多尺度提取 多尺度分析理论表明,在不同的尺度上反映的图像的信息量不同,大尺度上反映的是图像近似信息,高频信息得到一定的压抑,小尺度上则更精确的反映图像细节信息,图像的信息量更为丰富。原始尺度图像经过系列的分解形成系列的尺度图像,可以根据实际的需要选择所需要的尺度图像进行处理,在大尺度上的得到强边界的同时,在小尺度上得到弱边界,对处理后的尺度图像进行相应的影像重构,从而达到理想的海洋几何形态特征的提取效果。 20世纪60年代发展起来的数学形态学,在多尺度分析方面具有独特的优点。其核心概念:结构元素可以通过形态学的基本概念和基本性质,形成结构元素序列。结构元素序列形成从小到达的序列尺度,利用其序列尺度中最佳尺度来提取海洋几何形态特征,从而达到最佳的提取效果。 30
31
§4.2 海洋数据提取 地理信息系统原理与应用 多尺度提取 20世纪80年代发展起来的小波理论,被誉为数学分析的显微镜,其核心思想是多尺度分析。多尺度分析形成序列尺度的近似信息和细节信息,对各个尺度的近似信息和细节信息分别根据需要进行处理和分析,在大尺度上提取强边界信息,在小尺度上提取弱边界信息,然后对各个尺度上信息再进行小波重构,在提取各尺度边界信息的同时抑制噪声。 31
32
§4.2 海洋数据提取 地理信息系统原理与应用 国外研究状况 空间数据的多尺度表达式当今地理信息科学研究的前沿课题之一。在遥感技术迅速发展和对数据不同需求的前提下,对数据的多尺度描述和表达迫切需要。这不仅可以满足不同用户不同的需求,而且可以解决数据建库的复杂性。因此,国外的一些研究机构和学者对数据的多尺度表达进行研究,美国国家地理信息与分析中心于1988年在其创新计划中开始提出研究空间数据的多重表示问题; 32
33
§4.2 海洋数据提取 地理信息系统原理与应用 国外研究状况 1996年6月美国大学地理信息科学协会也将尺度空间表达问题列为未来10年地理信息科学的10个优先研究领域之一;1997年的NCGIA的VARENIUS基金将“地理细节的形式化概念”列为高度优先的认知研究项目,以研究地理信息中的认知中的尺度、详细尺度以及多尺度表达问题;国际摄影测量学会数据综合与数据挖掘工作组联合国际制图协会地图综合委员会于2002年7月在加拿大渥太华以“空间数据的多尺度表达”为主题召开了学术会议,研讨与多尺度表达有关的基础理论与应用整个领域的有关问题。 33
34
§4.2 海洋数据提取 地理信息系统原理与应用 国外研究概况 国外的许多学者利用形态学梯度算子和小波理论进行信息边缘的提取并取得了很好的效果。Azhar Quddus(2002)提出了基于小波变换的单一值降解技术来实现图像最佳尺度的选取,并进行边缘的提取;Lei Zhang(2002)利用二值小波函数作为基函数,对原始图像进行小波分解得到相邻尺度间的子尺度图像,然后对相邻尺度间的子尺度图像进行相乘得到积函数,该函数不仅增强了图像的边缘信息而且也抑制了噪声的影响;C.Ducottet(2004)等对图像中边缘类型进行了分析,并利用小波变换中的模最大值来提取图像中边缘点。 34
35
§4.2 海洋数据提取 国内研究状况 国内学者对地理空间实体的多尺度研究主要分为以下两类:
地理信息系统原理与应用 国内研究状况 国内学者对地理空间实体的多尺度研究主要分为以下两类: 定性的描述地理空间实体的多尺度特性,并进行多尺度边缘的提取。如陆军,王润生(2000)等利用空间尺度理论进行直线抽取;李军、周成虎(1999)等对地学数据多尺度特征进行了分析;尹平、王润生(1998)等多尺度边缘检测技术方法进行了比较;张继贤、李德仁(1996)等则利用小波的多尺度分析理论对遥感影像纹理的多尺度特性进行了分析;李霖、李德仁(1994)等对GIS中二维空间目标的尺度性进行了分析。 35
36
§4.2 海洋数据提取 地理信息系统原理与应用 国内研究状况 对地理空间实体的多尺度特性进行表达。空间实体多尺度特性,是多尺度提取的基础之一。吴凡(2002)对地理空间数据的多尺度表达进行了详细的描述;李霖、吴凡(2004)深入地分析空间尺度理论和空间数据的多尺度表达。 36
37
§4.2 海洋数据提取 地理信息系统原理与应用 国内研究状况 利用形态学梯度算子和小波分析理论进行图像的边缘提取,在国内也得到了充分的重视。在形态学梯度算子方面主要体现在形态学梯度算子设计方面,并利用其设计的形态学滤波算子来进行图像的边缘提取(赵春晖等 2002)。小波理论的发展史20世纪公认的最辉煌的科学成就之一。利用小波理论进行图像的边缘提取,大部分学术论文的思想是对原始影像进行多尺度分解,对分解后的各个子尺度图像进行相应的处理,然后进行小波逆变换,得到边缘图像(章宝国等1998;陈东等1998;张宏群等2003)近两年,国内部分学者尝试把小波理论的多尺度分析思想和数学形态梯度理论的思想结合起来进行图像的边缘提取,也取得了一些成果(彭玉楼等2004;张文琴等2004)。 37
38
§4.2 海洋数据提取 数据提取 数据提取:是指对数据从全集到子集的条件提取,包括类型选择、窗口提取、布尔提取、空间内插等。 38
地理信息系统原理与应用 数据提取 数据提取:是指对数据从全集到子集的条件提取,包括类型选择、窗口提取、布尔提取、空间内插等。 胡鹏 黄杏元 华一新编著的《地理信息系统教程》 38
39
§4.2 海洋数据提取 以基于小波分析的海洋锋形态特征提取为例
地理信息系统原理与应用 以基于小波分析的海洋锋形态特征提取为例 利用遥感信息分析流场一直是海洋遥感的重要研究内容之一。其中海流及其边沿锋的形态特征研究不仅具有重要的科学意义,且面临着诸多实际应用的需求。从遥感反演要素场中提取海流及边沿锋的形态特征,过去主要是采用灰度分割或假彩色显示,结合人工目视分析,提取和分析海洋现象特征。面对遥感数据海量、时间序列较长和判定标准需要统一的现况,上述方法很难满足实际需求,由此对海面形态特征的信息进行计算机自动化提取已具有必要性和迫切性。而海面形态特征具有动态易变性,从要素场中自动提取一直是国内外研究的难点。 薛存金,苏奋振, 周军其. 基于小波分析的海洋锋形态特征提取[J]. 海洋通报, 2007, 26(2): 39
40
§4.2 海洋数据提取 以基于小波分析的海洋锋形态特征提取为例
地理信息系统原理与应用 以基于小波分析的海洋锋形态特征提取为例 海洋锋的研究在海洋渔业、环境保护、海洋倾废、海难救助、水声技术利用等方面具有应用价值,在海洋领域一直是研究的重点。海洋锋信息的提取属于海洋要素场高频信息的提取。由于海洋锋本身具有弱边缘 ( Weak Edge ) 特性,利用传统方法确定边缘的算子 ( Robert、Prewitt 和 Kirsch 算子等 ) 进行海洋锋提取均不能达到理想的效果。阈值选取的过大,弱边界信息和噪声信息均被屏蔽掉,弱边界信息损失较为严重;若阈值选取得过小,弱边界信息得以保留的同时,噪声干扰也较为严重,很难在消除噪声的同时提取弱边缘信息。 40
41
地理信息系统原理与应用 以基于小波分析的海洋锋形态特征提取为例 20 世纪 80 年代发展起来的小波理论,被誉为数学分析的显微镜,小波分析的核心思想是多尺度分析。多尺度分析形成序列尺度的近似信息和细节信息,对各个尺度的近似信息和细节信息分别根据需要进行处理和分析,在大尺度上提取强边界信息,在小尺度上提取弱边界信息。然后,根据边缘信息和噪声信息在各个尺度间的分布存在的本质差异,对各个尺度上的信息进行小波重构,这样在提取各尺度边界信息的同时也抑制了噪声。该方法在国外受到广泛的关注并取得了很好的效果。 41
42
§4.2 海洋数据提取 以基于小波分析的海洋锋形态特征提取为例
地理信息系统原理与应用 以基于小波分析的海洋锋形态特征提取为例 然而,利用小波多尺度分析理论来进行海洋锋形态特征的提取在国内还不多见,在国外也不是很多。S S Iyengar 等尝试在尺度分析的基础上,利用小波多尺度分析技术对海洋图像要素场进行提取; Simhadri, K K 等提出弱边缘在海洋卫星图像上的存在性,并利用小波多尺度分析的思想提出了一种在抑制噪声的同时,得以增强海洋边缘信息的算法,并取得了较好的效果。本文旨在探讨海洋锋信息在各个尺度间的分布情况及海洋锋信息和噪声信息在各个尺度间分布的差异,在多尺度分析的基础上,设计确定最佳尺度的算法及其流程,并进行了海洋锋形态特征信息的提取。 42
43
§4.2 海洋数据提取 地理信息系统原理与应用 海洋锋、噪声与尺度的关系 原始信号经过小波变换后形成一系列的子尺度空间,每一个子尺度空间都包含原始信号的近似信息和细节信息。近似信息对应于原始信号的低频部分,而细节信息对应于高频部分,即对应于信号的边缘特征信息。根据二维 Mallet 算法,系列的子尺度空间具有单调性,即高一级尺度空间信息是由低一级尺度空间信息 ( Lower level scaling space information ) 综合概括形成,更宏观综合反映了原始信息;而低尺度空间的信息反映了原始信息的细节信息,而低一级尺度空间的信息包含了高一级尺度空间的所有信息。 43
44
§4.2 海洋数据提取 地理信息系统原理与应用 海洋锋、噪声与尺度的关系 原始信号经过小波分解后,每一个尺度的小波变换都提供了边缘信息。尺度较小时,图像的边缘信息较为丰富,边缘定位精度较高,但容易受到噪声的干扰;尺度较大时,图像的边缘稳定,抗噪性能较好,但定位精度较差。而且边缘信息在各个尺度间具有传播特性或继承性,即在小尺度上的边缘点在大尺度有所保留。图 2 给出墨西哥湾流的原始影像 ( 图 2 ( a ) ) 和经过 Harr 小波变换生成水平方向、垂直方向和对角线方向三级尺度的细节影像信息并经过 Harr 小波逆变换生成的三级尺度细节信息 ( 图 2 ( b )为水平方向、图 2 ( c )为垂直方向图 2( d )为对角线方向 )。 44
45
§4.2 海洋数据提取 地理信息系统原理与应用 最佳尺度确定算法 多尺度特征边缘提取中的最佳尺度是指从小波变换生成的序列尺度中选取的一个尺度或者几个尺度进行综合的尺度,该尺度能够在抑制噪声的同时把边缘信息提取出来,且保证在定位精度和边缘的连续性上都能取得理想的效果。用小波变换对图像进行多尺度边缘检测,得到的多尺度边缘特征图表征了图像中不同强度和大小边缘信息的结构。 尺度较小时,图像的边缘信息较为丰富,边缘定位精度较高,但容易受到噪声的干扰;尺度较大时,图像的边缘稳定,抗噪性能较好,但定位精度较差。而且边缘信息在各个尺度间具有传播特性或继承性,即在小尺度上的边缘点在大尺度有所保留。要想从多尺度的边缘特征图中提取出最理想的边缘效果,是将各个尺度的边缘图像综合起来,发挥大小尺度的优势,进行各尺度边缘特征图像的合成。 45
46
§4.2 海洋数据提取 地理信息系统原理与应用 最佳尺度的自适应算法流程图 46
47
§4.2 海洋数据提取 地理信息系统原理与应用 47
48
§4.2 海洋数据提取 地理信息系统原理与应用 试验数据 本文以墨西哥湾流 ( 见图 5 ) 为实验对象。墨西哥湾流流幅的平均空间尺度约为 80~150 km,锋横断面的宽度也约为 20~30 km。选取的实验数据是 2003 年第 129 天至第 137 天的 MODIS/Aqua 海表温度栅格数据 ( SST )。数据是由 NASA PO.DAAC ( The Physical Oceanography Distributed Active Archive Center ) 提供的 AVHRR Pathfinder SST 资料,算法功能采用 Visual C++6.0 从底层开发,并集成在由中科院地理科学与资源研究所自主开发的海洋地理信息系统软件 MaXplorer1.0 上。 48
49
§4.2 海洋数据提取 地理信息系统原理与应用 试验结果 对图 5 墨西哥湾流流域的遥感图像,按照图4所示的流程,采用Harr小波进行级尺度分解。最大尺度选取3是因为Harr小波具有紧支撑性 ( Compactly supported ),且海洋锋信息能量主要集中在前 3 个尺度空间内。图6(a)、图6 (b) 和图6 (c) 分别给出原始墨西哥湾流影像图经Harr小波变换后的1级水平细节图像、2 级水平细节图像和 3 级水平细节图像, 图6 (d) 是图 6 (a)、图 6 (b) 和图6 (c) 经过小波系数阈值选择和噪声剔除后的水平细节图像;图 7 (a) 、图 7 (b)和图 7 (c)分别给出原始墨西哥湾流影像图经Harr小波变换后的1级垂直细节图像、2 级垂直细节图像和 3 级垂直细节图像, 图 7 (d) 是图 7 (a)、图 7 (b) 和图 7 (c) 经过小波系数阈值选择和噪声剔除后的垂直细节图像;图 8 (a)、图 8 (b) 和图 8 (c)分别给出原始墨西哥湾流影像图经Harr小波变换后的 1 级对角线细节图像、2 级对角线细节图像和 3 级对角线细节图像, 图 8 (d) 是图 8 (a)、图 8 (b) 和图 8 (c) 经过小波系数阈值选择和噪声剔除后的对角线细节图像。图 9 是图 6 (d)、图 7 (d) 和图 8 (d) 经过Harr小波逆变换形成的最终边缘图像。 49
50
§4.2 海洋数据提取 地理信息系统原理与应用 试验结果 从图 6 (a)-图 6 (c) 到图 8 (a)-图 8 (c) 可知,在不同的尺度空间上提取出不同尺度的边缘信息。在序列空间尺度图像上经过边缘点的选择和噪声点的剔除,得到各空间尺度上的边缘图像 ( 见图 6 (d)、7 (d) 和 8 (d) ),然后经过Harr小波逆变换得到最终的边缘图像 ( 见图 9 ),该图像能够较为清晰的反映各种尺度的边缘信息。 50
51
§4.2 海洋数据提取 地理信息系统原理与应用 51
52
§4.2 海洋数据提取 地理信息系统原理与应用 与典型梯度算子的对比分析 梯度算子的基础是基于数字差分的思想,常用数字图像的一阶导数和二阶导数的近似值来计算图像或信号的梯度。选用的梯度算子是在长期的实践和试验中被证明的典型边缘算子主要包括 Kirsch 算子、Gauss-Laplace 算子、Prewitt 算子和 Robert 算子。 运用上述典型的边缘算子对墨西哥湾流遥感影像进行边缘提取操作,处理结果如图 10 所示,其中图 10 (a)、图 10 (b)、图 10 (c) 和图 10 (d) 分别是经过 Kirsch 算子、Gauss 算子、Prewitt 算子和 Robert算子处理后边缘图像,并与基于 Harr小波 3 级尺度变换提取的边缘图像 ( 图 9 ) 进行对比分析,分析结果见表 1。 52
53
§4.2 海洋数据提取 地理信息系统原理与应用 53
54
§4.2 海洋数据提取 地理信息系统原理与应用 54
55
§4.2 海洋数据提取 地理信息系统原理与应用 总结 以上就是基于小波分析的海洋锋形态特征提取的过程,我们运用运用Harr小波进行海洋锋特征提取,能取得理想的效果。Harr小波具有正交性、对称性、紧支撑性 ( compactly supported ) 和低阶消失矩性 ( lower numbers of vanishing moments ),并能够应用于二维离散数字图像。由于海洋锋本身的弱边缘 ( Weak Edge ) 特性,利用边缘信息和噪声信息在各个尺度间分布特征和小波多尺度分析的基本理论进行海洋锋形态特征的提取,能够取得理想的效果。 55
56
第四章 海洋数据的处理和集成 地理信息系统原理与应用 §4.3 海洋数据变换 56
57
§4.3 海洋数据变换 地理信息系统原理与应用 数据变换 数据变换:指对数据从一种数学状态转换为另一种数学状态,包括投影变换、辐射纠正、比例尺缩放、误差改正和处理等。 胡鹏, 黄杏元,华一新编著的《地理信息系统教程》 57
58
§4.3 海洋数据变换 地理信息系统原理与应用 坐标变换 ①屏幕坐标 0,0 1024,0 0,768 1024,768 58
59
§4.3 海洋数据变换 坐标变换 ②数字化仪坐标:以其分辨率为坐标单位 某A0幅面数字化仪分辨率为0.025mm,则 Y
地理信息系统原理与应用 坐标变换 ②数字化仪坐标:以其分辨率为坐标单位 某A0幅面数字化仪分辨率为0.025mm,则 X Y (0,0) Ymax=900mm/0.025mm=36000 Ymin=1200mm/0.025mm=48000 59
60
§4.3 海洋数据变换 地理信息系统原理与应用 坐标变换 ③扫描图象坐标:分辨率为坐标单位 行数= 宽度 分辨率 列数= 长度 60
61
§4.3 海洋数据变换 坐标变换 地理坐标 ④地图坐标 地图投影 直角坐标 500km 中央经线 Y X 我国大中比例尺地形图坐标系的建立
地理信息系统原理与应用 坐标变换 地理坐标 直角坐标 地图投影 ④地图坐标 500km X Y 中央经线 我国大中比例尺地形图坐标系的建立 61
62
§4.3 海洋数据变换 地理信息系统原理与应用 坐标变换 ④地图坐标 我国小比例尺图(圆锥投影) 62
63
§4.3 海洋数据变换 地理信息系统原理与应用 坐标变换 ⑤用户自定义坐标 当不需要考虑地图投影变形,把制图区域看成是一个平面时,或者当研究区域数据不与其它数据综合使用时,用户可自定义数字化原图的坐标,一般取左下角为(0,0) 63
64
§4.3 海洋数据变换 坐标转换 实质:建立两个坐标系之间的数学关系 转换的意义: 将设备坐标转换为地理要素的实际坐标
地理信息系统原理与应用 坐标转换 实质:建立两个坐标系之间的数学关系 转换的意义: 将设备坐标转换为地理要素的实际坐标 减少各种变形产生的误差(投影变形、扫描变形、纸张变形等) 实现多幅地图,包括不同投影、不同比例尺地图的拼接或叠置 64
65
§4.3 海洋数据变换 坐标变换 数字化设备坐标系和用户坐标系不一致。 扫描底图图纸变形 不同来源的空间数据的投影和比例尺不一致 其它?
地理信息系统原理与应用 坐标变换 数字化设备坐标系和用户坐标系不一致。 扫描底图图纸变形 不同来源的空间数据的投影和比例尺不一致 其它? 1 几何校正 2 3 投影变换 4 65
66
§4.3 海洋数据变换 地理信息系统原理与应用 坐标变换 包含: 几何纠正 投影变换 橡皮筋变换? 66
67
几何纠正 解决图纸变形;不同坐标系统之间的转换。 利用一套控制点和变换方程,将数字地图或图像从一种坐标系转换成另一种坐标系的过程。
§4.3 海洋数据变换 地理信息系统原理与应用 几何纠正 解决图纸变形;不同坐标系统之间的转换。 利用一套控制点和变换方程,将数字地图或图像从一种坐标系转换成另一种坐标系的过程。 相似变换: 假定XY轴垂直,XY单位长度一致。 仿射变换:基于仿射坐标系,XY可以不垂直,单位长度不一。需要有3对以上控制点的坐标和理论值。相似变化是仿射变换的特例。 二次变换 高次变换等,二次变换需要有5对以上控制点的坐标和理论值。高次变换需要有6对以上控制点的坐标和理论值。 67
68
§4.3 海洋数据变换 仿射变换 平移,缩放,旋转 平移: X’=X+Tx Y’=Y+Ty 平移变换 X Y O C A B Tx Ty
地理信息系统原理与应用 仿射变换 平移,缩放,旋转 X Y O C A B Tx * Ty 平移: X’=X+Tx Y’=Y+Ty 一般从扫描仪上直接得到的地图有什么问题?如何改正? 存在图形的变形、坐标系不一致等问题。可以通过几何纠正和投影变换来纠正。 几何纠正用以纠正图纸变形产生的误差。常用的有高次变换、二次变换和仿射变换。 平移变换 68
69
§4.3 海洋数据变换 仿射变换 缩放: X’=XSx Y’=YSy Y X
地理信息系统原理与应用 仿射变换 缩放变换是指对p点相对于坐标原点沿x方向放缩Sx倍,沿y方向放缩Sy倍。其中Sx和Sy称为比例系数。 Y X P'(4,3) P(2,1) 缩放: X’=XSx Y’=YSy 缩放变换(Sx=2,Sy=3) 69
70
§4.3 海洋数据变换 仿射变换 Y P' r P θ X 旋转变换 旋转: X’=Xcosθ+Ysinθ Y’=-Xsinθ+Ycosθ
地理信息系统原理与应用 仿射变换 二维旋转是指将p点绕坐标原点转动某个角度(顺时针为正,逆时针为负)得到新的点p’的重定位过程。 Y X P' P r α θ 旋转: X’=Xcosθ+Ysinθ Y’=-Xsinθ+Ycosθ 旋转变换 70
71
§4.3 海洋数据变换 仿射变换 综合考虑图形的平移、旋转和缩放,则其坐标变换式如下: 仿射变换公式: 特点: 1、直线变换后仍为直线;
地理信息系统原理与应用 仿射变换 综合考虑图形的平移、旋转和缩放,则其坐标变换式如下: 仿射变换公式: 特点: 1、直线变换后仍为直线; 2、平行线变换后仍为平行线; 3、不同方向上的长度比发生变化。 71
72
§4.3 海洋数据变换 仿射变换(几何纠正) 对数字化原图数据进行的坐标系转换和图纸变形误差的改正
地理信息系统原理与应用 仿射变换(几何纠正) 对数字化原图数据进行的坐标系转换和图纸变形误差的改正 方法:仿射变换、相似变换、二次变换和高次变换等 72
73
§4.3 海洋数据变换 地理信息系统原理与应用 仿射变换 X=a0+a1x+a2y Y=b0+b1x+b2y 73
74
§4.3 海洋数据变换 地理信息系统原理与应用 仿射变换 (a)平移 (b)缩放 (c)图形旋转 74
75
§4.3 海洋数据变换 仿射变换作用 将数据的空间坐标从数字化的坐标系统转换为真实世界中的坐标系统。 1:10000
地理信息系统原理与应用 仿射变换作用 将数据的空间坐标从数字化的坐标系统转换为真实世界中的坐标系统。 m cm 0,0 45 1:10000 Digitezer units real-world coordinates 4500 75
76
? §4.3 海洋数据变换 二次变换 高次变换(三次) X=a0+a1x+a2y+a3x2+a4y2+a5xy
地理信息系统原理与应用 二次变换 X=a0+a1x+a2y+a3x2+a4y2+a5xy Y=b0+b1x+b2y+b3x2+b4y2+b5xy 高次变换(三次) X=a0+a1x+a2y+a3x2+a4y2+a5xy+a6x3+a7y3+a8x2y+a9xy2 Y=b0+b1x+b2y+b3x2+b4y2+b5xy+b6x3+b7y3+b8x2y+b9xy ? 76
77
§4.3 海洋数据变换 变换中控制点选取需注意的问题 一般来讲,线性关系采用四个或更多的TIC点提高纠正精度。
地理信息系统原理与应用 变换中控制点选取需注意的问题 一般来讲,线性关系采用四个或更多的TIC点提高纠正精度。 非线性转换中,转换多项式的次数与控制点数目可以用公式: k=(n+1)(n+2)/2 其中n为多项式的次数,k为最少控制点数目,一般控制点应多于此数,此时用最小二乘法求解。 多项式转换关系并非次数越高越好,实践中一般先取一次多项式,用足够多的控制点拟和、观察、分析,有必要再“升级”。 常用的分析方法,是计算每一个控制点相对于回归线的偏离,用均方根表示。如果某点的均方根特别大,说明该点有问题,去掉不用;若较多的点有问题,可以考虑升级。 77
78
§4.3 海洋数据变换 地理信息系统原理与应用 最小二乘法 78
79
§4.3 海洋数据变换 地理信息系统原理与应用 投影变换 目的:当系统所使用的数据来自不同地图投影时,需要将一种投影的几何数据(x,y)转成所需投影的数据(X,Y)。实质是建立两个投影平面点之间的一一对应关系。 79
80
§4.3 海洋数据变换 投影变换 解析法 数值法 正解变换:两个投影之间建立解析关系,有一种投影XY直接求解两个投影XY坐标
地理信息系统原理与应用 投影变换 解析法 正解变换:两个投影之间建立解析关系,有一种投影XY直接求解两个投影XY坐标 1 2 反解变换:无法直接建立两个坐标系之间的解析式。 平面坐标反解地理坐标(x,yB,L) 地理坐标求解另一投影平面坐标( B,L x,y ) 数值法 两投影无法建立直接或间接的解析关系,需要通过同名控制点通过矩阵运算,获取两坐标系之间的转换矩阵。 常用方法:插值法;有限差分法;有限元法;待定系数法(七参数转换法(3个平移参数、3个旋转参数和. 1个尺度参数) 3 80
81
§4.3 海洋数据变换 投影转换 投影A (x,y) 投影B (X,Y) 正解变换:解析函数关系
地理信息系统原理与应用 投影转换 投影A (x,y) 投影B (X,Y) 正解变换:解析函数关系 X=f (x , y) ,Y=g( x , y ) 反解变换:经纬度 B=f (x , y) , L=g( x , y ) X=F(B, L) , Y=G( B, L) 数值变换:数学方法 81
82
§4.3 海洋数据变换 投影转换 地球坐标 经度、纬度 地图投影变换 地图投影变换 地图坐标 直角坐标 数字化仪、 扫描仪坐标 屏幕显示坐标
地理信息系统原理与应用 投影转换 地球坐标 经度、纬度 地图投影变换 用户坐标 地图投影变换 地图坐标 直角坐标 物理坐标 数字化仪、 扫描仪坐标 屏幕显示坐标 82
83
§4.3 海洋数据变换 地理信息系统原理与应用 投影转换 墨卡特投影 摩尔魏特投影 83
84
§4.3 海洋数据变换 3.图像纠正 地形图的纠正 1.四点纠正法:
地理信息系统原理与应用 3.图像纠正 1.四点纠正法: 根据选定的数学变换函数,输入需要纠正地形图的图幅行、列号、地形图的比例尺、图幅名称等,生成标准图廓,分别采集四个图廓控制点坐标来完成。 地形图的纠正 2.逐网格纠正法: 在四点纠正法不能满足精度要求的情况下才用的。不同点在于采样点数目的不同,它是逐方里网格进行的,也就是说,对每一个方里网,都要采点。 3.采点方法: 先采源点(被纠正),后采目标点(标准)。 先采图廓控制点、控制点,后方里采点。 均匀布点,特殊地区多采点。 84
85
§4.3 海洋数据变换 地理信息系统原理与应用 3. 图像纠正 遥感影像的纠正 选用和遥感影像比例尺相近的地形图或正射影像图作为变换标准,选用合适的变换函数,分别在要纠正的遥感影像和标准地形图或正射影像图上采集同名地物点。 采点: 先采源点(影像),后采目标点(地形图)。 均匀布点,点不能太多。 尽量选不会移动的地物点。 85
86
第四章 海洋数据的处理和集成 地理信息系统原理与应用 §4.4 海洋数据重构 86
87
§4.4 海洋数据重构 数据重构 数据重构:指对数据从一种几何形态转换为另一种几何形态,包括数据拼接、数据截取、数据压缩、结构转换等。 87
地理信息系统原理与应用 数据重构 数据重构:指对数据从一种几何形态转换为另一种几何形态,包括数据拼接、数据截取、数据压缩、结构转换等。 胡鹏,黄杏元,华一新编著的《地理信息系统教程》 87
88
§4.4 海洋数据重构 1.数据格式的转换 不同介质之间的转换 数据结构之间的转换 不同数据结构的转换 栅格—矢量,矢量—栅格
地理信息系统原理与应用 1.数据格式的转换 不同介质之间的转换 数据结构之间的转换 不同数据结构的转换 栅格—矢量,矢量—栅格 同一数据结构不同组织形式的转换 块状—四叉树,索引—链状双重独立式,…… 88
89
§4.4 海洋数据重构 1. 数据格式的转换 矢量转栅格 点的变换 Y X O 89 地理信息系统原理与应用 J (0,0) x y I
min max 89
90
§4.4 海洋数据重构 1. 数据格式的转换 矢量转栅格 线的变换 考察m行中心线的坐标y y=ymax- △y*(m-1/2),
地理信息系统原理与应用 1. 数据格式的转换 矢量转栅格 线的变换 考察m行中心线的坐标y y=ymax- △y*(m-1/2), 则中心线与直线交点的x值: x=(x2-x1)(y-y1)/(y2-y1)+x1, 由此得: 列数n=1+int(x-xmin)/△x 90
91
§4.4 海洋数据重构 1. 数据格式的转换 矢量转栅格 多边形栅格化 方法包括:内部点扩散法、射线法、扫描法、复数积分法和边界代数法等
地理信息系统原理与应用 1. 数据格式的转换 矢量转栅格 多边形栅格化 方法包括:内部点扩散法、射线法、扫描法、复数积分法和边界代数法等 检验夹角之和:如果=0,点在多边形外;如果=2∏,点在多边形内 检验交点之和:如果交点为偶数,点在多边形外,如果为奇数则点在多边形内。 感兴趣的同学参阅有关计算机图形学教材 91
92
§4.4 海洋数据重构 1. 数据格式的转换 矢量转栅格 多边形栅格化 (1)内点扩散法
地理信息系统原理与应用 1. 数据格式的转换 矢量转栅格 多边形栅格化 (1)内点扩散法 该算法由每个多边形一个内部点(种子点)开始,向其八个方向的邻点扩散,判断各个新加入点是否在多边形边界上,如果是边界上,则该新加入点不作为种子点,否则把非边界点的邻点作为新的种子点与原有种子点一起进行新的扩散运算,并将该种子点赋以该多边形的编号。重复上述过程直到所有种子点填满该多边形并遇到边界停止为止。 92
93
§4.4 海洋数据重构 1. 数据格式的转换 多边形栅格化 (2)射线算法
地理信息系统原理与应用 1. 数据格式的转换 多边形栅格化 (2)射线算法 射线算法可逐点判断数据栅格点在某多边形之外或在多边形内,由待判点向图外某点引射线,判断该射线与某多边形所有边界相交的总次数,如相交偶数次,则待判点在该多边形外部,如为奇数次,则待判点在该多边形内部。如在内部,则赋予栅格属性。 93
94
§4.4 海洋数据重构 1. 数据格式的转换 多边形栅格化 (3)边界代数算法
地理信息系统原理与应用 1. 数据格式的转换 多边形栅格化 (3)边界代数算法 单个多边形编号为a,模仿积分求多边形区域面积的过程,初始化的栅格阵列各栅格值为零,以栅格行列为参考坐标轴,由多边形边界上某点开始顺时针搜索边界线,当边界上行时(图a),位于该边界左侧的具有相同行坐标的所有栅格被减去a;当边界下行时(b),该边界右边所有栅格点加一个值a,边界搜索完毕则完成了多边形的转换。 94
95
§4.4 海洋数据重构 4.2.5 数据格式的转换 多边形栅格化 多个多边形:
地理信息系统原理与应用 4.2.5 数据格式的转换 多边形栅格化 多个多边形: 当边界弧段上行时,该弧段与左图框之间栅格增加一个值(左多边形编号减去右多边形编号);当边界弧段下行时,该弧段与左图框之间栅格增加一个值(右多边形编号减去左多边形编号)。 95
96
§4.4 海洋数据重构 地理信息系统原理与应用 1. 数据格式的转换 栅格转矢量 为了压缩数据,或将栅格数据加入矢量数据库;进行某些分析计算,如网络分析等;当由栅格数据分析的结果通过矢量绘图机输出等,都需要进行转换 由栅格数据向矢量数据的转换,根据图像数据文件和再生栅格数据文件的不同,分为两类: 基于图像数据的矢量化方法 基于再生栅格数据的矢量化方法 96
97
§4.4 海洋数据重构 地理信息系统原理与应用 1. 数据格式的转换 栅格转矢量 基于图像数据的矢量化方法 97
98
§4.4 海洋数据重构 栅格转矢量 基于图像数据的矢量化方法 二值化 98 地理信息系统原理与应用
图1的的栅格数据是按从0~255的不同灰度值度量的,设为G(I,j),二值化就是把256级不同的灰阶压缩到2个灰阶,即(0,1)。定义阈值后根据上面公式得到二值图,如图2所示。 98
99
§4.4 海洋数据重构 1. 数据格式的转换 细化分为剥皮法和骨架化 栅格转矢量 细化
地理信息系统原理与应用 1. 数据格式的转换 栅格转矢量 细化 是消除线划横断面栅格数的差异,使得每一条线只保留代表其轴线或周围轮廓线位置的单个栅格宽度。 细化分为剥皮法和骨架化 剥皮法的实质是从曲线的边缘开始,每次剥掉等于一个栅格宽的一层,直到最后留下彼此联通的由单个栅格点组成的图形。 要注意一个条件:不允许剥去会导致曲线不连通的栅格,这是该方法的技术关键所在。 99
100
§4.4 海洋数据重构 栅格转矢量 细化 剥皮法 100 地理信息系统原理与应用
细化 剥皮法 剥皮法解决方法是:借助一个在计算机中存储着的,由待剥栅格为中心的3×3栅格组合图来决定。如图所示一个3×3栅格窗口,其中心栅格有八个邻域,因此组合图共有28 种不同的排列格式,若相对位置关系的差异只是转置90度、180度、270度或互为镜像反射的方法进行归并,则共有51种排列格式。只有图中红色箭头标示的可以将中心点剥去。经过细化处理后得到应予以保留的栅格系列,如图3所示 100
101
§4.4 海洋数据重构 1. 数据格式的转换 栅格转矢量 跟踪
地理信息系统原理与应用 1. 数据格式的转换 栅格转矢量 跟踪 是将写入数据文件的细化处理后的栅格数据,整理为从节点出发的线段或闭合的线条,并以矢量形式存储特征栅格点中心的坐标。 跟踪时,从图幅西北角开始,按顺时针或逆时针方向,从起始点开始,根据8个邻域进行搜索,依次跟踪相邻点。并记录节点坐标,然后搜索闭曲线,直到完成全部栅格数据的矢量化,写入矢量数据库。 101
102
§4.4 海洋数据重构 1. 数据格式的转换 栅格转矢量 基于再生栅格数据的矢量化方法
地理信息系统原理与应用 1. 数据格式的转换 栅格转矢量 基于再生栅格数据的矢量化方法 再生栅格数据是根据弧段数据或多边形数据生成的栅格数据。 同样也可以利用针对扫描图像的转换方法,只是不需要“二值化”的步骤。最根本的区别是属性数据的转换。在扫描图中,只有空间数据信息,没有属性信息,通常需要在空间数据转换结束后由人工给定每一矢量数据的属性。再生栅格数据的各格网是带属性值的。一种可行的方法是根据属性值先将栅格数据分层,再分别转换,经空间拓扑关系建立后自动赋予属性值。 102
103
§4.4 海洋数据重构 栅格转矢量 基于再生栅格数据的矢量化方法
地理信息系统原理与应用 栅格转矢量 基于再生栅格数据的矢量化方法 对栅格数据按行扫描,找出位于各类型边界的栅格单元,并将边界内部具有值或同质的栅格单元以一种显著不同的符号进行填充,产生只记录类型边界栅格值的文件。 建立对类型边界栅格单元的追踪算法,寻找同质区的闭合界线,同时计算其坐标,并整理成有序的坐标数组。 最后,处理相邻类型的公共边界,将按区域单元建立的数据结构转换为按线段链建立的数据结构,以便实现任意区域或类型数据的提取、综合、分析和制图输出。 103
104
§4.4 海洋数据重构 地理信息系统原理与应用 栅格转矢量 双边界搜索算法 基本思想是通过边界提取,将左右多边形信息保存在边界点上,每条边界弧段由两个并行的边界链组成,分别记录该边界弧段的左右多边形编号。 (1)边界点和结点提取 (2)边界线搜索与左右多边形信息记录 (3)多余点去除 104
105
§4.4 海洋数据重构 地理信息系统原理与应用 栅格转矢量 相对而言,由栅格数据结构向矢量数据转换要复杂得多。对于一些在外形上与矢量数据相差较大的图形,其转换就更加困难,甚至有可能无法转换。 105
106
§4.4 海洋数据重构 地理信息系统原理与应用 栅格转矢量 106
107
§4.4 海洋数据重构 原始栅格数据 根据栅格数据自动绘制的地标类型图。 1.平地 2.岗丘 3.丘陵 4.低山 5.中山 107
地理信息系统原理与应用 根据栅格数据自动绘制的地标类型图。 1.平地 2.岗丘 3.丘陵 4.低山 5.中山 原始栅格数据 107
108
§4.4 海洋数据重构 栅格转矢量 转换步骤 (1)多边形边界提取:采用高通滤波将栅格图像二值化或以特殊值标识边界点;
地理信息系统原理与应用 栅格转矢量 转换步骤 (1)多边形边界提取:采用高通滤波将栅格图像二值化或以特殊值标识边界点; (2)边界线追踪:对每个边界弧段由一个结点向另一个结点搜索,通常对每个已知边界点需沿除了进入方向的其他7个方向搜索下一个边界点,直到连成边界弧段; (3)拓扑关系生成:对于矢量表示的边界弧段数据,判断其与原图上各多边形的空间关系,以形成完整的拓扑结构并建立与属性数据的联系; (4)去除多余点及曲线圆滑:由于搜索是逐个栅格进行的,必须去除由此造成的多余点记录,以减少数据冗余;搜索结果,曲线由于栅格精度的限制可能不够圆滑,需采用一定的插补算法进行光滑处理。 108
109
§4.4 海洋数据重构 2. 空间数据的压缩和综合 问题的提出 简化数据记录 节约存储量 数据压缩的概念
地理信息系统原理与应用 2. 空间数据的压缩和综合 问题的提出 简化数据记录 节约存储量 数据压缩的概念 指从所取得的数据集合S中抽出一个子集A,这个子集作为一个新的信息源,在规定的精度范围内最好地逼近原集合,而又取得尽可能大的压缩比。 数据压缩的方法:特征点筛选 109
110
§4.4 海洋数据重构 2. 空间数据的压缩和综合 曲线上点的压缩 间隔取点法 垂距法:优点是算法简单、速度快,其缺陷是易删去特征点
地理信息系统原理与应用 2. 空间数据的压缩和综合 曲线上点的压缩 间隔取点法 垂距法:优点是算法简单、速度快,其缺陷是易删去特征点 Douglas-Peucker法:由远到近,找与矢量两端点连线的垂足最大的顶点,判断其是否满足要求 110
111
§4.4 海洋数据重构 2. 空间数据的压缩和综合 面域栅格数据的压缩 通过不同的编码方式来达到数据压缩的目的
地理信息系统原理与应用 2. 空间数据的压缩和综合 面域栅格数据的压缩 通过不同的编码方式来达到数据压缩的目的 不同的压缩编码方式,其压缩比是不同的,主要取决于所研究对象几何形状的复杂性 栅格数据重采样 MMU:最小制图单位 1MMU = 9公顷 1MMU = 1公顷 111
112
§4.4 海洋数据重构 地理信息系统原理与应用 空间数据综合 空间数据的综合是针对存贮在GIS数据库中的数据因属性数据的重新分类而进行的操作。数据综合的另一个作用就是能实现数据压缩 空间数据的综合内容包括重新分类、图形简化和图形特征的内插等 数据综合的过程:换码、重新分类、删除邻界线(同码邻接分析)、合并相同属性。 112
113
§4.4 海洋数据重构 地理信息系统原理与应用 空间数据综合 面域邻接线段的删除,是由于数据属性的重新分类和空间图形的化简而伴随需要的一种数据压缩形式。其过程如图所示。 数据综合过程 113
114
§4.4 海洋数据重构 地理信息系统原理与应用 空间数据综合 面域之间界线的自动删除,可以通过构成每一面域的线段链,删除其中共同的线段,然后重新建立合并多边形的线段链表。其算法过程如下图所示。 114
115
§4.4 海洋数据重构 地理信息系统原理与应用 空间数据综合 空间数据的综合是针对存贮在GIS数据库中的数据因属性数据的重新分类而进行的操作。数据综合的另一个作用就是能实现数据压缩 空间数据的综合内容包括重新分类、图形简化和图形特征的内插等 数据综合的过程:换码、重新分类、删除邻界线(同码邻接分析)、合并相同属性。 115
116
第四章 海洋数据的处理和集成 地理信息系统原理与应用 §4.5 空间插值 116
117
§4.5 空间插值 地理信息系统原理与应用 空间插值 空间插值:空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较,它包括了空间内插和外推两种算法。空间内插算法:通过已知点的数据推求同一区域未知点数据。空间外推算法:通过已知区域的数据,推求其它区域数据。 117
118
§4.5 空间插值 地理信息系统原理与应用 空间插值分类 整体插值和局部插值; 确定性插值和地统计插值; 精确插值和近似插值。 118
119
§4.5 空间插值 整体插值和局部插值 整体插值:用研究区所有采样点数据进行全区特征拟合。
地理信息系统原理与应用 整体插值和局部插值 整体插值:用研究区所有采样点数据进行全区特征拟合。 整个区域的数据都会影响单个插值点,单个数据点变量值的增加、减少或者删除,都对整个区域有影响。 典型例子是:全局趋势面分析 、Fourier Series(周期序列) 119
120
§4.5 空间插值 整体插值和局部插值 局部内插法只使用邻近的数据点来估计未知点的值,步骤如下: 定义一个邻域或搜索范围;
地理信息系统原理与应用 整体插值和局部插值 局部内插法只使用邻近的数据点来估计未知点的值,步骤如下: 定义一个邻域或搜索范围; 搜索落在此邻域范围的数据点; 选择能表达这有限个点空间变化的数学函数; 为未知的数据点赋值。 局部内插方法: 样条函数插值法 距离倒数插值 Kriging插值(空间自由协方差最佳内插) 单个数据点的改变只影响其周围有限的数据点。 120
121
§4.5 空间插值 确定性插值和地统计插值 确定性插值:基于未知点周围点的值和特定的数学公式,来直接产生平滑的曲面。
地理信息系统原理与应用 确定性插值和地统计插值 确定性插值:基于未知点周围点的值和特定的数学公式,来直接产生平滑的曲面。 地统计插值:基于自相关性 (测量点的统计关系),根据测量数据的统计特征产生曲面;由于建立在统计学的基础上,因此不仅可以产生预测曲面,而且可以产生误差和不确定性曲面,用来评估预测结果的好坏。 121
122
§4.5 空间插值 精确插值和近似插值 精确插值:产生通过所有观测点的曲面。在精确插值中,插值点落在观测点上,内插值等于估计值。
地理信息系统原理与应用 精确插值和近似插值 精确插值:产生通过所有观测点的曲面。在精确插值中,插值点落在观测点上,内插值等于估计值。 近似插值:插值产生的曲面不通过所有观测点。当数据存在不确定性时,应该使用近似插值,由于估计值替代了已知变量值,近似插值可以平滑采样误差。 122
123
§4.5 空间插值 插值方法 最近邻法(Nearest Neighbor) 算术平均值(Arithmetic Mean)
地理信息系统原理与应用 插值方法 最近邻法(Nearest Neighbor) 算术平均值(Arithmetic Mean) 距离反比法(Inverse Distance) 高次曲面插值(Multiquadric) 趋势面插值(Polynomial) 最优插值(Optimal) 样条插值(Spline Surface) 径向基函数插值(Radial Basis Functions) 克里金插值(Kriging) 123
124
§4.5 空间插值 1.最近邻法 最近邻点法又叫泰森多边形方法。它采用一种极端的边界内插方法—只用最近的单个点进行区域插值(区域赋值)。
地理信息系统原理与应用 1.最近邻法 最近邻点法又叫泰森多边形方法。它采用一种极端的边界内插方法—只用最近的单个点进行区域插值(区域赋值)。 泰森多边形按数据点位置将区域分割成子区域,每个子区域包含一个数据点,各子区域到其内数据点的距离小于任何到其它数据点的距离,并用其内数据点进行赋值。 124
125
§4.5 空间插值 地理信息系统原理与应用 125
126
§4.5 空间插值 最近邻法评价 特征:用泰森多边形插值方法得到的结果图变化只发生在边界上,在边界内都是均质的和无变化的;
地理信息系统原理与应用 最近邻法评价 特征:用泰森多边形插值方法得到的结果图变化只发生在边界上,在边界内都是均质的和无变化的; 适用于较小的区域内,变量空间变异性也不很明显的情况。符合人思维习惯,距离近的点比距离远的点更相似,对插值点的影响也更明显; 最近邻法插值的优点是不需其他前提条件,方法简单,效率 高; 缺点是受样本点的影响较大,只考虑距离因素,对其他空间 因素和变量所固有的某些规律没有过多地考虑。实际应用中, 效果常不十分理想。 126
127
§4.5 空间插值 地理信息系统原理与应用 2.算术平均值 算术平均值方法以区域内所有测值的平均值来估计插值点的变量值。 127
128
§4.5 空间插值 地理信息系统原理与应用 算术平均值评价 算术平均值的算法比较简单,容易实现。但只考虑算术平均,根本没有顾及其他的空间因素,这也是其一个致命的弱点,因而在实际应用中效果不理想。 128
129
§4.5 空间插值 地理信息系统原理与应用 3.距离反比法 距离反比插值方法最早由 Shepard 提出(Richard Franke,1982)提出的,并逐步得到发展。每个采样对插值结果的影响随距离增加而减弱,因此距目标点近的样点赋予的权重较大。 129
130
§4.5 空间插值 地理信息系统原理与应用 距离反比插值公式 权重系数 wj 的计算是关键问题,不同类型距离反比法的差别就是权重系数的计算公式不同,因而最后的插值结果也有细微的差别。 130
131
§4.5 空间插值 地理信息系统原理与应用 距离反比权重系数的确定 131
132
§4.5 空间插值 地理信息系统原理与应用 距离反比插值评价 优点——简便易行;可为变量值变化很大的数据集提供一个合理的插值结果;不会出现无意义的插值结果而无法解释。 不足——对权重函数的选择十分敏感;易受数据点 集群的影响,结果常出现一种孤立点数据明显高于 周围数据点的“鸭蛋”分布模式; 全局最大和最小变量值都散布于数据之中。 距离反比很少有预测的特点,内插得到的插值点数 据在样点数据取值范围内。 132
133
§4.5 空间插值 地理信息系统原理与应用 4.高次曲面插值 高次曲面插值由 Hardy 于1971年首先提出,随后应用于不同的学科。每个样点对插值点的影响都用样点坐标函数构成的圆锥表示,插值点的变量值是所有圆锥贡献值的总和(Caruso,1998)。插值数学表达式为: 其中ci 是样本点(xi,yi)的系数,dei是待估点(xe, ye)与样本点(xi, yi)的距离。 133
134
§4.5 空间插值 地理信息系统原理与应用 高次曲面插值评价 高次曲面插值根据变量值已知点和变量值未知点的坐标所构成的圆锥,进行插值,为从离散点构建一个连续的表面提供了一个比较优秀的插值方法。 由于在计算权重系数时需要已知点的距离矩阵及其逆矩阵,因而当数据点增多时,矩阵及其逆的求解都比较费时。 134
135
§4.5 空间插值 地理信息系统原理与应用 5.趋势面分析 通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反应地理要素的宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观区域,被认为是随机因素影响的结果。 趋势面分析的一个基本要求就是,所选择的趋势面模型应该是剩余值最小,而趋势值最大,这样拟合度精确度才能达到足够的准确性。 趋势面分析是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。 在数学上,拟合数学曲面要注意两个问题:一是数学曲面类型(数学表达式)的确定,二是拟合精度的确定。 135
136
§4.5 空间插值 趋势面方法的评价 优点:产生平滑的曲面;结果点很少通过原始数据点,只是对整个研究曲产生最佳拟合面;
地理信息系统原理与应用 趋势面方法的评价 优点:产生平滑的曲面;结果点很少通过原始数据点,只是对整个研究曲产生最佳拟合面; 缺点:高次多项式在数据区外围产生异常高值或低值。 136
137
§4.5 空间插值 地理信息系统原理与应用 6.最优插值 最优插值由Gandin首先发表,并应用在气象领域的“对象分析(Objective Analysis)”中,随后由世界气象组织(World Meteorological Organization)推荐使用。 此法假设观测变量域是二维随机过程的实现,此外,还认为未知变量值测点的变量值是它周围n个测点变量值的线性组合(Creutin,1982)。 137
138
§4.5 空间插值 地理信息系统原理与应用 最优插值数学表示式为: Ve 是待估点的变量值,Vj 是点 j(Xj, Yj) 的变量值,Wj 是点 j(Xj,Yj) 的权重系数。 上式的插值误差为: var[ ]表示误差方差。最优插值的权重系数,就是使插值误差的方差最小。 138
139
§4.5 空间插值 最优插值在计算前要求指定空间相关函数的模型及其参数,这可以由用户给出,或者给出必要的数据,由程序计算。 139
地理信息系统原理与应用 最优插值在计算前要求指定空间相关函数的模型及其参数,这可以由用户给出,或者给出必要的数据,由程序计算。 139
140
§4.5 空间插值 地理信息系统原理与应用 7.样条插值 样条插值的目标就是寻找一表面s(t),使它满足最优平滑原则,也就是说,利用样本点拟合光滑曲线,使其表面曲率最小。 相当于扭曲一个橡皮,使它通过所有样点,同时曲率最小。 样条函数是灵活曲线规的数学等式,为分段函数,一次拟合只有少数数据点配准,同时保证曲线段的连接处为平滑连续曲线。这就意味着样条函数可以修改曲线的某一段而不必重新计算整条曲线,插值速度快;保留了微地物特征,视觉上的满意效果。 140
141
§4.5 空间插值 地理信息系统原理与应用 7.样条插值 141
142
§4.5 空间插值 地理信息系统原理与应用 样条插值类型 规则样条插值:拟合的曲面光滑、渐变,可能超出采样点的范围。权重—在曲率最小化表达式中,定义曲面的3阶导权重,控制表面的平滑度。权重越大,曲面越光滑;权重必须大于或等于0,常取值为0, 0.001, 0.01,0.1, 0.5等。 张力样条:拟合的曲面不似前者那样光滑。权重:定义张力 的权重。该系数越大,拟合表面越粗糙。权重必须大于或等 于0,常取值为0, 1, 5,10等。 142
143
§4.5 空间插值 样条插值插值评价 不适用于在短距离内属性有较大变化的地区,否则估计结果偏大。
地理信息系统原理与应用 样条插值插值评价 不适用于在短距离内属性有较大变化的地区,否则估计结果偏大。 样条内插的误差不能直接估算,同时在实践中要解决的问题是样条块的定义以及如何在三维空间中将这些块拼成复杂曲面而又不至于引入原始曲面中所没有的异常现象等问题。 143
144
§4.5 空间插值 地理信息系统原理与应用 8.克里金插值 克里金插值由南非采矿工程师D.G.克里格(D. G. Krige)于1951年首次提出,故命名为“克里金”法,后经法国著名地理数学学家G. Matheron发展深化。 144
145
§4.5 空间插值 地理信息系统原理与应用 原理 理论假设:认为任何在空间连续变化的属性既不是完全随机,也不是完全确定的。任何变量的空间变化表现为三个主要成分的和:与恒定均值或趋势有关的结构性成分;与空间变化有关的随机变量,即区域性变量;与空间变化无关的随机噪声项或剩余误差项。 一旦结构性成分确定后,剩余的差异变化属于同质变化,不同位置之间的差异仅是距离的函数。 区域性变量的特点:随机性。即局部不规则的随机性质,可以进行统计推断。结构性。即存在某种空间自相关,可用某一数学函数来表示 145
146
§4.5 空间插值 半方差 半方差:定量描述区域性变化的第一步,它为空间插值、优化采样方案提供了有益信息。半方差的估算公式:
地理信息系统原理与应用 半方差 半方差:定量描述区域性变化的第一步,它为空间插值、优化采样方案提供了有益信息。半方差的估算公式: 半方差图: 拟合后半方差图的用途是确定局部内插需要的参数 146
147
§4.5 空间插值 å 计算标准差和半变率 对于31个样本对,可以计算标准差,假定均值为0,且为正态分布 + - h)] Z(xi
地理信息系统原理与应用 计算标准差和半变率 对于31个样本对,可以计算标准差,假定均值为0,且为正态分布 å = + - N(h) 1 i 2 h)] Z(xi [Z(xi) 2N(h) 50 100 147
148
§4.5 空间插值 地理信息系统原理与应用 lag size 的影响 148
149
§4.5 空间插值 地理信息系统原理与应用 各向异性 某个方向有更高的空间自相关性存在。 149
150
§4.5 空间插值 地理信息系统原理与应用 150
151
§4.5 空间插值 地理信息系统原理与应用 ArcGIS下的Kriging插值 151
152
Kriging IDW §4.5 空间插值 IDW vs. Kriging Kriging 产生似乎更自然的结果,避免异常值的产生;
地理信息系统原理与应用 IDW vs. Kriging Kriging Kriging 产生似乎更自然的结果,避免异常值的产生; 同时能给出标准误差。 IDW 152
153
第四章 海洋数据的处理和集成 地理信息系统原理与应用 §4.6 基于地理本体的多元海洋数据集成 153
154
§4.6 基于地理本体的多元海洋数据的集成 为什么数据集成
地理信息系统原理与应用 为什么数据集成 随着海洋科学的发展,我国保存了大量的海洋科学数据,这些数据涉及海洋科学的各个方面,比如海洋物理、海洋生物、海洋化学、海洋气象等许多研究领域。然而由于海洋数据的采集的设备不同、信息处理的平台不同、数据标准不一致、数据存储的格式也不同、研究目的的不同,这些海洋数据成为异构数据,兼容性、可比性差、利用率低,这造成了海洋信息的极大浪费。所以为了解决这一问题,人们开始关注数据集成的研究。 张峰的硕士论文.基于本体的海洋数据集成方法研究 154
155
§4.6 基于地理本体的多元海洋数据的集成 数据集成目的
地理信息系统原理与应用 数据集成目的 数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。 异构数据集成的目的就是提供一个统一的查询接口,屏蔽底层数据源的不同,使得用户不必再考虑底层数据模型不同、位置不同等问题,能够通过一个统一的查询界面实现对网络上异构数据源的灵活访问。用户只需要指定想要得到的数据要求,而不必关注数据的抽取,数据的合成等问题。 155
156
§4.6 基于地理本体的多元海洋数据的集成 异构数据概念
地理信息系统原理与应用 异构数据概念 异构大致可分为四类:系统、语法、结构和语义。其中系统异构包括硬件和操作系统,例如,硬件、系统软件(如操作系统)和通信系统之间的差异。语法异构包括不同的语言和数据表示:结构异构包括不同的数据类型。 语义是指数据所代表的概念的含义,以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示;特别地,在计算机领域中,语义是指用户对于那些用来描述现实世界的计算机表示的解释,即用户用来联系计算机表示和现实世界的途径。 156
157
§4.6 基于地理本体的多元海洋数据的集成 异构数据的概念
地理信息系统原理与应用 异构数据的概念 因此语义异构指在一定领域内专用的词汇意义的共享和交流,由于不同团体对一定领域事物的认识和表达不同,来自不同数据源关于一定领域的词汇描述存在着冲突,即横向差异;即使是同一团体,随着时间变化,由于知识水平得提高或其它原因,对一定领域事物的认识也会有所变化,从而导致在不同时间产生的关于一定领域词汇描述不一致,即纵向差异。语义异构包括用户信息请求的语义异构和数据源的语义异构。 157
158
§4.6 基于地理本体的多元海洋数据的集成 异构数据的概念 这些语义异构主要表现在 : 不同的信息源使用多种术语(词汇)表示同一概念;
地理信息系统原理与应用 异构数据的概念 这些语义异构主要表现在 : 不同的信息源使用多种术语(词汇)表示同一概念; 同一概念在不同的信息源表达不同的含义; 各信息源使用不同的结构来表示相同(或相似)的信息; 各信息源中的概念之间是存在各种联系,但因为各信息源的分布自治性,这种隐含的关系不能显示出来。 158
159
§4.6 基于地理本体的多元海洋数据的集成 异构数据的概念 海洋领域存在着大量的语义异构现象。造成语义异构的因素主要有:
地理信息系统原理与应用 异构数据的概念 海洋领域存在着大量的语义异构现象。造成语义异构的因素主要有: 海洋科学相对其他科学研究起步较晚,很多概念、公理、公式等还没得到业界的广泛认可和统一; 海洋科学具有明显的区域性特征,即使是同一区域,海洋、水文、化学要素及生物分布也是互相各异、多层次性的,适用的海洋规律也是不全一致; 不同的信息源可能使用多种术语(词汇)表示同一概念,同一概念也有可能在不同的信息源中表达不同的含义,而且各信息源也可能使用不同的结构来表示相同(或相似)的信息; 各信息源中的概念之间是存在着各种联系,但因为各信息源的分布自治性,这种隐含的联系不能体现出来。对于语义异构问题的解决,用本体的方法基于本体的海洋数据集成方法研究己逐渐成为共识,并在国内外己有了许多成功的实验和实践。 159
160
§4.6 基于地理本体的多元海洋数据的集成 国内外数据集成的研究现状
地理信息系统原理与应用 国内外数据集成的研究现状 信息集成技术的研究始于七十年代中期,至今己有二十多年,从一开始的多数据库集成发展到现在的异构数据源集成,它的范围和作用都在不断扩大。研究者己提出了很多信息集成的体系结构和实现方案,然而这些方法研究的主要集成对象是传统的异构数据库系统。AnlitP.Setht认为数据源集成的发展可以分为三个阶段: 1)70年代一80年代中期:出现的主要技术有多数据库系统和联邦数据库系统,使具有不同软硬件设备的计算机系统进行互连和通信,解决了一定程度上的语法和结构异构。 160
161
§4.6 基于地理本体的多元海洋数据的集成 国内外数据集成的研究现状
地理信息系统原理与应用 国内外数据集成的研究现状 2)80年代中期一90年代中期:随着网络的出现、Internet的发展及多重类型的数据的形成(结构化数据库、半结构化数据库、数字多媒体等),出现了支持多种类型的异构数据集成技术,如中间件技术等。 3)90年代中期一现在:这个阶段比较关注信息源集成过程中的语义异构的解决问题,更多的运用知识领域的有关技术如本体等来解决数据集成中的各种语义不一致问题,主要有信息的智能集成、数字化图书馆等。 161
162
§4.6 基于地理本体的多元海洋数据的集成 国内外数据集成的研究现状
地理信息系统原理与应用 国内外数据集成的研究现状 国内对本体论的研究已有若干年,主要有信息检索、产品信息建模、虚拟企业建模、常识知识库等方面,如中国科学院计算技术研究所大规模知识系统的研究、中国科学院数学研究所常识知识库的研究、浙江大学人工智能研究所基于本体论的产品信息集成研究等。在文献中张凯等在《基于本体集成的资源共享平台》中把本体作为知识共享基于本体的海洋数据集成方法研究的工具,提出了一个基于本体集成的资源共享平台实现方法,并且在其中对本体集成过程中的不一致检查、处理问题和概念层次统一的问题进行了讨论。 162
163
§4.6 基于地理本体的多元海洋数据的集成 国内外数据集成的研究现状
邓志鸿等在文献((面向语义集成一本体在Web信息集成中的研究进展》中提出了一种本体在Web信息集成中一种简单的体系结构。另外少数学者在地理信息方面开展了一些探索性的思考和研究,发表了一些论文。比如,地理信息本体论(孙敏,陈秀万,张飞州,2003),基于Ontology的空间知识查询方法及其应用(王敬贵,苏奋振,杜云艳等,2004),用地理本体实现地理信息互操作(崔巍,2004),基于本体和Web技术的地理信息系统集成研究(崔巍,2004)等。 地理信息系统原理与应用 163
164
§4.6 基于地理本体的多元海洋数据的集成 本体的概念
地理信息系统原理与应用 本体的概念 本体论(Ontology)是一个哲学概念,最早出现于16世纪后期,由德国经院学者郭克兰纽(1547一1628)在其著作中第一次提出和使用了ontology一词(桑新民,1993)。Ontology来源于希腊文ont和ology,前者是“存在”的意思,等于英文的“being”一词,后者是“科学”或“学问”的意思,因此ontology就是指关于“存在”的科学,即关于“存在”本质 (the nature of being)的哲学理论研究,是对客观存在的一个系统解释或说明,关心的是客观现实的抽象本质,属于形而上学理论(metaphysics)的分支,与认识论(即epistemology)和方法论(methodology)共同构成哲学的三大基本问题。 164
165
§4.6 基于地理本体的多元海洋数据的集成 本体的概念
地理信息系统原理与应用 本体的概念 作为计算机或信息科学领域的专业术语,本体(ontology)一词最早由人工智能界引入。Neches等(1991)最早在A1领域使用“本体”这个术语,并将本体定义为“构成某个问题领域词汇的基本术语和关系以及组合这些术语和关系以规定词汇外延的各种规则”。Gruber是将本体方法用于信息科学的先锋之一,他将本体定义为“概念模型(Conceptualization)明确的规范说明”(Gruber, 1993) ,经过十多年的讨论,目前计算机学界对什么是本体还存在分歧,但大多数学者普遍认可了Gruber的定义。但也有学者认为Gruber的定义过于宽泛以至不利于实际应用,因此Borst在其博士论文中强调概念模型必须是公共认可的和形式化的,这样有利于本体的共享和重用及计算机处理,并将本体定义为“共享概念模型的形式化规范说明”(Borst,1997)。Studer等在对本体做了深入研究后,综合了上述两个定义的优点,提出了一个被广泛接受的定义,即“本体是共享概念模型的明确的形式化规范说明”。 165
166
§4.6 基于地理本体的多元海洋数据的集成 本体的概念 该定义包括四层含义:概念模型、明确、形式化、共享。
地理信息系统原理与应用 本体的概念 该定义包括四层含义:概念模型、明确、形式化、共享。 “概念模型”指客观世界的现象的抽象模型。通过抽象出客观世界中的一些现象的相关概念得到的模型。其含义独立于具体的环境状态。 “明确”指概念及它们之间的联系都被精确定义。所使用的概念及使用这些基于本体的海洋数据集成方法研究概念的约束都有明确的定义。 “形式化”精确的数学描述,指本体是计算机可读的,即能被计算机处理。 “共享”本体中反映的知识是其使用者共同认可的。指本体体现的是共同认可的知识,反映的是相关领域中公认的概念集,针对的是社会范畴而非个体之间的共识。 166
167
§4.6 基于地理本体的多元海洋数据的集成 本体的分类
地理信息系统原理与应用 本体的分类 为了对本体进行有效的分类,Guarino在文献中提出以详细程度和领域依赖度两个维度作为对本体划分的基础。详细程度是相对的、较模糊的一个概念,指描述或刻画建模对象的程度。详细程度高的称作参考本体,详细程度低的称为共享本体。 依照领域依赖程度,可以细分为顶级、领域、任务和应用等4类 顶级本体:描述的是最普遍的概念及其概念之间的关系,如空间、时间、行为、事件等,与具体的应用无关,其它的本体均为其特例。 领域本体:描述的特定领域(海洋、机械等)中的概念及概念之间的关系。 任务本体:描述的是特定任务或行为中的概念及概念之间的关系。 应用本体:描述的是依赖于特定领域和任务的概念和概念之间的关系。 167
168
§4.6 基于地理本体的多元海洋数据的集成 本体解决语义异构的优势
地理信息系统原理与应用 本体解决语义异构的优势 本体解决数据集成中语义异构的优势在于:本体通过概念或类的明确说明,可以避免术语使用上的混乱和歧义,因而可以解决认知和命名这两种语义异质性 (杜云艳,2005)。通过综合各局部DBMS所建立的不同应用本体来建立一个定义良好的领域本体,由此产生全局概念模式,即建立了一个丰富的、预定义的词汇库,可以作为与数据源的稳定的概念接口,并独立于数据模式,从而实现异构系统的语义互操作。它通过对概念的严格定义和概念之间的关系来确定概念的精确含义,从一个概念出发可以根据一系列的规则推导出另一个概念,从而能够表示共同认可的、可共享的知识,使不同的数据源或不同的用户达成一致,实现数据的集成和共享。 168
169
§4.6 基于地理本体的多元海洋数据的集成 本体解决语义异构的优势
地理信息系统原理与应用 本体解决语义异构的优势 在数据库领域里,可以把“本体”看成是对局部领域的概念描述和相互关系的一种规范。现有一些传统方法都很难对异构数据在语义上的差异进行较好的解决。而本体通过建立某个领域的知识体系结构,对领域内的概念、规范、规则进行详细而显式的说明,可以屏蔽底层数据在语义上的差别。因此本体在信息集成中主要起“知识库”的作用,一个本体域可以为一群用户设计一个一致的存储结构,通过数据匹配机制达到实例化。此时并不要求数据源的数据结构和本体库结构的一致性。在数据集成过程中,抽取了不同数据源的元数据方案后,集成处理程序可以通过与本体知识库的交互,实现对元数据概念中语义信息的辨别和联系。 169
170
§4.6 基于地理本体的多元海洋数据的集成 本体解决语义异构的优势
地理信息系统原理与应用 本体解决语义异构的优势 另外,本体也有利于提高数据的查全率与查准率。传统数据库的查询大多基于关键字的匹配技术,主要借助于目录、索引和关键字技术。这样的方法虽然简单、灵活,但具有一定的缺点。由于许多用户并不知道数据库的内部结构,并且对领域知识的表达可能不够完备,因此他们对查询关键字的定义往基于本体的海洋数据集成方法研究往不够精确,得到的结果也不尽如人意。 170
171
§4.6 基于地理本体的多元海洋数据的集成 本体解决语义异构的优势
地理信息系统原理与应用 本体解决语义异构的优势 另外,关键字的匹配并不是词义的匹配。尤其是汉语词义的多样性,使得一词多义和多词一义的现象非常普遍,如“计算机”与“电脑”、“挖掘”在工业与人工智能界的不同含义等。这也造成了查询得到的结果集常常包含很多无用的数据,而真正相关的数据却没有呈现出来。而同一领域中不同概念往往具有联系性,这些在数据库中是难以表示的,因此“词汇孤岛”现象也降低了查询的准确率。引入本体概念后,对专业的知识体系可以进行明确的定义,也为查询条件增加了语义内容,因此,使数据查询具有了一定的智能程度,有效地提高了查询的精度与广度。 171
172
§4.6 基于地理本体的多元海洋数据的集成 本体集成方法 1.单一本体方式:单一本体信息系统集成,是多个数据源共用一个全局本体。
地理信息系统原理与应用 本体集成方法 1.单一本体方式:单一本体信息系统集成,是多个数据源共用一个全局本体。 单一本体信息系统集成,是多个数据源共用一个全局本体。所有的数据源都与这个全局本体关联。使用这种类型本体集成的方式的显著实例是SIMS。应用程序领域的SIMS模型包括一个分等级的术语知识库,其中用端点表示对象、行为和状态。必须描述系统中的每个数据源的独立模型,将每个数据源的对象与全局领域模型关联。关联关系声明了源对象的语义并帮助找到语义上相对应的对象。 172
173
§4.6 基于地理本体的多元海洋数据的集成 本体集成方法
地理信息系统原理与应用 本体集成方法 这种集成方法简单,但该方法规定所有需要集成的数据源都要提供几乎相同的领域视图。如果有一个数据源有不同的领域视图,要找到最小的本体将是十分困难的任务。由于数据源总是在变化中,对全局本体的改变及与其它数据源的映射产生了一定的影响。集成后系统对信息源的变化敏感,一个信息源变化会引起全局的改变,难以添加新的信息源。 173
174
§4.6 基于地理本体的多元海洋数据的集成 本体集成方法 2.多本体方式:多本体的信息系统集成,是不同信息源有自己本地的本体。
地理信息系统原理与应用 本体集成方法 2.多本体方式:多本体的信息系统集成,是不同信息源有自己本地的本体。 该方法的优点是各个本体彼此独立,单一本体的改变不会造成其他本体的改变,但由于不同本体各自完全独立地建立,彼此之间没有显式联系,难于有效地集成系统; 多本体方法中每个数据源都由各自的本体进行描述,并且提供本体之间映射的附加表示形式。利用多本体方法的实例有BOSERVER和SKC系统,由于本体都使用各自的词汇库,数据源的语义就是由不同的本体进行描述,可以很容易的增加/删除数据源。 174
175
§4.6 基于地理本体的多元海洋数据的集成 本体集成方法
地理信息系统原理与应用 本体集成方法 方法在开发每个源本体时都不需要考虑其它的数据源或这些数据源的本体,也就是不需要一个统一所有源的公关本体。这种结构可以使数据源的改变对集成过程的影响减少,但缺乏公共词汇库会使比较不同的源本体变的困难。当本体数量很大时,要形成和存储两两本体间的内部映射关系,是非常庞大的任务。 175
176
§4.6 基于地理本体的多元海洋数据的集成 3.混合方式
地理信息系统原理与应用 3.混合方式 混合方式保留了上面两种方式的优点,克服了缺点。一方面,不同的用户团体建立本地的本体与各自数据源相连,避免了局部结构改变对全局的影响:另一方面,在各个本地本体之上,存在一个共享的本体,该本体的概念被各个本体认可并作为构造本地本体的基础,使不同数据源的集成相对容易。 176
177
§4.6 基于地理本体的多元海洋数据的集成 本体集成方法
地理信息系统原理与应用 本体集成方法 混合方法是前面两种方法的综合。领域中有一个公共本体来描述共享词汇库,每个数据源都根据这个全局共享的词汇库来建立描述自身语义的局部本体,这样局部本体之间就具有可比性。混合方法可以容易的增加新源,而不需要修改映射或者共享词汇库,同时也支持本体的获取和进化。但是由于所有的局部本体都必须指向共享词汇库,所以已存本体的重用不太容易。混合方法综合了前两者的优点,在面向语义的信息集成中得到广泛应用。如BUSTER系统Ittl就是采用混合本体的部署结构。从上述基于本体的信息集成技术分析可知,混合方法易于本体的进化和维护,最适于处理语义集成问题。 177
178
§4.6 基于地理本体的多元海洋数据的集成 数据集成的步骤 1.本体构建 构建本体的规则
地理信息系统原理与应用 数据集成的步骤 1.本体构建 构建本体的规则 明确性和客观性:本体应该有效的说明所定义术语的内涵,即能用白然语言对所定义的术语给出明确、客观的语义定义,其中明确是指本体中所有的术语和关系都有明朗确定的定义,客观是指本体独立于背景而存在。 完全性:所给出的定义是尽可能完整的,完全能表达所描述的术语的含义。 一致性:本体应该具有前后一致性,即由术语推理得出的推论应与术语本身的含义是相容的,不会产生矛盾,如果从一组公理推理出来的一个结论与一个非形式化的定义或实例有矛盾,那么该本体就是不一致的。 最大单调可扩展性:本体应该可以为后期可预见的一些任务提供概念基础,使得本体建立使用后再向本体中添加通用或专用的术语时,不需要修改己有的内容。 最小承诺:构建本体时本体的承诺应该最小,只需要满足特定的共享需求即可,让以后的共享者能按照各自的需求进行实例化和专门化所以在对待建模对象时应给出尽可能少的约束,一般可通过只指定约束最弱的公理和定义最基本的术语来实现本体的最小承诺。 178
179
§4.6 基于地理本体的多元海洋数据的集成 1.本体构建 本体构建方法:
地理信息系统原理与应用 1.本体构建 本体构建方法: 骨架法步骤:(1)确定本体应用的目的和范围。该阶段需要确定建立本体的目的和范围。 (2)建设本体。该阶段分为以下几个步骤:a.本体捕获。该阶段包括:识别相关领域中关键概念和关系:产生概念和关系的精确无二义的文本定义;识别那些用来表达这些概念和关系的术语;在以上二点上达成一致。b.本体编码。该阶段是利用某种形式化语言显式地表现上个阶段的概念化成果。涉及到:作为元本体的基本术语的确定:选择一种表现语一言(能够支持元本体);编码。c.本体集成。该阶段要合成来自其它领域的概念和术语。 (3)评价。建立本体的评价标准是清晰性、一致性、完善性、可扩展性。(4)文档化。这些文档应该包括本体中定义的主要概念、元本体等。某些编辑器可以白动生成这些文档。目前很多知识库和本体缺少文档也是一种知识共享的障碍。 179
180
§4.6 基于地理本体的多元海洋数据的集成 1.本体构建 METHONTOLOGY方法步骤:
地理信息系统原理与应用 1.本体构建 METHONTOLOGY方法步骤: (1)规格说明书:该阶段要产生一份以自然语言编写的非形式化的、半形式化的、或者形式化的本体规格说明书。至少包括以卜信息:本体的目的(预期的用途、场景和最终用户等)、实现本体的形式化程度、范围(包括要表达的术语集、它们的特性和粒度)。 (2)知识获取:知识的来源很多,可以是专家、书籍、手册、数字、表格、甚至是其他的本体。从这些数据源获得知识的技术包括头脑风暴法、访谈、文本的形式化或非形式化的分析和一些知识获取工具。 (3)概念化:将获得的领域知识组织成概念模型,用规格说明书中明确的领域词汇表描述问题和解决方案。生成的概念模型允许最终用户确定一个本体是否可用,并且对于某个给定应用不需要查看源代码就是可用的;比较多个本体的范围、完整性、可重用性、共享性。 (4)集成:重用其他本体中已经建好的定义时,可以通过查看元本体来选择适合自己概念模型的,也可以选择和白己概念模型中的语义和实现一致的术语定义; 180
181
§4.6 基于地理本体的多元海洋数据的集成 METHONTOLOGY方法步骤:
地理信息系统原理与应用 METHONTOLOGY方法步骤: (5)实现:用任何一种形式化的语言编码实现本体。需要一套开发环境的支持,至少包括词法和语法分析器、翻译器、编辑器、浏览器、搜索器、评价器、白动维护工具。 (6)评价:评价是指在本体生命周期的每个阶段和阶段之间,利用某种参考框架对本体、软件环境、文档进行技术判断。评价包括正确性(verification)和有效性 (validation)。 (7)文档化:在本体建设的每个阶段都应该有对应的文档。 181
182
§4.6 基于地理本体的多元海洋数据的集成 2.本体映射
地理信息系统原理与应用 2.本体映射 不同的数据源对应不同的本体,它们之间的信息共享或者数据交换只能通过本体之间的映射来实现。解决语义异构问题必须要定义本体与本体之间,本体与数据源之间的映射,从而可以实现语义互操作。Kent曾在中提出,实现基于本体的海洋数据集成方法研究语义互操作的主要方法是“将其分解成一系列的映射和集成问题”。本体映射的目的就是找到本体中概念之间的对应关系,并制定出相应的映射规则。 本体映射:是指有两个本体A,B,对于A中的每个概念我们试图在概念B中为它找到一个语义相同或相近的对应概念,对于概念B中的每个概念或结点亦是如此。正如同有的本体定义考虑实例而有的不把实例作为本体的一部分一样,有的文献把实例的转换作为映射过程的一部分,如:两个本体存在概念级的语义关联,按照这些语义关系把源本体实例转换为目标本体实例的过程就是本体映射。本体映射并不是要统一本体和数据的表达,而是根据概念级的语义关系实现实例的转换。 182
183
§4.6 基于地理本体的多元海洋数据的集成 本体映射的过程:
地理信息系统原理与应用 本体映射的过程: (1)范化:这一步把待映射的本体用同一种语言表示,“同一种语言的知识才能共享”,在进行映射前应该规范本体的表示,把所有的数据映射到同一表示水平,解决语法、结构、语言的异构。基于本体的海洋数据集成方法研究 (2)相似度的计算:计算概念之间的语义相似度。其实,概念间的相似度很难计算,针对不同领域的本体有各自适用的计算方法。 (3)根据概念间的相似度,按照一定策略确定映射关系。 (4)根据领域约束领域专家对映射结果进行修正。 183
184
§4.6 基于地理本体的多元海洋数据的集成 本体映射方法
地理信息系统原理与应用 本体映射方法 (1)基于语法的方法,所谓基于语法的方法,是指进行概念相似度计算时没有考虑概念的语义的映射方法,常用的有计算概念名的编辑距离和两个结点间的基距离 。 (2)基于概念实例的方法,该方法是指在进行本体映射时利用概念的实例作为计算概念间相似度的依据。典型的如华盛顿大学的GLUE系统。华盛顿大学的 AnHain等提出了一种在语义web环境下进行本体映射的方法。他们的GLUE系统通过机器学习对概念的实例进行分类,然后利用实例在概念中出现的联合分布概率来计算概念间的相似度并结合领域约束和启发知识确定映射关系。 (3)基于概念定义的方法,是指进行映射时主要参考了本体中概念的名称、描述、关系、约束等等。 184
185
§4.6 基于地理本体的多元海洋数据的集成 本体映射方法
地理信息系统原理与应用 本体映射方法 (4)基于概念结构的方法,这里每种方法参照了本体定义的不同部分。如M.Andrea和 Max J.Egenhofer提出了一种利用概念定义计算概念间相似度的方法,这种方法的基本思想是,本体中概念由3个部分组成:表示概念的同义词集、概念的语义关系集、刻画概念的特征集,对这3个部分相应进行匹配比较来自不同本体的概念,得到3个相似度值:Sw,Sn,Su,然后3个值加权平均得到两个概念的语义相似度,进而确定他们间的映射关系。 (5)基于规则的方法,是指在本体映射中定义了一些启发式规则,如“如基于本体的海洋数据集成方法研究果这两个概念的子概念都相同,那么这两个概念是相似的”等等。这些启发式规则是由领域专家手工定义的。其实,这些的规则的抽取来自于概念的定义和结构信息。 (6)统计学的方法 (7)机器学习的方法。需要说明的是,每个映射方法往往是多种技术和多种参照对象的结合。 185
186
§4.6 基于地理本体的多元海洋数据的集成 3.本体查询
地理信息系统原理与应用 3.本体查询 基于本体的语义查询可以理解为对本体描述语言所描述信息的语义查询,我们所建立的数据集成系统,主要应用了RDF本体描述语言,全局RDF本体为用户提供了统一的查询接口。从数据模型的层次来考察RDF描述信息,RDF数据模型是有主题(subject)、谓词(predicate)和宾语(object)所组成的三元组集合。RDF数据模型是比XML更加抽象的数据模型。 186
187
§4.6 基于地理本体的多元海洋数据的集成 查询语言 1)RDQL
地理信息系统原理与应用 查询语言 1)RDQL RDQL是用来查询RDF模型的语言,RDF提供一种节点可以为资源或是文本的有向图,RDQL则提供一种方式,由用户定义一种图模式,使用这种模式对目标图集合进行匹配,获得所有符合定义模式的结果。RDQL使用类似SQL的句法,其中SELECT子句说明要返回的变量:From子句使用URI来指定RDF模型;Where子句利用三元组来描述查询的条;And子句指定布尔表达式;Using子句提供了一种简写uRIs的方式。 187
188
§4.6 基于地理本体的多元海洋数据的集成 查询语言 2)XQuery
地理信息系统原理与应用 查询语言 2)XQuery XQuery是一种从XML格式的文档中获取数据项的查询语言,每一个XQuery查询包括一个或多个查询表达式。FLWR表达式是XQuery比较常用的语法,它看上去和SQL的select语句类似,并且具有相似的功能,FLWR代表“For-Let-Where-Return”,它包含了四个子句。For子句通过将节点绑定到变量,以便继续去循环遍历序列中的每一个节点;Let子句为一个变量赋一个值或一个序列;Return子句定义每个元组要返回的内容:对于Where子句,如果其有效布尔值为真,那么该元组就被保留,并且它的变量绑定用在Return子句中,如果其有效布尔值为假,那么该元组就被废弃。 188
189
§4.6 基于地理本体的多元海洋数据的集成 查询语言 3)SPARQL查询语言
地理信息系统原理与应用 查询语言 3)SPARQL查询语言 SRARQL查询语言通过图形模式 (Graph Pattern)匹配实现查询功能。最简单的图形模式是三元组模式,一个三元组模式与RDF的三元组类似,不同的是三元组模式允许查询变量出现在主体、谓词或者客体的位置上,三元组模式合并形成一个基本的图形模式。三元组模式和图的匹配过程并不复杂:绑定查询变量和RDF词汇,将变量替换成相应的RDF词汇,这样就得到了一个成功匹配的图的三元组。在WWW2006发言时,TimBL也已经表示,随着SPARQL查询语言即将完成标准化,语义网已经具备了成功所需要的所有标准和技术,Web开发人员和内容创作人员可以开始使用这些语义语言了。 189
190
§4.6 基于地理本体的多元海洋数据的集成 查询过程
地理信息系统原理与应用 查询过程 (1)用户在应用层通过统一的用户界面提交一个操作请求,由用户接口负责翻译成本体查询语言形式,并将形式化的请求提交给中间层的查询处理组件进行处理。 (2)查询处理组件首先对查询请求进行解析,然后在全局本体中进行检索,根据全局本体和局部本体的映射关系将对全局本体的本体查询语言查询转换为对局部本体的本体查询语言查询,然后交给数据层。在这一步,要读入全局本体和局部本体的映射文件,根据预先定义好的全局本体和局部本体中的术语之间的映射关系,对针对全局本体的本体查询语言进行重写,直观上看就是用局部本体中的术语来替换全局本体中的相应的术语,从而将该查询分解为对各个相关局部本体的局部查询。 190
191
§4.6 基于地理本体的多元海洋数据的集成 查询过程
地理信息系统原理与应用 查询过程 (3)数据层的包装器接受来自中间层的查询,将对局部本体的查询转换为对数据源的SQL查询,并对数据源进行检索,最后将查询结果发送给结果收集器。在这里首先要根据局部本体中的术语与数据库中的具体表名,字段名之间的映射关系,将查询转换为对数据库的查询,关键是将针对owl的查询语言sparql表示的查询语句转换为对关系数据库的查询语句SQL。 (4)结果收集器将交过来的查询结果根据需要进行处理,如并操作等,提交到应用层。 (5)应用层接受结果,以统一视图呈现给用户,查询完成。 191
192
§4.6 基于地理本体的多元海洋数据的集成 地理信息系统原理与应用 基于本体的海洋数据集成设计例子 192
193
§4.6 基于地理本体的多元海洋数据的集成 地理信息系统原理与应用 193
194
§4.6 基于地理本体的多元海洋数据的集成 地理信息系统原理与应用 194
195
§4.6 基于地理本体的多元海洋数据的集成 地理信息系统原理与应用 195
Similar presentations