第三章 空间数据结构 1.地理空间数据及其特征 2.空间数据结构 3.矢量数据结构 4.栅格数据结构 5.两种表达方式的比较 6.曲面数据结构 7.空间数据组织 8、空间数据质量
空间数据的特点 Spatially related Scale Dynamics Can be assigned coordinates or any spatial reference. On the surface of the earth. Involves location and organization. Scale Can be from general to specific. Simple to complex. A satellite can generate one terabyte (1012 bytes) of information per day. Dynamics Spatial dynamics (variations in space). Temporal dynamics (variations in time). Coordinate system Scale Time 1 Time 2
1.1 地理实体的特征 地理实体的特征:地理特征可以分为空间特征和非空间(属性)特征两方面 地理空间数据及其特征 1.1 地理实体的特征 地理实体的特征:地理特征可以分为空间特征和非空间(属性)特征两方面 属性特征:用来描述事物或现象的特性,即说明“是什么”,如事物类别、等级、数量、名称等 空间特征:描述事物或现象的地理位置以及空间相互关系,又称几何特征和拓扑特征,如经纬度、中印接壤等 时间特征:描述事物或现象随时间的变化
相互间的关系(拓扑关系):物体间如何连在一起或物体如何在其它物体间移动 地理空间数据及其特征 1.2 空间数据的基本内容 地理特征可以分为空间特征和非空间特征两方面,表达地理特征的地理数据(空间数据)也相应分为空间特征数据与属性数据两部分,空间特征(feature)数据(位置、形状、空间关系等),也可以再分为几何数据与拓扑关系数据;而用属性(attribute)代表非空间特征(属性、时序等)。 一定坐标系中的位置 与位置有关的属性(岩性、地价、PH值) 相互间的关系(拓扑关系):物体间如何连在一起或物体如何在其它物体间移动
三个侧面
1.3 空间关系 地理空间数据及其特征 度量关系:空间对象之间的距离关系,一般用欧式距离表示 顺序关系:空间实体在空间上的的排列次序 拓扑关系:拓扑变换下保持不变的关系
地理空间数据及其特征 1.4 空间数据的拓扑关系 拓扑关系是不考虑度量(距离)和方向的空间物体之间的关系。在拓扑变换(理想橡皮板拉伸或缩短,但不能撕破或重叠)下两个以上拓扑元素间能够保持不变的几何属性——拓扑属性具有空间分析意义。 地理实体不仅具有空间位置、形状、大小等空间特征,而且不同实体间还存在邻接、关联、包含等空间相互关系特征,由于描述这种关系时不需要考虑空间坐标和距离因素,所以又称为拓扑关系
L+2=A+P,其中,P、L、A表示图上点、线、面的数目,在拓扑检验中经常使用。 地理空间数据及其特征 1.4 空间数据的拓扑关系 拓扑元素:结点、线(弧段)、面(多边形) 三个拓扑元素的关系符合欧拉公式: L+2=A+P,其中,P、L、A表示图上点、线、面的数目,在拓扑检验中经常使用。 拓扑关系类型 关联(连接):弧段在结点处的相互连接关系 包含:某些点、线、面对象被另外一个面对象所包含 邻接:共有公共边的两个区域之间的邻接关系
1.4.1 点、线、面之间的空间关系 地理空间数据及其特征 拓扑属性 非拓扑属性 一个点在一个弧段的端点 一个弧段是一个简单弧段 (自身不相交) 一个点在一个区域的边界上 一个点在一个区域的内部 一个点在一个区域的外部 一个点在一个环的内部 一个面是一个简单面 (面上没有岛) 一个面的连接性 (给定面上任意两点,从一点可以完 全在面的内部沿任意路径走向另一点) 非拓扑属性 两点之间的距离 一个点指向另一个点的方向 弧段的长度 一个区域的周长 一个区域的面积
1.4.2 空间关系的应用 地理空间数据及其特征 点—点 点—线 点—面 码头在海岸线上吗? 学校和住宅接近吗? 肺癌病在区内分布 肺癌病例 区域 码头 学校 码头在海岸线上吗? 学校和住宅接近吗? 肺癌病在区内分布
1.4.2 空间关系的应用 地理空间数据及其特征 线—点 线—线 线—面 镇 河流 小路 乘车线路 河流在区域内吗? 小路穿过河流吗? 这条线路过镇上吗?
1.4.2 空间关系的应用 地理空间数据及其特征 面—点 面—线 面—面 该邮政区包括学校吗? 该区域包括铁路吗? 区域彼此影响吗? 区域重叠吗?
不需要利用坐标或距离,可以确定空间实体的位置关系 地理空间数据及其特征 1.4.3 空间数据拓扑关系的意义 显然,含有拓扑关系的空间数据有利于GIS的拓扑查询和空间分析。ARCINFO是典型的以拓扑型数据结构组织空间数据的GIS软件,这也是为什么ARCINFO具有强大空间分析功能的原因。 不需要利用坐标或距离,可以确定空间实体的位置关系 利用拓扑关系便于空间要素的查询 根据拓扑关系可以重建地理实体,例如利用弧段构建多边形,最佳路径的选择的等。
2.空间数据结构 通常用两种数字化的方法可以表示地理空间信息,矢量数据和栅格数据两种表示形式。 2.1 基于矢量模型的数据结构 通过记录坐标的方式尽可能精确地表示地理实体,即地理实体的形状和位置是由一组所在的坐标参考系中坐标确定的。矢量数据结构是人们较为习惯的一种表示空间数据的方法 在GIS中,地理实体的空间特征首先抽象为点、线、面、体四种基本类型,而这些特征可以用颜色、符号、注记来区分,并由图例、图符和描述性文本来解释。
矢量结构 新 山 水 庫 108 218 165 89 111 道2 道 A1 道路 河流 地質 植被
2.空间数据结构 2.2 基于栅格模型的数据结构 栅格数据模型以一定方式把整个空间区域分成若干规则的格网区(通常是正方形)。格网的大小是预先设好的,每个栅格的大小代表定义的空间分辨率。这种用格网(像元)阵列方式表达图件的每一点的位置及其属性的数据表达方式,称为栅格格式(结构)。 地理实体的位置用它们占据的栅格行、列号来定义。栅格(网格)的大小取决于所需空间信息的精度,栅格的值代表该位置的状态。
栅格数据结构 Real world Value =0 =1 =2 =3 Grid Triangles Hexagons Point Line Column Value Row =0 =1 =2 =3 RASTER Grid Area Triangles Hexagons
栅格数据结构 SPOT XS 20m*20m 牡丹水庫 band G, R, IR 網格資料 關於衛星影像
3.矢量数据结构 3.1 矢量数据基本类型 3.2 矢量数据结构类型 3.2.1 简单数据结构 3.2.2 拓扑数据结构 3.3 ARC/INFO中的空间数据结构
(X,Y) (X2,Y2) (X3,Y3) (X4,Y4) (X5,Y5) Line Point Polygon
矢量数据结构特点与获取方法 特点:定位明显,属性隐含。 获取方法: (1) 手工数字化法; (2) 手扶跟踪数字化法; (3) 数据结构转换法。
3.1 矢量数据基本类型-点 点是点状物或者是可以用点(由单独一对坐标定位)的一切地理或制图实体,有特定的位置。图件的比例尺决定了能否把现实世界的现象表示为点特征。 它有可能是点状地物、面状地物的中心点、线状地物的交点、定位点、注记等。 例子:水基准点、建筑物、井、观测点、高程点
3.1 矢量数据基本类型-点 在GIS中点有几种类型。线的起点、终点、交点(三条以上坐标链的交汇点)、面的首尾点我们称之为结点(node),而线的中间部分称为中间点(角点vertex)。 实体点(Entity point):用来代表一个实体; 注记点(Text point):用于定位注记; 内点(Label point):用于记录多边形的属性,存在于多边形内; 结点(Node):表示线的终点和起点、交点; 中间点(角点,Vertex):表示线段和弧段的内部点。
3.1 矢量数据基本类型-线 线是对线状地物或地物运动轨迹的全部或部分的描述,可以定义为由直线元素组成的各种线性要素,直线元素由两对以上的坐标定义。最简单的线实体只存储它的起止点坐标、属性、显示符等有关数据。 线有方向,两个结点之间的线又叫弧段(arc)。弧段特征可用来定位和描述两点之间连线的地理信息。
3.1 矢量数据基本类型-线 由一系列坐标点表示,有以下特征: 实体长度:从起点到终点的总长; 弯曲度:用于表示象道路拐弯时弯曲的程度; 方向性:如水流从上游到下游,公路则有单双向之分; 线实体包括:线段、边界、链、网络、多边形线等。
3.1 矢量数据基本类型-面(多边形) 面(多边形polygon)是对面状地理实体的表示,由一个封闭的坐标点序列外加内点表示。但多边形矢量编码,不但要标识位置和属性,更重要的是表达拓扑特征,如形状、邻域和层次结构等。多边形由一条或一条以上首尾相连的弧段组成。一个弧段总是被两个而且只被两个多边形所共有。 复杂的多边形内可以有“岛(洞)”(一种特殊的弧段,这种弧段坐标链头尾相接,独立围成一个封闭的区域。弧段的端点总是结点,而岛弧段端点并非是三条或三条以上坐标链的交汇点,这种端点称为岛结点)。
3.1 矢量数据基本类型-面(多边形) 多边形有以下特征: 面积范围; 周长; 独立性或与其它地物相邻:如北京及周边省市; 内部区域 简单多边形 复杂多边形
3.2 矢量数据结构类型 3.2.1 简单数据结构(spaghetti):无拓扑关系的矢量模型。数据按照点、线、多边形为单元进行组织。数字化操作简单。 3.2.2 拓扑数据模型:分为双重独立式(DIME系统)和链状双重独立式。双重独立式是对网状要素(线状要素)和面状要素的任何一条线段,用其两端的结点及相邻面域予以定义;链状双重独立式还包含中间点。 优点:利用拓扑关系组织数据,便于进行有效地检查、检索、更新
3.2.1 简单数据结构:
3.2.2 拓扑数据结构
3.2.3如何选择适合的矢量数据结构 拓扑结构:是否需要拓扑结构? 应用目的 服务对象和系统数据结构 制图或一般查询,可不要拓扑结构 空间分析,则应建立拓扑关系 服务对象和系统数据结构 面状目标:面-弧、弧-面 网络目标:点-弧、弧-点
3.3ARCINFO中的拓扑结构思想 在两个简单的坐标要素——弧段与结点的基础上表示了附加的地理信息。如采用一组弧的列表定义多边形,利用弧的左右多变形内部顺序号定义区域的邻接性,结点的起点和终点则定义了弧的连通性 拓扑结构是地理要素存储的最高形式,通过存储某一要素相对于其它要素的位置信息,拓扑结构提供了许多地理分析的基础,并且节省了存储空间,避免重复检索,提高效率。如连通性、路程确定都可通过拓扑分析直接产生
Arc-node data structure(弧段和结点数据结构) 矢量数据结构 ARC/INFO中的拓扑结构 Arc-node data structure(弧段和结点数据结构) nodes are created where the lines intersect, arcs are created between the nodes, with vertices providing shape, and polygons are constructed from the arcs The arc-node data structure supports three major topological concepts: Connectivity: Arcs connect to each other at nodes Area definition: Arcs that connect to surround an area define a polygon Contiguity: Arcs have direction and left and right sides
ARC/INFO中的拓扑关系:Connectivity:连通性 Connectivity Arcs connect to each other at nodes ,allows you to identify a route to the airport or connect streams to rivers or follow a path from the water treatment plant to a house. 网络分析的基础
Arc-node topology is supported through an arc-node list Arc-node topology is supported through an arc-node list. The list identifies the from and to nodes for each arc. Connected arcs are determined by searching through the list for common node numbers. In the following example, it is possible to determine that arcs 1, 2, and 3 all intersect because they share node 11. The computer can determine that it is possible to travel along arc 1 and turn onto arc 3 because they share a common node (11), but it’s not possible to turn directly from arc 1 onto arc 5 because they don’t.
矢量数据结构 ARC/INFO中的拓扑结构 ARC/INFO中的拓扑关系: 多边形定义(Area definition) Area definition: Arcs that connect to surround an area define a polygon(多边形-弧段拓扑结构) 多边形-弧段拓扑结构应用非常简单,它用来定义区域。 ARC/INFO使用多边形-弧线拓扑结构定义多边形。多边形不直接存贮坐标信息,而是在PAL文件中由组成多边形的弧来定义多边形。一个多边形由一系列组成它的边界的弧规定,包括那些在里面的“岛”。 在多边形弧线表中,一条弧的顺序号为负,则说明在完成多边形循环时,是按从终止结点到起始结点的方向通过的;岛前加0来标记。第一个多边形总是定义为Coverage的外部多边形。
Recall that the arc-node structure represents polygons as an ordered list of arcs rather than a closed loop of x,y coordinates. This is called polygon-arc topology. In the illustration below, polygon F is made up of arcs 8, 9, 10 and 7 (the 0 before the 7 indicates that this arc creates an island in the polygon)
多边形标识码以Label点形式输入,同多边形的外围弧段标识符相联系。弧段又同坐标数据相联系。这个关系中只涉及一组坐标数据。每个多边形最多有10000条弧。
矢量数据结构 ARC/INFO中的拓扑结构 ARC/INFO中的拓扑关系:邻接性(Contiguity) Two geographic features which share a boundary are called adjacent. Contiguity is the topological concept which allows the vector data model to determine adjacency 邻接性(左右多边形拓扑结构) 在建立多边形时, ARC/INFO将每条弧的左右多边形的内部顺序号添加到ARC文件中 左右多边形定义了邻接性。如果两个多边形拥有公共边(弧),则认为如果两个多边形相互邻接。 由于一个多边形边界的每条弧都有左右多边形的值,就很容易知道哪些多边形是相邻的。
Recall that the from-node and to-node define an arc Recall that the from-node and to-node define an arc. This indicates an arc’s direction, so that the polygons on its left and right sides can be determined. Left-right topology refers to the polygons on the left and right sides of an arc. In the illustration below, polygon B is on the left of arc 6, and polygon C is on the right. Thus, we know that polygons B and C are adjacent.
空间数据与属性数据关联 1 2 3 4 5 6
4.栅格数据结构 4.1 栅格数据特点 4.2 栅格数据获取 4.3 栅格数据取值 4.4 栅格数据压缩 栅格数据模型:以一定方式把整个区域分成若干规则的格网区(通常是正方形)。格网的大小是预先设好的,每个栅格的大小代表定义的空间分辨率。这种用格网(像元)阵列方式表达图件的每一点的位置及其属性的数据表达方式,称为栅格格式。 4.1 栅格数据特点 4.2 栅格数据获取 4.3 栅格数据取值 4.4 栅格数据压缩
4.1 栅格数据特点 点、线、面的栅格表达 点实体在栅格数据中表示为一个栅格(像元);线实体则表现为在一定方向上连接成串的相邻栅格(像元)集合;面实体由聚集在一起的相邻栅格(像元)集合表示。 虽然人们习惯于用矢量数据结构组织空间数据,但栅格数据结构更适合于计算机的处理与表达。栅格数据的比例尺(分辨率)就是栅格大小与地表相应单元大小之比。 ● 数据结构简单 ● 由于栅格单元直接记录的是地理实体的属性值或者指向属性的指针,因此,其特点是属性明显而位置隐含
栅格数据结构示例 (a)点 (b)线 (c)面
4.1 栅格数据结构的特点 栅格数据把空间看作像元的划分,每个像元都记录了所在位置的某种现象,用像元值表示。该值可以表示一个确定的现象,也可以是一种模糊的现象。但一个像元应该只赋一个单一的值,若某一栅格有多个不同的属性,则分别存贮于不同文件。 栅格数据模型的一个重要特征就是每个栅格中的位置是预先确定的,因此描述同一区域的不同现象的栅格数据之间很容易进行重迭运算。
● Typically, the upper-left or the lower-left corner of the grid is used as the reference point. This reference point location, along with the cell size, can be used to determine the geographic location of any cell within the raster data set. Using the same coordinate system, raster data sets can be logically organized into subjects for geographic analysis.
4.2 栅格数据常用的获取方法 4.2.1 遥感数据 4.2.2手工方式:可在专题地图上均匀地划分网格,每一单位格子覆盖部分的属性数据成为各点的值,形成栅格地图文件; 4.2.3 矢量数据转换:数字化仪跟踪,得到矢量数据,再转为栅格数据; 4.2.4 图片扫描数据 :扫描数字化方法,逐步扫描专题地图,将扫描数据重新采样和再编码得到栅格数据文件。 栅格像元大小的确定方法
4.3 栅格数据取值方法 常常会出现一个格子对应了几种不同的属性,而每个单元只能取一个值,常采用的取值方法: 单位格网交点归属法(中心点法):用处于栅格中心处的地物类型决定栅格代码,常用于具有连续分布特性的地理要素(如降雨量分布) 面积占优法:以占栅格最大的地物类型决定栅格单元的编码 百分比法:根据格网中各地理要素所占面积的百分比确定栅格单元的代码参与。
4.3 栅格数据取值方法 重要性法:根据栅格内不同地物的重要性,选取最重要的地物类型决定栅格单元代码。这种方法用于特别重要的地理实体,如稀有矿、自然保护区以及具有特殊意义而面积较小的地理要素等。
4.4 栅格数据压缩 4.4.1 压缩原因 栅格数据编码中许多记录重复着同一属性值,因此该文件存在大量的数据冗余。当栅格越小,表示的空间精度越高时,这种冗余越严重,因此,对栅格数据进行压缩编码非常重要。 数据压缩要求:不失真,变换简单,压缩、解压迅速可靠
4.4栅格数据压缩 4.4.2 常用压缩方法: 在GIS中,常用的栅格数据的压缩编码技术有游程压缩编码、链式数据编码、四叉树编码和分块压缩编码。
4.4.2.1 游程码(游程长度编码) (1)游程压缩编码是将原始栅格列中属性值相同的连续若干栅格映射为一个游程,每个游程的数据结构为(A,P)整数对。其中A代表属性值,P代表该游程最右端栅格的列号。 地理涵义:邻近的地物比远离的地物更相似,属于一种空间自相关的形式 进行压缩后的游程编码数据要存储为二维关系数据表
4.4.2.1 游程码(游程长度编码) 例如,查寻第2行第5列的属性编码 查询编码值时先查询索引表中所在的行号,再查询所在的游程序号,即可找到属性值。 例如,查寻第2行第5列的属性编码 先查2行累计游程数是9,查表9减去第1行中的5个游程(因为序列编号到10就到头),6-9游程都属于2行,看游程列号,第8个游程的列号到4列,因此查询的5列在第9个游程中,因此值为0。再经过差分运算得到原始值。
——游程码(Running Code) 这种压缩仅实现一维压缩。 c) (-80,10) (0,9) (-20,5) (0,4) (40,1) (0,10) (-10,7) (-20,6) (0,5) (-87,3) (117,2) (10,1) (-10,10) (-40,8) (-47,7) (87,6) (-30,4) (40,3) (-10,2) (20,1) (-27,9) (7,8) (40,7) (0,6) (30,3) (10,2) (20,8) (0,7) (-20,4) (20,3) (0,2) (-10,3) (30,1) (-30,6) (-10,5) (40,4) (0,3) (-10,4) (-8,8) (1,7) (5,2) 这种压缩仅实现一维压缩。 c)
注意:这是将一套关系拆作两个二维表来表示 压缩数据存储 游程码数据表 游程索引表 … 10 -84 64* 9 4 -10 8 3 7 2 6 5 -8 1 游程列号(i) 编码值 游程序号 64* 10 59 9 52 8 42 7 34 6 30 5 23 4 17 3 2 1 逐行游程累计数 栅格行号 *注:图中有64个游程 注意:这是将一套关系拆作两个二维表来表示
4.4.2 四叉树(Quad-Tree Code) (1)四叉树的基本思想——区域二维压缩 将栅格地图或图像等分为四部分,逐块检查其格网属性值,如果某个子区的所有格网值都具有相同的值,则这个子区就不再继续分割,否则继续把这个子区分维四个子区,直到每个子块都含有相同的属性值或灰度值。在GIS中利用四叉树对栅格数据进行存贮是非常有效和普遍应用的一种方法。
4.4.3 四叉树(Quad-Tree Code) 四叉树压缩编码原理图
(2)四叉树编码原理与方法 基本原理 将空间区域以2k*2k(K>1)的像元阵列按照四个象限进行递归(逐步)分割(四分割过程中,其中K为极限分割数,直到子象限的属性值单一为止)。属性值为单调的单元,不论其大小,均作为最后存贮单元,形成四叉树图。
(2)四叉树编码原理与方法 四叉树编码的建立有两种方法,自上而下(top-down)和自下而上(down-top)。前者是先检测全区域,其值不单调时再四分割,直到所有子象限的属性值单调为止。这种自上而下的分割需要大量的运算,因为一些划分好的区域会被重复检测。后一种方法按照一定的顺序扫描栅格,若相邻四栅格属性值相同,则合并;否则作为四个叶结点记录下来。如此逐层向上检测合并,直到生成根结点。
(2)四叉树编码原理与方法 四叉树存储方法: 常规四叉树存储:存储结点(子结点和父结点)指针、结点值 (线性)四叉树只存储最后叶结点信息,包括叶结点的地址、深度(该结点所处的层)和格网值。四叉树的叶结点的编码需要遵循一定的规则,隐含了位置信息,称为地址码。常用的编码是Morton码(MD十进制码)
——MD码.——实现四叉树数据压缩的基础 上图特点: 1)Jf(j)=2If(j) 2)MD(i,j)=If+Jf 3)MD是自左上角向右下方以“田”字(4网格)格为最基本单位逐次铺开的
——MD码.——实现四叉树数据压缩的基础
上式为十进制表达,转为二进制“ i ”作为偶次项,二进制“ j ”作为奇次项交叉组合。 ●计算If的递推公式 其中MOD是求余数算符,即将后括号中IK被2除,除尽则MOD为0,余1则MOD为1 ●计算Jf 。用计算If相同的方法,得到: 上式为十进制表达,转为二进制“ i ”作为偶次项,二进制“ j ”作为奇次项交叉组合。
[M]2=jninjn-1in-1┅┅j3i3j2i2j1i1 (二进制) 例如,对栅格(11,9)可以这样求得它的MD码: [i]2=[11]2=1011 [j]2=[9]2=1001 [M]2=1j1i0j0i0j1i1j1I=[11000111]2 以上算式中每位数字的下标表明这位数字来自i或j。 MD=D[11000111]2=27+26+22+21+20=128+64+4+2+1=199 上式中D[ ]为将括号内其它进制的数码转为十进制数码的标符。
MD码意义 1)用一维正整数码MD替代二维坐标系数值i,j,每(i,j)格点唯一对应MD一个值。 2)MD与(i,j)相互转换方便
(3)四叉树编码特点 容易有效计算多边形的数量特征 阵列各部分的大小是可变的 与其它压缩方法比,与栅格数据简单结构转换容易 可以直接进行大量图形图像计算
4.5 栅格数据组织方法 以层为基础,每层以像元为记录序列,形式简单; 以层为主,每层以多边形为序列,可节省用于存贮属性的空间; 以像元为记录的序列,可节省存贮空间; 以层为基础,每层以像元为记录序列,形式简单; 以层为主,每层以多边形为序列,可节省用于存贮属性的空间;
5.矢量与栅格数据比较 栅格结构 缺点 矢量结构 优点 缺点 优点 数据结构简单; 提供更严密的数据结构; 叠加操作易实现,更有效; 能有效表达空间可变性; 便于做图象的有效增加; 缺点 数据结构不严密不紧凑,需用压缩技术解决; 难以表达拓扑关系; 矢量结构 优点 提供更严密的数据结构; 提供更有效的拓扑编码,因而对需要拓扑信息的操作更有效,如网络分析; 缺点 比栅格数据结构复杂; 叠加操作没有栅格有效; 表达空间变化能力差; 不能像数字图象那样做增强处理
栅格结构精度偏差
6.数据结构选取原则 要素还是位置 可获取的数据 定位要素的必要精度 所需空间分析类型 生产地图类型
7.曲面数据结构(surface) 曲面数据结构 通常用等值线、不规则三角网(TIN)或格网(GRID)结构表示 曲面分析内容 地形分析 曲面的概念:连续分布现象的表面特征 A surface describes something which has a value for every point on the earth 曲面数据结构 通常用等值线、不规则三角网(TIN)或格网(GRID)结构表示 曲面分析内容 地形分析 等高线生成 面插值分析
TIN(Triangle Irregular Network)结构的拓扑表达
8.空间数据质量 数据质量问题的产生: 空间数据是对现实世界中空间特征和过程的抽象表达。由于现实世界的复杂性和模糊性,以及人类认识和表达能力的局限性,这种抽象只能在一定程度上接近真实值。此外,空间数据在其处理过程中由于各种认为因素,也会使空间数据产生变化。这些因素使得空间数据面临质量问题。
8.空间数据质量与地理信息标准化 8.1 数据质量的基本概念包括: 误差(Error):与真实的差异值 准确性(Accuracy):与真实的接近程度 精度(Precision):对象表达的详细程度 比例尺(Scale) 不确定性(Uncertainty):空间现象本身不能准确确定的程度 空间分辨率(Spatial Resolution) :分辨率是两个可测量数值之间最小的可辨识的差异
空间分辨率示例 Raster Data Vector Data 1 pixel = 10mX10m 分辨率 = 10m Real World
8.2 空间数据质量内容 微观内容 属性精度:空间实体属性值与真实值相符合的程度 定位精度: 物体的地理位置与其真实地面位置之间的差别 属性精度:空间实体属性值与真实值相符合的程度 逻辑一致性:数据关系上的可靠性,包括数据结构、内容和拓扑关系的一致性
8.2 空间数据质量内容 宏观内容 时间性:数据的现势性 数据档案:数据来源、内容以及处理这些数据所使用的处理步骤等 完整性 数据范围的完整性 数据层的完整性 数据分类的完整性 数据检验的完整性 时间性:数据的现势性 数据档案:数据来源、内容以及处理这些数据所使用的处理步骤等 表达形式的合理性:数据抽象和表达与空间现象的吻合性
8.2 空间数据质量内容 适用性 费用方面的适用性 可获得性:表现在使用和获取数据的难易程度
8.3 空间数据质量——问题的来源 空间现象本身在空间、专题和时间等方面存在着不稳定性,在空间现象表达上(如地图投影)也会形成误差。除此之外,在各种空间数据处理上,由于各种原因也会产生误差: 阶段 误差来源 数据采集 实地测量误差;地图的误差;航测遥感数据分析误差 数据输入 在数字化过程中由操作员和设备造成的误差; 某些地理属性没有明显边界 ( 如地类界 ) 引起的误差; 数据存贮 数字存贮有效位不能满足;空间精度不能满足 数据操作 类别间的不明确;边界误差;多层数据叠加误差; 多层数据叠加所产生的裂缝 数据输出 比例尺误差;输出设备误差; 媒质不稳定误差 如图纸的伸缩 成果使用 用户错误理解信息造成的误差; 不正确地使用信息造成的误差;
8.4 空间数据质量——数据质量控制 手工方法:将数字化数据与数据源进行逐一比较 空间数据质量控制是一个复杂的过程,需要从质量问题产生和扩散的所有过程和环节入手,分别用一定的方法减少误差。常见的空间数据质量控制手段有: 手工方法:将数字化数据与数据源进行逐一比较 元数据方法:在元数据中描述数据的质量信息(原始质量、处理质量),以供使用过程中掌握。 地理相关法:用空间数据的地理特征要素自身的相关性来分析数据的质量。如山区的河流在局部范围内(微地形)应处于最低点;建筑物一般不会建筑在水面上;等等。
8.5 空间元数据 元数据(Metadata),是关于数据的数据(Data About Data),是关于数据和信息资源的描述性信息。空间元数据(Spatial Metadata),是关于地理空间数据和相关信息资源的描述性信息。它通过对地理空间数据的内容、质量、条件、位置和其他特征进行描述与说明,帮助和促进人们有效地定位、评价、比较、获取和使用地理相关数据。 由于网络的发展,元数据已经由一种数据描述与索引的方法扩展到包括数据发现、数据转换、数据管理和数据使用的整个网络信息过程中不可缺少强有力的工具和方法之一 。
8.6 空间元数据 确定一套地理空间数据的存在性及其位置 确定一套地理空间数据对某种应用的适宜性 确定获取一套地理空间数据的手段 8.6 空间元数据 空间元数据的主要作用有: 确定一套地理空间数据的存在性及其位置 确定一套地理空间数据对某种应用的适宜性 确定获取一套地理空间数据的手段 确定成功地转换一套地理空间数据的方法和途径 确定一套地理空间数据的存储与表达方法 确定一套地理空间数据的使用方法 …
课后思考 1、如何用软件区分矢量与栅格结构 2、栅格数据结构和矢量数据结构的优缺点比较;通过查阅资料了解矢量与栅格在实际应用中的特点;如何结合具体应用,确定所需要的数据结构? 3、通过实例说明GIS空间数据的基本特征及在计算机中的表示方法 4、空间数据的拓扑关系及其应用 6、以ArcGIS为例,了解矢量与栅格结构存储、管理特点