Presentation is loading. Please wait.

Presentation is loading. Please wait.

第二章 地理数据的来源、加工和处理.

Similar presentations


Presentation on theme: "第二章 地理数据的来源、加工和处理."— Presentation transcript:

1 第二章 地理数据的来源、加工和处理

2 教学要点 地理数据的类型。了解空间数据与 属性数据 地理数据的基本特征 地理数据的采集与处理

3 地理数据的定义 地理数据:用一定的测度方式描述和衡量地理对象的有关量化标志。
对于不同的地理实体、地理要素、地理现象、地理事件、地理过程,需要采用不同的测度方式和测度标准进行描述和衡量,这样就产生了不同类型的地理数据

4 第一节 地理数据的类型

5 一、空间数据 空间数据:描述地理实体、地理要素、地 理现象、地理事件及地理过程产生、存在 和发展的地理位置、区域范围及空间联系 的数据.
描述空间数据:坐标.一般用经纬度坐标或公里网 来表示。几何坐标;平面直角坐标;极坐标

6 点。(x,y),空间上不可再分的几何实 体。它可以表示精确的地理位置点,也 可以是一些地理实体的抽象。如:道路交叉点、河 流汇聚点,以及小比例尺地图上的城镇、村庄等
线。若干个坐标点,有一定的长度和走 向,表示线状地物或点实体之间的联系。 如:交通线、河流及各种地理区域的界线等 面。表示在空间上边续分布的地理景观 或区域。如:某种土壤或植被的分布区、居住区、工业区、行政区域等

7 二、属性数据 描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。如,海拔高度、地形坡度、气温、降水量、道路的等级与长度、河流长度与径流量、土地面积、森林覆盖率、土壤侵蚀强度、人口数量、粮食产量、国内生产总值、人均收入等都是属性数据

8 (1)数量标志数据 间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。如,以摄氏温度或热力学温度作为量纲表示某地的气温,以毫米为量纲表示某地的降水量,以某种面积量纲表示土地面积,以某种货币量纲表示某地区的GDP,以某种时间量纲表示地理事件、地理现象发生的时间等

9 区域  年平均气温/℃ 年降水量/mm 土地面积/hm2 人口/人 1 8.0 500.2 1245.6 1210 2 7.6 498.6 1064.0 1023 3 6.5 550.9 894.3 848 4 8.5 586.4 668.7 654

10 比例尺度数据:以无量纲的数据形式表示测度对象的相对量。这种数据要求事先规定一个基点,然后将其他同类数据与基点数据相比较,换算为基点数据的比例。又称指数或比例数。如,耕地指数、复种指数、工业发展指数、农业发展指数、女性人口的百分比等,都是比例尺度数据

11 耕地复种指数,即播种面积与耕地总面积之比 农业发展指数,规定1996年农业产值为基数100
年   份 1996 1997 1998 1999 2000 耕地复种指数 120.4 113.6 126.5 132.8 121.4 农业发展指数 100.0 115.7 124.5 135.7 129.6 耕地复种指数,即播种面积与耕地总面积之比 农业发展指数,规定1996年农业产值为基数100

12 (2)品质标志数据 有序数据。当测度标准不是连续的量,而是只表示其顺序关系的数据,则称其为有序尺度或等级尺度数据。这种数据并不表示量的多少,而只是给出一个等级或次序

13 城市A 城市B 城市C 城市D 城市E 城市F 规模等级 1 2 3 4 人口位次 6 5

14 二元数据。即用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题
城市A 城市B 城市C 城市D 城市E - 1

15 名义尺度数据。即用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。譬如,在土地利用现状调查中,用15表示“菜地”,13表示“水浇地”,14表示“旱地”,21表示“果园”,31表示“林地”等等

16 三、地理数据的表达方式 矩阵形式 矩阵表

17 表示几个地区或地点的地理属性或特征,矩阵的行表示地理属性或特征,矩阵的列表示各地点或地区,每个矩阵元素表示一个地理特征值

18 表示几个地点或地区与几个地点或地区之间的数量关系。如,城市之间的直达距离,城市之间的联结情况等等

19

20 第二节 地理数据的基本特征

21 一、数量化、形式化与逻辑化 定量化的地理数据的作用: 一是确定模型的参数,给定模型运行 的初值条件 二是检验模型的有效性。
形式化、逻辑化与数量化是所有地理数据的共同特征。这 一特征是对地理问题进行数学描述和定量化研究的前提, 是一切数学方法在地理学中应用的先决条件。

22 二、不确定性 产生的原因: 地理系统的复杂性 数据误差
地理系统要素数目众多,要素之间的关系及相互作用机制复 杂;地理过程对初值的条件变化具有高度的敏感性;地理现 象与地理事件的发生具有突发性,如赤潮、洪水、沙尘暴等; 地理要素的变化都具有不确定性的特点 数据误差 不同的数据来源、不同的观测手段、不同的调查方法、不同 的数据采集者的认识与操作水平等;采用先进的数据采集技 术,尽量减少人为误差;要运用有关方法(包括数学方法) 对各种来源不同的数据进行筛选和处理

23 三、多种时空尺度 多种空间尺度。地理学的研究对象――地理区域,既可 以是全球范围的、洲际范围的、国家范围的,也可以是流域范围的、地 区范围的、城市范围的、社区范围的 从时间尺度上看。地理学的研究对象――地理过程, 既有以地质年代和地层年代衡量的古地质过程,也有以历史年代衡量的 历史地理过程,还有以天、月、季度、年等为时间单位衡量的现代地理 过程

24 四、多维性 空间方面:描述该地理对象所处的地理位置和空间范围 属性方面:描述该地理对象的具体内容
时间方面:描述该地理对象产生、发展和存在的时间范围 如,要描述一个地理区域,除了描述该区域的地理位置与空间范围外,还要描述该区域的自然、经济、社会等各方面的内容及其随着时间的变化情况,每一个数据通过具体的地理位置、具体的属性含义和具体的时间三个方面的内容来体现

25 地理数据的采集 地理数据的处理 地理数据的分布特征值 集中性的代表值 离散性的代表值
第三节 地理数据的采集与处理 地理数据的采集 地理数据的处理 地理数据的分布特征值 集中性的代表值 离散性的代表值

26 一、地理数据的采集 观测、测量部门的有关专业数据。如,水文数 据、气象数据、空气、水质数据等等
统计年鉴、统计公报中的有关自然资源及 社会经济发展数据。如,耕地面积、各类农作物播种面 积、粮食产量、人口、劳动力、工业投资及产值、国内生产总值等数据 有关单位或个人的不定期的典型调查数据、 抽样调查数据。如,来自于城乡抽样调查队的城市、农村家 庭收支数据;来自有关单位或个人的某一方面的专题调查数据等等 政府公报、政府文件中的有关数据 档案、图书等文献资料中的有关数据

27 来自互联网的有关共享数据 地图图件。主要包括各种比例尺的地形图、影像 地图、专题地图等 遥感数据。主要包括各种航空遥感数据和卫星遥 感数据 其他来源的有关数据

28 二、地理数据的处理 地理数据的变换 地理数据本身的变换 地理数据的数学变换 地理数据的整理与统计分组 检查资料 统计分组 绘制图表

29 地理数据本身的变换 定性数据转变为定量数据 二元数据转换 有序数据转换

30 地理数据的数学变换 取对数(包括常用对数和自然对数 开方:开平方、开立方 数乘:将某一数据扩大10倍、100倍… 倒数变换 概率变换
模数变换 指数变换 滑动(移动)平均法 差分算子法 累加(减)生成数法

31 我国工农业总产值表 年代 1961 1965 1970 1975 1980 1985 1986 工业总产值 1621 2235 3138 4467 7077 13336 15207 lnx 7.309 7.712 8.051 8.404 8.864 9.498 9.629

32 检查资料 对于地理数据的采集,需要特别注意数据的 代表性,完备性、准确性和可靠性 可靠性,数据采集过程中,最大限度地减小数据的误差
准确性,在数据采集完毕后,通过数据筛选,去粗存精,去伪存真 完备性,对于残缺的但确实必须的数据,要想办法进行及时补充。 有时,为了插补残缺的有关地理数据,经常需要运用有关数学方法 代表性,用于不同地区之间的数据比较等

33 统计分组 根据地理事物内部的特点和研究任务,按某种标 志把自然和社会区分同出不同类型或性质不同的 组,使资料系统化,进而研究它们的规律性和依 存关系 作用:是一切统计研究的基础    统计分组能反映出地理现象质的差别

34 类型 质量(属性)标志:按地理事物的质量属性分 组,例如人口按性别、民族、年龄和职业等分组
按质量标志分组,多用于经济地理和人文地理中,其数据取决于社 会经济现象的基本类型和其在研究中的意义,而且不分组距 数量标志:在质量分组的基础上再按数量(变量 值)的大小来分组,例如企业按人数、生产能力等 分组,气候特征按温度、降水等分组 先依其变量类型不同,分为离散型变量和连续型变量,然后再根据 其变量特征的不同分组

35

36 统计分组步骤 求变数的全距R 确定组数n 计算组距h

37 确定组限 计算组中值m 第一组的下限值,可从样本数据最小值中减去1/2的组距求得,其上限等于下限值再加上组距
第一组的上限为第二组的下限,第二组的上限等于第二组的下限加上组距 ………… 计算组中值m

38 上海市年降水量表 Xmin 974.8 1002.6 1588.1 770.7 1008.9 1206.8 1271.5 1101.9 1341.2 1331 1085.4 1184.4 1113.4 1203.9 1170.7 975.4 1462.3 947.8 1416 709.2 1147.5 935 1016.3 1031.6 1105.7 849.9 1233.4 1008.6 1063.8 1004.9 1086.2 1022.5 1330.9 1439.4 1236.5 1088.1 1288.7 1115.8 1217.5 1320.7 1078.1 1203.4 1480 1269.9 1049.2 1318.4 1192 1016 1508.2 1159.6 1021.3 986.1 794.7 1318.3 1171.2 1161.7 791.2 1143.8 1602 951.4 1003.2 840.4 1061.4 958 1025.2 1265 1196.5 1120.7 1659.3 942.7 1123.3 910.2 1398.5 1208.6 1305.5 1242.1 1572.3 1416.9 1253.8 1282.3 982.1 1388.5 1057.5 1282.8 1472.7 1011.7 1214.8 1193.4 1139.5 1012.4 1237.6 903.5 1025.5 1121.8 807.8 815.6 1180.1 1105 989.4 900.8 Xmax

39 例题 求全距 求组数 求组距

40 第一组的组限 下限: 上限: 计算组中值

41 组限与组中值表 组序 试定组限 修订组限 组中值 1 649.7~768.7 649.7~768.6 709.2 2 768.7~887.7
768.7~887.6 828.2 3 887.7~1006.7 887.7~1006.6 947.2 4 1006.7~1125.7 1006.7~1125.6 1066.2 5 1125.7~1244.7 1125.7~1244.6 1185.2 6 1244.7~1363.7 1244.7~1363.6 1304.2 7 1363.7~1482.7 1363.7~1482.6 1423.2 8 1482.7~1601.7 1482.7~1601.6 1542.3 9 1601.7~1720.7 1601.7~1720.6 1661.2

42 频数分布图表的绘制 频数分布表的制作 频数:原始地理数据出现在该组内的 次数。各组频数的和应等于地理数据 的总数
频率:某组的频数与数据总数的比值

43 频数分布表 组序 组距h 组中值m 频数分布 累积频数分布 频数f 频率/% 累积频数F 累积频率/% 1 649.7~768.6
709.2 2 768.7~887.6 828.2 7 8 3 887.7~1006.6 947.2 16 24 4 1006.7~1125.6 1066.2 27 51 5 1125.7~1244.6 1185.2 22 73 6 1244.7~1363.6 1304.2 14 87 1363.7~1482.6 1423.2 95 1482.7~1601.6 1542.2 98 9 1601.7~1720.6 1661.2 100

44 频数分布图 直方图 多边(角)形图(折线图) 横坐标表示各组的组距或组中值 左侧的纵坐标表示频数 右侧的纵坐标表示相对频数(频率)
与直方图的区别:各组的频数以折线的升降趋势来表示频数的分布

45

46 累积频数图(累积频数多边形图) 横坐标表示特征值,标度要与测定单位一致 左侧的纵坐标表示频数 右侧的纵坐标表示相对频数(频率) 中位数

47 (一)集中性的代表值 平均数 中位数 众数 是集中趋势指标中最重要的一种指标 作用: 算术平均数和几何平均数 代表研究对象的一般水平
作为对比分析的指标 算术平均数和几何平均数 能反映出同质总体和样本数值的平均水平和一个数列的数值的“集中趋势” 分类:简单算术平均数和加权算术平均数 中位数 众数

48 简单算术平均数 设有n个地理数据x1,x2,x3,…,xn,其平均数可按下式计算: 例如,上海市的年平均降水量为

49 加权算术平均数(以频数为权重) n个地理数据x1,x2,x3,… ,xn,频数分别为f1,f2,…,fn

50 加权算术平均数(以频率为权重) Pi为每组数据出现的频率

51 组 序 组中值m 频数分布 频数f 频率Pi/% 1 709.2 0.01 2 828.2 7 0.07 3 947.2 16 0.16 4 1066.2 27 0.27 5 1185.2 22 0.22 6 1304.2 14 0.14 1423.2 8 0.08 1542.2 0.03 9 1661.2 0.02 总 计 100

52 几何平均数 几何平均数:n个观测数的连乘积再开n次方所得的方根数 分析和研究国民经济或企业生产、人口等方面的平均发展速度和平均增长速度
用途 分析和研究国民经济或企业生产、人口等方面的平均发展速度和平均增长速度 类型 平均发展速度 社会经济现象在一个较长时期内的平均发展水平 平均增长速度 社会经济现象或人口在一个较长时期内的递增速度

53 几何平均数计算公式 对于未分组的资料,几何平均数的计算公式为 对上式两边取对数,则可转换为

54 X0为基期(或基年)数据 Xn为间隔年数(不包括基年)

55 例 题 前苏联、美国、波兰和联邦德国从1960年到1980年间原煤生产的年平均发展速度及平均增长速度 平均增长速度=平均发展速度-1
例    题 前苏联、美国、波兰和联邦德国从1960年到1980年间原煤生产的年平均发展速度及平均增长速度 国家 年份 1960 1965 1970 1975 1980 前苏联 37492 42788 43271 48467 49299 美国 39152 47528 55039 57590 71446 波兰 10444 11883 14010 17162 19311 联邦德国 14325 13546 11634 9675 8714 平均增长速度=平均发展速度-1

56 平均发展速度

57 对于分组的资料,可按下式计算几何平均数 xi(i=1,2,…,n)表示各组的组中值 fi(i=1,2,…,n)表示第i组的频数 两边取对数,可转换为

58 中位数 中位数:也称中央值,是地理数据按大 小顺序排列,位居中间的那个数值.
一种表示集中趋势的指标,在频数分布图上位居正 中央,并把面积等分为左右两个部分 在累积频率图上,累积频率为50%处所对应的特征 值 当一个数列变量值分布很偏时,以中位数表示它们 的集中趋势比算术平均数更合理

59 未分组资料的中位数的推求方法 当地理数据项数n为奇数时,变量按大小排列,第 位数,就是中位数(me)。即

60 地理数据项数为奇数 例:某地九年年平均气温表 单位:℃ 原始数据 4.8 5.0 4.5 3.9 4.7 5.1 4.4 4.6 5.2
例:某地九年年平均气温表  单位:℃ 原始数据 4.8 5.0 4.5 3.9 4.7 5.1 4.4 4.6 5.2 按大小顺序排列

61 地理数据项数为偶数 例如,某地八年季节性冻土深度 原始数据 50 51 53.5 53 53.6 52 57 58 按大小顺序排列

62 分组资料的中位数的推求方法 或 N为样本大小 Lme为中位数所在组的下限值 Ume为中位数所在组的上限值
Fm-1为中位数所在组的前一组的累积频数 Fm+1为中位数所在组以上的累计频数 fm为中位数所在组的频数 h为组距

63 组序 组中值 频数 累积频数 向下 向上 1 709.2 100 2 828.2 7 8 99 3 947.2 16 24 92 4 1066.2 27 51 76 5 1185.2 22 73 49 6 1304.2 14 87 29 1423.2 95 13 1542.2 98 9 1661.2 总计

64 众 数 众数:一个地理观测(或调查)系列中出现频数(次数)最多的数。它也有典型性和代表性,它在频数分布曲线上的位置正居最高点上
众  数 众数:一个地理观测(或调查)系列中出现频数(次数)最多的数。它也有典型性和代表性,它在频数分布曲线上的位置正居最高点上 在分组频数表中,频数最大那一组的中心值就是众数

65 众数的计算 Lm0为众数所在组的下限值 fm-1为众数所在组的前一组的频数 fm+1为众数所在组的后一组的频数 h为组距

66 (二)离散性的代表值 绝对离散度 离差:又称真差,它是各个变量x1,x2,x3,…,xn与均值之差 离差平方和 方差
标准差:方差开平方(以样本方差对标准差进行无偏估计 ) 总体 样本

67 自由度的含义 设一个样本含有n个变量,从理论上讲n个变量都同样用来计算标准差,每一xi与数据均值比较就有n个离差。但均值本身也是从样本资料中估算出来的,即由每一个变量各贡献1/n而组成,如每一个变量与均值作一次比较,这无形中就等于各个变量与其自身的1/n做比较,每一离差比独立比较时要稍微减小些,表面上虽有n个比较,但实质上仅相当于n-1个独立比较。所以,在估计方差和标准差时,用n-1来除 一个样本有n个数,就要有n个离差。但受总离差和为0的约束,在n个离差之中只有n-1个离差可以自由取值。可是最后一个离差受此条件的约束,就不能自由取值。例如,有5个变量,其平均数为4,如已知4个离差为3、2、-3、6受的约束,第五个离差只能为-8,而不能取其他数值,所以在5个离差中,只能有4个可以自由调度,最后一个就不能自由调度,因此其自由度(n-1)。如在统计数据中受k个条件的限制,其自由度就应为n-k

68 相对离散度 变差系数(或离差系数、变异系数)

69 例,我国辽宁省朝阳县和宁夏回族自治区固原县两地多年降水量,计算降水量平均值、离差、方差 、标准差、变异系数等值

70 年  份 朝阳 固原 年降水 离差 1961 412 -104.8 732.4 218.0 1962 633.7 116.9 412.5 -101.9 1963 608 91.2 373.4 -141.0 1964 606.3 89.5 766.4 252.0 1965 520.5 3.7 475.9 -38.5 1966 436.2 -80.6 619.2 104.8 1967 402.7 -114.1 515.6 1.2 1968 371.9 -144.9 501.1 -13.3 1969 692.8 176.0 352.6 -161.8 1970 526.3 9.5 434.2 -80.2 1971 474.9 -41.9 474.8 -39.6 总和 5685.3 5658.1 平均值 516.8 514.4

71 地点 平均数 离差平方和 方差 标准差 变差系数 朝阳 516.8 106.9 0.207 固原 514.4 137.2 0.267

72 练习题 例1:表中给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数、标准偏度系数、标准峰度系数。 表1 某农场各农田地块的面积 地块 编号 1 2 3 4 5 6 7 8 9 10 11 12 面积 /hm2 83 50 35 55 72 40 85 29 65 75

73 例2:表给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。
表2 中国西部地区某城市2000年家庭月收入的抽样调查结果 家庭月收分组/元 户数 2000~3000 300 3000~4000 1300 4000~5000 200 5000~6000 150 6000~7000 100 7000~8000 50 8000~9000 30 合  计 2130


Download ppt "第二章 地理数据的来源、加工和处理."

Similar presentations


Ads by Google