第二章 地理数据的采集及处理.

Slides:



Advertisements
Similar presentations
当前形势和 国际静安建设 静安党校 王小林. 国际 —— 问题很大、霸权犹在。 1 、国际产业分工的后果 经济全球化的双刃剑: 新兴产业尚未形成 -- 高失业率 老龄化 -- 高福利 -- 高负债 权威缺失 -- 民主治理的危机 再平衡战略 -- 保护主义抬头。
Advertisements

一、北京水务情况简介 二、北京水资源现状 三、北京水资源管理措施 主要内容 北京市行政区 域面积 1.6 4万平 方公里,西北部 为山区,约占总 面积的三分之二, 东南部为平原区, 约占总面积的三 分之一。 一、北京水务情况简介.
中国银行河北省分行 河北省金融票据协会 2014 年二季度河北省金融票据市场 运行情况分析会. 目录 全国货币信贷及金融票据市场情况 河北省货币信贷及票据市场运行情况 2014 年二季度宏观经济运行概况 中国银行河北省分行票据业务发展概况 票据市场走势分析及票据业务发展建议.
做好就业和自主创业的准备. 我国目前就业形势 根据全国人口普查数据, 2007 年有 1100 万新增劳 动力有就业要求。据不久前教育部公布的数据显 示, 2008 年全国普通高校毕业生人数预计将达到 420 万人,比 2007 年增加 58 万人,增幅 20.71% 。 2007 年年底 830.
2 你会唱这首歌吗 ? 这首歌反映出我们什么样的情怀? 我的中国心 河山只在我梦里,祖国已多年未亲近,可是 不管怎样也改变不了,我的中国心! 洋装虽然穿在身,我心依然是中国心,我的 祖先早已把我的一切烙上中国印! 长江,长城,黄山,黄河,在我心中重千斤! 无论何时无论何地,心中一样亲! 流在心里的血,澎湃着中华的声音,就算生.
道德讲堂 第一讲 放眼改革开放 上海市泾南中学 杨丽萍 第一章:放眼 -- 《邓小平时代》
學習目標 指指出中國地理區的劃分方式 了了解中國七大地理區的區域特色 了了解中國三大經濟地帶的發展特徵 分分析中國區域政策對三大經濟地帶 的影響.
长沙经济发展情况介绍与分析 长沙市委党校经济学部 长沙经济发展研究中心 李 跃 教授. 一、长沙市的基本情况 二、 2000 年来长沙经济发展的主要特点 三、长沙发展的长板和短板.
2010—2011 学年高三地理总复习 交通运输方式和布局的变化 对区域发展的影响 厦门六中 刘伟祥
1 第十章 CH10 分配理論 所得分配涉及一國的貧富差距與社會公平,深受各國 政府重視,也是近年來的熱門議題,本章從分配的意義與 所得分配的種類談起,再介紹三種常見所得分配不均度的 測量指標,有助於讀者瞭解所得分配的概念。 10-1 所得分配的基本概念所得分配的基本概念 10-2 所得分配不均度的測量所得分配不均度的測量.
解读 十八届五中全会 精神 解读 十八届五中全会 精神. 党的会议 全国代表大会 1 全国代表大会每 5 年召开一次 中国共产党第十八次全国代表大会,简称 “ 党的十八大 ” 中央委员会全体会议 2 简称中央全会 中国共产党第十八届中央委员会第五次全体会议 简称 “ 党的十八届五中全会 ”
公共管理 0701 班.  3 月 1 日,在酝酿了一年之后,《神木县全民免费医 疗实施办法 ( 试行 ) 》如期推行。这项被媒体称为 “ 开 国内先河 ” 的医疗保障制度推行两个多月以来,让全 体神木人民真正体会到了 “ 看得起病 ” 的前所未有的 实惠,同时,公众道德风险却又把政府推到了一个.
《关注经济发展》 知识复习 1、我国的根本政治制度是 ? 2、党领导人民治理国家的基本方略是 ?它的基本要求是 ?
坚持党的群众路线 2013年10月.
“积极老龄化”理论视角下的 老龄旅游产业发展战略 中国旅游研究院 黄璜
人口再生产.
学科:思想品德 九年级 教科版 第十六课 可持续发展 :控制人口,提高素质 单位:覃塘区东龙初中 周志宾.
李善同 国务院发展研究中心 发展战略和区域经济研究部

国家科技计划体系暨 国家重点新产品计划 申报简介
C ①以人为本 ②全面发展 ③协调发展 ④可持续发展 A.①②③ B.①②④ C.①③④ D.②③④ 高考真题回放
煤铁之城 枫叶之都 山城本溪.
第三节 学前教育与社会经济、政治、 文化等方面的关系.
——高考政治选择题命题思路分析及备考启示
城投及园区类企业评级方法.
学习十一届全国人大一次会议精神.
2014年 “两会”学习解读 2017/2/28.
新約研讀 彼得前書複習 讀經組
常识判断解题技巧 主讲:付丁丁.
初中历史 中考复习策略.
申论时政.
沈阳职业技术学院.
第一節 多樣的自然環境 第二節 中國的區域劃分 第三節 三大經濟地帶 中國基本資料簡介
2014年高考政治 二轮系统复习.
明确党员先进性要求 自觉发挥先锋模范作用 商贸管理系党总支 张志华 党课教案.
第六章 专题地图 本 章 要 点 1、掌握专题地图、地图集、电子地图集的定义、分类及其基本特征。
黑龙江省金融发展现状与趋势分析 哈尔滨商业大学金融学院 李国义.
2014届高三九月调考 质量分析 武汉市第19中学 雷 逸.
对加快转变我国经济发展方式的几点认识 乌苏市委党校 沈海龙.
严格水资源管理 推进节水型社会建设 王亚红 二○一二年十一月.
深化文化体制改革 推动文化大发展大繁荣 ——学习贯彻党的十七届六中全会精神.
义务教育课程标准实验教科书 初中毕业年级中考专题复习
小组成员:涂玉培、李山松、潘翠丽、郭丽丽、黄统一、宋艺嫚、靳丹、苏梦珂、张宝、夏军、王帅
绦虫形态学观察 丝虫、猪带绦虫、包虫生活史、致病、预防 丝虫、旋毛虫、绦虫、包虫虫卵和幼虫、成虫.
经济成长和差距平等化 东京学艺大学 铃木亘.
尾矿库综合调查 金属非金属矿山尾矿库安全技术中心.
“淡雅浓香 中国风尚” 山东低度浓香白酒整合传播侧记
植物的繁殖方式与育种 第2章.
微孢子虫生物研究.
消費行為筆筆看 【消費習慣比較-早餐與飲料】
水土保持工程施工階段監造管理之探討 授課老師:林俐玲 教授 指導老師:陳文福 教授 報告人: 顏廣智 學 號:
江苏如皋钢铁有限公司 行车司机、起重司索指挥人员安全知识培训 部门(单位)名称:安环部 李雄飞
钳加工技术 广西玉林高级技工学校|数控教研组.
分三部分传送。这是第二部分。.
盐城宝龙店选址调研报告 2016年3月.
项目九 猪的一般饲养管理.
1.4 民用建筑的构造组成 1、基础 2、墙体和柱 3、屋顶 4、楼地层 5、楼梯 6、门窗 次要组成部分(阳台、雨蓬、台阶、散水等)
教育者,寂寞之事业,而实为神圣之天职,扶危定倾,端赖于此,有志者固不以彼而易此也。
第二章 公共经济学的研究对象 主讲:浙江大学公共管理学院 戴文标 公共经济学 第2章 公共经济学的研究对象.
3.2 Tally Table:將資料分成等距離的組別,再
國民所得與 經濟福利 11. 國民所得與 經濟福利 11 本章學習目標 了解國內生產毛額GDP與國民生產毛額GNP的 涵義。 區分名目GDP與實質GDP的差異。 指出以GDP衡量經濟福利的缺失。 探討測度家戶所得分配不均的指標。 解析經濟福利淨額與綠色國民所得的觀念。
資料整理與次數分配 Organizing Data 社會統計(上) ©蘇國賢2000.
Chapter 7: The Wage Structure
藝術大師-達利.
2012慈濟大學18週年校慶運動會 裁判研習 體育教學中心 張木山 教授.
经济学基础 主讲人:方春龙 安徽财贸职业学院
§1.3.3 地球公转的意义 ——昼夜长短的变化 凤阳县第二中学 柳家全.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Principle and application of optical information technology
體驗‧探索‧創造─ 〈晉公子重耳之亡〉.
Presentation transcript:

第二章 地理数据的采集及处理

一、地理系统 二、地理数据的类型和表达 三、地理数据的来源 四、地理数据的变换 五、地理数据的分布特征

一、地理系统 1. 系统的概念 地理系统是地球表面的岩石圈、水圈、生物圈和人类活动相互作用的物质、能量和信息运动系统。 什么是“系统”? 系统是由相互作用和相互依赖的若干组成部分(要素)结合而成的具有特定功能的整体。 在这个定义中包括了系统、要素、结构、功能四个概念,表明了要素与要素、要素与系统、系统与环境三方面的关系。

地球表层系统 地球表层系统(the earth surface system)是由岩土圈、大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合体。是人类圈与地相互作用的复合物质系统,是地球圈层结构中的特定部分,与周围的地球圈层其他部分存在物质能量交换关系,是一个开放的复杂次级巨系统。 钱学森教授于1983年倡议建立“地球表层学”,认为地球表层学是“跨地理学、气象学、地质学、工农业生产技术、技术经济和国土经济的新学科”是自然科学与社会科学的交叉学科”。

2. 系统的结构和功能 系统的结构是指不随时间发生变化的系统要素之间的联系。 稳定性 层次性 可变性 相对性

系统的功能是指系统在包含它的超系统中起的作用和承担的任务。 系统功能体现了系统与外部环境之间的物质、能量、信息输入与输出的变换关系。系统输入输出时同外部介质的相互作用就是系统的功能。系统功能同时也是为实现系统目标所具有的能力。

3. 系统分类 自然系统和人造系统 实体系统和抽象(概念)系统 静态系统和动态系统 开放系统和封闭系统 全球系统和区域系统

4. 地理系统的特点 系统性、整体性、综合性 区域性、开放性、层次性 随机性、动态性 系统的整体功能大于分要素功能之总和,这是因为存在着要素与要素间的关系。 地理环境是由各个要素之间的密切的相互作用,才形成了地理环境的整体性。 层次性:我国的北方地区,可将其视为一个系统,而它又是我国季风区的子系统,属于温带季风气候,在气候的影响下,植被、河流水文和农业生产表现出温带地区的特点。 系统是不断演化的,系统存在于过程之中。

二、地理数据的类型和表达 1. 地理数据类型 将所有的地理数据划分为两大基本类型,即空间数据(spatial data)和属性数据(attribute dada)。 GIS实现了空间数据和属性数据的完美结合 属性数据又可以进一步分为两种类型,即定量数据和定性数据。 Acrview 主体文件:*. shp 、*.dbf 、*.sbx分别存储空间,属性和前两者的关系

空间数据 空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。 坐标,是描述空间数据的基本手段,一般用经纬度坐标或者公里网来表示。 对于空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述他们之间空间联系的拓扑关系。

三种基本的地理几何实体及其组合

属性数据 定量数据:是用数量表示的地理数据,如温度,人口数量,人均收入等。 定性数据:只表征地理要素性质上的差异,而没有数量的变化。但是,通过“数量化方法”可以对一定的地理要素予以赋值。通常采用二分法,即以二元数据1和0来表示。比如,性别

注:1表示两城市之间通航; 0表示两城市之间不通航。 表2.1 二元数据 城市A 城市B 城市C 城市D 城市E — 1 注:1表示两城市之间通航; 0表示两城市之间不通航。

2. 地理数据的表达方式 表格法 区域 地理要素 x1 x2 … xn 区域1 x11 x12 x1n 区域2 x21 x22 x2n 区域m xm1 xm2 xmn

表2.2 各区域的自然及经济社会指标 区域1 区域2 区域3 年平均气温/℃ 年降水量 /mm 土地面积 /hm2 人口 /人 国内生产总值 表2.2 各区域的自然及经济社会指标 年平均气温/℃ 年降水量 /mm 土地面积 /hm2 人口 /人 国内生产总值 /万元 区域1 8.0 500.2 245.6 1 210 2 678.28 区域2 7.6 498.6 1064. 1 023 2 015.47 区域3 6.5 550.9 894.3 848 1 754.56 8.5 586.4 668.7 654 1 365.46

表2.3 某地区耕地复种指数和农业发展指数 年 份 1996 1997 1998 1999 2000 耕地复种指数 120.40 表2.3 某地区耕地复种指数和农业发展指数 年 份 1996 1997 1998 1999 2000 耕地复种指数 120.40 113.56 126.54 132.76 121.43 农业发展指数 100 115.68 124.50 135.69 129.56

矩阵法 地理矩阵 m个地点或地区;n个地理特征值

三、地理数据的来源 来自观测、测量部门的有关专业数据。比如,来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。 来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投资和产值、国内生产总值等。 来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关单位或者个人的某一方面的专题调查数据等等。 来自政府公报、政府文件中的有关数据。 来自档案、图书等文献资料中的有关数据。 来自互联网中的有关共享数据。 地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 其他来源的有关数据。

四、地理数据的变换 1. 定性数据转换成定量数据 2. 数据本身变换 有序数据(ordinal data)转换 二元数据转换 2. 数据本身变换 对原始数据需要消除量纲(或单位),转换为可比较的数据序列。目前,原始数据的变换有以下几种常用方法:对数变换、模数变换、指数变换、概率变换、滑动平均法等等

五、地理数据的分布特征 1. 地理数据的统计整理 基本步骤: ①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 ②计算各组数据的频数、频率,编制统计分组表。 ③作分布图。

统计分组 按质量标志 按数量标志 离散型变量 连续型变量 单项式 组距式 等距 不等距

例1 根据 表2.4 上海市100年降水量,说明统计分组和绘制频数图表。 例1 根据 表2.4 上海市100年降水量,说明统计分组和绘制频数图表。 974.8 1002.6 1588.1 770.7 1008.9 1206.8 1271.5 1101.9 1341.2 1331 1085.4 1184.4 1113.4 1203.9 1170.7 975.4 1462.3 947.8 1416 709.2 1147.5 935 1016.3 1031.6 1105.7 849.9 1233.4 1008.6 1063.8 1004.9 1086.2 1022.5 1330.9 1439.4 1236.5 1083.1 1288.7 1115.8 1217.5 1320.7 1078.1 1203.4 1480 1269.9 1049.2 1318.4 1192 1016 1508.2 1159.6 1021.3 986.1 794.7 1318.3 1171.2 1161.7 791.2 1143.8 1602 951.4 1003.2 840.4 1061.4 958 1025.2 1265 1196.5 1120.7 1659.3 942.7 1123.3 910.2 1393.5 1208.6 1305.5 1242.1 1572.3 1416.9 1253.8 1282.3 982.1 1388.5 1057.5 1282.8 1472.7 1011.7 1214.8 1193.4 1139.5 1012.4 1237.6 903.6 1025.5 1121.8 807.8 815.6 1180.1 1105 989.4 900.9

1)找出原始数据中的最大值、最小值,并求出全距range 2)把全距按组的宽度一致性原则恰当地分组,即确定组数、组距、组限和组中值 n=1+3.32lgN N为样本容量 组距=全距/组数 3)求出落在每个组距中的观察值数目,即求出组频数frequency和频率。 4)绘制频率分布图,有三种形式,即直方图(frequency histogram )、频数多边形图和累计频数分布曲线

组序 试定界限 修订界限 组中值 频数 频率(%) 累计频数 累计频率(%) 1 649.7-768.7 649.7-768.6 709.2 2 768.7-887.7 768.7-887.6 828.2 7 8 3 887.7-1006.7 887.7-1006.6 947.2 16 24 4 1006.7-1125.7 1006.7-1125.6 1066.4 27 51 5 1125.7-1244.7 1125.7-1244.6 1185.2 22 73 6 1244.7-1363.7 1244.7-1363.6 1304.2 14 87 1363.7-1482.7 1363.7-1482.6 1423.2 95 1482.7-1601.7 1482.7-1601.6 1542.2 98 9 1601.7-1720.7 1601.7-1720.6 1661.2 100

频数分布的直方图 :

将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布曲线图:

累积频数分布图

课后作业,p226,T5

课后作业,p226,T5

2.几种常用的统计指标与参数 描述地理数据集中程度的指标 描述地理数据分布离散程度的指标 描述地理数据分布特征的参数

1) 描述地理数据集中程度的指标 平均值 反映了地理数据一般水平。计算方法: ② 分组的地理数据 ① 未分组的地理数据 (2.1) 加权平均数 (2.2)

上海市100年降水量

中位数 ②分组的地理数据,中位数的计算方法: 确定中位数所在的组位置,按下述公式计算中位数 或 ① 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。 ②分组的地理数据,中位数的计算方法: 确定中位数所在的组位置,按下述公式计算中位数 (2.3) 或 (2.4)

在式(2.3)和 (2.4)中: Me代表中位数; L为中位数所在组的下限值; U为中位数所在组的上限值; fm为中位数所在组的频数; Sm-1为中位数所在组以下的累计频数; Sm+1为中位数所在组以上的累计频数; d为中位数所在组的组距。

众数就是出现频数最多的那个数,计算方法分为以下两种情况: ①未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。 ②对于已经分组的地理数据,中位数的计算步骤如下: 确定频数最多的组为众数所在组。 按以下公式计算众数 (2.5) 或 (2.6)

在式(2.5)和 (2.6)中: M0代表众数; L为众数所在组的下限值; U为众数所在组的上限值; ∆1为众数组频数与下一组频数之差; ∆2为众数组频数与上一组频数之差; d为众数所在组的组距。

上海市100年降水量 中位数 众数

例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。 表2.5 某农场各农田地块的面积 地块编号 1 2 3 4 5 6 7 8 9 10 11 12 平均值 中位数 众数 面积/hm2 83 50 35 55 72 40 85 29 65 75 54.25 52.5 应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。

例3:表2.5给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。 表2.5 中国西部地区某城市2000年家庭月收入的 抽样调查结果 家庭月收入/元 户数 向上累计频数 向下累计频数 2 000~3 000 300 2 130 3 000~4 000 1 300 1 600 1 830 4 000~5 000 200 1 800 530 5 000~6 000 150 1 950 330 6 000~7 000 100 2 050 180 7 000~8 000 50 2 100 80 8 000~9 000 30 合 计 2130 —

解题步骤: (1)用公式(2.2)计算平均数 (2)计算中位数。先确定中位数所在组的位置,再按照公式(2.3)或者(2.4)计算中位数 Me =3 588.46(元) =3 899.06(元)

(3)计算众数,先确定众数所在组,再按照公式(2. 5)或(2. 6)计算众数。 显然,众数所在组应该在第二组。 众数M0 =3 476

2)描述地理数据分布离散程度的指标 极差 指所有数据中最大值与最小值之差,计算公式为 离差 指每一个地理数据与平均值的差,计算公式为 离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为 (2.7) (2.8) (2.9)

方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 方差与标准差 方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 标准差为方差的平方根,计算公式为 (2.10) ( 2.11)

如果以样本方差对标准差进行无偏估计,则计算公式为 (2.12) 无偏估计是参数的样本估计值的期望值等于参数的真实值。无偏估计就是系统误差为零的估计。 样本方差则是用样本数据个数或总频数减1去除离差平方和,其中样本数据个数减1即n-1称为自由度。 当平均数的值和其中n-1个数据的值已知时,另一个数据的值就不能自由变化了,因此样本方差无偏估计的自由度为n-1

变异系数表示地理数据的相对变化(波动)程度,其计算公式 (2.13)

变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对变化(波动)的程度。 如果两个数量级不相同的地理要素,虽然其相对变化程度相同,但其方差、标准差却一定是不相同的。数量级大的要比数量级小的要素的方差、标准差大。这只要把任意一个地理要素的数列与把它的各项数值扩大任意倍的数列作比较,就可以看得很清楚。它们的方差、标准差差别显著,但相对波动程度完全相同的。 因此,用变差系数来衡量相对波动的程度。

用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直观,并且在空间分析时,还可以作出变差系数的等值线图,以表示各区域一种地理要崇的相对稳定状况。 比如,各地区人口出生率、自然增长率的相对稳定状况以及城乡入口比例的相对波动程度等都可以用变异系数来衡量。它还是衡量农作物产量稳定程度、线路上客运量相对波动程度以及各项自然要素的稳定程度的指标。

例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。 表2.4.2 某农场各农田地块的面积 地块编号 1 2 3 4 5 6 7 8 9 10 11 12 平均值 中位数 众数 面积/hm2 83 50 35 55 72 40 85 29 65 75 54.25 52.5

步骤 : (1)按照公式(2.4.7)计算极差 (2)按照公式(2.4.8)计算离差,结果见表2.4.4。 表2.4.4 地理数据的离差 序号 1 2 3 4 5 6 7 8 9 10 11 12 面积 83 50 35 55 72 40 85 29 65 75 离差 -42.25 28.75 -4.25 -19.25 0.75 17.75 -14.25 30.75 -25.25 10.75 20.75

(3)按照公式(2.9)计算离差平方和 (4)按照公式(2.10)计算方差 (5)按照公式(2.11)计算标准差 (6)按照公式(2.12)计算标准差的无偏估计 (7)按照公式(2.13)计算变异系数 5 666.25 21.729 9 0.418 4

应用实例1:两个干旱区降水量变异系数

应用实例2:中国大陆省份人均GDP的变异系数 我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.13)计算变异系数,结果如图。

图 1978—2002年中国大陆省份人均GDP的变异系数

从图中可以看出,在1978—2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978—1990年期间基本上呈现下降趋势,而在1990—2002年期间则基本上呈现上升趋势。 这说明,在1978—1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990—2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。

山东省区域差异变动(1978-2008)

3)描述地理数据分布特征的参数 偏度系数 测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为 g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。 (2.14)

图2.4.3 偏度系数的三种情形

峰度系数 它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数 g2 =0;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布(图2.4.4)。 (2.15) 图2.4.4 标准峰度系数的三种情形

3. 地理数据分布的集中化 与均衡度指数 罗伦次曲线与集中化指数 基尼系数 锡尔系数

.罗伦次曲线与集中化指数 罗伦次曲线 20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。

绘制罗伦次曲线实例: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序; (2)从大到小,逐次计算累计百分比; (3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。

表2.5.1 某地区农户家庭经营性纯收入水平及其构成 表2.5.1 某地区农户家庭经营性纯收入水平及其构成

图2.5.1 1999年农户家庭经 营性纯收入构成的罗伦次曲线 图2.5.1 1999年农户家庭经 营性纯收入构成的罗伦次曲线 图2.5.2 2004年农户家庭经营性纯收入构成的罗伦次曲线

结果分析: 罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。 如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。 比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。

(1)集中化指数 集中化指数,是一个描述地理数据分布的集中化程度的指数。 假若罗伦次曲线的解析式为: 显然,该曲线下方区域的面积为: (2.5.3) 假若罗伦次曲线的解析式为: 显然,该曲线下方区域的面积为: 当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。

The Lorenz Curve B A Perfect inequality line Cumulative % of Y 100 50 Cumulative % of X Cumulative % of Y Perfect equality line Lorenz curve Perfect inequality line A B

显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。 常采用如下近似取值方法: A——实际数据的累计百分比总和 R——均匀分布时的累计百分比总和 M——集中分布时的累计百分比总和 集中化指数在[0,1]区间上取值。 只有数据的个数相同而且横坐标划分一致时,才有可比性。

在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,L3…L10,由每一个分点作y轴平行线,交罗伦兹曲线于 M1,M2,M3… M10 ;由交点M1,M2,M3… M10做x轴平行线交y轴C1,C2,C3, … C10, C=C1+C2+C3+…C10 当洛仑兹曲线和对角线完全重合时,C=10+20+…+100=550,I=0;当洛仑兹曲线与对角线完全偏离时,C=100+100+…+100=1000,I=1。因此,集中化指数可以测度洛仑兹曲线偏离对角线的程度。 目前很多学者利用罗伦兹曲线和基尼系数分析和度量收入、健康、贫困、财富等的区域不平等性Inequalities。

X 作图法求集中化指数 O 选定工业部门产值累积百分比(%) L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 C10 100 C9 M10 选定工业部门产值累积百分比(%) M9 C8 作图法求集中化指数 M8 C7 M7 80 C6 M6 C5 M5 60 C4 M4 C3 M3 40 C2 M2 20 C1 M1 O L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 工业总产值累积百分比(%)

集中化指数

(2)基尼系数 基尼系数(Gini coefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。

其原理方法如下: 列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w; 计算每一区域(部门)的比率w/p; 按照上述顺序分别计算p和w的累计值X和Y; 以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。

基尼系数(G)就可以按照如下公式计算: 假若罗伦次曲线的解析式为: 显然,该曲线下方区域的面积为: (2.5.6) 假若罗伦次曲线的解析式为: 显然,该曲线下方区域的面积为: 对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。

根据中国大陆1978-2002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如下图。可以看出,在1978-1990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在1991-2002年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。

图2.5.4 1978—2002年中国大陆省际收入差异的基尼系数 EXCEL演示

联合国有关组织规定: 若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。

(3)锡尔系数 基尼系数(Gini coefficient),用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。 锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数L。 两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算。

如果以人口比重加权,锡尔系数 L 的计算公式为: (2.5.9) 式中: n为区域(部门)个数; 为地区(部门)收入占全区(各部门总计)的份额; 为i地区(部门)的人口占全区(各部门总计)的份额。

如果以收入比重加权,则锡尔系数 T 的计算公式为: (2.5.10) 锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。 Moreover, we compute the so called Theil coefficient, which is an aggregate indicator for income inequality. The Theil coefficient equals 0 if all N persons have the same income and its value is ln(N) at maximum in case all income accrues to one person.

根据各省(直辖市、自治区)的人口和按照可比价格折算的GDP数据,计算1978—2002年中国大陆省际差异的锡尔系数T 值,结果如下图所示。可以看出,在1978—1990年期间,锡尔系数虽然有微小波动,但基本上呈下降趋势;而在1991—2002年期间,基本上呈显出上升趋势。这一结论,与前面计算出的基尼系数也是相互印证的。

图2.5.5 1978-2002年中国大陆省际收入差异的锡尔系数

(4)泰尔系数 泰尔指数具有可加分解性,通过分解成为“组内”差异和“组间”差异,从而可以看出全国四区域板块之间发展差距以及各板块内部发展差距。泰尔指数最终分解为: 。其中, 为i板块j省的GDP占该板块的比重, 代表i板块GDP占全国的比重。P代表人口,下标含义与GDP相同。K代表全国的板块数,n代表某个板块内部的分省个数。

用1978年不变价计算的人均GDP的省际基尼系数变化(人均GDP平减)

全国地区差距的分解 1978年以来,地区差距主要由四大板块之间的差距和东部地区内部的差距所导致,二者合计占地区总差距的比重基本保持在96%左右。

作业: 对于下表中的数据,分别计算平均值、中位数、众数、极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。

习题与思考题 地区 工业总产值 电力 纺织 1 22.9 1.8 22.0 2 17.6 8.0 21.6 3 11.7 6.0 3.5 4 11.5 32.0 2.8 5 4.3 2.6 4.4 6 5.5 5.9 15.2 7 10.0 0.2 8.2 8 1.4 11.2 9 30.9 5.6 10 4.6 总计 100.0 设有10个地区的2个工业部门,各部门的工业总产值所占百分比列于下表,试作出各工业部门的空间罗伦兹曲线,并计算个工业部门的集中化指数,作出地理解释。