PM2.5浓度土地利用回归建模关键问题研究 答辩人: 罗艳青 指导教师:邹滨副教授 专业: 地图学与地理信息系统 2014-5-11
目 录 研究背景及意义 LUR关键问题分析及技术路线设计 数据收集及预处理 研究结果及讨论 结论及展望
研究背景及意义 随着社会经济的发展,石油、煤炭等化石燃料的广泛利用,大量的有害气体进入大气中,达到足够的浓度,对人体的舒适、健康、福利或环境造成危害,严重威胁到人类的生存。
研究背景及意义 2001-2006年全球PM2.5年均浓度分布图 全球绝大部分地区PM2.5年均浓度超过WHO划定的安全界限(10ug/m3)。其中,北非、东亚和中国等地区PM2.5平均浓度高于50ug/m3,部分地区甚至接近80ug/m3。全球每年因PM2.5污染导致的过早死亡人数高达320万,造成超过7600万健康生命年(1个人减少1年寿命为1健康生命年)的损失。
研究背景及意义 空气污染浓度模拟方法: 邻近模型 空间 插值 扩散模型 LUR 模型 原理简单 操作相对简单 数据相对易获取 空间可迁移性差 时间分辨率不高 原理简单 操作简便 对采样点数据依赖性强 邻近模型 空间 插值 扩散模型 LUR 模型 原理简单 计算简便 误分类明显 原理复杂 操作复杂 对数据要求较高 精度较高 土地利用回归建模具有数据要求低、考虑因素齐全、模拟精度和空间分辨率较高、适用范围广等优点。
目 录 研究背景及意义 LUR关键问题分析及技术路线设计 数据收集及预处理 关键问题研究结果及讨论 结论及展望
LUR关键问题分析及技术路线设计 样本 选取 特征变 量筛选 模型 精度 模型构建与检验 样本 选取 特征变 量筛选 LUR(土地利用回归模型)是一种基于空气质量监测站点PM2.5观测浓度及其周边地理要素变量,借助最小二乘法建立的用于预测研究区内任意空间位置点PM2.5浓度的多变量回归建模手段。
LUR关键问题分析及技术路线设计 样本数据选取: 样本数据来源:自主采样;常规监测。 自主采样周期:1-4个7天。 文献 数据来源 站点 监测周期 时间分辨率 [27] 自主采样 40-42 - 年均 [20] 40 4个14天 [22] 常规监测 49 [23] 23 [28] 7天 [29] 116 [30] 26 2个7天 [24] 32 [32] 318 [25] 18 [31] 50 [37] 77 日均 [36] 34 月均 [38] [26] 13 周均 样本数据来源:自主采样;常规监测。 自主采样周期:1-4个7天。 样本数据大小:13-318个不等,普遍在20-80之间。
LUR关键问题分析及技术路线设计 特征变量筛选:
LUR关键问题分析及技术路线设计 LUR模型构建 与检验 模型构建: 多元线性回归 模型检验: 多元逐步回归模型与贝叶斯最大熵法(BME)结合 GAM模型与LUR模型结合 地理加权回归模拟 模型检验: 残差、异方差和预测变量之间的相关性检验 残差空间自相关检验 n-1交叉验证法 预留检验样本法
LUR关键问题分析及技术路线设计 模型精度: PM2.5 LUR模型中通常只包含少数的预测变量(约2-6个); 模型的检验标准误差在1.00ug/m3-3.30ug/m3之间。
LUR关键问题分析及技术路线设计 1 2 3 PM2.5LUR模型存在的主要问题 地理要素“污染贡献”空间尺度方面: “各类特征变量污染贡献估算的最佳空间作用尺度究竟是多大”及其对模型精度的影响尚不明确 LUR模型空间迁移特性方面: PM2.5LUR模型可迁移性探索研究较少; 模型迁移特性不明确; 模型迁移条件不明确。 步的探索分析 模型精度评价方面: 基于点的模型精度评价方法,评价范围局限于污染物浓度监测样本点,易受站点数量分布特征影响。
LUR关键问题分析及技术路线设计 研究内容: 特征变量空间尺度依赖研究 模型精度评价方法研究 模型空间迁移特性研究 区域模型对比 模型互相迁移 迁移效果分析 浓度表面模拟 基于检验点的模型精度评价 基于面的模型精度评价 特征变量与PM2.5年均浓度值之间的相关关系随缓冲区半径大小的变化情况 特征变量空间尺度的选取对模型精度的影响
LUR关键问题分析及技术路线设计 技术路线:
目 录 研究背景及意义 LUR关键问题分析及技术路线设计 数据收集及预处理 关键问题研究结果及讨论 结论及展望
数据收集及预处理 研究区域概括: 研究区位于美国本土东部沿海地区,覆盖Alabama、Maryland、Florida等21各州区,1066个县,占地面积1,515,453km2。
数据收集及预处理 浓度监测数据 土地利用数据 地理要素数据 数据采集 道路数据 区划数据 人口分布数据 气象等 数据预处理
数据收集及预处理 监测数据: ID 站点号 年均浓度 最小值 最大值 平均值 RMSE 1 01-005-0002 12.79 4.43 21.82 12.94 2.71 2 01-027-0001 13.47 3 01-049-1003 14.2 4 01-089-0014 15 5 01-119-0002 12.13 ⋮ 450 23-011-2006 9.7 污染特征: 共450个监测站点,PM2.5年均浓度值范围:4.43-21.82 ug/m3,平均浓度值为12.94 ug/m3。 PM2.5污染呈南北两端浓度低,中间区域浓度高的分布趋势,Pennsylvania、New Jersey、Maryland、Alabama、Georgia州区域的污染较严重
数据收集及预处理 地理要素数据:
数据预处理:区域划分及样本数据分组 数据收集及预处理 区域 训练样本 检验样本 数量 最小值 最大值 均值 全区 362 4.43 21.82 10.72 88 4.44 19.00 12.98 子区域1 24 15.02 9.58 5 13.98 8.70 子区域2 124 5.00 22.00 13.00 31 6.27 17.46 13.12 子区域3 214 7.00 18.00 12.00 52 8.00 13.31
数据预处理:特征变量提取 数据收集及预处理 土地利用类型分为:水体、自由用地、低密度城区、中密度城区、高密度城区、荒地、林地、耕地、湿地九个类别;使用面积占比特征变量。 道路交通:主要道路、次要道路、当地道路、高速道路、其他道路五种道路类型。使用缓冲区内道路长度和到道路最近距离特征变量。 人口分布:人口密度;住房密度。 其他:距海距离 缓冲区半径:10000m、5000m、4500m、4000m、3500m、3000m、2500m、2000m、1500m、1000m、800m、500m、400m、300m、200m、100m
目 录 研究背景及意义 LUR关键问题分析及技术路线设计 数据收集及预处理 关键问题研究结果及讨论 结论及展望
PM2.5 LUR建模特征变量空间尺度依赖研究 关键问题研究结果及讨论(1) 不同地理要素特征变量与PM2.5年均浓度的相关系数均存在较大差异;土地利用类型和道路交通要素与PM2.5年均浓度的相关性较强。 各特征变量有其特有的空间尺度效应。如水体、荒地、林地、耕地和湿地与PM2.5年均浓度负相关,分别在10000m、10000m、100m、5000m和10000m处达到最强相关;自由用地、低/中/高密度区域与PM2.5年均浓度呈正相关,分别在10000m、5000m、100m和3500m处达到最相关。 PM2.5浓度与特征变量相关性分析
PM2.5 LUR建模特征变量空间尺度依赖研究 关键问题研究结果及讨论(1) 模型拟合度:最佳空间尺度模型、5000m、200m-800m尺度模型。 模型预测变量:5-8个不等,预测变量类型在一定尺度范围存在较强的相似性,如3500m-4500m;2000m-3000m;200m-1500m。 预测变量:距道路/海距离特征变量对PM2.5污染的贡献较稳定,自由用地、高密度区域和道路长度类特征变量在考虑缓冲区范围较大时贡献大,林地、湿地、人口密度类特征变量则在考虑缓冲区范围较小时贡献大。
PM2.5 LUR建模特征变量空间尺度依赖研究 关键问题研究结果及讨论(1) 研究结果: 研究局限: 不同特征变量对PM2.5浓度的影响方向不一样,不同的特征变量与PM2.5年均浓度的相关性随空间尺度增大的变化趋势不一致。 水体、自由用地、湿地、道路长度、人口密度和住房密度最佳空间尺度为10000m,中密度区域和林地的最佳空间尺度为100m,低密度区域、耕地为5000m,高密度区域为3500m。 最强相关空间尺度变量构建的LUR模型无论是拟合度优于其他尺度变量下的模型(R2:0.37 vs 0.33-0.35) 研究局限: 考虑地理要素有限:考虑了土地利用类型、道路交通、人口分布、距海距离等地理要素,可增加排放特征,城市形态、气候场、背景污染浓度等要素。 缓冲区半径设置范围有限:100m-10km离散半径设置,对于特征变量最佳空间尺度的选取仍然是一个相对粗略的概念。 统计回归方法选取:相关分析缺乏对空间分布特征的考虑易受训练样本选取的影响;多元线性回归建模方法没有考虑到特征变量对污染贡献的地域差异。
PM2.5 LUR模型的空间迁移特性研究 关键问题研究结果及讨论(2) 子区模型的模拟性能高于全区模型; ID 区域 预测变量 adj R2 1 全区 X11-10000, X17-100, X23-10000, X32-10000,X45, X41, X42, X5, 0.37 2 子区1 X14-5000 0.52 3 子区2 X13-1500,X19-10000, X17-100, X22-10000, X31-800, X5 0.59 4 子区3 X14-10000, X19-10000,X15-1500, X5, X41 0.39 子区模型的模拟性能高于全区模型; 各模型建模变量的数量分别为8个、1个、6个和5个; 各模型预测变量差异较大。
PM2.5 LUR模型的空间迁移特性研究 关键问题研究结果及讨论(2) 表4-3 模型迁移结果 模型ID 子区1 子区2 子区3 全区 1 0.53 0.51 0.31 0.37 2 0.52 0.01 0.04 3 0.29 0.59 0.32 0.30 4 0.46 0.44 0.39 0.26 迁移效果较好的模型依次为:模型1、模型4、模型3和模型2。 除模型1迁移到子区1外,其他均表现为本地模型优于迁移模型。 大区域下LUR模型的迁移效果优于小区域模型的迁移效果。 预测变量多的LUR模型迁移效果相对较好。
PM2.5 LUR模型的空间迁移特性研究 关键问题研究结果及讨论(2) 全区 子区1 本地模型 模型1 本地模型 模型2 模型3 模型4
PM2.5 LUR模型的空间迁移特性研究 关键问题研究结果及讨论(2) 子区2 子区3 本地模型 模型1 本地模型 模型1 模型2 模型4 模型3
PM2.5 LUR模型的空间迁移特性研究 关键问题研究结果及讨论(2) 研究局限: 研究结果: 各区域特征变量强相关空间尺度差异较大,如耕地面积占比在四个区域的强相关空间尺度分别为10000m、2000m、10000m、500m。 区域LUR模型,无论数量还是预测变量均存在较大差异。 本地模型优于迁移模型。 大区域下LUR模型或的预测变量多的LUR模型迁移效果相对较好。 研究局限: 区域划分因子单一:仅基于气候条件划分子区,各子区内部仍然存在较大的污染环境差异。应综合考虑地形、气候、城市密度、PM2.5排放结构等污染环境要素,构建适用于LUR模型迁移的区域判别因子。 建模方法存在不足:使用统一流程建模后区域模型预测变量数量较少,区域间模型预测变量相似性低。应尽量增加区域模型相似性。
PM2.5 LUR模型精度评价方法研究 关键问题研究结果及讨论(3) 区域最佳拟合度模型模拟全区浓度(LUR模型):子区1使用了模型1,子区2使用了模型3,子区3使用了模型4。并与OK、IDW空间插值模型比较。
PM2.5 LUR模型精度评价方法研究 关键问题研究结果及讨论(3) 表5-1 基于检验样本的模拟精度验证结果(RMSE,单位:ug/m3) 全区 子区1 子区2 子区3 LUR 2.20 3.07 3.03 1.96 OK 1.70 2.72 1.80 1.50 IDW 1.84 2.84 2.10 1.53 OK模型模拟精度较好,其次是IDW模型和LUR模型; 基于不同检验样本下的模型精度评价结果存在偏差; 子区3的检验精度优于全区、子区2、子区1; OK和IDW模型的模拟精度比较接近。
PM2.5 LUR模型精度评价方法研究 关键问题研究结果及讨论(3) 表5-2 PM2.5年均浓度表面统计特征(浓度单位:ug/m3) 最小值 最大值 范围 均值 STD 信息熵 LUR 1.11 19.19 18.08 11.87 1.98 6.95 OK 6.26 19.43 13.18 12.77 2.10 7.18 IDW 4.43 21.81 17.38 12.63 2.20 7.52 IDW模型模拟PM2.5年均浓度范围与实际观察浓度范围(4.43ug/m3-21.82 ug/m3)最接近; LUR模型模拟浓度均值与监测均值(10.72 ug/m3)最接近; LUR模型模拟浓度表面的图像信息相对丰富。空间分辨率高。
PM2.5 LUR模型精度评价方法研究 关键问题研究结果及讨论(3) IDW模拟浓度变化频率高,起伏大,起伏变化接近观测站点浓度分布; OK模型起伏情况与IDW较相似,但是起伏范围相对将少; LUR模型模拟结果变化趋势平缓,起伏频率低、幅度小。
PM2.5 LUR模型精度评价方法研究 关键问题研究结果及讨论(3) 研究结果: 研究局限: LUR模型模拟美国东部地区2006年PM2.5年均浓度表现为南北两端浓度低,中间区域浓度高的分布,并且中间区域呈明显的沿海向内地浓度值增加的变化趋势。OK、IDW模型模拟美国东部地区2006年PM2.5年均浓度分布较接近,均表现为南北两端向中间浓度增高的变化趋势。 离散点方式下的模型精度评价结果表明:OK模型模拟精度优于IDW模型,LUR模型模拟精度最差。 基于连续面的模型精度评价结果表明:LUR模型模拟表面包含较多的浓度变化信息,模型模拟浓度范围大,模拟平均浓度接近实际监测浓度,但是模拟浓度值普遍偏低,变化趋势缓慢。 研究局限: 图像信息熵作为模拟浓度表面不同浓度值出现概率的统计结果,尽管能够在一定程度上反映模拟的年均浓度表面包含PM2.5年均浓度变化信息多寡,但是评估效力有限,并且熵值大小与模型模拟精度之间尚未建立起明确的科学对应关系。 趋势面分析方法,在查看模型模拟浓度变化趋势上面有独特的优势,但是仍然在一定程度上依赖于监测样本数据的分布,且操作起来复杂,不利用推广。 本研究样本数量较大,满足OK、IDW模型模拟PM2.5浓度分布条件,实验结果是否可适用于其他地区或是否会随研究区域空间尺度大小改变也有待进一步探索。
目 录 研究背景及意义 LUR关键问题分析及技术路线设计 数据收集及预处理 关键问题研究结果及讨论 结论及展望
结论及展望 研究结论: LUR建模中特征变量存在空间尺度依赖性特征,不同类型地理要素乃至同一地理要素类不同特征变量的空间尺度依赖差异较大,各特征变量依赖空间尺度的大小取决于地理要素特征变量影响PM2.5浓度变化的物理机制及其作用范围大小。 受模型预测变量差距较大的影响,LUR模型空间迁移特性较差。相对而言,全区模型的迁移效果较好,大区域模型或预测变量多模型迁移效果较好。如模型1和模型4的迁移效果优于模型2和模型3 点面结合的模型检验方法评价结果更稳定、更准确,评价的方面也更广泛。本研究对于LUR、OK、IDW模型的评价结果表明:OK模型模拟精度最好,其次是IDW模型和LUR模型,但是,LUR模型空间分辨率高、图像信息丰富的优势明显。
结论及展望 研究展望: 污染特征库的构建与筛选:系统分析LUR建模潜在地理要素、可用特征变量,分类评估特征变量的代表性,选取数据易获取、代表性强、能广泛应用的特征变量做为地理要素标准建模变量,并构建污染特征数据库。 模型的时空尺度效应研究:研究区域大小和研究对象的时空分辨率对模型变量选取及模型精度的影响,以及LUR模型的时空迁移特性。深化LUR模型的应用。 模型构建方法优化:如优化特征变量提取方法,使用主成分分析等方法提高特征变量的预测能力;地理加权建模;模型检验方法优化;分层模型构建;时空模型构建等。 应用方向扩展:如PM2.5浓度的实时预测预报,将PM2.5 LUR模型的应用于居民健康出行路线设置,商品房/学校位置选取,高速公里封闭路线选取、重要污染源关停等方面。
敬请各位老师和同学 对论文提出宝贵意见 谢 谢!