Remote Sensing Inversion of Near Surface Air Temperature Based on Random Forest

Received date: 2016-06-13

  Request revised date: 2016-08-26

  Online published: 2017-03-20


近地表气温是城市热环境的重要表征,是改变和影响城区气候的重要因素。为获得空间上连续的近地表气温,本文以北京市为研究区,利用Landsat5/TM数据计算分别得到地表温度、归一化植被指数、改进的归一化差异水体指数、地表反照率、不透水面盖度,并结合气象站点气温和高程作为输入参数建立随机森林模型反演近地表气温。结果表明,随机森林反演的近地表气温平均绝对误差(MAE)为0.80 ℃,均方根误差(RMSE)为1.06 ℃,与传统多元线性气温回归方法相比,平均绝对误差(MAE)和均方根误差(RMSE)分别提高0.06 ℃和0.09 ℃。研究表明,利用随机森林模型反演近地表气温是可行的,并且具有一定的优越性。此外,对随机森林模型的输入参数进行重要性分析,地表温度对气温反演模型的影响最大,其次为高程。


Near-surface air temperature is an important symbol of urban thermal environment, which is also an important factor affecting and changing the climate of the city. The data of near-surface air temperature is often in absence because the number of meteorological stations is few. In order to obtain spatial continuous near surface air temperature data, this study takes Beijing city as the research area, using Landsat5/TM data to retrieve land surface temperature, normalized difference vegetation index, modified normalized difference water index, albedo and impervious surface cover. These are combined with the meteorological station temperature and DEM as the input parameters into random forest regression model to retrieve near surface air temperature. In this study, land surface temperature was retrieved by single-channel algorithm which was proposed by Jiménez-Muoz in 2003. The imperious surface cover was calculated by the linear spectral unmixing method and Vegetation-Impervious surface-Soil (VIS) model. The random forest is one of the most effective methods of classification and it runs by constructing multiple decision tree while training and outputting the class. This study uses the R language which is a free software environment for statistical computing and graphics to achieve random forest. The results show that the random forest method has good applicability in the near surface temperature retrieval. The mean absolute error (MAE) and root mean square error (RMSE) of the random forest method are 0.80 and 1.07, respectively. Compared with the ordinary regression model, the MAE and (RMSE) accuracy increased by 0.06 and 0.09. Using R language to analyze the importance of variables, land surface temperature has the greatest influence on the results. The increase in Mean Square Error of land surface temperature is 14% and the increase in node purity of land surface temperature is 241.36%.

1 引言

近年来,国内外学者在利用遥感数据反演近地表气温方面开展了大量研究。气温反演方法可以大致归纳为:常规统计方法、温度-植被指数法(Temperature Vegetation Index,TVX)、神经网络方法和能量平衡方法。常规统计方法是通过建立地表温度与站点观测气温之间的线性关系来计算气温。Zhao等[6]建立了月气温的多元回归模型,并将之与多种地统计插值方法对比,结果表明线性回归模型有更好的精度。Cresswell等[7]在地表温度外,考虑到太阳天顶角对气温的影响,建立地温、太阳天顶角和气温的多元回归模型,估算误差在0.09~1.69 ℃之间。曲培青等[8]利用Terra/MODIS和Aqua/MODIS数据分别和其它地理数据因子建立回归方程,对不同时刻估算气温的遥感数据进行最优分析。温度-植被指数法是指在浓密植被冠层表面温度近似地表温度的前提下,利用地表温度和植被指数的关系反演气温,其关键在于确定邻域窗口大小,对于空间分辨率为3 km的SEVIRI数据采用7像元×7像元[9],空间分辨率为1 km的MODIS和AVHRR数据采用13像元×13像元[10]。Stisen等[11]将温度-植被指数方法与正弦函数插值相结合估算近地表气温,均方根误差在2.55~2.99 ℃。徐永明等[12]改进了温度-植被指数方法,提高了该方法的精度与适用范围。能量平衡方法利用的是能量平衡原理来进行气温反演研究。Sun等[13]利用能量平衡方程等多个计算公式推导出地表温度与气温之间的定量关系,误差范围在0.3~3.16 ℃之间。

2 研究区概况与数据源

2.1 研究区概况

北京市位于华北平原北部,毗邻渤海湾,三面环山。地理坐标为东经115.7~117.4°,北纬39.4~41.6°,中心位于北纬39°54′20″,东经116°25′29″。其总面积16 410.54 km2,山区面积约10 200 km2,占总面积的62%,平原区面积约6200 km2,占总面积的38%。山地海拔在1000~1500 m,平原海拔在20~60 m。北京属于北温带半湿润大陆性季风气候,夏季炎热多雨,冬季寒冷干燥,春秋较短,冬夏长。平原地区年均气温11~13 ℃,年极端最高温一般在35~40 ℃左右,年降水量在470~600 mm之间。

2.2 数据源

遥感数据选取Landsat5/TM数据,成像时间为2011年7月26日上午10时24分,预处理阶段结合地形图对影像进行几何精校正,利用6S辐射传输模型对第1-5波段和第7波段进行大气校正,消除大气对数据的影响。以北京市空间分辨率为30 m的数字高程模型(Digital Elevation Model,DEM)数据,作为研究区的高程数据。另外,利用对应时相的MODIS水汽含量产品MOD05_L2提取北京市的水汽数据。
Fig. 1 Distribution map of meteorological observingstation in the study area

图1 研究区气象站点分布图

3 研究方法

3.1 随机森林模型

随机森林(Random Forest)是2001年由Leo Breiman和Culter Adele开发的一种数据挖掘方 法[14],是一种现代分类与回归的机器学习技术,同时也是一种组合式的自学习技术。随机森林的基本组成单元是决策树,其优越性体现在同等运算率下的高预测精度,以及相较于传统的统计方法,对非线性的数据有更好的拟合效果[15],并且能够进行变量重要性分析,对比神经网络和支持向量机等其他暗箱方法在分析变量关系上存在优势[16]。随机森林在遥感方面的应用主要集中在遥感图像分类上,比传统的遥感分类方法提供更好的精度[17]。但是目前随机森林算法较少被应用于遥感定量反演方面的研究[18]
本文通过R语言中的random Forest数据包构建随机森林模型来反演北京市近地表气温。模型输入自变量包括地表温度(LST)、归一化植被指数(NDVI)、改进的归一化差异水体指数(MNDWI)以及地表反照率(Albedo)、高程(Altitude)和不透水面盖度(ISC),因变量为气象站点的观测气温。模型构建过程如图2,具体步骤为:
Fig. 2 The building process of Random Forest

图2 随机森林模型建立过程

Fig. 3 Model error changes with the number of Decision Tree

图3 模型误差随决策树数目的变化

3.2 自变量

T s = γ [ ε - 1 ( ψ 1 L + ψ 2 ) + ψ 3 ] + δ (1)
γ = c 2 L T 6 2 λ 4 c 1 L + λ - 1 - 1 (2)
δ = - γ L + T 6 (3)
式中:ε是地表比辐射率,利用混合像元法进行计算;L是传感器所接收到的辐射强度/W·m2·sr-1·μm-1;T是亮度温度/K;λ是有效作用波长(对于第6波段来说为11.457μm);c1、c2 是辐射常量,分别为1.19104×108W·m2·sr-1·μm4和 1.43877*104μmk;ψ1、ψ2、ψ3是大气参数,可以由大气剖面总水汽含量w来获得,对于Landsat5/TM第6波段,公式如下:
ψ 1 = 0.14717 · w 2 - 0.15583 · w + 1.1234 ψ 2 = - 1.1836 · w 2 - 0.37607 · w + 0.52894 ψ 3 = - 0.04554 · w 2 - 1.8719 · w - 0.39071 (4)
城市化程度和范围可利用不透水面量化表 征[20]。不透水表面指水不能直接通过且不能下渗到土壤中的人为景观[21],不透水面直接改变地表特性,对城市生态环境,尤其是城市热环境有直接影响。本文利用V-I-S模型(Vegetation-Impervious Surface-soil)进行不透水面盖度的计算,该方法由Ridd[22]于1995年提出,认为在剔除景观水体外,城市下垫面构成类型主要包含植被、土壤、不透水面3种典型土地覆盖类型。为了确定端元光谱特征,对遥感影像进行MNF变换以减少数据冗余和波段之间的相关性,再通过像元纯净度PPI计算和N维散度分析提高植被、土壤、不透水面端元光谱特征的精度。确定像元内不同端元在不同光谱波段的特征值,从而确定不同端元的所占比例[23]
Tab. 1 Equations of the correlation index and albedo

表1 相关指数及反照率计算方程

自变量 方程 参考文献
MNDWI MNDWI=(Green-MIR)(Green+MIR) 文献[25]
Albedo αshort=0.356α1+0.13α3+0.373α4+ 0.085α5+0.072α7 文献[26]

3.3 模型验证方法


4 结果与分析

4.1 验证结果

基于168个样本的LST、Altitude、NDVI、MNDWI、Albedo和ISC与对应站点气温构建随机森林模型,再利用另外56个样本对由该168个样本建立的随机森林模型进行验证。MAE为0.80 ℃,RMSE为1.06 ℃,反演精度较好,随机森林对于近地表气温的反演有较好的适用性,对气温的估算效果较好。图4(a)给出随机森林方法反演的测试集气温与实际观测气温的散点图。图中样本大部分聚集在1:1线周围,有较高拟合度,以30 ℃为界线,温度高于30 ℃的样本分布比低于30 ℃的样本更贴近1:1线,表明随机森林在温度较高时反演精度更好。
Fig. 4 Scatter plot of measured air temperature versus derived air temperature from Random Forest and Linear Regression

图4 随机森林反演和线性回归反演的气温值与观测值的散点图

另外,基于相同的训练集和测试集使用了传统的多元线性回归方法对气温进行估算,建立了以LST、NDVI、MNDWI、Albedo、Altitude及ISC为自变量、以气温为因变量的多元线性方程,与随机森林算法进行对比分析。图4(b)给出了线性回归方程反演的测试集气温与站点观测气温散点图。从图可见,大部分样本也分布在1:1线周围,但比随机森林反演结果略微松散,拟合程度没有随机森林好。线性回归方程的MAE为0.86 ℃,RMSE为1.15 ℃。总体上看,随机森林模型的反演精度要高于线性回归方法。这是因为随机森林并不是单纯的线性拟合,所以在针对较多因子时,具有更好的灵活性和预测性。另外,在气温较低时,无论是随机森林模型还是线性回归方法气象站点的气温值和估算气温值都相差较大,说明在温度较低时,反演误差相对较高。
Fig. 5 Distributions of absolute error of the estimatednear-surface air temperature in Beijing

图5 北京市近地表气温反演绝对误差分布图

4.2 变量重要性分析

R语言提供的重要性函数可以直接对变量重要性进行分析,主要评价指标为精度平均减少值IncMSE和节点不纯度平均减少值IncNodePurity。IncMSE指将该变量随机取值后随机森林模型估算误差相对于原来误差的升高幅度。IncMSE值越大,说明该变量越重要。IncNode Purity是指该变量对各个决策树节点的影响程度。IncNodePurity值越大,说明该变量越重要。表2给出气温随机森林模型的变量重要性。从表2可以看出,在输入的自变量中地表温度是最重要的输入参数,地表通过长波辐射、蒸散、湍流交换等形式与近地表气温进行能量交换,地表温度和近地表气温之间有很强的相关性,因此地表温度对于模型的影响最大。高程也是影响气温空间分布及地气温关系的重要因子,研究区域内包含山地与平原,存在海拔差异,从而使其重要性仅次于地表温度。NDVI、MNDWI、ISC和Albedo这4个参数表征了地表的植被、水体、不透水面覆盖信息及地表反射太阳辐射的能力,这些下垫面特征通过对地气温关系的影响而间接影响模型反演精度,相对而言重要性要明显低于地表温度和海拔2个变量。
Tab. 2 The importance of forests random variables

表2 随机森林变量重要性

精度平均减少值/% 节点不纯度平均减少值
LST 14.28 241.36
Altitude 12.82 213.30
NDVI 3.43 60.15
MNDWI 3.77 82.89
Albedo 4.82 61.09
ISC 2.50 42.74

4.3 计算结果

将北京市的LST、NDVI、Altitude、MNDWI、Albedo以及ISC这6个自变量代入随机森林模型,计算得到北京市近地表气温空间分布图(图6)。从图6可见,北京市近地表气温呈现出显著的空间差异性:中心城区的气温较高,呈现出城市热岛特征;从中心城区到郊区气温逐渐降低,城区周围农田的温度通常低于城区3~5 ℃,而山地的气温则显著低于农田,并且山地呈现海拔越高气温越低的趋势。北京市反演气温与实际气象站点气温分布情况总体上一致,最高气温和最低气温都在合理范围内,无异常值出现,很好地反映了北京市的气温分布状况。
Fig. 6 Map of near surface air temperature in Beijing

图6 北京市近地表气温图

5 结论

本文首次采用随机森林方法对北京市近地表气温进行遥感反演,证明了随机森林在定量遥感中的可利用性和其在气温反演上的优越性。结果表明:① 随机森林模型适用于近地表气温的反演,平均绝对误差为0.80 ℃、均方根误差为1.06 ℃,与多元线性回归模型相比随机森林的反演精度更为理想(多元回归模型的平均绝对误差为0.86 ℃、均方根误差为1.15 ℃);② 在气温反演模型的输入参数中,地表温度对模型反演精度的影响最大,其次是高程,二者在随机森林模型中占有决定性地位。北京市近几年夏季无云的Landsat/TM遥感影像较少,加之对应时相卫星过境时气温数据不易获取,限制本文目前只能针对单个时相的数据进行探讨,存在局限性,后续可利用其他遥感数据进行更进一步的分析。

