

  • 杜欣 , 1 ,
  • 黄晓霞 , 1, * ,
  • 李红旮 1 ,
  • 沈利强 2
  • 1. 中国科学院遥感与数字地球研究所,北京 100101
  • 2. 深圳规划国土发展研究中心,深圳 518040


收稿日期: 2015-01-16

  要求修回日期: 2015-03-06

  网络出版日期: 2016-01-10




Research on Classification of Plant Community Using Projection Pursuit Learning Network Algorithm on High Resolution Remote Sensing Images

*Corresponding author: HUANG Xiaoxia, E-mail:

Plant community is a significant content in the ecosystem. Traditional investigation method for plant community is mainly based on statistical sampling, which is limited by the data acquisition from complex terrain areas. In contrast, high-resolution remote sensing technique provides a convenient way to quickly access data in a large area. To overcome the shortcomings derived from the high dimensional features, which is caused by related data increasing, we choose the algorithm of projection pursuit learning network (PPLN) along with field samples of typical plant communities to realize a fast classification on the vegetation in the east of Shenzhen. Then,in the experiment, the spectral and texture information extracted from Pléiades images, and the terrain interpolated from topographic map are selected and used to build high dimensional features, which is crucial to the vegetation classification using remote sensing images. The learning network for projection pursuit is applied to discriminating the typical communities in both plantation and natural secondary forest in the study area. Compared with Maximum-likelihood classification (MLC) and Support Vector Machine (SVM), PPLN can achieve more accurate results for plant community classification. As a conclusion, the plant community classification with PPLN meets the requirements of the investigation project, achieves the quick updating of some basic information related to forest resources, and looks forward to involve in some other ecological research as well.

1 引言

植物群落(Plant Community)在特定空间和时间范围内,有一定的植物种类组成、外貌及结构与环境形成的相互关系,并具有特定功能的植物集合体。传统的植物群落调查方法是对野外样地和抽样统计,进行大规模树种分类和量测,这种以个体来推断总体的传统方式已很难满足野外全面调查精度要求。高空间分辨率遥感影像地物几何结构和纹理信息明显,便于认知地物目标的属性特征[1],在提取地面信息、植被信息等方面,具有较强的识别能力,可提供更多有效的空间数据信息[2],实现高空间分辨率遥感影像植物群落的识别研究。

2 研究区与数据

(1) 数据来源
采用法国Astrium GEO-Information Services经营的2个星座型双子星Pléiades 1A/1B遥感数据作为主要信息源,包含全色和多光谱(B、G、R、NIR)模式,波段信息如表1所示,其中,数据的全色影像 分辨率为0.5 m,多光谱影像分辨率为2 m,幅宽为20 km,卫星重访周期1-3 d。实验中影像获取时间为2012年11月7日,覆盖深圳全境(图1)。
Tab. 1 Bands information of Pléiades data

表1 Pléiades数据波段信息

光谱类型 波段范围(nm) 分辨率(m)
全色(Pan) 480 ~ 830 0.5
蓝(B) 430 ~ 550 2
绿(G) 490 ~ 610 2
红(R) 600 ~ 720 2
近红外(NIR) 750 ~ 950 2
Fig. 1 Distribution of collected sample points in the field

图1 野外采集样本点分布图

(2) 数据预处理
对原始影像做辐射定标、几何纠正、影像融合等处理,转换为深圳市独立坐标系,便于样本特征的选取及判读。其中,辐射定标处理是依据卫星数据参数做了辐射值的增益及偏移计算,几何纠正则采用深圳二等平面控制点完成处理,精纠正和影像匹配精度均优于0.2 m。
(3) 群落野外样方调查
野外样地调查数据信息见表2。实测样方共98个,参考“生态环境状况评价技术规范(试行)”(HJ/T 192-2006)要求,植被生态信息调查的基本单元为小班林地,小班林地在亚热带区域样方面积在800~1000 m2,本实验采用800 m2样方,分布如图1所示。
Tab. 2 Example list of the sample species information

表2 样方物种信息示例表

序号 群落名称 生态系统类型 种名 多度 频度 相对多度(%) 相对频度(%) 显著度(%) 重要值
64 台湾相思 人工林 台湾相思 481 9 83.8 25 91.6 200.4
野牡丹 55 7 9.58 19.44 3.9 32.92
鸭脚木 7 5 1.22 13.89 2.32 17.42
桃金娘 6 4 1.05 11.11 0.21 12.37
银柴 12 3 2.09 8.33 1.19 11.62
梅叶冬青 3 3 0.52 8.33 0.2 9.05
栀子 4 2 0.7 5.56 0.11 6.36
变叶榕 3 2 0.52 5.56 0.14 6.22

3 投影寻踪学习网络算法的植物群落分类

Fig. 2 Sketch map of the project pursuit learning network

图2 投影寻踪学习网络示意图

y ^ i = k = 1 m β ik f k j = 1 p α kj x j = k = 1 m β ik f k α k T X (1)
式中: β ik 为投影权重; f k 为一个特定形式的未知光滑激活函数(如Hermit多项式); α kj 为投影方向。这3组参数通过训练网络使均方误差损耗函数达到最小来确定。
L 2 = i = 1 q ω i E y i - y ^ i 2 (2)
式中: ω i 表示每个输出均方误差对总损耗的相应贡献。
(1)对 α k f k β ik 赋初值;
(2)用高斯牛顿优化算法来估计 α ^ k = α k + ,其中, 通过式(3)计算;
i = 1 q ω i E 2 u i α k 2 T u i + u i α k T u i α k = - i = 1 q ω i E u i α k T u i (3)
其中, u i α k = - β ik f k α k T X X 2 u i α k 2 = - β ik X T f k α k T X X
R i k = y i - β ik g l ( α l T X ) 则, u i = R i k - β ik g k ( α k T X )
(3)已知 α k ,依据平滑曲线最佳匹配散点图 z kl , f ^ k z kl 估计 f k ,其中 z kl = α k T X l ;
f ^ k α k T X l = i = 1 q ω i β ik R li ( k ) i = 1 q ω i β ik 2 (4)
本文用标准正交化Hermit多项式逼近隐层激活函数 f k ,使其能更快更准确地求导计算,并在计算回归函数值时获得更平滑的插值。
(5)利用最新的 f k α k 估计 β ik ;
β ^ ik = E R i ( k ) f k ( α k T X ) E f k ( α k T X ) 2 i = 1,2 , , q (5)
(6)考虑到 β ik , α k f k 结合第k神经元,重复(2)-(5)步直到误差 L 2 ( ne w - L 2 ( ol d L 2 ( ol d 小于给定阈值。
本文采用线性最小二乘法(Linear LS)估计输出权重,一维数据平滑函数估计中间层非线性激活函数,高斯牛顿(Gauss-Newton)非线性最小二乘法估计输入层权重,步骤如下:
(1)训练样本各维度的归一化处理。设定各维度的样本集为 x ij i = 1,2 , , N ; j = 1,2 , , p ,其中, x ij 为第 i 个样本的第 j 维对应的特征值,N p 分别代表了训练样本个数和特征值数目。为了较好地统一各特征值的变化范围,采用(6)式进行归一化处理:
x ij * = Var x j * × x ij (6)
x j * = i = 1 N x ij - x j ¯ 2 N (7)
式中: x j ¯ 为所有样本每一类特征值的平均值;
(2)构造投影指标函数。利用生长函数训练每一层隐层神经元的多个节点进行计算,寻找到每一层的 β i ,本文经过多次试验,得到节点数为8,分类效果较好,设置最小节点数为6,最大节点数为12;
(3)优化投影指标函数。采用递归迭代方法寻求最佳投影,将初始方向设定为 x j * ,然后利用Hermit七次多项式进行计算,获得残差最小的方向,即认为是最佳投影方向;
(4)由步骤(3)求得的最佳投影方向 α 代入投影指标函数中,计算各样本的投影值。
R i = B K B L K < L K L = 1,2 , 3,4 (8)
式中: B K , B L 代表遥感影像对应的波段; R i 代表不同的波段比值参数。
归一化植被指数(Normalized Difference Vegetation Index,NDVI)是目前在植被相关研究中被广泛应用的植被指数,计算简单且可反映出植物冠层的背景影响,因此,本文用公式 ( NDVI = B NIR - B R B NIR + B R ) 获得NDVI影像图,其中, B R B NIR 分别代表高分辨率影像辐射定标后的红波段和近红外波段辐射值。将NDVI(维度号11)作为输入特征,反映出不同植被覆被之间的差异性。
利用PPLN算法,分别利用不同维度的输入变量,在深圳市不同位置选取样区进行实验,结果表明,仅利用原始影像多光谱4个波段,植物群落分类总体精度低于60.0%;加入波段比值变量后,总体分类精度可达60.0%,但有部分植物群落(如浙江润楠)分类精度,仍仅有40.0%,加入NDVI及地形信息变量,总体分类精度达65.5%~70.0%,增加纹理信息变量后,总体精度优于70.0%,因此,本文将包含光谱、地形及纹理等18维信息(表3),作为算法中投影的不同特征,即输入变量、输出变量为类别值。其中,多光谱波段变量利用深圳二等平面控制点进行坐标精校正、辐射校正等预处理后,生成分辨率为2.0 m的蓝、绿、红和近红外4个波段反射率数据;波段比值、NDVI及纹理信息均由此数据 派生;以深圳市规划发展中心提供的1:10 000地形数据为基础,插值生成2.0 m分辨率的高程及坡度数据。
Tab. 3 List of input variables

表3 输入变量列表

维度序号 输入变量 表达信息 维度序号 输入变量 表达信息
1 B1 蓝波段 10 R6 B3/B4
2 B2 绿波段 11 NDVI 植被指数
3 B3 红波段 12 Elevation 高程
4 B4 近红外波段 13 Slope 坡度
5 R1 B1/B2 14 Mean(B3) 红波段均值
6 R2 B1/B3 15 Correlation(B3) 红波段相关性
7 R3 B1/B4 16 Mean(B4) 近红外波段均值
8 R4 B2/B3 17 Correlation(B4) 近红外波段相关性
9 R5 B2/B4 18 Entropy(B4) 近红外波段熵

4 植物群落高分遥感分类结果及分析

分类结果表明,在试验区内人工林、自然林各占一半,面积分别为268 km2和258 km2。人工林以相思类群落和桉树类群落,以及二者混合类群落为主,比例分别为36%、18%及44%。自然林以浙江润楠类群落(比例为47%)为主,其次是鸭脚木类群落(比例为25%)、藜蒴类群落、降真香类等。
为了验证算法的精度,本文选择有代表性的浙江润楠-鸭脚木群落(Comm.Machiluschekiangensis-Scheffleraoctophylla)和相思林群落(Comm. Acacia)样本点各100个作为算法的验证样本,分别采用最大似然法、支持向量机(Support Vector Machine,SVM)算法及PPLN算法对样本点进行分类,对比几种算法的分类精度。
Tab. 4 Comparison of classification accuracies amongseveral methods

表4 各方法分类结果精度对比表

分类方法 类别
相思群落 分类精度(%) 浙江润楠-鸭脚木群落 分类精度(%)
最大似然法 91 91 70 70
SVM算法 90 90 70 70
PPLN算法 93 93 73 73
在深圳市东部地区的东南部大鹏湾地区(A测试区,图3(a))和北部清林泾地区(B测试区,图3(b))分别选取2块包含有不同群落类型的区域进行算法验证。以实测数据点的信息为检验样本,A区域包含人工林—相思林群落(Comm. Acacia)、天然林—浙江润楠群落(Comm. Machiluschekiangensis)和鸭脚木群落(Comm. Scheffleraoctophylla),B区域包含桉树林群落(Comm. Eucalyptus)、相思林群落(Comm. Acacia)及荔枝林,A、B区域实地调查分类结果如图4(a)、图5(a)所示,A、B区域运用3种方法进行分类,结果分别如图4(b)-(d)、图5(b)-(d)所示,精度评价如表5、6所示。
Fig. 3 Remote sensing images of two test regions

图3 2个测试区遥感影像图

Fig. 4 Investigation classification map and classification result with three methods for region A

图4 A区域实地调查分类图及3种方法分类结果

Fig. 5 Investigation classification map and classification result with three methods for region B

图5 B区域实地调查分类图及3种方法分类结果

Tab. 5 Assessment list of region A′s classification accuracy

表5 A区域分类精度评价表

分类方法 类别 生产者精度(%) 用户精度(%) 总体精度(%) Kappa系数
最大似然法 相思林群落 76.01 89.30 70.0 0.64
浙江润楠群落 63.89 59.83
鸭脚木群落 80.66 76.40
SVM算法 相思林群落 80.04 84.37 78.0 0.68
浙江润楠群落 67.15 73.22
鸭脚木群落 83.01 75.42
PPLN算法 相思林群落 80.01 87.49 80.6 0.70
浙江润楠群落 75.24 68.15
鸭脚木群落 82.83 82.06
Tab. 6 Assessment list of region B′s classification accuracy

表6 B区域分类精度评价表

分类方法 类别 生产者精度(%) 用户精度(%) 总体精度(%) Kappa系数
最大似然法 桉树林群落 78.87 65.62 72.0 0.61
相思林群落 76.98 75.24
荔枝林 67.12 82.30
SVM算法 桉树林群落 62.41 91.03 73.7 0.60
相思林群落 83.41 62.72
荔枝林 77.43 67.92
PPLN算法 桉树林群落 80.05 80.64 80.7 0.71
相思林群落 83.31 74.95
荔枝林 79.16 86.14

5 结论


