2023年第十八届中国地理信息科学理论与方法学术年会优秀论文

耦合卷积神经网络与注意力机制的无人机摄影测量果树树冠分割方法

  • 何海清 , 1, 2, * ,
  • 周福阳 1, 2 ,
  • 陈敏 3 ,
  • 陈婷 4 ,
  • 官云兰 1, 2 ,
  • 曾怀恩 5 ,
  • 魏燕 1, 2
展开
  • 1.东华理工大学测绘与空间信息工程学院,南昌 330013
  • 2.东华理工大学 自然资源部环鄱阳湖区域矿山环境监测与治理重点实验室,南昌 330013
  • 3.西南交通大学地球科学与环境工程学院,成都 611756
  • 4.东华理工大学水资源与环境工程学院,南昌 330013
  • 5.三峡大学中国长江三峡库区滑坡国家野外观测研究站,宜昌 443002

何海清(1983— ),男,江西赣州人,博士,教授,博士生导师,主要从事摄影测量与遥感、人工智能等方面的研究。E-mail:

收稿日期: 2023-07-04

  修回日期: 2023-08-09

  网络出版日期: 2023-12-05

基金资助

国家自然科学基金项目(42261075)

国家自然科学基金项目(41861062)

江西省自然科学基金资助项目(20224ACB212003)

地理信息工程国家重点实验室

自然资源部测绘科学与地球空间信息技术重点实验室联合资助基金项目(2022-02-04)

Fruit Tree Canopy Segmentation by Unmanned Aerial Vehicle Photogrammetry Coupled on Convolutional Neural Network and Attention Mechanism

  • HE Haiqing , 1, 2, * ,
  • ZHOU Fuyang 1, 2 ,
  • CHEN Min 3 ,
  • CHEN Ting 4 ,
  • GUAN Yunlan 1, 2 ,
  • ZENG Huaien 5 ,
  • WEI Yan 1, 2
Expand
  • 1. School of Surveying and Geoinformation Engineering, East China University of Technology, Nanchang 330013, China
  • 2. Key Laboratory of Mine Environmental Monitoring and Improving around Poyang Lake of Ministry of Natural Resources, East China University of Technology, Nanchang 330013, China
  • 3. Faculty of Geosciences and Environmental Engineering, Southwest Jiaotong University, Chengdu 611756, China
  • 4. School of Water Resources and Environmental Engineering, East China University of Technology, Nanchang 330013, China
  • 5. National Field Observation and Research Station of Landslides in the Three Gorges Reservoir Area of Yangtze River, China Three Gorges University, Yichang 443002, China
*HE Haiqing, E-mail:

Received date: 2023-07-04

  Revised date: 2023-08-09

  Online published: 2023-12-05

Supported by

National Natural Science Foundation of China under Grants(42261075)

National Natural Science Foundation of China under Grants(41861062)

Jiangxi Provincial Natural Science Foundation under Grant(20224ACB212003)

State Key Laboratory of Geo-information Engineering and Key Laboratory of Surveying and Mapping Science and Geospatial Information Technology of MNR, CASM under Grant(2022-02-04)

摘要

基于无人机可见光影像的果树树冠分割易受地形起伏、灌木及杂草等复杂背景影响,尽管现有深度神经网络能在一定程度上提高树冠分割的鲁棒性,但因受感受野和信息交互限制而忽略了树冠全局上下文和局部细节信息,制约了树冠分割精度进一步提高。针对此,本文引入果树高度模型与深度学习算法,提出一种耦合卷积神经网络与注意力机制的无人机摄影测量果树树冠分割方法。该方法首先通过迁移学习构建基于卷积神经网络与注意力机制的耦合深度网络模型来提取果树树冠局部和全局上下文高级语义特征;同时,顾及深度语义特征与果树树冠位置关联性,设计了局部与全局特征融合模块来实现属性与空间位置协同树冠分割。以柑橘果树树冠分割为例,实验结果表明,引入树冠高度模型能有效抑制地形起伏影响,提出的方法总体精度、F1评分和均交并比最高分别达到97.57%、95.49%和94.05%,能显著削弱低矮杂草或灌木对树冠提取的干扰。此外,与SegFormer、SETR_PUP、TransUNet、TransFuse和CCTNet等先进网络模型相比,均交并比分别提升了1.79%、8.83%、1.16%、1.43%和1.85%。提出的方法可实现复杂背景下果树树冠高精度分割,对于掌握果树生长状况和果园精细化管理具有重要的实用价值。

本文引用格式

何海清 , 周福阳 , 陈敏 , 陈婷 , 官云兰 , 曾怀恩 , 魏燕 . 耦合卷积神经网络与注意力机制的无人机摄影测量果树树冠分割方法[J]. 地球信息科学学报, 2023 , 25(12) : 2387 -2401 . DOI: 10.12082/dqxxkx.2023.230370

Abstract

The segmentation of fruit tree canopy based on Unmanned Aerial Vehicle (UAV) visible spectral images is greatly influenced by complex background information such as topographic relief, shrubs, and weeds. Although existing deep neural networks can improve the robustness of canopy segmentation to a certain extent, they ignore the global context and local detailed information of the canopy due to limited receptive field and information interaction, which restricts the improvement of canopy segmentation accuracy. To address these issues, this paper introduces the Canopy Height Model (CHM) and deep learning algorithms, and proposes a fruit tree canopy segmentation method that couples Convolutional Neural Networks (CNN) and Attention Mechanisms (AM) based on UAV photogrammetry. This method first constructs a coupled deep neural network based on CNN and AM through transfer learning to extract both the local and global high-level contextual features of fruit tree canopies. Meanwhile, considering the correlation between deep semantic features and the position information of fruit tree canopies, a local and global feature fusion module is designed to achieve collaborative tree canopy segmentation of attributes and spatial positions. Taking the citrus tree canopy segmentation as an example, the experimental results demonstrate that the use of the CHM can effectively suppress the influence of topographic relief. Our proposed method can also significantly reduce the interference of underlying weeds or shrubs on canopy segmentation, and achieves the highest Overall Accuracy (OA), F1 score, and mean Intersection over Union (mIoU) of 97.57%, 95.49%, and 94.05%, respectively. Compared with other state-of-the-art networks such as SegFormer, SETR_PUP,TransUNet, TransFuse, and CCTNet, the mIoU obtained by the proposed method increases by 1.79%, 8.83%, 1.16%, 1.43%, and 1.85%, respectively. The proposed method can achieve high-precision segmentation of fruit tree canopies with complex background information, which has important practical value for understanding the growth status of fruit trees and fine management of orchards.

1 引言

果树树冠信息直接反映了果树生长状况,是评估果树生长活力和表征作物覆盖度的重要指标[1]。因此,准确快速地获取果树树冠信息对于果园精细化管理和产量评估具有重要的实用价值。
当前,遥感已成为果树信息提取的重要技术手段之一。根据特征提取的不同,树冠提取大致可分为两大类:传统分割方法和基于深度学习的分割方法。传统树冠分割方法主要有基于图像强度、树冠形状和树冠纹理等方法[2]。基于图像强度的方法主要利用树冠和背景像素灰度变化(如边缘检测[3]、灰度梯度[4]等)来分割树冠,在树冠与背景存在较大差异的情况下具有一定优势,但难以解决高郁闭度、复杂背景下树冠遮挡与背景干扰问题;基于树冠形状的方法主要利用树冠形态特征来提取影像中树冠信息,应用较为广泛的方法包括分水岭算法[5-6]、模板匹配[7]、谷地跟踪法[8]等,这些方法在树冠形态单一的情况下树冠分割效果较好,但自动化程度较低;基于树冠纹理的方法主要包括超像素分割[9]和区域生长法[10],这些方法在树冠形态与背景简单的情况下分割效果较好,而不适用于复杂树冠分割。
相比传统方法,深度学习在语义分割、目标检测与分类等方面性能提升显著,许多研究人员将深度学习方法引入到遥感地物分类应用中[11-13]。在树冠分割方面,具有代表性的方法包括:Morales等[14]利用DeepLabV3+进行不同场景下树冠分割,Guirado和Braga等[15-16]采用Mask R-CNN模型在高分辨率卫星影像中分割出热带森林和旱地的树冠。除上述基于可见光遥感影像分割树冠的方法外,也包括利用近红外波段等多光谱遥感影像的深度神经网络分割方法,这些方法能获得比仅采用可见光影像更好的分割效果,具有代表性的方法有:Li 等[17]将多波段遥感影像作为SegNet和U-Net的输入,提取大面积向日葵的倒伏信息,获得了88.23%的准确率;Hao等[18]利用6个波段的无人机多光谱影像作为Mask R-CNN网络的输入数据进行树冠分割,结果表明引入多波段遥感影像能显著提升树冠分割性能。此外,一些卷积神经网络(Convolutional Neural Network,CNN)如FCN、U-Net、SegNet和Faster R-CNN也被用于树冠分割[19-20]。尽管上述基于CNN的模型提取到的局部语义信息有助于准确地分割树冠边界,但这些模型受限于感受野大小而难以提取全局上下文语义信息,使得基于CNN的模型对长距离依赖关系较为敏感,导致复杂背景下树冠与背景区分困难。为获取全局上下文语义信息,Dosovitskiy等[21]将Transformer模型引入到图像处理领域,提出了首个用于图像识别的纯自注意力机制网络,该网络能够对长距离依赖关系进行建模,但网络中的图像切分操作会使不同序列像素之间信息流动受限,难以提取到局部语义信息,从而导致感兴趣目标边界识别不准确。针对CNN和Transformer存在全局和局部语义信息不足问题,Chen等[22]提出一种结合CNN与Transformer的融合神经网络来同时提取目标对象的局部和全局语义信息,该网络在医学影像分割任务中效果较好,但网络串行结构破坏了CNN和Transformer各自的特性,无法有效保留提取到的局部和全局语义信息,也未考虑与目标对象边缘至关重要的位置信息,导致复杂场景下目标分割存在较多错分和漏分现象。除分割方法方面存在不足之外,单一数据源也是制约树冠分割精度提高的重要原因之一,基于可见光遥感影像的分割方法难以剔除与树冠光谱相似的植被干扰,而且目前大多数基于二维影像的深度学习树冠分割方法因未顾及树冠表面三维几何结构形态而难以消除地形起伏的影响。
为解决上述问题,本文借鉴CNN和Transformer的优点,提出一种耦合卷积神经网络与注意力机制的复合型神经网络(Convolutional Neural Network and Attention Mechanism Coupled Neural Network,CNNAMNet)来提取与果树树冠关联的局部与全局语义信息,并设计一种局部与全局特征融合模块(Local and Global Feature Fusion Module,LGFFM)来实现属性与空间位置协同树冠分割。同时,通过引入树冠高度模型(Canopy Height Model,CHM)以消除地形起伏和低矮植被的影响,实现复杂地形下杂草或灌木茂密区域果树树冠分割。

2 研究方案

2.1 技术路线

本文提出了一种耦合卷积神经网络与注意力机制的复合型神经网络(CNNAMNet),以解决复杂背景下(地形起伏、杂草灌木茂密)果树树冠分割的问题,技术路线见图1,主要包括摄影测量空中三角测量、树冠高度模型和2.5D数据生成、模型训练及精度评价与分析4个部分。
图1 本文技术路线

Fig. 1 Workflow of the proposed method

2.2 树冠高度模型和2.5D数据生成

本研究中,通过无人机摄影测量得到的数字正射影像(Digital Orthophoto Map, DOM)、数字表面模型(Digital Surface Model, DSM)和三维密集点云是果树参数提取和分析重要的数据源。① 利用布料模拟滤波(Cloth Simulation Filter,CSF)方法从三维密集点云中分离出地面点云,并通过克里金插值运算得到表征地形起伏的数字高程模型(Digital Elevation Model, DEM);② 基于DSM与DEM之间的差分运算,见式(1),得到表征树冠几何结构形态的树冠高度模型[23](Canopy Height Model,CHM),见 图2; ③ 将CHM与DOM进行通道组合,生成具有树冠高度信息的数据,并定义为2.5D数据。
图2 CHM生成过程

Fig. 2 CHM generation process

C H M = D S M - D E M

2.3 耦合卷积神经网络与注意力机制的复合型神经网络模型

顾及局部和全局上下文信息在果树树冠特征表达与提取方面的优势,本文提出一种耦合卷积神经网络与注意力机制的复合型神经网络模型来分割果树树冠。CNNAMNet网络模型核心部分包括局部与全局语义信息提取、坐标注意力模块和全局与局部特征融合模块等。
相比其它网络,卷积神经网络EfficientNet-V2和注意力机制网络CSwin Transformer由于模型参数量少和计算复杂度低,分别在局部和全局信息提取方面具有显著优势[24-26]。然而,由于EfficientNet-V2中的卷积核感受野有限,以及CSwin Transformer中的图像切分操作会使不同序列像素之间的信息流动受限,导致EfficientNet-V2和CSwin Transformer在全局和局部信息提取方面仍存在不足。为解决这些问题,本文提出CNNAMNet模型,用于果树树冠分割,网络架构见图3。① 该网络通过EfficientNet-V2和CSwin Transformer提取局部和全局语义特征,并基于坐标注意力[27](Coordinate Attention,CA)机制的特征重构模块融合局部与全局信息,以及通过CA机制保留目标对象的空间位置信息以达到精确识别树冠边界的目的;② 将融合后的特征输入到特征金字塔网络[28](Feature Pyramid Networks,FPN)解码器(图4)中,以消除尺度变化对树冠识别效果的影响;③ 本文还引入了一个辅助损失计算解码器[29],以增强融合特征的特性;最后,基于损失函数反向传播优化整个网络模型。
图3 CNNAMNet框架

Fig. 3 Architecture of CNNAMNet

图4 FPN解码器结构

Fig. 4 Structure of FPN decoder

2.3.1 局部与全局语义信息提取

卷积神经网络宽度、深度和图像分辨率是影响深度学习树冠提取性能的主要因素,通常情况下,深度学习网络越深参数越多,网络性能则越好,但特征提取效率却越低。针对这一问题,EfficientNet-V2[24]通过引入缩放系数优化网络结构,降低网络参数量,能有效提高网络的训练速度,从而较好地兼顾模型识别精度和效率。因此,借鉴EfficientNet-V2强大的局部信息提取能力和强量化的网络结构[25],本文通过迁移学习引入该模型提取果树树冠局部语义信息。
尽管EfficientNet-V2具有优异的局部边缘识别能力,但缺乏全局上下文信息提取能力。而Transformer网络可通过全局自我注意力机制提取影像全局上下文信息,有利于增强果树与非果树(如杂草、灌木等)之间的差异,但全局自注意力计算成本高。针对这一问题,Dong等[26]提出了一种十字形窗口的自注意力机制和CSwin Transformer网络,在水平和垂直条纹内并行计算自注意,并改变Transformer网络不同层条纹宽度,降低计算成本和保持较强的长距离信息建模能力。因此,鉴于CSwin Transformer强大的全局上下文信息提取能力[26],本文通过迁移学习引入该模型提取果树树冠的全局语义信息,且该模型也包含局部增强位置编码(Local enhanced Positional Encoding,LePE),能使CSwin Transformer模型同时具备全局和一定的局部信息提取能力,可增强果树和非果树树冠区分能力。
本文研究结合EfficientNet-V2和CSwin Transformer网络模型,实现果树树冠局部与全局深层次高级语义特征提取。此外,为与CSwin Transformer网络提取的全局信息融合,本文对EfficientNet-V2网络结构进行了改进,见图5,将网络结构前2个MBConv阶段合并为一个阶段,使局部与全局信息提取网络接口一致。EfficientNet-V2主要由特征提取层和解码模块(Decoder) 2部分组成,特征提取层包括MBConv模块和Fused MBConv模块,解码模块主要由不同组合方式的卷积层和上采样层组成。其中,MBConv模块由卷积层、深度可分离卷积(Depthwise Conv)、特征压缩激活模块(Squeeze-and-Exciatation,SE)和Dropout正则化函数组成,Fused MBConv模块由卷积层、特征压缩激活模块和Dropout正则化函数组成,两个模块的网络结构见图6
图5 改进的EfficientNet-V2网络框架

Fig. 5 Architecture of improved EfficientNet-V2

图6 MBConv模块和Fused MBConv模块结构

Fig. 6 Structure of MBConv module and Fused MBConv module

2.3.2 坐标注意力模块

常规注意力机制易忽略目标空间位置信息,本文研究引入CA机制[27],以解决模型特征位置信息不足的问题。坐标注意力将通道注意力分解为2个一维特征编码过程,分别沿水平和垂直2个空间方向聚合特征,能捕获长距离相关性和保留精确的空间位置信息。CA结构见图7。其原理为:
图7 坐标注意机制

注:CHW分别表示输入特征图的高、宽和通道数,r表示通道下采样率。

Fig. 7 Coordinate attention mechanism

首先,给定输入层x(大小为H×W×C),每个通道分别采用大小为(H, 1)或(1, W)的池化内核沿水平和垂直坐标进行编码,高为h宽为w处的第c通道的输出为
z c h ( h ) = 1 W 0 i < W x c ( h , i )
z c w ( w ) = 1 H 0 j < H x c ( j , w )
式中: z c是与第c个通道相关联的输出; x c表示输入x中的第c个通道。
其次,在通道维度上执行级联操作和1×1卷积运算,以压缩通道数量和捕获通道间的特征,得到
F = δ ( f 1 ( [ z h , z w ] ) )
式中:F为在水平方向和垂直方向上对空间信息进行编码后的中间特征图; δ为非线性激活函数; f 1为卷积变换函数;[·,·]表示通道维度级联操作。
然后,对编码的特征图在通道维度进行等分,采用1×1卷积运算将特征图的通道数量恢复到输入时的通道数量,并利用Sigmoid函数计算特征图中每个像素的权重,得到
g h = σ ( f 1 ( F h ) )
g w = σ ( f 1 ( F w ) )
式中:g表示对F等分后卷积和激活的权重特征图; σ表示Sigmoid函数; F h F w分别表示对F进行等分后的2个输出。
最后,将输出 g h g w分别扩展并作为注意力权重,对输入x进行加权,得到加权特征图第c个通道像素位置(i, j)上的特征 y c ( i , j ),其计算公式为
y c ( i , j ) = x c ( i , j ) × g c h ( i ) × g c w ( j )
因此,CA既能捕获通道之间的关联,也可对位置信息和长程关联进行建模,使得模型能够准确定位和识别目标[27]

2.3.3 局部与全局特征融合模块

为有效地融合EfficientNet-V2和CSwin Transformer提取的局部和全局特征,本文设计了一种局部与全局特征融合模块(LGFFM),见图8,该模块采用CA机制以自适应地融合不同尺度的高级语义特征,其原理为:
图8 局部与全局特征融合模块

Fig. 8 Local and global feature fusion module

(1)将EfficientNet-V2和CSwin Transformer输出的特征 x Ε x Τ分别输入到1×1卷积层以保持一致的通道数,通过坐标注意力机制提取特征图中目标对象的空间位置信息,得到具有树冠位置信息的中间特征图 y Ε y Τ。为加快模型训练收敛,本文引入了残差连接分支来级联 x Ε x Τ ,并通过1×1卷积层压缩通道数量,得到中间特征图 y Ε Τ,其数学表达式为:
y Ε = f 2 ( f 1 ( x Ε ) )
y Τ = f 2 ( f 1 ( x Τ ) )
y Ε Τ = f 1 ( [ x E ,   x T ] )
式中: f 1为卷积变换函数; f 2为CA函数; y为中间特征图;x为输入特征图。
(2)在通道维度上将 y Ε y Τ执行级联操作,并输入到1×1的卷积层中,以实现EfficientNet-V2和CSwin Transformer分支之间的信息交互,采用Softmax函数来计算特征图中每个像素的权重,得到权重特征图。然后,在通道维度方向将权重特征图进行等分(图8中Split),得到通道数一致的EfficientNet-V2和CSwin Transformer分支权重特征图 y ' Ε y ' Τ,其数学表达式为:
y ' Ε , y ' Τ = f 3 ( φ ( f 1 ( [ y E , y T ] ) ) )
式中: φ表示Softmax函数; f 3 表示通道维度方向的特征图等分操作。
(3)分别对EfficientNet-V2和CSwin Transformer分支的特征图进行加权操作,并与残差连接中的特征进行逐元素相加,再输入到CA机制中,以提取加权特征图中目标对象的空间位置信息,其输出的特征为:
x ' = f 2 ( f 4 ( f 1 ( x Ε ) e y ' Ε , f 1 ( x Τ ) e y ' Τ , y Ε Τ ) )
式中:e f 4分别表示点乘运算和元素相加运算。

3 实验与分析

3.1 实验设计

为验证CNNAMNet模型在不同地形复杂背景下分割果树树冠的有效性,本文选择了具有代表性的研究区域,见图9,该区域位于江西省信丰县,见图9(a)。研究区属典型的亚热带季风湿润气候、雨量充沛、光照充足,主要经济作物为脐橙,地形主要为丘陵盆地和中低高丘陵2种。
图9 研究区位置、DOM、DSM和CHM

Fig. 9 Location, DOM, DSM, and CHM of the study area

图9(c)中,区域1地形起伏较大(海拔高度范围135~177 m),存在与树冠可见光谱相似的密集杂草或灌木,部分树冠存在黏连现象,树冠密集程度分布不均匀。图9(f)区域2地形相对平坦,树冠间隔相对较大,由于果树种植周期不同,区域内存在较多长势不一的果树。区域1和区域2的面积分别约为3 869 m2和4 052 m2,平均树冠直径分别为3.3 m和3.1 m。研究区中树冠黏连问题使得利用缺乏局部语义信息的纯自注意力机制模型难以准确地识别出树冠边界;而树冠较小的果树与杂草灌木大小形状相似,导致缺乏全局语义信息的经典CNN模型不易区分果树树冠与背景。因此,利用存在树冠黏连和树木长势不一现象的本文区域能够较好地对比验证本文CNNAMNet模型在复杂背景下果树树冠分割效果。
本文研究采用大疆Phantom 4 RTK无人机采集数据(时间:2020年10月9—12日上午),影像采集时天气晴朗、少云无风,无人机飞行高度约为80 m,航向重叠度和旁向重叠度为80%,飞行速度为5 m/s,地面分辨率为0.03 m,图像分辨率为5 472像素× 3 648像素。
本文采用Agisoft Photoscan 1.4软件进行无人机摄影测量数据预处理,生成研究区DOM、DSM和三维密集点云。为获得网络模型训练与测试样本,本文采用ArcGIS 10.8软件从研究区正射影像中人为边缘标注树冠作为真实样本,共标注出3 559个树冠样本。为获得研究区CHM,采用CSF滤波方法从密集点云中分离出地面点云以消除地表地物等非地形信息影响,利用克里金插值生成DEM,并根据公式(1)计算得到研究区CHM。为突出树冠和复杂背景之间的差异,本文将DOM与CHM进行通道组合,得到具有树冠高度信息的数据,即2.5D数据。
通过迁移学习共享预训练模型EfficientNet-V2和CSwin Transformer的参数,在果树树冠提取精化训练中采用不同地形复杂背景下以256像素×256像素大小的图像块作为训练和测试样本,共获得5 518张影像,将所有样本按4:1的比例划分为训练集和测试集。同时,采用水平与垂直翻转、旋转90°、180°和270°、仿射变换等方式进行数据扩充,共获得26 484张训练样本和6 624张测试样本。
本文模型训练实验环境采用Pytorch1.12.0深度学习框架,利用cuDNN8.2.0来加快模型训练,CPU型号为Intel®i5-12600kf@3.7GHz,GPU为NVIDIA GeForce RTX3060-12G。训练参数方面,采用了AdamW[30]优化器,以及Poly作为学习率 衰减策略,初始学习率、权重衰减率、批次大小和epoch分别设置为0.000 1、0.001、8和50。损失函数为二分类交叉熵(Binary Cross Entropy,BCE)+Dice coefficient loss[31]的混合损失函数,其中2个损失函数所占总损失比值为0.5。
在大多数分割效果定量评价中,总体精度(Overall Accuracy, OA)、精确度(Precision)、召回率(Recall)、F1评分和均交并比(Mean Intersection over Union,mIoU) 5个评价指标是评价分割精度的常用指标[12]。在本文中,OA用来表示正确预测的像素点占总像素点的比例,反映了模型的总体预测精度;Precision用来表示冠层像素点中正确预测的冠层像素点占总冠层像素点的比例,反映了模型识别树冠的能力;Recall用来表示冠层像素点中正确预测的冠层像素点占人工标记的冠层像素点数量的比例,反映了模型识别树冠轮廓是否完整;F1评分用来表示精确度与召回率的调和平均值,以更全面地反映模型识别冠层的效果;mIoU用来表示冠层像素点中预测像素点和人工标记的像素点的交集与并集比例的平均值,反映了模型所检测的冠层区域的准确性。这5个评价指标计算公式为:
O A = T P + T N P + N × 100 %
P r e c i s i o n = T P T P + F P × 100 %
R e c a l l = T P T P + F N × 100 %
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l × 100 %
m I o U = 1 K + 1   k = 0 k T P T P + F P + F N × 100 %
式中:k表示第k个类别;K表示总类别数量;P表示正确预测的像素点;N表示错误预测的像素点;TP表示正确预测的果树树冠像素点;FP表示将背景预测为果树树冠的错误像素点;TN表示正确预测的背景像素点;FN表示将果树树冠预测为背景的 错误像素点。

3.2 实验结果与分析

3.2.1 消融实验

为验证局部与全局特征融合模块(LGFFM)、坐标注意力机制(CA)和辅助损失函数(Lossaux)的有效性和适用性,本文采用2.5D实验数据,对LGFFM、CA和Lossaux进行了消融实验,实验结果见表1。由表1可知,同时引入3个模块的CNNAMNet模型获得了最高评价指标数值,OA、F1评分和mIoU分别为97.57%、95.49%和94.05%。其中,相比于Baseline (3个模块均未引入),引入LGFFM模块融合了局部和全局信息,对分割性能提升最大,mIoU指标提高了1.72%;而引入CA增强了感兴趣对象的位置信息,Lossaux增强了网络的学习特性,mIoU分别提高了1.09%和0.51%,可见引入LGFFM、CA和Lossaux均能有效地提高果树树冠分割性能。此外,LGFFM模块一方面能有效地减少CNN与Transformer特征融合过程中信息的丢失,也兼顾了树冠局部语义信息和全局上下信息;另一方面引入坐标注意力机制提取树冠的空间位置信息,能增强对树冠边界的感知,整体上提高了树冠提取精度。在模型解码阶段,CA模块能在恢复图像分辨率过程中提取树冠的空间位置信息,减少了空间信息的丢失。而辅助损失函数有助于果树树冠语义信息提取和优化网络训练。
表1 LGFFM、CA和Lossaux的消融实验结果

Tab. 1 Ablation experimental results of LGFFM, CA and Lossaux (%)

方法 OA F1 mIoU
Baseline 96.33 93.02 91.05
Net + LGFFM 97.19 93.89 92.77
Net + CA 96.97 93.44 92.14
Net + Lossaux 97.04 92.93 91.56
Net + LGFFM + CA 97.42 94.94 93.61
Net + CA + Lossaux 97.07 93.74 92.69
Net + LGFFM + Lossaux 97.21 94.52 93.31
Net + LGFFM + CA + Lossaux (CNNAMNet) 97.57 95.49 94.05

3.2.2 2.5D数据的树冠分割性能分析

为验证2.5D数据对柑橘果树树冠分割的有效性,本文选用2种分割效果较好的传统方法(即区域生长和分水岭算法)和7种具有代表性的深度学习语义分割模型(即FCN、BiseNet-V2、PSPNet、EfficientNet-V2、DANet、DeepLab-V3、CSwin-Tiny)与CNNAMNet模型进行对比实验,评价指标定量分析结果见表2。由表2可知,CNNAMNet模型的分割精度最高,而区域生长和分水岭算法的树冠分割精度最低,传统方法因不具有高维非线性特征提取能力而难以剔除复杂背景干扰。DANet模型的精度提升最大,F1评分和mIoU分别提高了2.16%和1.91%,这主要是由于模型中的注意力机制能从CHM中提取到全局上下文信息,增强了树冠识别能力。可知,引入2.5D数据能有效地过滤掉低矮杂草和灌木,提高树冠分割精度。此外,本研究提出的CNNAMNet模型在各个评价指标上均比另外7种经典语义分割模型更高。
表2 不同网络模型的2D和2.5D数据树冠分割定量评价结果

Tab. 2 Quantitative evaluation results of 2D and 2.5D data crown segmentation for different network models (%)

方法 数据集 OA F1 mIoU
区域生长 2D 80.11 77.12 74.94
分水岭算法 2D 87.38 82.60 80.45
FCN 2D 95.29 88.71 86.97
2.5D 95.19 90.75 88.39
BiseNet-V2 2D 95.45 89.13 87.40
2.5D 95.64 91.23 89.21
PSPNet 2D 96.85 92.47 91.05
2.5D 97.09 94.41 92.94
EfficientNet-V2 2D 96.89 92.80 91.47
2.5D 96.75 93.99 92.16
DANet 2D 96.90 92.57 91.17
2.5D 97.15 94.73 93.08
DeepLab-V3 2D 97.15 93.26 91.85
2.5D 97.06 94.56 92.88
CSwin-Tiny 2D 97.08 93.29 91.96
2.5D 97.26 94.35 92.95
CNNAMNet 2D 97.20 94.62 93.03
2.5D 97.57 95.49 94.05
采用本文CNNAMNet模型的2个区域树冠分割结果见图10, 2个具有代表性的子块见图11,可知,CNNAMNet具有更强的树冠和背景区分能力,较少出现错分和漏分现象,主要原因是引入了LGFFM和CA模块,不仅能够较好地保留局部细节和全局上下信息,也可通过提取树冠空间位置信息来确保树冠边界分割的准确性。而其他网络如FCN由于结构中的池化操作破坏了空间信息,造成模型缺乏树冠的局部细节信息,弱化了树冠边界的识别能力;BiseNet-V2和EfficientNet-V2由于卷积操作感受野有限,无法提取到丰富的全局上下文信息,且网络太深难以保留局部细节信息,造成树冠较多的错分和漏分现象。相比之下,PSPNet、DANet和DeepLab-V3采用了金字塔池化模块、注意力机制和空洞空间金字塔池化模块,在一定程度上缓解了卷积神经网络中全局上下文信息不足问题,能提取出相对完整的树冠轮廓,但仍然无法提取到丰富的全局上下文信息,分割后的树冠存在较多错分现象;而CSwin-Tiny能较好地提取到全局上下文信息,但由于局部信息提取能力有限,分割结果存在许多黏连和错分现象。
图10 CNNAMNet柑橘果树树冠分割结果

Fig. 10 Segmentation results of citrus tree canopy using CNNAMNet

图11 CNNAMNet模型部分柑橘果树树冠分割子块对比

注:红色椭圆表示着重分析的区域。

Fig. 11 Comparison of several patches of citrus tree canopy segmentation in CNNAMNet model

3.2.3 不同背景下树冠分割性能分析

为验证CNNAMNet模型在山区地形、灌木和杂草等复杂背景下柑橘果树树冠分割的可行性,本文采用2个不同背景下的果树进行对比实验,树冠分割子块对比见图12。尽管区域1、2存在大量与果树树冠纹理相似的灌木和杂草,但基于2.5D数据的网络模型仍能精确地分割出柑橘树冠。2个区域定量评价结果见表3,在区域1中,基于2.5D数据得到的mIoU指标比基于2D数据提高了1.27%;而在区域2,果树树冠间距较大、地形平缓,树冠高度信息对树冠分割性能提升相对较小,mIoU指标只提高了0.74%。由定量分析可知,对于地形起伏较大、树冠黏连严重的复杂背景区域,引入树冠高度信息能有效地提升模型果树树冠分割性能。
图12 CNNAMNet在不同背景下柑橘果树树冠分割结果对比

注:红色椭圆表示着重分析的区域。

Fig. 12 Comparison of citrus tree canopy segmentation result under different backgrounds using CNNAMNet

表3 CNNAMNet在不同区域和数据的树冠分割定量评价对比

Tab. 3 Quantitative evaluation comparison results of canopy segmentation in different regions and data using CNNAMNet (%)

研究区域 数据集 OA Precision Recall F1 mIoU
区域1 2D 96.39 92.17 93.94 93.05 91.12
2.5D 96.94 93.61 94.56 94.08 92.39
区域2 2D 97.92 91.01 91.42 91.22 90.88
2.5D 98.27 90.95 93.05 91.99 91.62

3.2.4 与先进网络的对比分析

为进一步验证CNNAMNet模型在柑橘果树树冠分割方面的有效性,本文将CNNAMNet与其它CNN和Transformer融合模型,如SegFormer、SETR_PUP、TransUNet、TransFuse和CCTNet进行对比实验,量化结果见表4图13。相比这5种先进的网络模型,本文提出的CNNAMNet模型mIoU值分别提高了1.79%、8.83%、1.16%、1.43%和1.85%,表明CNNAMNet在复杂背景下分割柑橘果树树冠方面具有优越性。
表4 CNNAMNet与其他先进网络模型对比结果

Tab. 4 Comparison between the CNNAMNet and other state-of-the-art networks (%)

方法 OA Precision Recall F1 mIoU
SegFormer 97.28 92.18 94.99 93.56 92.26
SETR_PUP 93.59 87.36 89.00 88.17 85.22
TransUNet 97.07 94.12 95.03 94.57 92.89
TransFuse 96.95 93.82 94.89 94.36 92.62
CCTNet 97.26 92.10 94.95 93.51 92.20
CNNAMNet 97.57 94.97 96.02 95.49 94.05
图13 CNNAMNet较已有CNN与Transformer融合方法的精度提升

Fig. 13 Improved accuracy of CNNAMNet compared to the fusion method of CNN and Transformer

此外,柑橘果树树冠分割结果部分子块可视化对比见图14,相比于其他5种模型,CNNAMNet模型误分类像素最少,树冠边界检测效果最好,这是由于CNNAMNet不仅能较好地保留CNN和Transformer各自的优点,也可提取到果树树冠的空间位置信息,有利于精确分割果树树冠。比较而言,其他5种网络模型存在以下问题:① SegFormer和SETR_PUP通过注意力机制编码器来提取图像特征,相比卷积神经网络,局部特征提取能力更弱;② TransUNet由于采用串行结构来融合CNN与Transformer,不能有效地保留CNN和Transformer网络中的局部和全局上下文信息,从而难以精确地检测出果树树冠边界;③ 尽管TransUNet利用跳跃连接能一定程度改善网络模型在解码阶段中空间信息不足问题,但仍未解决特征提取阶段中局部信息丢失的问题;④ TransFuse和CCTNet采用并行结构来融合CNN和Transformer,虽能保留了CNN和Transformer各自的优势,但结构中的采样操作易丢失树冠像素的空间位置信息,导致树冠边界分割不准确。
图14 CNNAMNet与先进网络柑橘果树树冠分割的可视化对比

注:红色椭圆表示着重分析的区域。

Fig. 14 Visualization comparison between the CNNAMNet and state-of-the-art networks for citrus tree canopy segmentation

4 结语

本文针对现有深度神经网络难以同时兼顾局部和全局语义信息而无法满足复杂背景下果树树冠分割的问题,提出一种基于2.5D数据的耦合卷积神经网络与注意力机制的复合型神经网络CNNAMNet,以达到复杂背景下果树树冠精准分割的目的。与其他深度网络模型不同,CNNAMNet模型通过引入CHM来增强树冠和复杂背景之间的差异,以消除地形起伏和低矮杂草灌木对果树树冠分割的影响。实验结果表明,本文提出的CNNAMNet模型在OA、Precision、Recall、F1评分和mIoU评价指标上明显优于其它深度网络模型,果树树冠分割较少错分和漏分现象,OAF1评分和mIoU最高分别达到97.57%、95.49%和94.05%,与SegFormer、SETR_PUP、TransUNet、TransFuse和CCTNet等先进网络模型相比,mIoU指标分别提升了1.79%、8.83%、1.16%、1.43%和1.85%。因此,本文提出的CNNAMNet模型能实现复杂背景下果树树冠准确分割,对于掌握果树生长状况和果园精细化管理具有重要的实用价值,在果树生长监测方面具有广泛的应用前景。
[1]
Takahashi K, Rikimaru A, Sakata K, et al. A sudy of the characteristic of the observation angle on the terrestrial image measurement of paddy vegetation cover[J]. Journal of the Japan Society of Photogrammetry and Remote Sensing, 2012, 50(6):367-371. DOI:10.4287/jsprs.50.367

[2]
郭昱杉, 刘庆生, 刘高焕, 等. 基于标记控制分水岭分割方法的高分辨率遥感影像单木树冠提取[J]. 地球信息科学学报, 2016, 18(9):1259-1266.

DOI

[ Guo Y S, Liu Q S, Liu G H, et al. Individual tree crown extraction of high resolution image based on marker-controlled watershed segmentation method[J]. Journal of Geo-information Science, 2016, 18(9):1259-1266. ] DOI:10.3724/SP.J.1047.2016.01259

[3]
Wagner F H, Ferreira M P, Sanchez A, et al. Individual tree crown delineation in a highly diverse tropical forest using very high resolution satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145:362-377. DOI:10.1016/j.isprsjprs.2018.09.013

[4]
冯静静, 张晓丽, 刘会玲. 基于灰度梯度图像分割的单木树冠提取研究[J]. 北京林业大学学报, 2017, 39(3):16-23.

[ Feng J J, Zhang X L, Liu H L. Single tree crown extraction based on gray gradient image segmentation[J]. Journal of Beijing Forestry University, 2017, 39(3):16-23. ] DOI:10.13332/j.1000-1522.20160373

[5]
Huang H Y, Li X, Chen C C. Individual tree crown detection and delineation from very-high-resolution UAV images based on bias field and marker-controlled watershed segmentation algorithms[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(7):2253-2262. DOI:10.1109/JSTARS.2018.2830410

[6]
徐伟萌, 杨浩, 李振洪, 等. 利用无人机数码影像进行密植型果园单木分割[J]. 武汉大学学报·信息科学版, 2022, 47(11):1906-1916.

[ Xu W M, Yang H, Li Z H, et al. Single tree segmentation in close-planting orchard using UAV digital image[J]. Geomatics and Information Science of Wuhan University, 2022, 47(11):1906-1916. ] DOI:10.13203/j.whugis20220024

[7]
Larsen M, Eriksson M, Descombes X, et al. Comparison of six individual tree crown detection algorithms evaluated under varying forest conditions[J]. International Journal of Remote Sensing, 2011, 32(20):5827-5852. DOI:10.1080/01431161.2010.507790

[8]
Katoh M, Gougeon F A, Leckie D G. Application of high-resolution airborne data using individual tree crowns in Japanese conifer plantations[J]. Journal of Forest Research, 2009, 14(1):10-19. DOI:10.1007/s10310-008-01 02-8

DOI

[9]
张先洁, 孙国祥, 汪小旵, 等. 基于超像素特征向量的果树冠层分割方法[J]. 江苏农业学报, 2021, 37(3):724-730.

[ Zhang X J, Sun G X, Wang X C, et al. Segmentation method of fruit tree canopy based on super pixel feature vector[J]. Jiangsu Journal of Agricultural Sciences, 2021, 37(3):724-730. ] DOI:10.3969/j.issn.1000-4440.2021.03.023

[10]
甄贞, 李响, 修思玉, 等. 基于标记控制区域生长法的单木树冠提取[J]. 东北林业大学学报, 2016, 44(10):22-29.

[ Zhen Z, Li X, Xiu S Y, et al. Individual tree crown delineation using maker-controlled region growing method[J]. Journal of Northeast Forestry University, 2016, 44(10):22-29. ] DOI:10.13759/j.cnki.dlxb.2016.10.005

[11]
Wang H, Chen X Z, Zhang T X, et al. CCTNet: Coupled CNN and transformer network for crop segmentation of remote sensing images[J]. Remote Sensing, 2022, 14(9):1956. DOI:10.3390/rs14091956

[12]
林禹, 赵泉华, 李玉. 一种基于深度传递迁移学习的遥感影像分类方法[J]. 地球信息科学学报, 2022, 24(3):495-507.

DOI

[ Lin Y, Zhao Q H, Li Y. A remote sensing image classification method based on deep transitive transfer learning[J]. Journal of Geo-Information Science, 2022, 24(3):495-507. ] DOI:10.12082/dqxxkx.2022.210428

[13]
衡雪彪, 许捍卫, 唐璐, 等. 基于改进全卷积神经网络模型的土地覆盖分类方法研究[J]. 地球信息科学学报, 2023, 25(3):495-509.

DOI

[ Heng X B, Xu H W, Tang L, et al. Research on land cover classification method based on improved fully convolutional neural network model[J]. Journal of Geo-information Science, 2023, 25(3):495-509. ] DOI:10.12082/dqxxkx.2023.220435

[14]
Morales G, Kemper G, Sevillano G, et al. Automatic segmentation of mauritia flexuosa in unmanned aerial vehicle (UAV) imagery using deep learning[J]. Forests, 2018, 9(12):736. DOI:10.3390/f9120736

[15]
Guirado E, Blanco-Sacristán J, Rodríguez-Caballero E, et al. Mask R-CNN and OBIA fusion improves the segmentation of scattered vegetation in very high-resolution optical sensors[J]. Sensors, 2021, 21(1): 320. DOI:10.3390/s21010320

[16]
Braga J R G, Peripato V, Dalagnol R, et al. Tree crown delineation algorithm based on a convolutional neural network[J]. Remote Sensing, 2020, 12(8):1288. DOI:10.3390/rs12081288

[17]
Li G A, Han W T, Huang S J, et al. Extraction of sunflower lodging information based on UAV multi-spectral remote sensing and deep learning[J]. Remote Sensing, 2021, 13(14):2721. DOI:10.3390/rs13142721

[18]
Hao Z B, Lin L L, Post C J, et al. Automated tree-crown and height detection in a young forest plantation using mask region-based convolutional neural network (Mask R-CNN)[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 178:112-123. DOI:10.1016/j.isprsjprs.2021.06.003

[19]
Martins J A C, Nogueira K, Osco L P, et al. Semantic segmentation of tree-canopy in urban environment with pixel-wise deep learning[J]. Remote Sensing, 2021, 13(16):3054. DOI:10.3390/rs13163054

[20]
Osco L P, Nogueira K, Ramos A P M, et al. Semantic segmentation of citrus-orchard using deep neural networks and multispectral UAV-based imagery[J]. Precision Agriculture, 2021, 22(4):1171-1188. DOI:10.1007/s11119-020-09777-5

[21]
Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. 2020: arXiv: 2010.11929. https://arxiv.org/abs/2010.11929

[22]
Chen J N, Lu Y Y, Yu Q H, et al. TransUNet: Transformers make strong encoders for medical image segmentation[EB/OL]. 2021: arXiv: 2102. 04306. https://arxiv.org/abs/2102.04306

[23]
Hao Z B, Lin L L, Post C J, et al. Assessing tree height and density of a young forest using a consumer unmanned aerial vehicle (UAV)[J]. New Forests, 2021, 52(5):843-862. DOI:10.1007/s11056-020-09827-w

[24]
Tan M X, Le Q V. EfficientNetV2: Smaller models and faster training[EB/OL]. 2021: arXiv: 2104. 00298. https://arxiv.org/abs/2104.00298

[25]
Peng Z L, Huang W, Gu S Z, et al. Conformer: local features coupling global representations for visual recognition[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2022:357-366. DOI:10.1109/ICCV48922.2021.00042

[26]
Dong X Y, Bao J M, Chen D D, et al. CSWin transformer: A general vision transformer backbone with cross-shaped windows[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:12114-12124. DOI:10.1109/CVPR52688.2022.01181

[27]
Hou Q B, Zhou D Q, Feng J S. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:13708-13717. DOI:10.1109/CVPR46437.2021.01350

[28]
Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:936-944. DOI:10.1109/CVPR.2017.106

[29]
Yu C Q, Gao C X, Wang J B, et al. BiSeNet V2: Bilateral network with guided aggregation for real-time semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(11):3051-3068. DOI:10.1007/s11263-021-01515-2

[30]
Loshchilov I, Hutter F. Decoupled weight decay regularization[EB/OL]. 2017: arXiv: 1711.05101. https://arxiv.org/abs/1711.05101

[31]
刘浩, 骆剑承, 黄波, 等. 基于特征压缩激活Unet网络的建筑物提取[J]. 地球信息科学学报, 2019, 21(11):1779-1789.

DOI

[ Liu H, Luo J C, Huang B, et al. Building extraction based on SE-unet[J]. Journal of Geo-information Science, 2019, 21(11):1779-1789. ] DOI:CNKI:SUN:DQXX.0.2019-11-012

文章导航

/