遥感科学与应用技术

细节增强与跨尺度几何特征融合的遥感影像建筑物提取网络

  • 孟月波 , 1, 2, * ,
  • 苏世龙 , 1, 2 ,
  • 黄欣羽 1, 2 ,
  • 王恒 1, 2
展开
  • 1.建筑机器人陕西省高等学校重点实验室,西安 710055
  • 2.西安建筑科技大学信息与控制工程学院,西安 710055
* 孟月波(1979— ),女,吉林人,博士,教授,主要从事遥感计算机视觉理解、建筑环境智能感知与调控、机器人多模态感知决策等研究。E-mail:

苏世龙(2000— ),男,河南开封人,硕士生,研究方向为遥感计算机视觉理解。E-mail:

Copy editor: 黄光玉 , 蒋树芳

收稿日期: 2024-11-14

  修回日期: 2025-02-12

  网络出版日期: 2025-03-25

基金资助

国家自然科学基金面上项目(52278125)

Detail Enhancement and Cross-Scale Geometric Feature Sharing Network for Remote Sensing Building Extraction

  • MENG Yuebo , 1, 2, * ,
  • SU Shilong , 1, 2 ,
  • HUANG Xinyu 1, 2 ,
  • WANG Heng 1, 2
Expand
  • 1. Key Laboratory of Construction Robots for Higher Education in Shaanxi Province, Xi'an 710055, China
  • 2. College of Information and Control Engineering, Xi'an University of Architecture and Technology, Xi'an 710055, China
* MENG Yuebo, E-mail:

Received date: 2024-11-14

  Revised date: 2025-02-12

  Online published: 2025-03-25

Supported by

National Natural Science Foundation of China(52278125)

摘要

【目的】针对现有遥感影像建筑物提取模型中因冗余导致的特征表示能力差、建筑物边界不清晰及微小建筑物丢失问题。【方法】提出一种细节增强与跨尺度几何特征融合网络DCS-Net,由信息解耦与聚合模块(IRDM)、局部互相似性细节增强模块(LMSE)和引导小目标推理的跨尺度几何特征融合模块(CGFF)组成。IRDM模块通过分配权重将冗余特征分离并重构,从空间和通道2个维度抑制冗余,促进有效特征学习; LMSE模块通过动态选择窗格以及编-解码特征之间的局部互相似性指定像素聚类,提升建筑物边缘信息的准确性和完整性; CGFF模块计算原始图像与不同语义级特征图间的特征分块关系,补偿信息损失以提升微小建筑物的提取性能。【结果】本文的实验基于2个公开数据集: WHU航拍数据集和Massachusetts建筑物检测数据集。实验结果表明,与UNet、PSPNet、Deeplab V3+、MANet、MAPNet、DRNet、Build-Former、MBR-HRNet、SDSNet、HDNet、DFFNet、UANet等现有建筑物提取算法相比,DCS-Net在各项评价指标中得到了显著提升,验证了所提方法的有效性。在WHU数据集上的交并比、 F1值和95%HD达到92.94%、96.35%和75.79,对比现有最佳算法分别提升了0.79%、0.44%和1.90;在Massachusetts数据集上的指标为77.13%、87.06%和205.26,分别提升了0.72%、0.43%和13.84。【结论】DCS-Net能更为准确完整地提取出遥感影像中的建筑物,并显著缓解微小建筑物丢失的问题。

本文引用格式

孟月波 , 苏世龙 , 黄欣羽 , 王恒 . 细节增强与跨尺度几何特征融合的遥感影像建筑物提取网络[J]. 地球信息科学学报, 2025 , 27(4) : 930 -945 . DOI: 10.12082/dqxxkx.2025.240633

Abstract

[Objectives] To address issues in existing remote sensing building extraction models, including poor feature representation ability due to redundancy, unclear building boundaries, and the loss of small buildings, [Methods] we propose a detail enhancement and cross-scale geometric feature sharing network (DCS-Net). This network consists of an Information Decoupling and Aggregation Module (IRDM), a Local Mutual Similarity Detail Enhancement Module (LMSE), and a Cross-scale Geometric Feature Fusing Module (CGFF), designed to guide small target inference. The IRDM module separates and reconstructs redundant features by assigning weights, thereby suppressing redundancy in both spatial and channel dimensions and promoting effective feature learning. The LMSE module enhances the accuracy and completeness of building edge information by dynamically selecting windows and specifying pixel clustering based on local mutual similarity between encoder-decoder features. The CGFF module computes the feature block relationships between the original image and various semantic-level feature maps to compensate for information loss, thereby improving the extraction performance of small buildings. [Results] The experiments in this paper are based on two public datasets: the WHU aerial dataset and the Massachusetts building detection dataset. The experimental results demonstrate the following: (1) Compared with existing building extraction algorithms such as UNet, PSPNet, Deeplab V3+, MANet, MAPNet, DRNet, Build-Former, MBR-HRNet, SDSNet, HDNet, DFFNet, and UANet, DCS-Net has achieved significant improvements across various evaluation metrics, demonstrating the effectiveness of the proposed method. (2) On the WHU dataset, the Intersection over Union (IoU), F1 score, and 95% Hausdorff Distance (95%HD) reached 92.94%, 96.35%, and 75.79%, respectively, outperforming the current best algorithm by 0.79%, 0.44%, and 1.90%. (3) On the Massachusetts dataset, the metrics were 77.13%, 87.06%, and 205.26, with improvements of 0.72%, 0.43%, and 13.84%, respectively. [Conclusions] These results indicate that DCS-Net can more accurately and comprehensively extract buildings from remote sensing images, significantly alleviating the issue of small building loss.

1 引言

建筑物是城乡建设中最突出的地理特征,承载着人们生产生活的基本需求,同时也是城乡发展和经济建设的重要指标之一。遥感影像建筑物提取被广泛应用于城市建设、工程规划、人口预测等方面,在城市发展中发挥着重要作用[1]
早期遥感影像建筑物提取主要依赖于传统的图像处理方法,如基于边缘检测算子的方法通过计算图像的梯度或二阶导数来定位这些边界,并提取出建筑物的轮廓;基于角点检测算子的方法通过寻找图像中局部区域的变化点来提取特征点,并用于后续的特征匹配;基于阈值的方法通过设置一个固定的亮度阈值,将图像分为前景和背景。这些方法在逐渐多样化的遥感图像中难以有效地分离建筑物和背景,且受制于噪声和背景复杂度,导致提取的建筑物边界出现断裂和缺失的情况。除此之外,这类方法缺少对遥感图像中上下文信息的使用,使得大型建筑或密集建筑群的提取效果较差。
近年来深度学习已成为主流特征学习方法,其强大的特征提取能力为遥感影像建筑物提取提供了更多可能性。例如FCN(Fully Convolutional Networks)、UNet、SegNet、DeepLabV3+、MAPNet等模型在遥感影像建筑物提取中取得了一定成效,但因其本身存在的一些局限性,仍然不能满足下游任务的需要[2]。MBR-HRNet[3]通过多尺度和高分辨率的特征融合提升性能,但由于其结构较为复杂,计算开销较大。CFENet(Context Feature Enhancement Network)[4]通过融合不同尺度的特征来提高模型鲁棒性,但容易引入冗余信息,影响精度。随着研究的深入,研究人员发现利用VGG(Visual Geometry Group)、ResNet(Residual Networks)、ResNeXt(Residual Networks with Next Generation)等特征提取网络可以增强模型性能,例如DR-Net[5]通过引入残差结构来有效解决深层网络训练中的梯度消失问题。但最近有研究表明:尽管这些网络具备深层次的结构通过堆叠大量卷积层以增强特征提取能力,但实际的感受野并未达到理论值,导致有效深度仍显不足[6],且在大量的网络层中并非所有的层都是必要的,其中包含了大量的冗余[7]。有效信息和冗余信息被混淆在一起,导致计算效率大大降低。一些研究者提出通过注意力机制来减少建筑物提取中的冗余信息。马梁等[8]引入了一种语义引导的空间注意机制,以加强深层特征和浅层特征之间的关联,帮助网络更好地解释语义信息。Peng等[9]提出了一种由通道注意力和空间注意力分支组成的双注意力解码器,使网络更充分地利用来自高级别和低级别特征图的有效信息。Zhou等[10]介绍了垂直和水平压缩注意力模块(Vertical and Horizontal Compression Attention Module,VH-CAM),它可以有效地融合来自不同区域的特征信息。BuildFormer(Building Extraction with Vision Transformer)[11]和UANet(Uncertainty-Aware Network)[12]利用自注意力机制捕捉图像中建筑物的空间结构信息,进而提升遥感图像建筑物提取的表现。引入复杂注意力机制从本质上看虽然能够增强特征学习,但同时也增加了网络的复杂性和计算负担。此外,这些机制在过滤冗余特征时,可能忽视一些具有低代表性但对网络学习仍有潜在贡献的信息,从而导致特征提取的全面性和鲁棒性下降。
不同类型的建筑物在遥感图像中呈现不同的特点:居住建筑及工业建筑多为拼接多边形形状,公共建筑多为不规则几何形状等,这使得遥感影像中建筑物图像的细节特征变得极为复杂[13],不同形状的建筑物很难被完整地提取出来。现有大部分遥感影像建筑物提取网络追求越来越高的评价指标,却忽略了对建筑物边缘信息的关注。因此,研究人员在语义分割网络的基础上加入几何建模,如BAPANet(Boundary-Aware detection with Pixel Aggregation Network)[14]、ASLNet(Adversarial Shape Learning Network)[15]、PointNet[16]、和MENet(Multi-scale Erosion Network)[17]。BAPANet利用结构相似性对预测边界像素和真实边界像素进行了评估,并对斑点状片段进行了缓解。ASLNet针对建筑屋顶的几何形状,使用形状正则化的对抗性学习对建筑的形状模式进行了建模,以提高建筑物分割的准确性。PointNet模拟了通过卷积递归神经网络手动绘制屋顶轮廓的过程,以使屋顶的边界能够用直线和锐角生成。MENet使用侵蚀模块来增进边缘并在损失函数中加入Dice系数的局部交叉熵以增加网络对感受野的敏感性。然而这些方法仍然没有考虑到特征推导过程中的像素聚类关系,额外的几何关系建模对建筑物边界的提升有限。
此外,遥感图像微小型建筑物提取也是一个难点。使用CNN(Convolutional Neural Network)进行建筑物提取时,重复的卷积和下采样操作在提取出语义信息的同时,容易丢失像素占比较低的微小型建筑物[18]。这使得模型在粗糙特征图中难以准确解码这些微小建筑物,进而影响遥感影像建筑物提取的准确度。以往的研究都存在着各种各样的问题,一种常见的方法是放大遥感图像以提高对小建筑物的分辨率,这种依赖于扩充数据的策略通常导致大量的训练成本;另一种方法是加入超列[19-20]、特征金字塔[21-22]等以增强微小目标特征,这种策略无法保证对同一对象的特征对齐;另一种方法是加入后处理[23],如运用马尔可夫随机场(Markov Random Field,MRF)和条件随机场(Conditional Random Field,CRF)的后处理方法可以达到不错的效果,但后处理并不属于分割模型的一部分,网络不能根据后处理的结果来调节网络参数[24]。还有部分模型从网络结构入手: SDSNet[25]则侧重于分层结构,提升了对小物体的检测能力,但在边界提取上仍显不足。HDNet[26]通过高层语义信息的融合增强建筑物提取,但忽视了低层细节信息的结合。而DFFNet(Depth Feature Fusion Network)[27]在细节提取方面表现良好,但其计算效率也受限于复杂的特征融合过程。
本文提出一种用于遥感影像建筑物提取的细节增强与跨尺度几何特征融合网络(Detail Enhancement and Cross-Scale Geometric Feature Sharing Network for Remote Sensing Building Extraction, DCS-Net)。网络首先利用信息解耦与聚合模块(Information Decoupling and Restructuring Module, IRDM),通过信息解耦单元(Information Decoupling Unit, IDU)和重组聚合单元(Reorganization Aggregation Unit, RAU),对编码层中的空间通道冗余和有效信息进行整合,获得细化的强交互性特征,增强模型的特征表示。其次,使用局部互相似性细节增强模块(Local Mutual Similarity-Enhanced Module, LMSE)对局部互相似性进行建模,利用互信息量化局部特征图之间的关系,增强模型对建筑物边缘信息的捕捉能力。最后,引入引导小目标推理的跨尺度几何特征融合模块(Cross-scale Geometric Feature Fusing Module, CGFF),通过计算特征层之间的互相关矩阵来表征建筑物之间的几何相似性,并使用实况掩码进行额外监督,以补偿微小型建筑物的信息损失。

2 模型结构及方法

本节中将对DCS-Net进行详细的理论介绍。网络主要包含3个模块: ① IRDM模块,该模块先将特征图通过分配权重的方式分成有效部分和冗余部分,随后进行重构并细化空间和通道两个维度的特征,再进行相应的融合,以减少冗余的影响并增强信息的交互; ② LMSE模块,该模块将编码器中的像素用于指导解码器的特征推理,将解码器中的每个像素(及周围若干像素)与其具有空间关联的编码器中的像素进行比较,评估相似性并转化为权重来指导特征推理的语义聚类关系; ③ CGFF模块,微小型建筑物往往与中大型建筑物具有相似的几何特征,而在特征空间中,中大型建筑物的分辨率被持续压缩直至在某一特征层级时,其分辨率与成像空间中微小建筑物分辨率相近。此时2种尺寸的建筑物达到最佳可比性,故模块充分利用二者即可推导出它们之间的关系,然后据此关系来增强微小型建筑物的提取。

2.1 网络整体结构

DCS-Net的整体框架如图1所示,网络采用编码-解码结构,包含了IDRM、LMSE和CGFF共3个模块。在编码阶段,主干网络利用多层卷积操作对输入遥感图像进行特征提取,在相邻两级编码层中间加入IDRM模块对有效特征和冗余特征解耦重构并重新组合,提高计算效率增强特征表示。在解码阶段利用4个LMSE模块借助编码层中的信息引导,实现空间关联式推断,提升对建筑物边缘角点等细节部位的分割效果。此外在编码器和解码器之间插入Atrous空间金字塔池化[28](Atrous Spatial Pyramid Pooling,ASPP)以更好地利用遥感图像中的多尺度信息。ASPP通过使用不同空洞率的卷积核,能够捕捉遥感图像建筑物的多尺度信息并增强模型在复杂场景下的上下文感知能力。最后利用CGFF补偿特征提取阶段微小型建筑物的信息损失,加强建筑物提取的完整性。
图1 网络模型结构示意图

Fig. 1 The overview archtiecture of the DCS-Net

2.2 信息解耦与聚合模块

信息解耦与聚合模块IDRM由2个单元构成:信息解耦单元IDU和重组聚合单元RAU。对于特征图Xp,首先通过IDU对输入特征图进行特征分离,然后利用RAU运算对分离出的两组特征进行重构、融合,最终得到细化特征Xs。该模块利用了特征映射中的空间和通道冗余,提高了特征映射内的信息交互性。

2.2.1 信息解耦单元

图2所示,为了利用特征的空间冗余使用组归一化GN层中的比例因子来评估不同特征图的信息内容。在组归一化中比例因子可以动态地调整每个特征图的重要性,较大的比例因子通常对应包含更多有用信息的特征图,而较小的比例因子则可能对应着包含较少信息或者冗余的特征图。这种调整机制能使网络在训练过程中更加关注具有较高信息量的特征,从而增强特征提取的有效性。对于输入特征XpRH×W×CC为通道数,H为高度,W为宽度。为便于计算,先将特征图按式(1)进行标准化,以提升模型的收敛速度。
X = G N ( X p ) = γ · X p - μ σ + β
式中:GN(Group Normalization)是组归一化的简称; μ为平均值; σ为标准差; ε为避免分母为0的一个常数; γβ是可训练的线性变换参数,γ越大表明具有更丰富的空间信息。将所得到γ归一化为有效性权重wγ,利用Sigmoid函数将加权后的特征映射至(0,1)内,然后通过设定的0.5阈值进行门控。具体而言,将大于阈值的权重设置为1以获得代表性权重W1,将小于阈值的权重设置为0以获得冗余权重W2。之后用输入特征Xp分别乘以W1W2得到2个加权特征:包含丰富代表性信息的有效特征Xe以及包含较少信息的冗余特征Xr,该过程可用式(2)表示。
W = G t ( S i g m o i d ( w γ ( G N ( X p ) ) ) ) X e = W 1 X p X r = W 2 X p
式中: Gt为门控组件; 表示元素相乘。
图2 信息解耦与聚合模块IDRM结构示意图

注:XpXeXrXs分别为输入特征、有效特征、冗余特征和输出特征;W1W2,分别为代表性权重和冗余权重;F1、F2为通道级统计信息;θ1θ2为特征重要性向量。

Fig. 2 The structural diagram of Information Decoupling and Restructuring Module(IRDM)

2.2.2 重组聚合单元

以往的提取模型通常使用重复的k×k卷积来提取特征,这样生成的特征图中包含的信息模式会变得极为相似,从而导致冗余限制了模型的特征表示能力。为了提高特征映射中的信息交互性增强特征表示,使用重组聚合单元RAU,利用交叉重构-变换的策略以生成信息更丰富的特征图。
具体来说,采用图3所示的交叉重构方式进行运算,在空间交互部分,首先将有效特征Xe和冗余特征Xr作为图像对并利用squppze操作将尺寸转换为Xe1Rl×W×CXr1Rl×W×C之后通过内积计算出空间交互特征图M1并将其映射至重组后的特征图Xe1Xr1,再使用unsqueeze转换得到空间信息增强特征图XerXre
图3 交叉重构示意图

Fig. 3 The structure of the intersect reconstruction

通道交互部分与上述空间交互部分操作相似,通过内积计算通道交互特征图M2并将其映射至重组后的特征图 X e 1 ' X r 1 ',再经过尺寸转换得到通道信息增强特征图 X e r ' X r e '。与空间交互部分不同的是,通道交互部分主要沿着通道维度挖掘互补信息,建立加强通道信息交互性的特征图。接着将空间信息增强特征图XerXre和通道信息增强特征图 X e r ' X r e '两两交叉结合得到 X e ' X r ',最后通过融合 X e ' X r '得到加强空间-通道信息交互的特征图X1。上述过程可由式(3)表示。
X e 1 = F s ( X e ) ,   X r 1 = F s ( X r ) M 1 = S o f t m a x ( W 1 ) ,   W 1 = X e 1 × X r 1 M 2 = S o f t m a x ( W 2 ) ,   W 2 = X e 1 × X r 1 X e ' = X e r + X e r ' = F u ( M 1 × X e 1 ) + F u ( M 2 × X e 1 ' ) X r ' = X r e + X r e ' = F u ( M 1 × X r 1 ) + F u ( M 2 × X r 1 ' ) X 1 = X e ' + X r '          
式中: W1W2分别表示空间交互向量和通道交互向量; FsFu分别为squeeze和unsqueeze函数。之后将加强特征图X1的通道按分流比φ分成两部分φC和(1-φ)C,分别传输至有效特征提取器和冗余特征提取器,其中有效特征提取器通过一个1×1的卷积、GWC[29]和PWC[30]卷积生成深层次语义信息特征图 X φ '。GWC卷积是一种分组卷积,它将输入通道分成多个组,每个组内的通道进行卷积运算,而不同组之间的通道不进行交互。该卷积通过减少参数和计算量,显著提升模型的效率,但它切断了原本存在于不同通道之间的信息流。PWC是一种逐点卷积,它对每个通道独立进行卷积操作,能保持通道之间的信息流动。故采用PWC和GWC组合使用的策略可以在较低计算成本的同时保持信息的流动。冗余特征提取器利用1×1的卷积和PWC卷积生成具有浅层细节的特征图 X 1 - φ ',具体过程如式(4)所示。
X φ ' = [ C 1 × 1 ( G W C ( φ X ) + P W C ( φ X ) ) ] ( X 1 ) X 1 - φ ' = [ C 1 × 1 ( P W C ( ( 1 - φ ) X ) ) ] ( X 1 )
转换完成后,再使用全局平均池化(GAP)生成通道级统计信息F1, F2RC,用于全局信息嵌入,接着将这2个结果叠加在一起,再进行跨通道注意力计算得到特征重要性向量θ,最终输出Xs通过融合F1F2获得,上述过程可由式(5)推出。
θ 1 = e F 1 e F 1 + e F 2 , θ 2 = e F 2 e F 1 + e F 2 F 1 = G A P ( X φ ' ) F 2 = G A P ( X 1 - φ ' ) X s = θ 2 F 2 + θ 1 F 1

2.3 局部互相似性细节增强模块

LMSE模块结构如图4所示,分为3个部分:空间关联点选择,像素相似性计算及引导推理。
图4 局部互相似性细节增强模块LMSE结构示意图

Fig. 4 The structural diagram of Local Mutual Similarity-EnhancedModule(LMSE)

2.3.1 空间关联点选择

当将解码器中的某一级特征ZRH×W×C上采样至目标特征Z '∈RH×W×C时,对于编码特征Z '中的每一个像素,即坐标点I'=(i', j'),不利用已知像素点的灰度值或RGB值推导未知像素,而是从I=(i, j)=(I'/2)的邻域中选择相同语义聚类的S个点。一般的动态上采样方法使用固定的方形采样邻域选取这些点,即对于一个点I,选取的点通过在该点的基础上加上偏移量(u, v)得到,uv的取值范围是(-r, r)。然而由于方形邻域的大小和形状是固定的,邻域过小会导致在解码器语义推理过程中丢失对上下文信息的利用(尤其在目标过大或复杂纹理的场景),邻域过大会将无关信息引入进来,降低主要特征的重要程度,故在本文中,将这个固定邻域拓展至任意形状,并从拓展后的邻域中以特征内容为条件进行动态选择,筛选出相同语义聚类的点,以更精确地引导推理,这些点即为所述的S个点,由于不同采样位置的上下文信息不同,故S的取值需要根据采样位置动态决定,而不是固定的。对于特征图Z,上述过程可由如式(6)—式(7)表示。
P I = b i l i n e a r - u p ( Z ,   δ ( Z ) )
P L = z P I s o f t m a x ( z T   M z T   M y   y I ' ) z
式中: δ(Z)为利用线性层计算出的解码器特征点坐标集合; PI表示利用bilinear-up双线性上采样算子计算出的偏移量,以确保与高分辨率的目标特征图对齐; MzRd×C M y R d × C '分别是Z和编码特征y的投影矩阵。利用Softmax函数根据上下文信息动态地选择具有相同语义聚类的点,得到的点集合即为L={p1, p2, …, pS, piR2},对应的特征集合为PL={z1, z2, …, zs, zRc}。

2.3.2 像素相似性评估

在空间关联点选择完成后,模型会计算每个编码器特征点和所选解码器特征点之间的相似度得分。具体过程如下:首先对编码器特征点进行局部线性嵌入,将提取像素集合D={y1, y2,…, ym},DR1×1×C转换为低维样本集矩阵 D ' = ( y 1 ' ,   ,   y m ' ,   y R C )。同样对候选点PL={z1, z2, …, zs, zRC}进行线性嵌入得到低维样本集矩阵 P L ' = ( z 1 ' ,   ,   z s ' ,   z R C ),然后对集合D'和 P L '进行相似度计算。使用对分割边界较为敏感的Harsdorff距离对2组提取出的特征点进行计算,如式(8)所示。
D ' = L L E ( D ) ,   P L ' = L L E ( P L ) h ( D ' ,   P L ' ) = m a x m D ' { m i n n p L ' m - n } h ( P L ' ,   D ' ) = m a x n p L ' { m i n m D ' m - n } H ( D ' ,   P L ' ) = m a x ( h ( D ' ,   P L ' ) ,   h ( P L ' ,   D ' ) )
式中:LLE为局部线性嵌入函数。随后,构造相应的内核映射函数,将编码器特征点和空间相关的局部解码器特征之间的相似性得分进行归一化并转换为内核权重以备组合候选点,如式(9)所示。
W e = S o f t m a x ( ( H ) )
式中: H表示相似性得分; ∂(H)为内核映射函数;Softmax为归一化函数。

2.3.3 引导推理

将权重We=(w1, w2,…, Ws)T组合成上采样的特征:
Z ' = W e P L
通过逐一对每个目标位置进行特征推理,从而能够成功地获取到上采样的特征图。

2.4 引导小目标推理的跨尺度几何特征融合模块

提出的CGFF旨在对大小目标之间的几何特征关系进行建模,具体来说,如图5所示该模块计算原始图像的特征分块和编码器中特征图的特征分块之间的相互关系,从而捕获多尺度的几何特征关联,通过补偿连续特征提取过程中的信息损失来提高对微小目标的分割性能。能够在保持计算效率的同时提升模型的分割性能。
图5 跨尺度几何特征融合模块CGFF结构示意图

Fig. 5 The structural diagram of Cross-scale Geometric Feature Fusing Module(CGFF)

2.4.1 跨尺度几何相似性建模

编码器第四、五层特征经过多次卷积后已经高度抽象化,故模块将原始图片IRH×W×3和第三层编码特征I'作为输入,生成具有加强几何特征的注意力图,并将其与解码器结合,具体过程如下:使用一个64核的7×7卷积和一个1核的3×3卷积核嵌入至第一级特征图,得到HiRH×W×1,同样对第三级特征图I'进行1×1卷积使其转化为与Hi相同尺寸的特征图 H i ' R H × W × NN为类别数。随后将Hi按式(11)划分为若干个特征分块。
h i = φ ( H i ,   d )
式中: φ为分块操作,将Hi重塑为若干个2D条带状特征分块hiHi的第m个向量包含图像的d×d分辨率的特征分块。类似地将 H i '的每个通道分别划分为若干个条带状特征分块 h i ',对特征分块hi h i '进行如式(12)的点积运算,以此来确定原始图像的每个特征分块与相关的特征图之间的关系。
P i = h i ( h i ' ) - 1
式中: Pi代表原始图像的每个特征分块与目标相关特征映射的每个特征分块之间的关系。

2.4.2 输出补偿

为了使提取到的特征分块关系映射到网络输出中,要将获得的注意力图Pi用于引导解码器的输出,从而增强对小目标的提取。设最后一级LMSE的输出为掩码 M R H × W × N c,使用固定大小的平均池化层将 M R H × W × N c压缩至与 H i '相同的大小:
R M = a v e r p o o l i n g ( M ,   H H i ,   W W i ,   H H i ,   W W i )      
式中:averpooling(kH, kW, sH, sW)为平均池化函数,随后与2.4.1节中操作相同,将RM的每个通道划分为一系列2D条带状特征分块,以便进行融合。再将注意力映射应用于rM,对输出概率进行调制得到几何相似性特征图Gi,过程如式(14)所示。
r M = φ ( R M ,   d ) G i = P i r M
式中: Pi包含了压缩图像中特征分块的预测信息;rM则揭示了初始图像的特征分块中较小对象与特征空间中较大对象之间的内在联系。进一步体现了大对象在输出过程中对小对象的调制与影响,从而确保了空间信息的精确传递与调整。最后,将GiM重塑至相同大小得到输出Oi,最终的网络预测输出可由式(15)得出。
P r e d i c t i o n = c o n v ( M + O i ) = c o n v ( M + φ - 1 ( G i ,   d ) )

3 实验设计与结果分析

3.1 实验设计

3.1.1 实验数据集及预处理

为评估本文提出的DCS-Net的有效性,本文使用WHU建筑物检测数据集和Massachusetts建筑物检测数据集进行了实验。WHU数据集涵盖了各种城市及郊区的建筑物,航拍子集共6 549张图像,4 912张图像用于训练集,1 637张图像用于验证集,1 638张图像用于测试集,每张图像的大小为512像素×512像素,其中包含220 000多座独立建筑物,占地面积超450万km2,地面分辨率为0.3 m。Massachusetts建筑物检测数据集由波士顿地区的151张航拍图像组成,其中91张图像作为训练集,30张图像作为验证集,30张图像作为测试集,每张图像的大小为1 500像素×1 500像素,覆盖面积大约为340 km2,空间分辨率为1 m,为方便实验平台训练和评估,每张图像被裁减为512像素×512像素。

3.1.2 实验环境及参数设置

实验平台搭载Intel Xeon E5-2650处理器(376GB)、4块NVIDIA 2080Ti-12GB显卡,实验环境采用Ubuntu16.04系统,环境配置为CUDA10.2+anaconda3+python3.8+pytorch-1.12.0。训练阶段,为使模型进行充分学习,通过随机翻转的操作对样本图像进行数据增强,模型采用自适应矩估计法Adam法进行参数优化,动量设置为0.9,权重衰减为0.000 01, 2个数据集实验中均以0.001的初始学习率进行训练,训练次数为200代,每个训练批次包含12张图像。

3.1.3 评价指标

为便于定量分析所提方法的性能,本文采用准确率(Pre)、召回率(Rec)、交并比(IoU)和F1进行评估,计算公式如式(16)—式(19)所示。
P r e c i s i o n = T P F P + T P
R e c a l l = T P F N + T P
I o U = T P F N + F P + T P
F 1 = 2 × T P 2 × T P + F N + F P
式中: TP表示真阳例; FP表示假阳例; TN表示真阴例; FN表示假阴例。除这4种评价指标外,本文采用Hausdorff_95(95%HD)来评估模型对边界的约束能力,如式(20)所示。
95 % H D = 0.95 m a x ( d M P ,   d P M ) = 0.95 m a x { m a x m M m i n p P d ( m ,   p ) m a x p P m i n m M d ( m ,   p ) }
式中: d表示欧式距离; M为实际值; P为预测值。这里乘以95%的目的为消除离群异常值的影响。

3.2 实验结果分析

3.2.1 WHU建筑物检测数据集实验结果分析

为了验证所提模型的有效性,本文将其与最近的遥感影像建筑物提取方法进行比较,这些方法包括UNet、Deeplabv3+、PSPNet、MAPNet、DR-Net、MBR-HRNet、CFENet、SDSNet、HDNet、DFFNet、BuildFormer、UANet网络进行了对比实验。
通过对比图中多个网络的预测结果,可以明显看到各方法在提取建筑物边界和分割微小建筑物方面的差异(在本文中,微小建筑物是指在512像素×512像素遥感图像中像素占比低于0.1%的建筑物。由于其尺寸较小,容易在下采样、池化等过程中丢失特征,导致影响建筑物提取的准确性和完整性)。具体如图6所示,图像a中建筑物尺寸多样,边缘区域较为复杂。且存在阴影及屋顶颜色与环境相似的情况,图片红框中建筑物结构复杂,细节较多。本文方法能够更加清晰地还原建筑物边界,尤其是右上角红框标注的微小型建筑物,能够很好地捕捉到小目标建筑物的特征并将其轮廓完整提取出来,边缘的平滑性和连续性显著优于其他方法。其余提取网络预测结果均出现建筑物提取不完整,复杂结构建筑物的边界混淆且不规则。在图像b的背景中存在多种高相似度的噪声区域,例如道路、停车场等。以往方法在这些区域易产生误检,而本文方法在红框区域成功提取出完整的建筑物特征,提高了提取的准确率。图像c中建筑物规模不同,其中夹杂着微小型建筑物,前几种网络的预测结果均出现误识情况:UNet将图像左边红框区域的地面识别为建筑物,PSPNet、DeeplabV3+以及MAPNet将集装箱误识为建筑物, 6种网络均将右侧红框中与建筑物同质异构的其余地物识别为房屋。UNet、PSPNet、DeeplabV3+以及MAPNet丢失了图像右侧红框中的微小型建筑物,HDNet、MBR-HRNet、BuildFormer和UANet模型对丢失情况有一定的缓解,但提取出的微小型建筑物组成呈现离散状且不完整。相比之下,本文方法表现出更完整地预测。对于图像d中边界复杂的大型建筑物,以往的方法均未能还原出内部细节和边缘轮廓,且右上角的微小建筑物均未能提取出来,本文方法在红框区域有效提取出了不同规模建筑物,且内部完整无空洞,边界更为规则、平滑。
图6 在WHU数据集上不同方法提取结果比较

注:图中红框区域表示不同模型提取结果差异。

Fig. 6 Comparison of extraction results from different methods on WHU dataset

在WHU遥感建筑物检测数据集上的定量评估结果如表1所示,本文方法在交并比、精确率、召回率和F1分数分别达到92.94%,96.35%,96.33%与96.35%,各项指标均优于UNet、Deeplabv3+、PSPNet、MAPNet、DR-Net、MBR-HRNet、CFENet、SDSNet、HDNet、DFFNet、BuildFormer和UANet,表明本文方法能够精确的提取出建筑物,即使在较为复杂的背景下也能克服噪声对模型的干扰并有效避免误判及丢失等情况。边界评价指标95%HD达到75.79,表明本文方法能够提取出完整清晰的建筑物边界,并且分割边界更逼近于真实建筑物的边界。
表1 WHU遥感建筑物数据集定量评估结果

Tab. 1 Quantitative evaluation results of WHU remote sensing building dataset

提取方法 评价指标 参数量
IoU/% Pre/% Rec/% F1/% 95%HD Params/M
UNet 84.15 90.72 92.41 91.24 82.13 17.26
PSPNet 85.51 92.32 92.52 92.39 83.61 53.58
DeeplabV3+ 85.43 91.96 92.31 92.13 81.23 15.31
MAPNet 89.94 95.59 93.84 94.7 85.18 24.00
DR-Net 88.3 94.31 94.31 94.38 88.56 10.00
MBR-HRNet 91.31 95.48 94.88 95.18 80.02 31.02
CFENet 89.31 94.33 94.39 94.35 83.46 171.00
SDSNet 90.20 95.32 94.41 94.82 83.52 65.14
HDNet 90.4 95.00 95.00 95.00 82.13 13.89
DFFNet 90.5 95.4 94.6 95.0 80.73 32.15
BuildFormer 91.44 95.65 95.4 95.53 79.37 40.52
UANet 92.15 95.96 95.86 95.91 77.69 38.15
本文方法 92.94 96.37 96.33 96.35 75.79 28.50

注:加粗数值表示定量对比实验中最优评价指标。95%HD是95%的豪斯多夫距离,数值表示2个点集的相似程度,数值越大表示差异越大,反之越小,无具体单位。 Params是模型参数量,因语义分割模型参数量庞大,学术界一般以M来表示,1 M表示模型有100万个参数。

3.2.2 Massachusetts建筑物检测数据集实验结果分析

Massachusetts建筑物检测数据集主要包含了 3种建筑物类型:密集分布的微小型建筑物、受阴影遮挡的大型复杂结构建筑物和沿海码头。如 图7中图像a所示,对于图中左侧的红框标出的U形建筑物,受阴影及复杂背景影响,UNet、PSPNet及DeepLabV3+出现了严重的误判现象,这3个模型将地面错误地识别为建筑物,降低了模型的准确性。对于图像左侧及右侧红框区域的微小型建筑物,这些模型出现了丢失现象。除此之外,其余未标出的区域存在建筑物粘连线性。相比之下,MAPNet、HDNet、MBR-HRNet、BuildFormer和UANet在提取过程中避免了误判情况,但丢失和粘连现象仍然存在,且提取出的建筑物边界不平坦。这些模型能够正确提取出大部分建筑物,但在处理局部复杂场景中,特别是在建筑物密集分布或形态复杂的区域时,仍然面临着提取精度不足的挑战。本文方法在面对这些挑战时展现出了明显的优势。图像c、图像d中所示建筑物受阴影和环境的影响,HDNet、MBR-HRNet、BuildFormer和UANet均表现出混淆前景与背景、建筑物边界不清晰的现象,而本文方法DCS-Net能更好地处理边界细节以及阴影等复杂环境干扰因素,这使得本文方法在面对多样化、复杂的建筑物类型和环境条件时,仍能表现出较强的适应能力和准确性。
图7 Massachusetts建筑物检测数据集上不同方法结果比较

注:图中红框区域表示不同模型提取结果差异。

Fig. 7 Comparison of extraction results from different methods on Massachusetts dataset

表2所示为定量分析结果,与UNet、Deeplabv3+、PSPNet、MAPNet、DR-Net、MBR-HRNet、CFENet、SDSNet、HDNet、DFFNet、BuildFormer、UANet相比,本文方法具有最高的交并比、精确率、和F1分数,分别达到77.13%、87.71%、87.06%,展现了其优异的建筑物提取能力及准确性。召回率为96.42%,尽管略低于UANet,但仍能有效避免丢失现象或漏检现象,在复杂背景下依然能保持较高的提取率。边界评价指标95%HD达到205.26,表明本文方法在提取细化边缘方面表现出色,能够精确地分割出建筑物的轮廓,避免了以往模型常见的模糊边界和不规则形状。
表2 Massachusetts建筑物检测数据集定量评估结果

Tab. 2 Quantitative evaluation results of Massachusetts building detection dataset

提取方法 评价指标 参数量
IoU/% Pre/% Rec/% F1/% 95%HD Params/M
UNet 68.43 79.99 80.84 80.47 319.00 17.26
PSPNet 68.75 80.12 81.72 80.65 331.05 53.58
DeeplabV3+ 67.38 78.44 81.75 73.47 315.32 15.31
MAPNet 71.51 86.84 80.2 83.39 290.03 24.00
DR-Net 66.05 80.77 83.12 79.50 343.44 10.00
MBR-HRNet 70.97 86.4 80.85 83.53 267.52 31.02
CFENet 68.02 79.35 82.68 80.97 289.68 171.00
SDSNet 71.60 86.42 80.70 83.49 280.21 65.14
HDNet 72.48 86.95 81.26 83.91 271.52 13.89
DFFNet 72.64 87.22 81.36 84.17 267.51 32.15
BuildFormer 75.54 87.52 84.91 86.19 253.40 40.52
UANet 76.41 85.35 87.94 86.63 219.10 38.15
本文方法 77.13 87.71 86.42 87.06 205.26 28.50

注:加粗数值表示定量对比实验中最优评价指标。95%HD是95%的豪斯多夫距离,数值表示2个点集的相似程度,数值越大表示差异越大,反之越小,无具体单位。Params是模型参数量,因语义分割模型参数量庞大,学术界一般以M来表示,1 M表示模型有100万个参数。

3.2.3 消融实验分析

为了评估DCS-Net中各个模块对实验结果的影响,本文在WHU遥感建筑物检测数据集上进行了消融实验。实验时除模块变化外其余参数均保持一致,实验结果可视化如图8所示。由图8可看出,Baseline已经具备了基本的从遥感图像中提取建筑物的能力,但在建筑物边界和微小型建筑物方面仍然薄弱,具体表现为边界不规则、丢失微小型建筑物及错误提取。加入ASPP模块后网络虽然能利用遥感图像中的多尺度信息,使得在建筑物边缘区域不规则情况得到改善,但提升有限。添加IDRM模块后减弱了冗余信息对网络模型的影响,加强了建筑物特征的表示能力,显著降低了错误提取的现象。加入LMSE模块后,建筑物的边界更加规范,同时避免了因建筑物之间距离过近或环境因素影响而导致的粘连现象,但小建筑物的丢失现象仍然存在。最后加入CGFF模块后,图像中用红框标识出的微小型建筑物丢失情况得到了有效改善。
图8 消融实验结果可视化

注:图中红框区域表示各模型提取结果差异。A、I、L和C分别代表ASPP模块、IDRM模块、LMSE模块和CGFF模块。

Fig. 8 Visualization of ablation experiment results

定量分析如表3所示。从表中的结果可看出,各模块的引入显著提升了网络的整体性能。具体而言,加入ASPP模块后交并比、精确率、召回率及F1提升至85.74%、92.33%、92.54%和92.40%,网络能够利用多尺度信息改善建筑物边缘的不规则性,但整体提升有限。引入IDRM模块后,交并比显著提升至88.26%,精确率达到93.48%,召回率为93.76%,F1为93.62%,这表明IDRM通过解耦冗余信息、增强特征表示,显著提升了特征表示能力降低了误判现象。随着LMSE模块的加入,交并比进一步提升至91.75%,精确率为95.32%,召回率为95.52%,F1为95.42%,建筑物边界更加接近真实情况,从而进一步提升了分割精度。加入CGFF模块后,交并比、精确率、召回率及F1分别达到92.94%,96.37%、96.33%和96.35%,微小建筑物的丢失得到了有效补偿,增强了模型的完整性和准确性。
表3 消融实验定量分析

Tab. 3 Quantitative analysis of ablation experiment (%)

方法 评价指标
IoU Pre Rec F1
Baseline 84.15 90.72 92.41 91.24
Baseline+A 85.74 92.33 92.54 92.40
Baseline+A+I 88.26 93.48 93.76 93.62
Baseline+A+I+L 91.75 95.32 95.52 95.42
Baseline+A+I+L+C 92.94 96.37 96.33 96.35

注:A、I、L和C分别代表ASPP模块、IDRM模块、LMSE模块和CGFF模块。

3.2.4 超参数实验分析

本文对IDRM模块中的分流比φ在WHU数据集上进行了超参数实验,观察分流比φ从0.125逐步增长至0.8时的IoUFLOPs(浮点运算的次数)。如图9所示,主干网络加入IDRM模块后,IoU随着分流比φ的增加而上升,φ值越高表示模型在RAU阶段获取的特征信息更丰富,特征表示能力更强,当φ=1/2时模型达到最佳平衡点,φ值超出1/2时IoU上升缓慢, FLOPs的增长速度超出IoU。因此,网络采用φ=1/2的IDRM,以便在更好地均衡性能及效率。
图9 IDRM加入至主干网络中不同分流比φIoUFLOPs变化

Fig. 9 Changes in IoU and FLOPs under different diversion ratios φ when IDRM is added to the backbone network

为更直观地展示IDRM的效果,本文以热力图的形式可视化了主干网络及加入IDRM的主干网络的第一阶段特征图。图10(a)为原始图像,其中包含一个建筑物,图10(b)为色阶条,0~255表示特征响应值的范围,其中数值接近255代表特征响应越强;数值越接近则表示特征响应较弱。每个小图块代表该阶段提取的不同通道特征映射,颜色的分布反映了模型对原始图像中不同区域的特征表达情况。在图10(c)中,建筑物与背景颜色相近的冗余特征映射占比较大,表明模型对建筑物的特征响应与背景特征响应差异不明显,这会导致建筑物在特征表达中缺乏显著性,从而削弱模型对其的辨识能力,这些冗余特征对模型学习帮助不大,但仍具有较少的有用信息。在右侧特征阵列中,模型加入了IDRM模块后,建筑物区域的特征响应显著增强,具体表现为建筑物区域颜色接近255的特征映射占比显著增多。这表明IDRM模块通过信息解耦与聚合机制,对冗余信息进行了有效地处理及利用,强化了建筑物区域的特征表达,进一步增强了模型对目标区域的关注能力及代表性特征的提取效果。
图10 加入IDRM后主干网络第一阶段特征热力图图示

Fig. 10 Diagram of the first stage feature heatmap of the backbone network after adding IDRM

4 结论与讨论

为了应对现有遥感影像建筑物提取模型中因冗余导致的特征表示能力差、建筑物边界不清晰及微小建筑物丢失等问题,本文提出了一种细节增强与跨尺度几何特征融合网络DCS-Net。
(1)提出了信息解耦与聚合模块IDRM,通过信息解耦单元IDU将有效特征和冗余特征解耦出来,再利用重组聚合单元RAU对解耦出的特征在不同维度上进行有效融合,减少了冗余对特征提取过程的影响,加强了特征表现能力,提升了提取性能。
(2)分析了传统上采样方式的弊端,提出了局部互相似性增强模块LMSE。该模块使用编码器和解码器之间的局部互相似性来引导解码器的特征推理,使得模型提取出的建筑物边缘更加清晰规则,接近真实建筑物边缘。
(3)分析了现有模型微小建筑物丢失的本质原因,提出了引导小目标推理的跨尺度几何特征融合模块CGFF。该模块利用原始图像建筑物与编码层建筑物特征之间的几何关系,补偿信息损失以缓解微小建筑物的丢失问题。
(4)在WHU航拍数据集和Massachusetts遥感建筑物检测数据集上验证了所提模型的有效性。实验结果表明,DCS-Net在2个数据集上的表现优于其他提取方法。与其他模型相比,DCS-Net能够提取出更为完整清晰的建筑物,有效缓解了建筑物边缘不规则及微小建筑物丢失的问题。
虽然DCS-Net具有良好的提取性能,但仍存在一些不足之处。遥感影像复杂多样,不同地区遥感影像的特点也各不相同。在更为复杂的场景下,建筑物边缘的准确提取仍然是一个亟待解决的难点,特别是在低矮建筑物密集区域,建筑物的边缘可能会受周围其余地物的遮挡,导致边缘提取困难。除此之外,在针对不同规模遥感图像上的推理速度和鲁棒性方面也具备一定的潜力。因此,未来的工作将进一步优化模型的各特征提取能力及边缘感知策略,以在更复杂的场景下准确不同规模的建筑物。
利益冲突: Conflicts of Interest
所有作者声明不存在利益冲突。
All authors disclose no relevant conflicts of interest.
作者贡献: Author Contributions
孟月波和苏世龙参与模型设计与实现;苏世龙完成实验操作与分析;孟月波、苏世龙、黄欣羽和王恒参与论文的写作和修改。所有作者均阅读并同意最终稿件的提交。
The model design and implementation were carried out by by MENG Yuebo and SU Shilong. The experimental operations and analysis were completed by SU Shilong. The manuscript was drafted and revised by MENG Yuebo, SU Shilong, HUANG Xinyu and WANG Heng. All the authors have read the last version of paper and consented for submission.
[1]
王俊, 秦其明, 叶昕, 等. 高分辨率光学遥感图像建筑物提取研究进展[J]. 遥感技术与应用, 2016, 31(4):653-662,701.

DOI

[Wang J, Qin Q M, Ye X, et al. A survey of building extraction methods from optical high resolution remote sensing imagery[J]. Remote Sensing Technology and Application, 2016, 31(4):653-662,701.] DOI:10.11873/j.issn.1004-0323.2016.4.0653

[2]
Song Y H, Yan H. Image segmentation algorithms overview[EB/OL]. 2017: 1707.02051. https://arxiv.org/abs/1707.02051v1.

[3]
Yan G D, Jing H T, Li H, et al. Enhancing building segmentation in remote sensing images: Advanced multi-scale boundary refinement with MBR-HRNet[J]. Remote Sensing, 2023, 15(15):3766. DOI:10.3390/rs15153766

[4]
Chen J Z, Zhang D J, Wu Y Q, et al. A context feature enhancement network for building extraction from high-resolution remote sensing imagery[J]. Remote Sensing, 2022, 14(9):2276. DOI:10.3390/rs14092276

[5]
Chen M, Wu J J, Liu L Z, et al. DR-Net: An improved network for building extraction from high resolution remote sensing image[J]. Remote Sensing, 2021, 13(2):294. DOI:10.3390/rs13020294

[6]
Wu Z F, Shen C H, Van Den Hengel A. Wider or deeper: Revisiting the ResNet Model for visual recognition[J]. Pattern Recognition, 2019, 90:119-133. DOI:10.1016/j.patcog.2019.01.006

[7]
Zhu H Z, Rohling R, Salcudean S. ResNet structure simplification with the convolutional kernel redundancy measure[EB/OL]. 2022:2212.00272. 2.00272v1.

[8]
马梁, 苟于涛, 雷涛, 等. 基于多尺度特征融合的遥感图像小目标检测[J]. 光电工程, 2022, 49(4):210363.

[Ma L, Gou Y T, Lei T, et al. Small object detection based on multi-scale feature fusion using remote sensing images[J]. Opto Electronic Engineering, 2022, 49(4):210363.] DOI:10.12086/oee.2022.210363

[9]
Peng C L, Ma J Y. Semantic segmentation using stride spatial pyramid pooling and dual attention decoder[J]. Pattern Recognition, 2020,107:107498. DOI:10.1016/j.patcog.2020.107498

[10]
Zhou Z, Zhou Y, Wang D L, et al. Self-attention feature fusion network for semantic segmentation[J]. Neurocomputing, 2021, 453:50-59. DOI:10.1016/j.neucom.2021.04.106

[11]
Wang L B, Fang S H, Meng X L, et al. Building Extraction With Vision Transformer[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:5625711. DOI:10.1109/TGRS.2022.3186634

[12]
He W, Li J P, Cao W N, et al. Building extraction from remote sensing images via an uncertainty-aware network[EB/OL]. 2023:2307.12309. https://doi.org/10.48550/arXiv.2307.12309.

[13]
杨明旺, 赵丽科, 叶林峰, 等. 基于卷积神经网络的遥感影像建筑物提取方法综述[J]. 地球信息科学学报, 2024, 26(6):1500-1516.

DOI

[Yang M W, Zhao L K, Ye L F, et al. A review of convolutional neural networks related methods for building extraction from remote sensing images[J]. Journal of Geo-information Science, 2024, 26(6):1500-1516.] DOI:10.12082/dqxxkx.2024.240057

[14]
Jiang X, Zhang X C, Xin Q C, et al. Arbitrary-shaped building boundary-aware detection with pixel aggregation network[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14:2699-2710. DOI:10.1109/JSTARS.2020.3017934

[15]
Ding L, Tang H, Liu Y H, et al. Adversarial shape learning for building extraction in VHR remote sensing images[J]. IEEE Transactions on Image Processing, 2021, 31:678-690. DOI:10.1109/TIP.2021.3134455

[16]
R Qi Charles, Hao S, Mo K C, et al. PointNet:Deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:77-85. DOI:10.1109/CVPR.2017.16

[17]
Wen X, Li X, Zhang C, et al. ME-Net: A multi-scale erosion network for crisp building edge Ddetection from very high resolution remote sensing imagery[J]. Remote Sensing, 2021, 13(19):3826. DOI:10.3390/rs13193826

[18]
Zhu Q, Liao C, Hu H, et al. MAP-Net: Multiple attending path neural network for building footprint extraction from remote sensed imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(7):6169-6181. DOI:10.1109/TGRS.2020.3026051

[19]
Bansal A, Chen X L, Russell B, et al. PixelNet: Towards a general pixel-level architecture[EB/OL]. 2016: 1609.06694. https://arxiv.org/abs/1609.06694v1.

[20]
Hariharan B, Arbeláez P, Girshick R, et al. Hypercolumns for object segmentation and fine-grained localization[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:447-456. DOI:10.1109/CVPR.2015.7298642

[21]
于明洋, 陈肖娴, 张文焯, 等. 融合网格注意力阀门和特征金字塔结构的高分辨率遥感影像建筑物提取[J]. 地球信息科学学报, 2022, 24(9):1785-1802.

DOI

[Yu M Y, Chen X X, Zhang W Z, et al. Building extraction on high-resolution remote sensing images using attention gates and feature pyramid structure[J]. Journal of Geo-information Science, 2022, 24(9):1785-1802.] DOI:10.12082/dqxxkx.2022.210571

[22]
吴锋振, 杨德宏, 李俊, 等. 非对称卷积金字塔残差网络的遥感影像建筑物提取[J]. 遥感技术与应用, 2023, 38(6):1467-1476.

DOI

[Wu F Z, Yang D H, Li J, et al. Building extraction from remote rensing images using asymmetric convolution pyramid residual network[J]. Remote Sensing Technology and Application, 2023, 38(6):1467-1476.] DOI:10.11873/j.issn.1004-0323.2023.6.1467

[23]
苏步宇, 杜小平, 慕号伟, 等. 耦合Mask R-CNN和注意力机制的建筑物提取及后处理策略[J]. 遥感技术与应用, 2024, 39(3):620-632.

DOI

[Su B Y, Du X P, Mu H W, et al. Coupling mask R-CNN and attention mechanism for building extraction and post-processing strategy[J]. Remote sensing technology and application, 2024, 39(3):620-632.] DOI:10.11873/j.issn.1004-0323.2024.3.0620

[24]
Guo D Z, Zhu L G, Lu Y H, et al. Small object sensitive segmentation of urban street scene with spatial adjacency between object classes[J]. IEEE Transactions on Image Processing, 2019, 28(6):2643-2653. DOI:10.1109/TIP.2018.2888701

[25]
Wang X D, Tian M L, Zhang Z J, et al. SDSNet: Building extraction in high-resolution remote sensing images using a deep convolutional network with cross-layer feature information interaction filtering[J]. Remote Sensing, 2024, 16(1):169. DOI:10.3390/rs16010169

[26]
Li Y X, Hong D F, Li C Y, et al. HD-Net: High-resolution decoupled network for building footprint extraction via deeply supervised body and boundary decomposition[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2024, 209:51-65. DOI:10.1016/j.isprsjprs.2024.01.022

[27]
Chen J M, Liu B, Yu A Z, et al. Depth feature fusion network for building extraction in remote sensing images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17:16577-16591. DOI:10.1109/JSTARS.2024.3452640

[28]
Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intel- ligence, 2018, 40(4):834-848. DOI:10.1109/TPAMI.2017.2699184

[29]
Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2021,60:84-90. DOI:10.1145/3065386

[30]
Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutionsC// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:1-9. DOI:10.1109/CVPR.2015.7298594

文章导航

/