“第五届空间数据智能学术会议SpatialDI 2024”优秀论文

基于条件控制扩散模型的遥感图像超分辨率增强算法

  • 付奕博 , 1, 2 ,
  • 谢东海 , 1, 2, * ,
  • 王志博 1, 2 ,
  • 易畅 1, 2 ,
  • 郭柳艳 1, 2 ,
  • 吴俣 3
展开
  • 1.首都师范大学资源环境与旅游学院,北京 100048
  • 2.首都师范大学 城市环境过程与数字模拟国家重点实验室孵化基地, 北京 100048
  • 3.天津大学地球系统科学学院,天津 300072
* 谢东海(1978— ),男,四川乐山人,博士,副教授,主要从事定量遥感与遥感图像处理与分析。 E-mail:

付奕博(1999— ),男,辽宁鞍山人,硕士生,研究方向为遥感、深度学习。E-mail:

Copy editor: 蒋树芳 , 黄光玉

收稿日期: 2024-06-04

  修回日期: 2024-09-03

  网络出版日期: 2024-10-09

基金资助

国家自然科学基金项目(42071318)

国家重点研发计划项目(2022YFB3904104)

A Super-Resolution Enhancement Algorithm for Remote Sensing Images Using Conditional Controlled Diffusion Models

  • FU Yibo , 1, 2 ,
  • XIE Donghai , 1, 2, * ,
  • WANG Zhibo 1, 2 ,
  • YI Chang 1, 2 ,
  • GUO Liuyan 1, 2 ,
  • WU Yu 3
Expand
  • 1. College of Resource Environment and Tourism, Capital Normal University, Beijing 100048, China
  • 2. Base of the State Key Laboratory of Urban Environmental Process and Digital Modeling, Capital Normal University, Beijing 100048, China
  • 3. Institute of Surface-Earth System Science, School of Earth System Science, Tianjin University, Tianjin 300072, China
* XIE Donghai, E-mail:

Received date: 2024-06-04

  Revised date: 2024-09-03

  Online published: 2024-10-09

Supported by

National Natural Science Foundation of China(42071318)

National Key R&D Program of China, grant number(2022YFB3904104)

摘要

图像超分辨率技术通过提升图像的空间分辨率,增强图像清晰度,增加图像细节信息,实现在硬件条件不变的情况下提高图像质量。鉴于遥感影像具有较大的像幅、复杂的特征表现和丰富的细节,结合遥感图像信息高效获取的需求,本文提出了一种基于条件控制扩散模型(Diffusion Model)的遥感图像超分辨率算法DSR(Diffusion Super-Resolution)。该算 法以同一区域的低分辨率遥感图像为扩散模型的控制条件,与添加噪声后的高分辨率遥感图像拼接作为输入,构建了一个以U-Net为主干,融合残差连接和自注意力机制的深度噪声训练网络,并改进了损失函数以获得更优的超分辨率效果。 本文实验中采用了多时相、多时期的国产卫星高分系列、高景系列的高分辨率遥感图像以及公开数据集Alsat-2B作为测试数据,测试了从32像素尺寸扩大至128像素的超分辨率效果。在这一基础上,将本文提出的算法与Bicubic、SRGAN、Real-ESRGAN、SwinIR等超分辨率算法进行比较,在PSNR和SSIM指标上取得了更好的性能。实验结果表明: DSR算法适用于遥感图像的超分辨率重建,特别是在多光谱遥感图像的超分辨率处理中,能够提升超分辨率结果质量,克服了简单卷积网络只能提取图像浅层特征的局限,避免了对抗神经网络训练过程中难以收敛的问题,显著提升了遥感图像中丰富细节的还原能力。

本文引用格式

付奕博 , 谢东海 , 王志博 , 易畅 , 郭柳艳 , 吴俣 . 基于条件控制扩散模型的遥感图像超分辨率增强算法[J]. 地球信息科学学报, 2024 , 26(10) : 2384 -2393 . DOI: 10.12082/dqxxkx.2024.240315

Abstract

Image super-resolution technology enhances image clarity and enriches image detail by improving image spatial resolution, enabling quality enhancement without changing hardware conditions. Given the large size, complex target features, and abundant details of remote sensing images, along with the need for efficient information acquisition, we propose a Diffusion Super-Resolution (DSR) algorithm based on a conditional diffusion model. This approach uses low-resolution remote sensing images from the same region as conditioning inputs to the diffusion model, while high-resolution images with added noise are concatenated as inputs. A deep noise training network was constructed with U-Net as the backbone, incorporating residual connections and self-attention mechanisms. The loss function was also improved for better super-resolution results. The DSR method was tested using high-resolution remote sensing images from multiple periods of the domestic Gaofen and SuperView satellite series. The super-resolution results demonstrated pixel dimension expansion from 32 to 128. Comparative experiments with Bicubic, SRGAN, Real-ESRGAN, and SwinIR super-resolution algorithms showed that the DSR method outperforms these algorithms in both PSNR and SSIM metrics. Additionally, the DSR method significantly improves the quality of multispectral remote sensing images. By leveraging the conditional diffusion model, it successfully preserves rich detail and enhances spatial resolution without compromising image clarity. This method offers an efficient solution for super-resolution reconstruction, ensuring effective information acquisition in remote sensing applications and fulfilling the requirements of various domains such as land use classification, environmental monitoring, and urban planning. Moreover, the DSR method also opens new avenues for future research by demonstrating the potential of diffusion models in remote sensing image processing. It overcomes the limitations of simple convolutional networks, which extract only shallow features, and avoids the convergence issues commonly seen in adversarial neural networks during training, ultimately improving the restoration of rich details in remote sensing images.

1 引言

超分辨率是一项底层图像处理任务,将低分辨率图像映射至高分辨率,以达到增强图像细节的作用[1]。高分辨率图像在城市规划、灾害监测、环境保护等领域具有更高的实用价值。但获取高分辨率的遥感图像通常成本较高,并且受到卫星设备的限制。超分辨率技术可以通过算法在后处理阶段提升图像分辨率,从而降低获取高分辨率图像的需求,节省成本和时间。图像超分辨率技术在遥感领域应用十分广泛,经过长期的研究已经形成了多种算法[2-4]。技术演进从早期基于插值的方法[5-6]、基于重构的方法[7-8]、基于学习的方法[9-10],转向省时高效的方式预测低分辨率图像中缺失的高频信息[11]。遥感图像超分辨率方法大体上可以分为2种:① 为传统信号滤波的方式; ② 利用图形计算平台训练神经网络的深度学习方式。
(1)传统信号滤波的算法侧重于提升计算机视觉中图像的分辨率,特别关注单帧和多帧的超分辨率[5]。尽管这种方法简单快捷,但在此过程中会破坏一些高频信息。滤波法在超分辨率难以捕捉图像中的空间信息。基于学习的方法,如多重线性映射锚定邻域回归,通过学习低分辨率与高分辨率特征子空间间的映射关系,优化由单一低分辨率输入生成的高分辨率图像品质[9]。这一方法的创新点在于结合多重线性映射与锚定邻域回归,实现从低分辨率到高分辨率子空间的转换。基于学习的方法依赖于大量低分辨率和高分辨率图像作为训练数据。基于重构的方法采用多混合先验模型,解决从单一低分辨率图像重建高分辨率图像的问题[7]。其创新之处在于运用基于差异曲率的选择性补丁处理和混合先验模型对图像进行分析和分组学习,以提升超分辨率重建的质量。这类方法通过建立低分辨率图像与高分辨率图像间的一一对应关系,使模型能够学习低分辨率图像至高分辨率图像的映射,为超分辨率算法的设计提供了指导,但同时也面临着收敛速度缓慢和计算成本高昂的挑战。
(2)随着人工智能的迅猛发展,硬件计算平台的显著提升,深度学习已经成为计算机视觉领域中解决问题的关键工具。它深刻影响了遥感技术的演进,尤其在土地覆盖制图、环境参数提取、数据融合与降维、以及信息的重建与预测等方面发挥了重要作用[12]。伴随着各种神经网络的涌现和成熟,诸如卷积神经网络(Convolutional Neural Network,CNN)[13]、生成对抗网络(Generative Adversarial Network,GAN)[14]、扩散模型(Diffusion Model)等框架在图像超分领域取得较多成果。SRCNN(Super-Resolution Convolution Nerual Network)开创性地运用CNN学习低分辨率图像与高分辨率图像之间的端到端映射关系,并且能够同时处理RGB 3个颜色通道,相较于仅处理单色通道的方法,展现出更优异的整体重建质量[15]。VDSR则通过引入残差连接机制、高学习率和动态梯度裁剪等策略,证实了深度神经网络在超分辨率任务上的卓越表现[16],不过在处理大尺度复杂场景时,图像的保真度仍有待提高。总体而言,CNN能够捕捉更精细的图像细节和纹理,极大提升了超分辨率图像的清晰度和观感。深度学习的引入不仅极大地提高了图像超分辨率的效能,还促进了相关学科的交叉融合,引领图像处理领域进入了一个全新的时代。SRGAN(Super-Resolution Generative Adversarial Network)创新性地将生成对抗网络应用于 4倍放大的图像超分辨率任务[17]。通过多损失函数的集成策略,有效促进 网络在局部特征匹配和编辑方面的性能提升[18]。Real-ESRGAN通过高阶退化模型模拟复杂的现实世界图像退化过程,以实现更为自然和真实的图像恢复效果[19]。SwinIR则通过融合卷积层的浅层特征提取与基于Transformer的深层特征提取,构建了一个强大的图像修复框架[20]。深度学习中的图像生成技术,尤其是生成对抗网络(GANs),以其生成高精度图像的能力,与超分辨率任务形成了天然的协同效应,展现了神经网络从数据中学习并重建复杂模式的强大能力[21]
去噪扩散概率模型代表了图像生成领域的另一重要突破[22]。这类模型通过训练一个参数化的马尔可夫链,逆向模拟噪声扩散过程,从而在噪声中恢复原始信号。在训练过程中,模型首先向原始数据添加噪声直至完全破坏信号,随后通过学习逐渐移除噪声,恢复图像细节。在后续的改进中,通过构造余弦噪声、提高模型的对数似然来提升扩散过程的采样效率和生成质量[23]。Stable Diffusion等算法通过引入跨注意力机制,增强了生成图像的质量和相关性,能够根据文本或其他模态的输入作为条件指导生成过程实验证明该算法在图像生成、编辑以及超分辨率等任务上表现出色[24]。这些算法在图像生成、编辑和超分辨率等任务上展现出了令人印象深刻的表现。SR3是一种基于去噪扩散模型的图像超分辨率方法,它从高斯噪声出发,经由迭代去噪逐步精炼图像[25]。它从纯高斯噪声开始,通过迭代去噪过程逐步细化噪声输出。在ImageNet数据集上的超分辨率任务中,SR3的输出在FID和IS指标上表现出色,然而在PSNR和SSIM指标上相对较低,这表明其更侧重于生成具有真实感的图像,而非追求像素级的精确度。SR3在人类主观评价中的愚弄率接近50%,充分说明了其生成图像的视觉真实性。扩散模型在超分辨率任务中相比GAN拥有几个显著的优势,包括训练过程的稳定性、高保真图像的生成能力、理论上更强的可解释性以及样本多样性的提升。这些优势共同推动了扩散模型在生成高质量图像领域的领先地位。尽管GAN在图像生成领域取得了重大进展,但它仍面临模式坍塌、训练不稳定性、对抗损失的平衡难题以及生成图像质量的局限性等挑战。
本文以低分辨率遥感图像为输入条件,构建了一种基于扩散模型的遥感图像超分辨率算法,并验证了本方法的有效性。通过增加像素数量,提升了图像的细节和清晰度,进而展现了更多地面细节,确保处理后的图像相较于原始低分辨率图像包含更丰富的视觉信息和细节,实现了遥感图像的超分辨率处理。

2 Diffusion Super-Resolution算法

2.1 包含注意力机制与残差链接的超分辨率扩散模型

本文提出了一种基于扩散模型,以高分辨率图像作为控制条件,实现遥感图像超分辨率算法(Diffusion Super-Resolution,DSR)。在网络输入设计部分,本文从高分辨率遥感图像中随机裁剪设定大小的图像块作为高分辨率样本,利用降采样得到对应的低分辨率图像,并通过线性插值将低分辨率图像放大到高分辨率尺寸。将插值后的低分辨率图像作为条件与加噪后的图像拼接送入U-Net噪声预测网络,进行预测噪声的训练。用来预测噪声的网络如图1所示。
图1 DSR算法结构

Fig. 1 Structure diagram of DSR denoising model

噪声预测模型采用ResNetBlock与ConvNeXtBlock混合的U-Net网络结构。主要分为下采样模块,中间模块与上采样模块。根据从低分辨率到高分辨率尺寸超分辨率的需要,在特征图尺寸大小为低分辨率时添加自注意力机制,用以将更高维度信息保留,提升模型预测噪声的能力。使用ResNetBlock解决深度网络中的退化问题,允许网络在前期学习得到的知识顺利传输到网络后期。结合ConvNeXtBlock更好的适应不同尺度的特征。ConvNeXtBlock相较于ResNetBlock有着更高的计算效率。ConvNeXt还提供了比ResNet更好的运算符性能,尤其是在大规模数据集上。针对时间t的编码方案,本文采用线性层连接Swish非线性激活函数连接线性层的方式。利用Swish处处连续可导的特性来提高模型性能。输入时,将添加噪声的高分辨率遥感影像与低分辨率插值的图像拼接得到6通道图像,根据时刻t预测输出的噪声。下采样过程中根据特征图不同尺寸来选择不同的组合方式。上采样过程采用3个ConvNeXtBlock作为循环方式,通过残差连接处理深层网络与浅层网络特征。ResNetBlock、ConvNeXtBlock结构如图2所示。
图2 ResnetBlock与ConvNeXtBlock结构比较

Fig. 2 Comparison of ResnetBlock and ConvNeXtBlock structures

2.2 扩散过程与损失函数

DSR的算法思路是一个逐步的随机扩散过程模拟数据的生成。这个过程主要分为2个阶段:训练和采样。训练过程又可以分为扩散过程和反向过程。扩散过程是一个逐步增加噪声的过程,将遥感图像数据从其原始状态逐渐转变为纯噪声。本文使用线性均匀加噪声的方案,在每个时间步t,根据预定的噪声水平(由β系列定义)向数据添加高斯噪声。原始遥感影像逐步加噪声的过程如图3所示。
β l i n e a r [ i ] = l i n e a r _ s t a r t + i n _ t i m e s t e p                                         l i n e a r _ e n d - l i n e a r _ s t a r t
式中:β代表在正向扩散过程中每一步添加的噪声的系数;linear_start是指噪声的起始大小;linear_end是指噪声终止大小; i代表2 000次添加噪声中的第i时刻。
图3 原始遥感图像逐步添加噪声过程

Fig. 3 The process of gradually adding noise to the original remote sensing image

当认为ϵ服从标准正态分布的张量,xtt时刻添加了线性噪声后的遥感图像。 n _ t i m e s t e p代表时间t的的数量,将线性添加噪声的噪音与原始遥感图像的结合的这个过程通常用数学公式描述为:
α t = 1 - β t
α ^ t = i = 0 n - t i m e s t e p s α t
x t = α ^ t x 0 + 1 - α ^ t ϵ
反向过程也就是将时刻t,该时刻下的添加噪声的xt送入到神经网络中学习,使神经网络拥有根据时刻t输出对应噪声的过程。在训练模型构建阶段,本文采用包含3个残差块的U-Net网络结构。每个残差块之中包含自注意力机制,下采样与上采样过程中间添加残差连接。来预测给定带噪声的输入xt在时间步t的原始数据x0
x 0 = 1 α t x t - 1 α t - 1 ϵ
训练目标是最小化原始数据(标准采样噪声)和重建数据(U-Net预测噪声)之间的差异。采样过程是训练过程的逆过程。它从纯噪声开始,逐步去除噪声以生成数据。式(5)为将原始遥感图像添加噪声到xt的含有噪声的计算公式,式(6)为依照贝叶斯公式,可以根据输入原始遥感图像,递推出均值。根据式(5)和式(6)可以合并得到式(7)。
x t = α ^ t x 0 + 1 - α ^ t ϵ
μ ^ t ( x t , x 0 ) : = α ^ t - 1 β t 1 - α ^ t x 0 + α t ( 1 - α ^ t - 1 ) 1 - α ^ t x t
μ ^ t   = α t ( 1 - α ^ t - 1 ) 1 - α ^ t x t + α ^ t - 1 β t 1 - α ^ t 1 α t                   ( x t - 1 - α ^ t z t ) = 1 α t x t - β t 1 - α ^ t z t
式中:在扩散模型的采样阶段, ϵ由添加噪声后的图像zt代替,用以预测超分辨率后图像的均值 μ ^ t
其中xt是纯高斯噪声,将T从2 000递减向前,输入U-Net网络模型预测t时刻的噪声均值。在每个时间步t,模型根据当前的噪声状态xt,和估计的原始数据x0测去除噪声的程度。
通过这种方式,模型逐步减少噪声,直到恢复出清晰的数据。生成最终图像,当到达时间步 t=0时,输出的x0应该是清晰的数据,这是模型从初始噪声状态生成的。从噪声逐步去噪恢复图像的过程如图4所示。
图4 从高斯噪声逐步去噪恢复图像的过程

Fig. 4 The process of gradually denoising and restoring images from Gaussian noise

基于L1损失函数与L2损失函数与SSIM指标,本实验提出一种改进的组合方案:
L 1 = x 0 - x ^ 0
L 2 = x 0 - x ^ 0 2
SSIM计算公式如下:
S S I M ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 )
式中:μxμy分别是图像x和图像y的均值表示平均亮度; σ x 2 σ y 2分别是图像x和图像y的标准差,表示图像的对比度; σ x y表示图像x和图像y之间的协方差,衡量了图像间的结构相似性;C1和C2是小常数,用来维持计算的稳定性。
L o s s = L 1 + L 2 2 - S S I M 2
改进的损失函数增强了鲁棒性和精确度的平衡。L1损失对异常值不太敏感,提供稳健性;L2 损失对于数据的小偏差更敏感,提供精确性。提高了模型训练优化稳定性,结合两者可以在训练过程中提供更平滑和稳定的梯度,有助于更好地优化模型。SSIM确保图像在结构上的保真度,特别是在保持边缘和纹理方面保证了图像结构的完整性。

2.3 评价指标

实验结果使用PSNR与SSIM指标对各组算法结果进行评估。PSNR是一种基于像素的度量,主要关注图像的数据保真度,而SSIM则关注图像的视觉感知质量,比如亮度、对比度和结构的相似性。以确保图像在视觉上和数据上的质量,这2个方法在许多研究中表现出色,是评估图像超分辨率效果的权威指标。
PSNR峰值信噪比是使用原始图像和压缩图像之间的均方误差(Mean Square Error,MSE)E是2幅图像对应像素差异平方的平均值。较高的PSNR值表明失真较少,反之,失真越多。针对灰度图像,PSNR计算公式如下:
P S N R ( f ,   g ) = 10 l o g 10 255 2 M S E ( f ,   g )
式中: f代表真实高分辨率遥感影像;g代表超分后的遥感影像。
2组图片之间MSE计算公式如下:
M S E ( f ,   g ) = 1 M N i = 1 M j = 1 N ( f i j - g i j ) 2
式中:MN分别代表图像的长度与宽度
结构相似性指数(SSIM)是一种用于测量两幅图像的相似性的指标,它能够更好的反映人类视觉的感受。SSIM考虑了亮度、对比度和结构这3个维度,这些度量结合在一起,形成一个介于-1和1之间的值,其中1表示完全相同的2幅图像。指标计算代码参考: https://github.com/chaofengc/IQA-PyTorch

3 实验结果与分析

3.1 数据集构建

本文采用国产的高分辨率遥感卫星图像作 为数据,主要包括高景、高分2号(GF系列2)、高分 7号(GF7系列),如表1所示。其中高景全色数据空间分辨率达到0.5 m,多光谱数据空间分辨率2 m。GF2号和GF7的全色图像分辨率为0.8 m,多光谱为3.2 m,但高分7号具有前后视观测能力,能够进行立体成像实现三维重建。实验所用数据为高分辨率卫星的多光谱数据,统一采样到3.2 m。制作超分训练样本时,随机从一年期间拍摄的遥感影像裁剪设定大小的图像块作为高分辨率数据集。经过数据预处理,得到训练集图像尺寸128像素×128像素、 32像素×32像素各5 000张,测试集与验证集图像 尺寸128像素×128像素、32像素×32像素各500张。
表1 SR训练与验证实验数据集

Tab. 1 SR training and validation experimental datasets

数据集 原始空间分辨率/m 展示图
GF2系列 0.7
GF7系列 0.6
Alsat-2B数据集 2.5
Alsat-2B公共数据集包括用于单幅图像超分辨率(SISR)任务的低空间分辨率和高空间分辨率图像(分别为10 m和2.5 m)。高分辨率图像是通过泛色锐化获得的。Alsat-2B是阿尔及利亚航天局于2016年9月发射的一颗地球观测卫星,其有效载荷可在PAN模式下提供空间分辨率为2.5 m的图像,并在MS模式下提供分辨率为10 m的4个光谱带(红、绿、蓝和近红外)。该卫星的重访周期为3 d。该数据集包括2 182个训练样本和577个测试样本。它将地理区域分为3类:城市、农业和特殊结构,并突出了体育场和桥梁等不同物体。

3.2 模型对比

实验训练使用单张Nvidia Tesla P100显卡进行训练,显存大小为16 GB。训练周期统一设置为500。扩散过程的添加噪声的方案采用线性加噪,加噪步数为2 000步,优化器选择Adam,自动调整每个参数学习率,加速训练收敛。学习率0.000 1。
实验结果如图5所示。从左至右以此为像素尺寸32低分辨率影像、像素尺寸128高分辨率影像、SRGAN算法结果、RealESRGAN算法结果、SwinIR算法结果、DSR算法结果即本文实验算法结果。
图5 4倍放大因子各算法SR重建效果对比

Fig. 5 Comparison of SR reconstruction effects of various algorithms with 4 times magnification factor

在5 000张验证集上进行的实验表明,DSR算法的峰值信噪比PSNR达到24.48,结构相似性SSIM指数为0.717。实验结果证实,当将超分辨率处理后的图像作为条件输入至扩散模型时,DSR能展现出卓越的超分辨率性能,整个图像超分辨过程中,图像失真得到有效控制,接近实际地面状况。采用自注意力机制和残差连接的三层残差块架构的U-Net噪声预测模型,显示出了强大的噪声预测能力,对特征学习较为全面。然而,该模型在处理图像时出现与真实地面遥感图像之间的色差现象。此外,SRGAN算法在处理过程中产生栅格阵列中的圆形灰色斑点;Real-ESRGAN算法在对地表边缘进行锐化时过度强化,导致对大面积土地的超分辨率效果不佳;SwinIR算法对块状地物纹理造成显著破坏,未能有效地恢复线状地物特征。各算法的评价指标对比结果如表2所示。
表2 SR算法在2个数据集上的PSNR、SSIM平均值

Tab. 2 SR algorithms on two datasets: PSNR and SSIM mean values

算法名称 PSNR SSIM
SRGAN 23.67 0.594
Real-ESRGAN 17.71 0.474
SwinIR 17.92 0.602
DSR(Ours) 24.48 0.717

3.3 结果分析与讨论

首先,通过可视化超分辨率结果以及逐步去噪过程,可以直观地观察到,随着迭代轮次的递增,模型对特定时间点(t时刻)的噪声预测能力逐步提高,最终达到较高的准确度。借助多层残差块与残差连接的设计,有效增强了在训练深度较大的模型时对特征的提取和学习能力,尤其在处理梯度消失问题上表现突出。同时,在上采样与下采样的操作中融入自注意力机制,使模型能够聚焦于特定维度的数据分布,精准捕捉关键信息,从而在处理序列或空间数据时展现出更强的洞察力。
其次,低分辨率遥感图像虽然细节不足,但仍然能保留原高分辨率图像的基本结构、色彩分布和纹理特征。因此,以低分辨率图像作为条件输入,可以建立与高分辨率图像之间的一对一关系,使模型能够在保持原有结构的基础上,合理填充细节,恢复缺失的信息。在实际应用中往往只能获取低分辨率的遥感图像,因此以低分辨率图像为条件进行处理,符合实际需求,具有明确的物理意义和实用价值。
最后,在像素尺寸从32像素增加到128像素的4倍超分辨率任务中,深度空间重建(DSR)技术的表现优于传统的对抗生成网络(GAN)图像超分辨率算法,其实验结果的峰值信噪比PSNR为24.48 dB,结构相似性指数SSIM为0.717。特别是在植被覆盖区和水体等特定地物类型的遥感图像上,DSR算法的表现超过了基于GAN和Transformer架构的其他图像超分辨率算法。

4 结论

本文提出了一种基于去噪扩散概率模型的条件超分辨率模型,即深度空间重建(DSR)。该模型首先在遥感卫星影像上裁剪出设定大小的图像区域,然后利用线性插值方法将这些低分辨率图像放大至目标高分辨率尺寸。设计阶段,采用线性加噪声策略来构建扩散模型,将经过插值放大的低分辨率图像作为控制条件输入网络。通过融合自注意力机制与残差连接,训练了一个能够预测噪声的网络,用于指导扩散过程。受扩散模型理论的启发,我们将此生成方案首次应用于遥感图像的超分辨率重建,借助注意力机制和残差块,对原始遥感图像的高低维信息进行深度特征学习。实验结果证明,经DSR超分辨率重建后的图像纹理信息更为丰富,且在量化评价指标上表现优异。
在具体实施上,DSR在多光谱遥感图像数据集上的表现尤其突出,实现了从32像素×32像素到128像素×128像素4倍的超分辨率提升。与传统对抗生成网络(GAN)图像超分辨率算法相比,DSR的实验结果显著更优,PSNR值达到24.48 dB,SSIM值为0.717。这不仅为遥感图像超分辨率领域提供了一种创新的解决方案,而且在4倍超分辨率任务中,DSR展现出较高的PSNR和SSIM指标,为遥感图像超分辨率研究开辟了新的方向。
未来计划引入采样加速方案以提高扩散模型的推理速度,确保在不牺牲超分辨率图像质量的前提下,提升处理效率。此外,还打算在构建预测噪声的神经网络时,对U-Net网络结构进行优化,并调整残差连接,探索不同类型的注意力机制,以期达到更佳的噪声模拟效果,从而增强网络对低频和高频特征的捕捉能力。
[1]
唐艳秋, 潘泓, 朱亚平, 等. 图像超分辨率重建研究综述[J]. 电子学报, 2020, 48(7):1407-1420.

DOI

[Tang Y Q, Pan H, Zhu Y P, et al. A survey of image super-resolution reconstruction[J]. Acta Electronica Sinica, 2020, 48(7):1407-1420.] DOI:10.3969/j.issn.0372-2112.2020.07.022

[2]
朱红, 宋伟东, 谭海, 等. 多尺度细节增强的遥感影像超分辨率重建[J]. 测绘学报, 2016, 45(9):1081-1088.

DOI

[Zhu H, Song W D, Tan H, et al. Remote sensing images super resolution reconstruction based on multi-scale detail enhancement[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(9):1081-1088.] DOI:10.11947/j.AGCS.2016.20150451

[3]
李欣, 韦宏卫, 张洪群. 结合深度学习的单幅遥感图像超分辨率重建[J]. 中国图象图形学报, 2018, 23(2):209-218.

[Li X, Wei H W, Zhang H Q. Super-resolution reconstruction of single remote sensing image combined with deep learning[J]. Journal of Image and Graphics, 2018, 23(2):209-218.] DOI:10.11834/jig.170194

[4]
张兵, 高连如, 李嘉鑫, 等. 高/多光谱遥感图像超分辨率融合研究进展与展望[J]. 测绘学报, 2023, 52(7):1074-1089.

DOI

[Zhang B, Gao L R, Li J X, et al. Advances and prospects in hyperspectral and multispectral remote sensing image super-resolution fusion[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(7):1074-1089.] DOI:10.11947/j.AGCS.2023.20220499

[5]
Cherifi T, Hamami-Metiche L, Kerrouchi S. Comparative study between super-resolution based on polynomial interpolations and Whittaker filtering interpolations[C]// 2020 1st International Conference on Communications, Control Systems and Signal Processing (CCSSP). IEEE, 2020:235-241. DOI:10.1109/CCSSP49278.2020.9151673

[6]
Jo Y, Kim S J. Practical single-image super-resolution using look-up table[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:691-700. DOI:10.1109/CVPR46437.2021.00075

[7]
Huang Y F, Li J, Gao X B, et al. Single image super-resolution via multiple mixture prior models[J]. IEEE Transactions on Image Processing, 2018, 27(12):5904-5917. DOI:10.1109/TIP.2018.2860685

PMID

[8]
Xu Y Y, Li J H, Song H F, et al. Single-image super-resolution using panchromatic gradient prior and variational model[J]. Mathematical Problems in Engineering, 2021,2021:9944385. DOI:10.1155/2021/9944385

[9]
Hardiansyah B, Lu Y. Single image super-resolution via multiple linear mapping anchored neighborhood regression[J]. Multimedia Tools and Applications, 2021, 80(19):28713-28730. DOI:10.1007/s11042-021-11062-0

[10]
Cai Q, Li J X, Li H F, et al. TDPN: Texture and detail-preserving network for single image super-resolution[J]. IEEE Transactions on Image Processing, 2022, 31:2375-2389. DOI:10.1109/TIP.2022.3154614

PMID

[11]
Wang X, Yi J L, Guo J, et al. A review of image super-resolution approaches based on deep learning and applications in remote sensing[J]. Remote Sensing, 2022, 14(21):5423. DOI:10.3390/rs14215423

[12]
Yuan Q Q, Shen H F, Li T W, et al. Deep learning in environmental remote sensing: Achievements and challenges[J]. Remote Sensing of Environment, 2020,241:111716. DOI:10.1016/j.rse.2020.111716

[13]
LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4):541-551. DOI: 10.1162/neco.1989.1.4.541

[14]
Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[M]. arXiv, 2014[2022-07-13]. http://arxiv.org/abs/1406.2661.

[15]
Dong C, Loy C C, He K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence 2016, 38(2):295-307. https://doi.org/10.1109/TPAMI.2015.2439281.

DOI PMID

[16]
Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:1646-1654. DOI:10.1109/CVPR.2016.182

[17]
闵杰, 张永生, 于英, 等. 增强型遥感影像SRGAN算法及其在三维重建精度提升中的应用[J]. 地球信息科学学报, 2022, 24(8):1631-1644.

DOI

[Min J, Zhang Y S, Yu Y, et al. Enhanced remote sensing image SRGAN algorithm and its application in improving the accuracy of 3D reconstruction[J]. Journal of Geo-information Science, 2022, 24(8):1631-1644.] DOI:10.12082/dqxxkx.2022.210766

[18]
Natsume R, Yatagawa T, Morishima S. RSGAN: Face swapping and editing using face and hair representation in latent spaces[C]// ACM SIGGRAPH 2018 Posters. ACM, 2018:1-2. DOI:10.1145/3230744.3230818

[19]
Wang X T, Xie L B, Dong C, et al. Real-ESRGAN: Training real-world blind super-resolution with pure synthetic data[C]// 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). IEEE, 2021:1905-1914. DOI:10.1109/ICCVW54120.2021.00217

[20]
Liang J Y, Cao J Z, Sun G L, et al. SwinIR: Image restoration using swin transformer[C]// 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). IEEE, 2021:1833-1844. DOI:10.1109/ICCVW54120.2021.00210

[21]
苏健民, 杨岚心. 基于生成对抗网络的单帧遥感图像超分辨率[J]. 计算机工程与应用, 2019, 55(12):202-207,214.

DOI

[Su J M, Yang L X. Super resolution of single frame remote sensing image based on generative adversarial nets[J]. Computer Engineering and Applications, 2019, 55(12):202-207,214.] DOI:10.3778/j.issn.1002-8331.1807-0188

[22]
Ho J, Jain A, Abbeel P. Denoising Diffusion Probabilistic Models[M]. arXiv, 2020[2023-09-27]. http://arxiv.org/abs/2006.11239.

[23]
Nichol A, Dhariwal P. Improved Denoising Diffusion Probabilistic Models[M]. arXiv, 2021[2023-09-27]. http://arxiv.org/abs/2102.09672.

[24]
Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:10674-10685. DOI:10.1109/CVPR52688.2022.01042

[25]
Saharia C, Ho J, Chan W, et al. Image Super-Resolution via Iterative Refinement[M]. arXiv, 2021[2023-10-29]. http://arxiv.org/abs/2104.07636.

文章导航

/