多源遥感影像深度特征融合匹配算法

图1 FFM算法技术路线

Fig. 1 Technical route of FFM algorithm

2.1 多源遥感影像深度特征提取与融合

卷积神经网络较深层特征图可看作全局性语义信息，更为抽象的全局性语义特征比低层特征更能适应并抵抗多源遥感影像之间的辐射畸变和几何差异。为了提取信息更均衡的特征，本文在LoFTR特征提取网络结构^[10]的基础上，引入FPN^[11]并对其进行适应性改造进行特征提取。使用特征图金字塔可以改善目标尺度变化和特征定位问题，FFM通过特征图金字塔网络进行特征融合来提高多源遥感影像特征的信息全局性、定位精度以及抗干扰能力。在构造标准卷积神经网络时，通过神经网络将输入影像依次下采样为原始维度的1/2、1/4、1/8，此处称之为由低层到高层的下采样，然后将原始维度1/8的特征图依次上采样为原始维度的1/4、1/2，此处称之为由高层到低层的上采样。FFM特征提取网络结构如图2所示。

图2

图2 特征提取网络结构

Fig. 2 Feature extraction network structure

图2中，②、③、④为由低层到高层的下采样阶段，提取原始影像维度1/8的256维高层特征；⑤、⑧为由高层到低层的双线性插值上采样阶段，得到原始维度1/2的128维低层精细特征；⑥、⑨为特征连接，特征连接为FFM算法特征提取网络构造思想的核心部分；⑦、⑩是将含有底层定位信息的特征与语义信息丰富的高层特征上采样结果相融合，大大提高了特征的信息全局性与定位精度。

图2中②、③、④是对原始影像进行卷积操作，为了减少参数和计算量，②、③、④均采用卷积块结构，该结构可实现对输入影像初步卷积结果的快捷连接，使神经网络具有学习恒等映射^[12]的能力。如图3所示，将输入特征图f₁与输出特征图f₂进行元素的叠加，这个简单的连接可以改进增加模型的训练效果，同时不会给网络增加额外的参数和计算量。

图3

图3 卷积块结构

Fig. 3 Convolution block structure

图2中⑥、⑨为特征连接部分，如图4所示。以⑥为例，该部分把语义信息更丰富的高层特征F3（H/8×W/8×256）上采样得到F4（H/4×W/4×196），将F3的前一层特征F1（H/4×W/4×196）通过1×1卷积核进行卷积处理得到F2（H/4×W/4×196），然后将F4特征连接至F2，得到具有高定位精度与信息全局性的融合特征F5（H/4×W/4×196）。相较于LoFTR特征提取网络中的横向连接，FFM通过调节尺度自适应调整，使F2与F4能适应彼此的尺度差异，进而摆脱对图像单一尺度的依赖。该操作可以将低层特征的定位细节信息与高层特征的丰富语义信息融合，该融合特征可以大幅度增强多源遥感影像特征的表征能力，抵抗多源遥感影像间的几何差异与尺度差异等。

图4

图4 特征连接结构

Fig. 4 Feature connection structure

经过特征提取及融合，最终提取出原始图像维度1/8的256维高层特征 $F_{A_C}$ 、 $F_{B_C}$ 以及原始图像维度1/2的128维低层精细特征 $F_{A_F}$ 、 $F_{B_F}$ ，特征图可视化如图5所示。图5中高层特征由更深层的卷积神经网络下采样提取的256维高维度特征图，高层特征图中的每个像素通道由256维特征向量表示；低层特征图中的每个像素通道由128维特征向量表示。

图5

图5 特征图可视化

Fig. 5 Visualization of feature map

2.2 融合特征匹配

多源遥感影像之间的特征差异极大，经典特征匹配方法难以满足精密匹配的需求，FFM算法通过局部特征变换器^[10,13]中的关注层来获取具有相关性的全局高层特征，对高层特征上所有特征向量进行密集匹配，然后将匹配结果映射至低层精细特征上对密集匹配进行检校优化，最终得到定位准确的可靠匹配结果。

2.2.1 全局特征融合变换

对上节所提取的全局高层特征，对其添加特征正弦编码，正弦编码为每个像素提供唯一的位置信息，使特征与其在原始图像上的位置唯一对应，以便于高层特征映射至低层精细特征，这有利于提高多源影像稀疏纹理区域的匹配效果。将带有位置信息的高层特征展平为一维向量L1、L2，其长度为H/8×W/8。将L1、L2输入至特征变换模块，通过关注层的交织处理来度量2幅影像高层特征之间的相似性，其处理流程如图6所示。

图6

图6 特征变换融合流程

Fig. 6 Flow chart of feature transformation fusion

图6中， $F_{A_C}$ 、 $F_{B_C}$ 为原始图像维度1/8的256维高层特征，L1、L2为 $F_{A_C}$ 、 $F_{B_C}$ 正弦编码后展平得到的一维向量， $F_{A_t r}$ 、 $F_{B_t r}$ 为特征变换融合得到的一维特征向量，N为特征变换融合交织处理次数。

如图6所示，关注层输入向量可类比于字典搜索中的查询向量Query、键向量Key以及值向量Value，其目的是对特征进行转换进而融合自身影像的邻域信息与待匹配影像的特征信息。对于自我关注层，Query = Key = Value = L1，相当于输入带有位置信息的特征来融合自身局部邻域信息，生成新的特征图；对于交叉关注层，Query = L1、Key = Value = L2，是将输入带有位置信息的基准影像特征与待匹配影像的特征相融合。通过Query和Value的点乘积来计算特征间的注意力权重 $W$ ，从 Value中检索信息，此处使用 $e l u (Q) + 1$ 、 $e l u (K^{T}) + 1$ 代替Query、Key，达到减少计算代价的目的^[14]。此外，利用张量矩阵的结合律先计算 $(e l u (K^{T}) + 1) \cdot V$ 来简化计算，最终公式如式（1）所示。

（1）

W (Q, K, V) = (e l u (Q) + 1) \cdot [(e l u (K^{T}) + 1) \cdot V]

式中：Q、K、V分别代表图6中的查询向量Query、键向量Key以及值向量Value。

关注层是通过测量查询向量和每个关键特征之间的相似度来选择相关信息的，输出向量是由相似性分数加权的值向量的总和，可从相似度高的值向量中提取相关信息。在关注层中，将Line Attention的结果进行归一化处理后与带有位置信息的L1、L2相叠加，得到融合位置信息、本身邻域信息以及待匹配影像信息的一维特征 $F_{A_t r}$ 、 $F_{B_t r}$ 。由于在关注层归一化处理过程中会存在信息丢失等情况，因此将得到的融合特征 $F_{A_t r}$ 、 $F_{B_t r}$ 返回L1、L2进行再次处理。由于多源遥感影像纹理差异大、灰度差异大，因此需要使两个高层特征具有更强的相关性，因此相较于LoFTR，FFM算法增大交织处理次数，得到更可靠、相关性更强的融合特征。经过以上处理，输出融合本身邻域信息以及待匹配影像信息的融合特征 $F_{A_t r}$ 、 $F_{B_t r}$ 。

2.2.2 滑动窗口自适应得分阈值检测特征匹配

2个高层特征经过特征变换融合后具有了较强的相关性，在该高层特征上建立对应其像素级的密集匹配，得到粗略的密集匹配结果。FFM通过最佳匹配层^[9]来进行多源遥感影像间的初次匹配。匹配的重点是特征间的相似度对比，由于特征变换融合器的输出向量是由相似性分数加权的值向量的总和，其增强了非同名特征之间的特异性，加强了同名特征之间的信息相关性与空间位置相关性，该输出向量之间带有相似度信息，因此可以用向量之间的得分矩阵来表示所有特征向量之间的相似度，若相似度大于一定阈值，将其视为正确的匹配。融合特征 $F_{A_t r}$ 、 $F_{B_t r}$ 之间的得分矩阵S由式（2）^[10]确定。

（2）

S (i, j) = < F_{A__{t r}} (i), F_{B_{_t r}} (j) >, \forall (i, j) \in A \times B

式中：<, >表示内积。

为所有可能的匹配计算得分矩阵 $S \in R$ ^M×N，通过最大化总得分 $\sum_{i, j} S_{i, j} P_{i, j}$ 来获得最佳分配矩阵 $P$ 。最佳分配矩阵 $P$ 可由最优传输算法^[15]的熵正则化公式计算得到，最优传输可通过Sinkhorn算法^[16]有效求解 $P$ 。最终执行相互最近邻准则（MNN）来过滤可能存在异常的匹配，综合以上2个选择标准，得到相对可靠且分布均匀的匹配结果。

由于多源遥感影像匹配过程中稀疏纹理区域或单一纹理区域匹配点对较少，基于得分机制可建立滑动窗口自适应得分阈值检测算法，该方法可以增加稀疏纹理区域的初次匹配结果。初始筛选得分阈值设为θ，滑动窗口面积 $w s$ 、水平滑动步长 $h l$ 、垂直滑动步长 $v l$ 如式（3）—式（5）所示。自适应得分阈值算法所求筛选阈值如式（6）所示。

（3）

w s = \frac{1}{64} \times \frac{H}{8} \times \frac{W}{8} = \frac{H \times W}{4096}

（4）

h l = \frac{1}{16} \times \frac{H}{8} = \frac{H}{96}

（5）

v l = \frac{1}{16} \times \frac{W}{8} = \frac{W}{96}

（6）

a v g θ = \frac{\sum_{n} s_{i}}{n}

式中： $n$ 为特征稀疏区域窗口内的特征向量个数； $s_{i}$ 为特征稀疏区域窗口内各个特征向量的匹配得分。

特征稀疏区域滑动窗口搜索检测算法流程如算法1所示。

算法1 滑动窗口自适应得分阈值检测
1. 初始化滑动窗口 $w 、 w s 、 h l 、 w l$ 2. 窗口滑动检测若当前窗口内所有特征得分 $s < θ$ 计算匹配稀疏节点内自适应阈值 $a v g θ$ 遍历窗口内特征向量，若得分 $s > a v g θ$ ，加入初次匹配点集窗口滑动若当前窗口存在特征向量得分 $s \geq θ$ ×窗口滑动 3. 窗口滑动遍历 $F_{A_t r}$

滑动窗口自适应得分阈值检测算法相较于直接降低阈值θ，其优势在于只筛选匹配稀疏区域的低得分匹配点对，可避免密集匹配区域的冗余低得分点对。经过该算法得到初次匹配结果，可通过精密匹配的检校，最终获得可靠的匹配结果。

由于初次匹配结果是在原始图像1/8分辨率下得到的，该高层特征描述符对差异较大的多源遥感影像来说可能存在错误，因此将初次匹配结果定位至低层精细特征中进行检校优化，进而获得分辨率高、定位精确的多源遥感影像精密匹配结果。

以在 $F_{A_t r}$ 、 $F_{B_t r}$ 上筛选后的N对特征点为中心分别在 $F_{A_t r}$ 、 $F_{B_t r}$ 上裁剪N对大小为 $m \times m$ 的局部窗口，将N对窗口映射至细密特征 $F_{A_F}$ 、 $F_{B_F}$ 中，得到N对以初次匹配特征点对为中心的局部细密窗口，将N对局部细密特征窗口输入至特征变换融合模块，对其进行若干次变换，产生N对以初次匹配特征点对为中心的局部细密融合特征图 $F_{A_F}^{t r}$ 、 $F_{B_F}^{t r}$ ，该特征图融合了窗口本身的邻域信息以及待匹配窗口的特征信息，使2幅特征图的像素之间具有了相关性。在此基础上，将表示 $F_{A_F}^{t r}$ 中心点P的特征向量与 $F_{B_F}^{t r}$ 的所有向量相关联，生成 $F_{B_F}^{t r}$ 的每个像素与P的匹配概率分布期望值。匹配概率分布期望值计算如式（7）^[17]所示。概率值最高的像素点即为图像A上的点P在图像B上具有亚像素精度的最终匹配结果。

（7）

P (X | P, V_{A}, V_{B}) = \frac{e x p (V_{A} {(P)}^{T} V_{B} (X))}{\sum_{y \in B} e x p (V_{A} {(P)}^{T} F_{B_F}^{t r} (y))}

式中： $V_{A} (P)$ 为 $F_{A_F}^{t r}$ 中心点P的特征向量； $V_{B} (x)$ 为 $F_{A_F}^{t r}$ 某像素点x的特征向量； y是像素点在图像B上的像素梯度。

2.3 误匹配剔除

为了保证匹配结果的准确性，需要对精密匹配结果再次进行误匹配检验与剔除。本文采用渐进一致采样算法（PROSAC）^[18]进行误匹配剔除。PROSAC算法是对经典RANSAC算法的一种优化，相较于RANSAC算法均匀地从点对集合中进行采样，PROSAC算法是从持续增大的最佳匹配点对集合中进行采样，该方法相较于RANSAC算法具有更高的效率与精度。但PROSAC算法易受误匹配点过多的影响使算法变得极不稳定。然而FFM算法经过初次匹配与匹配检校优化联合处理，得到的误匹配点数量极少，因此使用PROSAC方法剔除误匹配点对本文算法具有较强的适应性。

2.4 训练数据与损失函数

本文使用MegaDepth^[19]数据集中的室外场景进行训练，MegaDepth是从海量互联网图片中生成的可用于用于单目深度估计的大型深度数据集，其包含10万张左右的室外三维场景，这些三维场景可生成具有严格变换关系的立体像对及其相机参数，立体像对中的像点具有一一对应的像素关系。通过该对应关系，计算粗匹配过程中的地面真实匹配 $M = {(i, j)} \in A__{t r} \times B__{t r}$ ，通过最小化分配矩阵与真值之间的差值来获取最佳匹配，最终提高匹配的稳定性与可靠性。根据以上原理，损失函数如式（8）所示。

（8）

L = \sum_{(\tilde{i}, \tilde{j}) \in M} l o g P_{c} (\tilde{i}, \tilde{j}) - \sum_{(i, j) \in M} l o g P_{c} (i, j)

式中： $P_{c} (\tilde{i}, \tilde{j})$ 为分配矩阵计算值； $P_{c} (i, j)$ 为分配矩阵真值。

3 试验与结果分析

3.1 运行环境及试验数据

本文算法在Ubuntu18.04操作系统中进行实验，编程语言环境为Python 3.6，编程平台为Pycharm。硬件平台使用搭载I7 CPU、31 G内存、GeForce RTX 2060显卡（显存6 GB）的笔记本电脑。

本文选取如图7所示的6对多源遥感影像进行试验，第1组影像对为无人机光学影像与无人机热红外影像，第2组影像对为ZY-3全色影像与GF-3 SAR影像^[1]，第3组影像为GetScreen软件下载的夏季谷歌影像与冬季谷歌影像，第4组影像对为谷歌光学影像与自然资源卫星遥感云服务平台下载的ZY-3全色影像，第5组影像为谷歌光学影像与自然资源卫星遥感云服务平台下载的GF-2全色影像，第6组影像为谷歌光学影像与OSM栅格地图影像^[1]。6组多源遥感影像数据对比分析如表1所示。

图7

图7 试验原始多源遥感影像对

Fig. 7 Test original heterogeneous remote sensing image pair

表1 试验数据对比分析

Tab. 1 Comparative analysis of test data

	影像组别
	第1组	第2组	第3组	第4组	第5组	第6组
基准影像类型	无人机光学影像	ZY-3 PAN 全色影像	Google 光学影像(夏)	Google 光学影像	Google 光学影像	Google 光学影像
图幅/像素	1920×1080	1000×1000	960×960	512×512	256×256	500×500
分辨率/m	-	2.5	0.5	160	120	40
待匹配影像类型	无人机热红外影像	GF-3 SAR	Google 光学影像(冬)	ZY-3 PAN 全色影像	GF-2 PAN 全色影像	OSM 栅格地图
图幅/像素	640×512	1000×1000	640×640	628×531	400×400	500×500
分辨率/m	-	2.5	0.5	160	120	40
差异	可见光-热红外，成像模式与波段不同，角度、尺度差异大	光学-SAR，成像模式不同，灰度梯度差异大^[1]	时相差异大，冬夏季地物差异明显，角度尺度差异明显	普通光学影像-全色影像，波段不同，灰度差异明显	普通光学影像-全色影像，波段不同，灰度差异明显	可见光-栅格地图，不同地图模式，灰度差异大^[1]

3.2 空间分辨率与旋转适应性测试

多源遥感影像之间的空间分辨率差异与旋转角度差异是影响各种匹配算法性能的重要因素，为了验证FFM算法对空间分辨率差异以及旋转角度差异的适应性，本文设计了空间分辨率差异适应性评估与旋转角度差异适应性评估试验。

3.2.1 空间分辨率差异适应性评估

多源遥感影像之间的空间分辨率差异是影响其匹配的重要因素，为了验证FFM算法对多源遥感影像空间分辨率差异的适应性，选取图7（b）、（c）、（d）、（e）共4对影像进行测试。通过重构影像大小来间接改变空间分辨率的策略进行空间分辨率差异适应性评估，结果如图8所示。

图8

图8 空间分辨率适应性评估

Fig. 8 Spatial resolution adaptability evaluation

图8为空间分辨率适应性评估结果，横轴代表多源影像对之间的空间分辨率差异倍数，竖轴表示匹配点数量。由图可知，FFM算法的匹配点数量随着空间分辨率差异的扩大而减少，当空间分辨率高于2倍时，其匹配结果较差。其原因在于训练样本中空间分辨率差异较大的影像样本数量较少，该性能有待进一步改进提升。

3.2.2 旋转角度差异适应性评估

大多数多源遥感影像之间存在一定的角度差异，该差异往往会降低匹配算法的性能。针对FFM算法的旋转适应性，对图7中的6对影像进行旋转测试，其旋转适应性评估结果如图9所示。

图9

图9 旋转适应性评估

Fig. 9 Rotation adaptability evaluation

由图9可知，随着旋转角度的增大，匹配点数量逐渐降低，当原始影像之间的旋转角度小于20°时，FFM算法表现良好；当旋转角度超过45°时，FFM算法匹配性能表现较差。原因在于，FFM算法在训练时未考虑到大旋转角度训练样本的使用，该测试说明本文算法尚存在较大提升空间，下一步在训练样本中加入具有地面真实对应信息的大旋转角度影像对进行增强训练，有可能改善这一性能。

另外，在多源遥感影像的应用处理时，遥感影像通常具有相对精准的轨道位姿或者PRC等先验信息^[1]。对于FFM算法在以上2个方面的局限性，在利用FFM算法进行多源遥感影像匹配前，可通过这些先验辅助信息在一定的精度范围内预先消除多源影像之间的空间分辨率差异与旋转角度差异。在此基础上，FFM算法能够满足大多数多源遥感影像的实际匹配需求。

3.3 匹配算法评价指标

本文试验采用正确匹配点数（P）、匹配正确率（MA）、匹配点均方根误差（RMSE）以及匹配时间（t）来评价匹配算法的性能。由于本文匹配算法侧重于得到更为均匀的匹配结果，因此针对匹配结果的分布均匀程度，采用匹配点分布均匀度（RSD）来衡量。

3.3.1 正确匹配点

正确匹配点是指待匹配影像上特征点的实际位置与参考影像上该特征点的实际位置之差在阈值以内的点的数量，正确匹配点通过式（9）验证。正确匹配点数（P）指满足以上条件的匹配点的数量，该指标可以反映特征匹配算法基本性能的优劣。

（9）

C o r r e c t (x) : \sqrt{(x_{i} - H x_{i}^{'})^{2} + (y_{i} - H y_{i}^{'})^{2}} \leq ε

式中：H是由人工选点所拟合出的仿射变换模型替代两张多源遥感影像的真实仿射变换模型，特征点 $(x_{i}^{'}, y_{i}^{'})$ 进行仿射变换后与其同名点 $(x_{i}, y_{i})$ 的距离若小于阈值 $ε$ （本文阈值设置为3），则判断其为正确匹配点。人工选点主要是借助多种匹配方法，通过人工逐一判断是否为同名点对；针对多种匹配算法无法识别的区域，通过影像放大目视判读进行选取；借助以上2种方式，获取在如图10所示的5个方向上严格均匀分布的36个同名点对进行仿射变换模型的拟合。

图10

图10 5个方向划分示意图^[22]

Fig. 10 Schematic diagram of five directions

匹配正确率即正确匹配点数与所有匹配点数之比^[20]，该指标可反应算法成功匹配的性能。

3.3.2 匹配点均方根误差

匹配点均方根误差^[21]是正确匹配点仿射变换结果 $x'$ 和真值 $x$ 之差的平方和与正确匹配点数n的比值的平方根（式（10））。匹配点误差估计是衡量匹配效果的重要指标，均方根误差对一组变换中的特大或特小误差反应非常敏感，所以均方根误差能够很好地反映出多源遥感影像匹配结果的精确度。匹配点均方根误差所用真值是真实像素坐标，不存在偏差，因此更适用于匹配点误差估计。

（10）

R M S E = \sqrt{\frac{\sum_{i = 1}^{n} (x_{i} - H x_{i}^{'})^{2}}{n}}

式中： $x'$ 是正确匹配点仿射变换结果； $x$ 为真值； $n$ 正确匹配点个数。

3.3.3 匹配点分布均匀度

依据文献[22]，匹配点分布均匀度根据匹配结果在5个方向的分布均匀程度来计算，将图像划分为5个方向共计10个区域，如图10所示。

根据统计学原理，采用样本方差来表示5个不同方向的图像块内匹配点数量的差异情况，若匹配点对在5个方向上的分布都较为均匀，则该匹配点对在5个方向上的数量样本方差较小，反之则大。匹配点分布均匀度如式（11）所示，匹配点分布均匀度越大，证明匹配点分布越均匀，反之则不均匀。

（11）

u = - l o g (\frac{\sum_{i = 1}^{10} (V_{i} - m e a n {(V))}^{2}}{10})

式中 $： V$ 为区域统计分布向量，该向量由10个区域内的匹配点数量组合而成。

匹配点对分布均匀度计算步骤如算法2所示。

算法2 匹配点对分布均匀度计算
1. 根据图10将影像划分为5个方向即10个区域 2. 分别统计每个区域内的匹配点数量 3. 将10个区域内的匹配点数量组合为区域统计分布向量 $V$ 4. 利用式(11)计算匹配点分布均匀度

3.4 匹配试验与分析

试验挑选多种可用于多源遥感影像匹配的代表性算法进行比较分析，其中包括基于深度学习特征的SuperPoint算法、ContextDesc^[23]算法以及LoFTR算法，经典算法SIFT。其中SuperPoint算法是一种用于提取特征点及描述符深度学习自监督算法；ContextDesc算法是专门为多模态影像设计的深度学习匹配算法，ContextDesc是通过高阶图像视觉信息与关键点分布的几何信息来增强DELF等原特征描述子。SIFT即尺度不变特征变换，是一种具有一定的仿射不变性以及抗干扰性的局部特征描述子。以上4种算法与FFM算法对比结果如表2所示。

表2 匹配试验结果对比

Tab. 2 Comparison of registration test results

		影像组别
		第1组	第2组	第3组	第4组	第5组	第6组
P/对	SuperPoint	56	4	76	94	10	2
	ContextDesc	27	0	17	107	39	0
	SIFT	0	0	21	68	42	0
	LoFTR	165	598	49	701	59	84
	FFM	321	416	246	267	165	30
MA/%	SuperPoint	13.1	1.9	22.2	40.5	34.48	3.17
	ContextDesc	39	0	23.9	71.8	62.9	0
	SIFT	0	0	6.1	20.0	45.65	0
	LoFTR	21.02	53.35	22.48	70.67	32.96	92.3
	FFM	94.1	71.6	54.91	63.4	93.2	23.8
RMSE	SuperPoint	5.3140	38.8776	3.3387	4.3474	10.4386	-
	ContextDesc	16.2799	-	8.3289	4.6065	10.729	-
	SIFT	-	-	7.8878	4.551	8.53	-
	LoFTR	7.4840	5.9680	4.3220	3.0455	4.85276	3.2743
	FFM	2.9675	3.3287	1.3759	2.87	3.89	3.1744
t	SuperPoint	1.0	1.2	0.7	0.5	0.43	0.43
	ContextDesc	5.9	5.1	3.6	3.2	2	2.6
	SIFT	5.1	5.1	3.1	3.2	1.5	2.5
	LoFTR	1.3	1.5	1.1	1.0	0.8	0.9
	FFM	1.4	1.7	1.2	1.5	1.1	1.1

注：表中加粗数值表示本文FFM算法所得结果。

由表2可知，FFM算法在6对多源遥感影像上均取得良好的匹配效果，在优势时间内获得了数量足够的正确匹配点，通过图11可更直观地对比不同算法间的匹配性能。

图11

图11 匹配性能对比柱状图

Fig. 11 Matching performance comparison histogram

通过对比表2以及图11可知，针对不同模式的多源遥感影像对，FFM算法均能得到较多的正确匹配点数量，在不同影像对上与LoFTR算法各有优劣，但数量远远高于其他算法3种算法。由于多源遥感影像的灰度差异较大、关键点的局部梯度信息不一致，SIFT算法对可见光影像与热红外影像、全色影像与SAR影像以及光学影像与栅格地图均匹配失败。相较于SIFT算法，FFM算法对于灰度差异大、局部梯度信息不一致的多源遥感影像匹配更加稳定。SuperPoint算法在正确匹配点数、匹配点均方根误差以及时间上相对于SIFT和ContextDesc算法有了较大提升，表明其对多源遥感影像的适应性更强，但性能总体上低于FFM算法。ContextDesc算法是集合多种特征进行匹配，但其匹配效果相对较差，说明其对于差异较大的多源遥感影像不具有完全适应性，对于全色影像与SAR影像以及光学影像与栅格地图，ContextDesc算法匹配失败，表明该算法对多源遥感影像的非线性辐射畸变及局部梯度信息差异抵抗性较差。

从匹配点均方根误差来看，LoFTR算法与 SuperPoint算法相较于SIFT和ContextDesc算法表现良好，但与FFM算法存在一定差距，尤其表现在全色影像与SAR影像上，该对比说明FFM算法的特征定位精度较高。由于FFM算法经过初次匹配的滑动窗口搜索检测算法与匹配检校2个阶段，其在时间上逊色于SuperPoint算法与LoFTR算法。FFM算法在6组影像上测试的RMSE结果存在一定差异，相对于第3组数据，第1组数据与第2组数据中存在更多的建筑物，由于不同影像上的建筑物存在不同的投影视差，导致影像间建筑物区域存在较大的局部变形，这类局部几何变形很难通过仿射变换模型来消除，因此其匹配结果的RMSE相对较大。

针对匹配点分布均匀度，由于其他算法正确匹配点数较少，因此着重对比FFM算法与LoFTR算法，对比结果如表3所示。由表3可知，FFM算法在6组多源遥感影像对上的匹配点均匀度均大于LoFTR，匹配点均匀度采用对数运算，反映到5个方向分布的方差上，FFM的匹配点均匀性要明显优于LoFTR，该实验证明了滑动窗口自适应得分检测算法对检测匹配稀疏区域特征的有效性。

表3 匹配点分布均匀度对比

Tab. 3 Matching point distribution uniformity comparison

影像组别	1	2	3	4	5	6
LoFTR	-10.4480	-10.3252	-9.4438	-10.2546	-9.7833	-7.9718
FFM	-9.7832	-9.1421	-8.3388	-7.5459	-8.2412	-3.485

3.5 匹配效果对比

本文匹配经过2个阶段，分别为FFM算法匹配与PROSAC算法误匹配剔除。初次匹配结果如图12所示。图12直观地表明了FFM算法对多源遥感影像具有较强的适应性，获得了数量可观的匹配点对，且特征点分布较为均匀。对于仍存在的较少数量的误匹配点，采用PROSAC算法对误匹配进行剔除，以达到提纯匹配点对的目的，提纯结果如图13所示。

图12

图12 FFM初始匹配结果

Fig. 12 Initial matching purification results of FFM

图13

图13 FFM匹配提纯结果

Fig. 13 Matching purification results of FFM

由图13可知，前5组多源遥感影像对都获得了较为理想的匹配结果。对于匹配较为困难的第6组影像，成功匹配点大都是是灰度梯度急剧变化的边缘特征点，其特征向量的特异性较为明显且空间位置信息明确，因此FFM算法对该类影像也具有适用性。总体上，经过PROSAC处理后有效剔除了误匹配点对，最终保留的匹配点对也较大程度上保持了均匀分布，这为后续的图像配准及融合等工作奠定了良好的基础。

为了更为直观地表现出几种算法间的性能，通过图14展示LoFTR算法、SuperPoint算法、ContextDesc算法、SIFT算法与FFM算法经过PROSAC算法提纯后在第1组、第3组、第4组多源遥感影像对上的匹配效果。

图14

图14 不同算法匹配效果对比

Fig. 14 Matching results of different algorithms

图14结果表明，对于普通光学影像与热红外影像、光学影像与全色影像，FFM相较于SuperPoint、ContextDesc以及SIFT可以更好地克服由于灰度梯度差异和尺度差异带来的匹配困难问题，获得了数量可观的正确匹配点对。对于不同时相的光学影像，FFM在植被差异区域表现出了巨大优势，这得益于训练过程中对特征向量间地面真实关系的学习。

3.6 影像配准效果

多源遥感影像配准是影像匹配的重要目的之一，配准效果的优劣可以直观的表明匹配结果的质量。将提纯后的匹配点对用于多源影像配准试验，通过匹配点对计算仿射变换参数对多源影像进行纠正配准，最终配准结果及局部开窗放大图如图15所示。

图15

图15 配准结果及局部开窗图

Fig. 15 Registration result and partial windowing diagram

由图15可知，FFM算法对可见光影像与热红外影像、全色影像与SAR影像等的配准具有较强的适应性。在灰度差异大、地物差异明显的局部区域实现了较为精确的配准，各个区域的配准误差基本都控制在3像素以内，该配准结果表明FFM算法所得结果位置精度高、分布均匀，具有较强的性能。

4 结论与讨论

4.1 结论

针对现有方法难以精确配准多源遥感影像的问题，本文基于LoFTR算法的部分结构进行调整改进，提出更适用于多源遥感影像的深度特征融合匹配算法FFM，该算法在多源遥感影像上获得了较好的匹配结果。FFM算法的优势在于：

（1）针对卷积神经网络提取的深度特征不能兼顾信息全局性、定位精度以及抗干扰能力，FFM算法构建深度特征提取融合网络结构，获取了辐射畸变抵抗性与定位精度兼顾的融合特征，提高了匹配点对的定位精度，获得较高的匹配点正确率。

（2）针对多源遥感影像之间非线性辐射畸变导致的特征表征困难、同名特征相似性差异大的问题，FFM算法通过特征融合变换，加强了同名特征之间的相关性与非同名特征之间的特异性，有效解决了多源遥感影像非线性辐射畸变带来的匹配困难问题，获取了数量足够的正确匹配点对以及较高的匹配点正确率。

（3）针对多源遥感影像稀疏纹理区域特征数量少、时相差异大导致的匹配困难问题，通过对特征进行位置编码以及滑动窗口自适应得分阈值检测算法，对稀疏纹理区域的特征进行针对性处理，在稀疏纹理区域获得了较为密集的匹配点对，得到了较高的匹配点均匀度结果。

试验证明FFM算法能有效抵抗多源遥感影像在获取时产生的非线性辐射畸变，对灰度差异大、尺度差异大以及时相差异大的多源遥感影像匹配与配准具有较强的稳健性与适应性。

4.2 讨论

虽然FFM算法在多源遥感影像上获得了较为理想的匹配结果，但FFM算法仍存在一定缺陷。FFM算法对旋转角度在20°以内的影像适应性较强，但由于训练样本中缺少大旋转角影像对，匹配结果随着旋转角度的增大逐渐变差，FFM算法对旋转角度差异超过45︒的多源遥感影像对匹配效果较差，其性能有待提升。此外，试验表明FFM算法对空间分辨率差异超过2倍的多源遥感影像对匹配性能较差。针对以上缺陷，需进一步补充大旋转角度样本和大分辨率差异样本来完善训练数据，进而增强FFM算法的旋转适应性与空间分辨率差异适应性。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

蓝朝桢, 卢万杰, 于君明,

等.

异源遥感影像特征匹配的深度学习算法

[J]. 测绘学报, 2021, 50(2):189-202.

[本文引用: 8]

[ Lu

W J

, Yu

J M

, et al.

Deep learning algorithm for feature matching of cross modality remote sensing images

[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(2):189-202. ] DOI:10.11947/j.AGCS.2021.20200048

[本文引用: 8]

[2]

李力, 纪松, 于英,

等.

一种基于组合特征的多源遥感影像配准方法

[J]. 测绘科学技术学报, 2020, 37(1):74-78.

[ Li

, Ji

, Yu

, et al.

A Multi-Feature-Based registration method adapted to Multi-Source remote sensing images

[J]. Journal of Geomatics Science and Technology, 2020, 37(1):74-78. ] DOI:10.3969/j.issn.1673-6338.2020.01.014

[3]

Lowe

D G

Object recognition from local scale-invariant features

[C]// Proceedings of the seventh IEEE International Conference on Computer Vision. IEEE, 1999, 2:1150-1157. DOI:10.1109/ICCV.1999.790410

[4]

Rublee

, Rabaud

, Konolige

et al.

ORB: An efficient alternative to SIFT or SURF

[C]// 2011 International Conference on Computer Cision. IEEE, 2011:2564-2571. DOI:10.1109/ICCV.2011.6126544

[5]

Bay

, Tuytelaars

, Gool

L V

Surf: Speeded up robust features

[C]// European Conference on Computer Vision. Springer, Berlin, Heidelberg, 2006:404-417. DOI:10.1007/11744023_32

[6]

姚永祥, 张永军, 万一,

等.

顾及各向异性加权力矩与绝对相位方向的异源影像匹配

[J]. 武汉大学学报·信息科学版, 2021, 46(11):1727-1736.

[ Yao

Y X

, Zhang

Y J

, Wan

, et al.

Heterologous images matching considering anisotropic weighted moment and absolute phase orientation

[J]. Geomatics and Information Science of Wuhan University, 2021, 46(11):1727-1736. ] DOI:10.13203/j.whugis20200702

[7]

Noh

, Araujo

, Sim

et al.

Large-scale image retrieval with attentive deep local features

[C]// Proceedings of the IEEE International Conference on Computer Vision. 2017:3456-3465. DOI:10.48550/arXiv.1612.06321

[8]

DeTone

, Malisiewicz

, Rabinovich

Superpoint: Self-supervised interest point detection and description

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018:224-236. DOI:10.48550/arXiv.1712.07629

[9]

Sarlin

P E

, DeTone

, Malisiewicz

et al.

Superglue: Learning feature matching with graph neural networks

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:4938-4947. DOI:10.1109/CVPR42600.2020.00499

[本文引用: 2]

[10]

Sun

, Shen

, Wang

et al.

LoFTR: Detector-free local feature matching with transformers

[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021:8922-8931. DOI:10.48550/arXiv.2104.00680

[本文引用: 4]

[11]

Lin

T Y

, Dollár

, Girshick

et al.

Feature pyramid networks for object detection

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:2117- 2125. DOI:10.1109/CVPR.2017.106

[本文引用: 3]

[12]

, Zhang

, Ren

et al.

Deep residual learning for image recognition

[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:770-778. DOI:10.1109/CVPR.2016.90

[13]

Vaswani

, Shazeer

, Parmar

et al.

Attention is all You need

[C]// NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017:6000-6010. DOI:10.48550/arXiv.1706.03762

[14]

Katharopoulos

, Vyas

, Pappas

et al.

Transformers are rnns: Fast autoregressive transformers with linear attention

[C]// International Conference on Machine Learning. PMLR, 2020:5156-5165. DOI:10.48550/arXiv.2006.16236

[15]

Peyré

, Cuturi

Computational optimal transport: With applications to data science

[J]. Foundations and Trends® in Machine Learning, 2019, 11(5/6):355-607. DOI:10.48550/arXiv.1803.00567

URL [本文引用: 1]

[16]

Cuturi

. Sinkhorn

distances

Lightspeed computation of optimal transport

[C]// NIPS'13: Proceedings of the 26^th International Conference on Neural Information Processing Systems - Volume 2. 2013:2292-2300. DOI:10.48550/arXiv.1306.0895

[17]

Wang

, Zhou

, Hariharan

et al. Learning feature descriptors using camera pose supervision[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020:757-774. DOI:10.1007/978-3-030-58452-8_44

[18]

Chum

, Matas

Matching with PROSAC-progressive sample consensus

[C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005: 220-226. DOI:10.1109/CVPR.2005.221

[19]

Z Q

, Snavely

MegaDepth: learning single-view depth prediction from Internet photos

[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:2041-2050. 2050. DOI:10.1109/CVPR.2018.00218

[20]

崔志祥, 蓝朝桢, 熊新,

等.

一种无人机热红外与可见光影像匹配方法

[J]. 测绘科学技术学报, 2019, 36(6):609-613.

[ Cui

Z X

, Lan

C Z

, Xiong

, et al.

A method for matching between UAV thermal infrared images and optical images

[J]. Journal of Geomatics Science and Technology, 2019, 36(6):609-613. ] DOI:10.3969/j.issn.1673-6338.2019.06.011

[21]

满孝成, 姚国标, 张传辉,

等.

融合多类特征的海岸带特殊纹理影像全自动配准

[J]. 测绘科学, 2020, 45(8):130-137.

[ Man

X C

, Yao

G B

, Zhang

C H

, et al.

Fully automatic registration of coastal zone special texture images with multi-class features

[J]. Science of Surveying and Mapping, 2020, 45(8):130-137. ] DOI:10.16251/j.cnki.1009-2 307.2020.08.020

[22]

朱海峰, 赵春晖.

图像特征点分布均匀性的评价方法

[J]. 大庆师范学院学报, 2010, 30(3):9-12.

[本文引用: 2]

[ Zhu

H F

, Zhao

C H

An Evaluation Method for the uniformity of image feature point distribution

[J]. Journal of Daqing Normal University, 2010, 30(3):9-12. ] DOI:10.3969/j.issn.2095-0063.2010.03.002

[本文引用: 2]

[23]

Luo

Z X

, Shen

T W

, Zhou

et al.

ContextDesc: Local descriptor augmentation with cross-modality context

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:2522-2531. DOI:10.1109/CVPR.2019.00263