A Model of Parallel Mosaicking for Massive Remote Sensing Images Based on Self-defined RDD

  • JING Weipeng , * ,
  • HUO Shuaiqi
  • College of Information and Computer Engineering, Northeast Forestry University, Harbin 150040, China
*Corresponding author: JING Weipeng, E-mail:

Received date: 2017-02-28

  Request revised date: 2017-06-09

  Online published: 2017-10-20


Image mosaicking is an important part of remote sensing image processing. It plays a vital role in the analysis of trans-regional remote sensing images. In order to solve the problems of low utilization rates of the nodes and frequent data I/O in the traditional parallel algorithms of remote sensing images, we proposed a parallel mosaicking algorithms based on self-defined RDD (Resilient Distributed Datasets), in which the Spark distributed memory computing framework has been used. In this paper, we take full advantage of the Spark, which is conducive to the processing of iterative data, and build remote sensing images parallel mosaic processing model through the operation of the Spark RDD. Firstly, according to the logical separability and data independence of the Fourier transform and inverse Fourier transform in the phase correlation method, we improved the traditional phase correlation method by executing a single instruction on multiple nodes, which are executed parallel in the cluster. We did so to improve the image overlapping region estimation multi-node parallel computation in the algorithm. Then, we override the compute and getPartitions methods in RDD and self-define the RDD for remote sensing image processing. Meanwhile, we used the three key steps of the image mosaicking, including overlapping region estimation, image registration and image fusion, which are the transformation-type operators of the self-defined RDD. These transformation-type operators do not perform calculations in the process of parallel mosaicking, until the final mosaicking image is required to be written to disk or file system. Thus, reducing the time consumption in the process of image parallel mosaicking. Finally, the parallel processing of image mosaicking is realized by calling the operators of self-defined RDD with the method of implicit conversion, compared with the parallel mosaicking algorithm based on MPI. The experimental results show that the parallel mosaicking algorithm of massive remote sensing image based on self-defined RDD can effectively improve the image mosaicking efficiency of large data volume on the basis of guaranteeing the image mosaicking effects.

JING Weipeng , HUO Shuaiqi . A Model of Parallel Mosaicking for Massive Remote Sensing Images Based on Self-defined RDD[J]. Journal of Geo-information Science, 2017 , 19(10) : 1346 -1354 . DOI: 10.3724/SP.J.1047.2017.01346

1 引言

Richard Szeliski在1996年提出一种应用于视频图像的全景镶嵌算法,奠定了图像镶嵌技术的理论基础[5]。随后,文献[6]提出一种柱面全景图像镶嵌算法,将待镶嵌图像投影到柱面上进行镶嵌,效果较好,但该方法受图像尺度空间的影响较大且不稳定。文献[7]对文献[6]中算法进行改进,提出了更加稳健的SIFT算法,但该算法计算量大耗时长。文献[8]在文献[7]的基础上,使用多分辨率法简化图像融合的处理过程,减少了图像镶嵌处理时间,将图像镶嵌技术推向了一个新的高潮。上述各种镶嵌算法均具有计算量大的特点,随着对地观测分辨率的提高,传统的串行方法无法满足应用对海量遥感影像镶嵌的需求[9-10]

2 Spark分布式计算框架

Fig. 1 The architecture of Spark

图1 Spark集群架构图

Spark集群部署后,需要在主节点和从节点分别启动Master进程和Worker进程,对整个集群进行控制。在一个Spark应用的执行过程中,Driver和Worker是2个重要角色。Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发,而多个Worker用来管理计算节点和创建Executor并行处理任务。客户端提交应用后,Master找到一个Worker启动Driver,Driver向Master或者资源管理器申请资源,之后将应用转化为RDD DAG,再由DAGScheduler将RDD DAG转化为Stage的有向无环图提交给TaskScheduler,由TaskScheduler提交任务给Executor执行。在任务执行的过程中,其他组件协同工作,以确保整个应用顺利执行[18]

3 重叠区域估计并行实现


3.1 相位相关法进行图像重叠区域估计

I 2 ( x , y ) = I 1 ( x - x 0 , y - y 0 ) (1)
G ( u , v ) = F ( u , v ) e - j 2 π ( u x 0 + v y 0 ) (2)
F ( u , v ) G * ( u , v ) F ( u , v ) G * ( u , v ) = e - j 2 π ( u x 0 + v y 0 ) (3)
ϑ ( x - x 0 , y - y 0 ) = F - 1 ( e - j 2 π ( u x 0 + v y 0 ) ) (4)

3.2 改进的相位相关法进行图像重叠区域估计

j = 1 n I j 2 ( x , y ) = i = 1 n I i 1 ( x - x 0 , y - y 0 ) (5)
k = 1 n ϑ k ( x - x 0 , y - y 0 ) = k = 1 n F k - 1 ( e - j 2 π ( u x 0 + v y 0 ) ) (6)
对于式(6)的 ϑ k ( x - x 0 , y - y 0 ) ,其对应的坐标峰值指出了在节点 k ( k = 1 , , n ) 中图像之间的平移量(x0,y0),然后根据平移量得出节点k中图像的重叠区域。通过此方法能够在各个节点中计算遥感图像的重叠区域,从而实现了多节点并行操作。

4 自定义遥感图像镶嵌处理RDD

RDD作为Spark中的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序,通过对RDD的操作完成并行计算[21-22]。由于RDD的操作算子中没有针对图像处理的相关方法,因此,本文对RDD进行扩展,构建针对遥感图像处理的RDD来完成整个并行镶嵌过程,主要包括2方面内容:① 自定义针对遥感图像处理的RDD;② 通过隐式转换在应用程序中调用自定义RDD的相关方法完成镶嵌工作。

4.1 自定义RDD的具体实现

Spark中的RDD是一种抽象的数据集合,它是一个抽象类,可以简单的把RDD理解为一个提供了许多操作接口的数据集合[23]。在RDD的内部有许多的操作方法(如map、filter、flatMap等),通过对这些操作方法的调用,将RDD转化为新的RDD,从而完成相应的操作[24]。在RDD的众多操作方法中,最基本的有2个:① compute方法用来计算RDD中每个分区的数据;② getPartitions方法用来定义RDD中的分区策略。
本文的镶嵌方法,通过继承Spark中的RDD类,并重写RDD中的compute和getPartitions方法,以此来提高镶嵌效率,具体的自定义过程如图2 所示。
Fig. 2 Self-defined RDD implementation details

图2 自定义RDD的实现细节

在进行遥感图像镶嵌时,Spark集群会根据操作算子的不同类型,选择对整个应用程序开始进行计算操作的时间。RDD的操作算子有Transformation和Action 2个类型:Transformation算子是一种链式的逻辑Action,记录了RDD的演变过程,并不会真正的触发计算操作;而Action则是实质触发Transformation开始计算的动作[25]

4.2 隐式转换创建自定义RDD

初始化:创建SparkConf对象conf,将conf作为SparkContext构造函数的参数创建SparkContext对象sc,调用sc的textFile 方法创建初始RDD
Iterator[BufferedImage]←computesplit: Partition,context: TaskContext)//调用父RDD的iterator方法,返回一个内部
RDD[BufferedImage]←Image overlap region estimation//重叠区域估计方法
RDD[BufferedImage]←Image registration//图像配准方法
RDD[BufferedImage]←Image fusion//图像融合方法
import RDDtoSelf-defiendRDD.exchange//在程序中导入声明的隐式转换的方法

5 基于自定义RDD的遥感图像并行镶嵌处理

Fig. 3 Parallel mosaicking algorithm based on self-defined RDD

图3 基于自定义RDD的并行镶嵌算法

下面将详细描述在Spark分布式计算框架中,通过对自定义RDD的操作完成遥感图像镶嵌处理的过程,主要包括以下2方面内容:① Spark集群中遥感图像并行镶嵌处理步骤;② Spark集群中遥感图像并行镶嵌运行逻辑。

5.1 Spark集群中遥感图像并行镶嵌处理过程


5.2 Spark集群中遥感图像并行镶嵌运行逻辑

图4中,A、B、C、D、E均为不同类型的RDD,RDD内的方块代表分区。数据从HDFS输入Spark形成RDD A,RDD A通过隐式转换形成自定义RDD B,RDD B执行重叠区域估计操作转换成RDD C,RDD C执行图像配准操作转换成RDD D,RDD D执行图像融合操作转换成RDD E,然后依次循环执行重叠区域估计、图像配准和图像融合3个算子,直到生成最终的镶嵌图像,并通过函数SaveAsTextFile输出并保存到HDFS中。由于在图像镶嵌处理的3个操作算子都是transformation类型,而transformation操作是延迟计算的,因此在RDD的转换过程不是马上执行,从而保证在每一操作步骤后不会立即对数据进行处理和保存,只有等到有action操作,即图4中对最终得到的镶嵌图像进行输出时,才真正触发运算。Action算子触发以后,将所有累积的算子形成一个有向无环图,然后由调度器调度该图中的任务进行运算。
Fig. 4 Parallel mosaicking directed acyclic graphs of remote sensing images

图4 遥感图像并行镶嵌有向无环图

6 实验结果与分析

6.1 实验环境

本文所采用的实验环境是:5个节点构成的Spark集群,其中1个为Master,其余4个为Worker,其中4个节点的主机配置为曙光I450-G10,塔式服务器,一个InterXeon E5-2620六核2.1GHZ处理器,8 GB内存,硬盘300 G。每个节点上安装的是Red Hat6.2, Linux的内核版本是2.6.32,Hadoop的版本是hadoop 2.5.2,Spark的版本是spark 1.2.0。为了对比图像镶嵌效率,本文使用5个节点构成的MPI并行集群,服务器的硬件配置信息和Spark集群的相同,而gcc的版本是gcc 4.4.7,MPI的版本是mpich 3.0.4。

6.2 镶嵌效果展示

该实验选取Landsat 5第5波段分辨率为30 m的15幅TM遥感图像进行镶嵌,图像数据量为2 GB,得到的镶嵌结果如图5所示。
Fig. 5 Parallel mosaicking algorithm based on Spark

图5 镶嵌效果图


6.3 处理效率分析

6.3.1 加速比对比实验
该实验选取Landsat7第 8波段分辨率为15 m的ETM+遥感数据,数据量为72 GB,实验对比基于MPI实现的并行镶嵌程序,研究随着处理进程的增加,本文采用的基于自定义RDD的遥感图像并行镶嵌技术与基于MPI的并行镶嵌程序加速比的差异,其中加速比的定义为:
speedup = T 1 T p (7)
图6的实验结果可知,相比于传统基于MPI实现的并行镶嵌程序,本文基于自定义RDD实 现的并行镶嵌过程具有更好的加速比。这是因为:① 本文采用的并行镶嵌算法,首先实现图像重叠区域估计的并行处理,并将镶嵌的处理过程通过自定义RDD添加到其操作算子中,在集群的各个节点中调用自定义RDD操作算子生成不同类型的RDD,通过对RDD的操作从而完成整个镶嵌处理过程。这能够充分利用RDD的并行计算能力,提高了集群内部的并行操作效率;② 镶嵌过程中的中间图像不写回文件系统中,通过RDD的Transformation操作直接作为下一处理阶段的数据输入。由于在图像镶嵌的过程中,在生成最终的图像之前存在大量的中间图像,频繁的将中间图像写回文件系统,并从文件系统中读入内存进行后续操作会消耗大量的I/O时间。本文充分利用Spark基于内存计算的特性,将镶嵌过程中的中间图像不写回文件系统中,这在一定程度上节省了文件传输的时间消耗。
Fig. 6 Speedup contrast chart (with increasing number of processes)

图6 加速比对比图(随进程数增加)

6.3.2 处理时间及吞吐率对比实验
该实验选取Landsat7第 8波段分辨率为15 m的ETM+遥感数据,数据量从0.7 GB增加到126.5 GB,实验对比基于MPI实现的并行镶嵌程序,研究随着数据规模的不断增大。本文采用的基于自定义RDD的遥感图像并行镶嵌技术与基于MPI的并行镶嵌程序在处理时间及数据吞吐率等性能指标的变化,其中吞吐率的定义为:
F= M T (8)
Fig. 7 Running time comparison chart (with the increase of data size)

图7 运行时间对比图(随数据规模增加)

Fig. 8 Throughput comparison chart (with the increase of data size)

图8 吞吐率对比图(随数据规模增加)


7 结语


