Research Progress and Review of High-Performance GIS

  • ZUO Yao , 1, 2 ,
  • WANG Shaohua , 1, 2, 3, * ,
  • ZHONG Ershun 1, 3 ,
  • CAI Wenwen 1, 2
  • 1. SuperMap Software Co. Ltd., Beijing 100015, China
  • 2. SuperMap GIS Technology Institute, Beijing 100015, China
  • 3. Institute of Geographic Sciences and Nature Resources Research, CAS, Beijing 100101, China
*Corresponding author:WANG Shaohua, E-mail:

Received date: 2016-08-24

  Request revised date: 2017-01-20

  Online published: 2017-04-20


The development of Internet technology has given birth to the explosive growth of various information in recent years. The traditional data processing method cannot matched with the rapidly improving performance of computer hardware and more efficient methods are needed to process the numerous data. High performance computing technologies, including Parallel cluster computing technology and distributed network technology, bring hints to the solution of these problems. In practice, there are three major distributed computing systems, namely Hadoop, Spark and Storm. Hadoop improves computational performance by introducing MapReduce distributed computing framework, while Spark make full use of computer memory to store data based on Resilient Distributed Datasets(RDD), which has a more rapid reading and writing functions of data . The Storm does not directly collect data. It realizes the data transmission and processing using network nodes. Nowadays, how to take advantage of the improvement of computational performance brought by the development of new hardware architecture to solve the long existing data intensive, computational intensive and communication intensive problems has become a topical issue in the field of GIS studies. In this paper, reviewing current research progress of high performance GIS, we examine and discuss about the algorithm of high performance GIS, parallel GIS computing, memory computing and core computing and give some prospective on the future development of high performance GIS, which provide a reference for the development of high performance GIS system. In addition, the development of the Internet technology and cloud computing is continuously boosting the popularity of GIS cloud computing and big data technology. In this context, domestic and foreign GIS platform vendors have launched their own cloud GIS platform, such as ArcGIS10.4 developed by ESRI and SuperMap 8C by SuperMap, to give support to cross-platform, parallel computing, 64-bit computing, distributed systems and other technologies.

Cite this article

ZUO Yao , WANG Shaohua , ZHONG Ershun , CAI Wenwen . Research Progress and Review of High-Performance GIS[J]. Journal of Geo-information Science, 2017 , 19(4) : 437 -446 . DOI: 10.3724/SP.J.1047.2017.00437

1 引言

目前,主流的3大分布式计算系统包括Hadoop,Spark和Storm[22-25]。Hadoop基于MapReduce分布式计算框架,其核心技术在于通过分布式架构实现性能提升。而GIS空间分析常常需要对研究区进行空间划分,进一步细划为地貌特征更加统一的计算单元,利用Hadoop的分布式特性及MapReduce分布式存储,可极大地提高GIS空间分析性 能[26-27]。但由于存储硬件条件的限制,在处理更新快速的GIS模型时,则稍显不足。Spark是另一种重要的分布式计算系统,它基于分布式存储集(RDD)的概念,利用计算机内存来存储数据,因而具有更快速的数据读写功能[28]。相比于Hadoop,Spark的优势在于仅需导入一次数据即可实现多次迭代运算,具有更快的运行效率;缺点在于不适合处理需要长时间保存的数据,如果计算环境发生电力中断故障,即会造成数据丢失。Storm并不直接收集数据,而是通过网络节点实现数据传输、处理。其优势在于处理流式数据时,无需进行数据收集和作业调度,而可以直接进行分析,更适应在线的实时GIS大数据处理[29-30]

2 研究现状

当前GIS发展的重要趋势是服务化、云端一体化,亟待研发高效的高性能GIS关键技术[31-32]。其中,分布式并行技术的应用显著提高了GIS空间分析效率,随着内存计算、高性能算法等先进技术的不断进步,大大加速了高性能GIS技术体系的发 展[33-34]。此外,二三维一体化也是当前GIS发展的一大趋势。随着硬件成本降低,显卡性能提升,众核技术的应用加速了三维GIS的发展[35-36]。因此,本研究将主要从高性能GIS算法、并行GIS计算、内存计算和众核计算4个方面对高性能GIS的发展进行总结和归纳(图1)。
Fig. 1 The architecture diagram of high performance GIS

图1 高性能GIS研究内容

2.1 高性能GIS算法

高性能技术出现不久,就开始应用于地理信息领域[37-39]。作为高性能并行GIS系统中的一个重要的组成部分,高性能GIS算法基于利用向量机和并行计算技术形成的高性能计算系统,对海量地理空间数据进行实时处理的空间算法,使原本难以计算的全球尺度、长时间尺度的地理空间现象分析模拟得以实现。已有许多学者开始了相关技术研究,如Turton等[40]研究了职工上下班交通数据分析,原本在工作站需要运行91 h的双约束地理计算模型,在内存共享模型中执行并行计算后仅需3 min,极大地提高了效率。
随着IT技术的不断进步,高性能GIS算法的研究主要分为2个方面:① 对已存在的高密度计算进行并行化处理,利用高性能GIS技术对全局性的海量时空数据进行地学分析和推演,探索构建新的空间模型等;② 探索新的空间分析方法,并不断赋予新的内涵。具有代表性的空间分析算法有:神经网络模型、遗传算法模型、元胞自动机模型等[41-45]。这2个方面各有侧重,前者侧重于从技术层级提供计算行的优化处理,提升运行效率;后者则通过模型、算法,进一步寻找更加高效、便捷的空间分析方法,通过专业地理信息领域模型达到提高分析效率的目的。
空间索引方面,早期大多研究采用串行空间索引机制,如四叉树索引[61-62]、格网索引[63]等。随着时空数据的种类和数量不断增加,并行的空间索引机制逐渐发展起来,主要,有基于共享存储模型和消息传递模型的2种并行索引机制。它们均通过采用适用的优化策略来提高数据处理效率,且针对特定的硬件环境的空间数据处理及流处理器模型使 用[64]。例如,Papadias等[65]研究了适用于共享虚拟内存的并行空间连接算法;邓亚丹等[66]基于多核处理器技术实现了数据库的优化查询技术。其中,关键技术有地图匹配技术,讲轨迹数据与地图数据进行关联,从而具有实际的地理意义,目前较为成熟的算法有ST-Matching等。

2.2 并行GIS计算

并行计算是一种运行于高性能并行计算机上的超级计算方式。并行计算中的计算节点通过网络连接,从而实现数据传输及计算效率的并行加 速[67]。而并行GIS技术将并行计算技术应用于海量空间数据的并行存储、查询、检索及处理等,为建立响应速度快、运行效率高的软件系统来提供海量空间地理数据的处理能力。以高性能并行集群计算技术和算法相结合的新一代多核并行高性能已经成为了研究的热点[68-70]
不同于共享存储模型,在消息传递模型中,并行计算任务被划分到多个相互独立的进程节点中,进程节点通过消息传递的方式实现数据通信[71],如MPI(Message Passing InterFace)、OpenMPI等,其中典型代表的是MPI。消息传递模型适合处理海量数据和计算量比较大的并行计算任务[61]

2.3 高性能内存计算


2.4 众核计算

此外,GPU计算还可用于组织空间索引策略。近年来,国内外学者在利用GPU加速数据索引方面开展了大量研究。Zhang等[68]基于GPU计算对大规模点数据进行并行处理,并提出了CSPT-P 树索引结构。Luo等[74]利用GPU加速实现R树批量加载操作。此外,针对R树接近根结点时检索并行度低等问题,Kim[75]通过SMP算法并行执行搜索子树实现了查询策略优化。

3 评述与讨论

空间数据存储方面,目前空间数据的存储主要包括:传统的关系型数据库、非关系型数据库,以及分布式文件系统。面对新型海量数据,传统的关系型数据库往往计算性能低下,且拓展困难[67],而新一代存储系统(如Ceph、Swift、 MongoDB等)为空间数据的组织、管理提供了新的思路。科研、科技界均作了许多探索,陈崇成,林剑峰等[41]通过引入分布式图数据库和并行图计算框架,基于矢量、栅格数据一体化系统,实现海量空间数据的分布式管理与访问。Google提出了一种采用灵活自由、高可用、结构松散的分布式数据库管理系统,结合GFS和MapReduce实现了海量栅格数据的云存储、管理[5,67]

4 展望

在数据存储方面,并行空间数据库的引入将突破文件系统的限制,为并行GIS提供功能更强大的数据管理平台。众所周知,空间数据存储是GIS系统的基础,现有的GIS系统大多基于文件型的空间数据存储系统。今后应当进一步思考将并行GIS中关键算法同并行空间数据库的设计有机地融合在一起,面向新的应用领域(网络分布式空间信息服务)和新的计算 框架(CyberGIS)形成较为完备的高性能并行GIS研究体系[31,76-78],从而为解决新的问题提供支持和帮助。
随着近年来互联网、云计算、移动技术和物联网的迅猛发展,GIS云计算和大数据技术逐渐成为热门。在云计算方面,国内外GIS平台厂商纷纷推出了自有的云GIS平台,如ESRI推出的ArcGIS 10.4版本采用云+端的方式,国内SuperMap开发的SuperMap 8C,支持虚拟化的GIS等。云GIS技术,并非只是将现有的GIS平台移植到云平台而已,还需要具备支持跨平台、并行计算、64位计算、分布式系统等技术[80-82]。此外,数据中心的虚拟化逐渐成为研究热点,具体包括网络、服务器、存储等的虚拟化技术[83]。时空大数据处理技术方面,面对日益增长的时空大数据,传统的数据处理技术已经捉襟见肘,一些新技术的出现带来了新的发展,如分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等[84-89]
开源GIS技术,由于不用过分考虑数据兼容性、易用性等问题,开发者可集中精力于软件功能研发,因此开源GIS往往拥有强劲的性能和功能,并涌现出大量各平台各类型的开源GIS软件。例如,开源桌面GIS方面,有QGIS、GRASS GIS、SuperMap iDesktop Cross等;开源技术和工具,有GIS Tools for Hadoop、SpatialHadoop、PySAL、GeoWave和GeoSpark等。开源和互操作是高性能GIS重要的发展方向之一,开源GIS必然集开放、标准与互操作于一体,提供高性能GIS软件服务。

