Orginal Article

Resource Storage and Management Method of Massive Remote Sensing Data Supported by the Big Data Architecture

  • HU Xiaodong , 1, * ,
  • ZHANG Xin 1 ,
  • QU Jingsheng 2
Expand
  • 1. State Key Laboratory of Remote Sensing Science, Institute of Remote Sensing and Digital Earth (CAS), Beijing 100101, China
  • 2. China soft Company Limited, Beijing 100190, China;
*Corresponding author: HU Xiaodong, E-mail:

Received date: 2015-12-15

  Request revised date: 2016-01-11

  Online published: 2016-05-10

Copyright

《地球信息科学学报》编辑部 所有

Abstract

The ability to acquire the remote sensing data is increasing day by day, which directly causes the remote sensing data to become diverse and massive, and the issue that the massive amount of data is being non-affordable to store has become more and more prominent. On the other hand, due to the lack of an effective and efficient method of storage management, the data that theterminal application need is difficult to found in a timely manner, therefore, is stored but useless. This paper focuses on the storage and management problems of the massive, high through put and spatially structured remote sensing data and the basic land information products. We have presented a storage and management method which uses the big data structure and can integrate both the vector and raster data. Based on the MongoDB database, the prototype system is realized and we use the data of PB rangeto test it. Eventually, we have proved that this method meets the demand for the storage and management of the remote sensing vector-raster data in the era of big data. On the basis of the study results and prototype system, the following studies need to be further explored: (1) The organization and management methods for internal data of resources, especially the objective and timely management for the vector data; (2) Real-time interactive visualization methods for different data types and storage modes of resources, achieving dynamic extraction and rendering ability based on in the heterogeneous data model; (3) To construct large data computing architecture on the heterogeneous type storage mode, and to implement multimodal computing framework to meet the needs of the remote sensing applications require.

Cite this article

HU Xiaodong , ZHANG Xin , QU Jingsheng . Resource Storage and Management Method of Massive Remote Sensing Data Supported by the Big Data Architecture[J]. Journal of Geo-information Science, 2016 , 18(5) : 681 -689 . DOI: 10.3724/SP.J.1047.2016.00681

1 引言

当前对地观测遥感卫星已呈网络状环绕地球运转,单星日获取数据量以TB级计算,且这些大数据具有空间结构化特性,适用于关联分析[1],因此,需要有特殊架构的预处理、存储、管理、计算、服务等相应方法来解决遥感大数据的有效使用问题。其中,存储和管理是首要难题,也是后续深度信息挖掘和规模化应用的前提。对于巨量、异构、递增的遥感大数据的存储管理,需要解决的问题包括:(1)构建大容量、高稳定、可扩充的空间数据(栅格和矢量)存储;(2)建立统一、高效、协同、分级的索引体系,实现数据的快速定位、极速抽取;(3)设计简洁交互和直观表达的管理接口。
传统的存储管理架构已无法满足稳定、高效、可扩展等遥感大数据的管理要求。因此,本文在研究当前遥感大数据存储管理模式的基础上,提出了一种大数据架构的遥感资源存储管理方法。该方法以元信息库聚合数据资源,底层面向不同计算(应用)模式搭建异构式存储,有效地将数据分解、将资源聚合。此外,依据该方法开发了原型系统,并应用PB级数据进行了成功实践。

2 遥感存储管理模式

空间数据本身具有高密度价值,每一个数据单元都与空间位置关联,反映一定的空间属性,是一种结构化的大数据。早期的空间数据存储与管理方法基于关系型数据库[2],利用其强关联特性、高一致性维护和较好的空间索引支持[3-4],在上层搭建空间数据读写模型,可建立极为有效的异构空间数据存储管理体系。然而,正由于关系型数据库对数据的高一致性要求,使其底层存储的可扩展性较弱,存在数据切分与合并难的问题[5]
为了解决可扩展和数据切分问题,NoSQL、列存储等类型的数据库逐渐出现并发展起来[6-7]。此种架构下,底层通过分布式文件系统实现存储的容错性和可扩展性,适用于一次写、多次顺序读(磁盘的顺序读取速度优于内存)的应用场景。为了解决数据一致性以及空间索引问题,一方面索引被放到大内存或被拆成大量小的索引存储;另一方面采用大量计算节点进行分布式(或称为暴力)索引计 算[8]。虽然大数据的计算架构在此基础上搭建,但适用的计算模式较为局限,例如,Hadoop适用于批处理,Spark适用于流式计算等。虽然已有在一定情境下较为成功的尝试[9-10],但通用的大数据架构依然较难适用于空间数据的存储管理。
针对遥感大数据,较合理的存储管理方法是采用“元信息库-异构存储-计算模型”的架构[11]图1),即按一定规则划分数据(每个单元称为数据资源),以异构形式存储,并在其上层建立数据资源的元信息库,提供数据资源服务;同时,搭建数据引擎,封装成统一的数据访问接口,对外提供数据服务。底层异构的数据存储对应于不同的计算模式,如基于分布式文件存储的流式计算、基于集中式存储的传统高性能计算、基于存算一体的MapReduce计算等[12]。在这种模式下,底层异构的存储、计算模型通过中间层数据引擎和计算引擎的封装实现透明化,对外提供统一、标准的服务。基于这种模式的设计思路,本文将深入探讨、设计与实践遥感资源存储管理方法。
Fig. 1 Storage management model for the remote sensing big data

图1 遥感大数据存储管理模式

3 遥感资源存储管理方法

3.1 总体实现框架

本文关注的大数据架构特点有扩展性、灾备性、容错能力、空间索引支持能力。采用大数据架构设计了遥感矢栅一体化存储管理方法的实现框架,总体上包括底层大数据异构存储、中间层元信息库与引擎、顶层服务3层架构(图2)。
Fig. 2 General framework of the integrated storage management for massive remote sensing data

图2 遥感资源存储管理总体框架

(1)底层大数据异构存储。底层的存储以数据资源为单位进行存放,具体介质包括分布式文件系统、在线磁盘阵列、离线磁盘等,组成了异构式的存储环境。实现了基于GridFS文件系统、集中式磁盘阵列和离线磁盘3种存储方式。
(2)中间层元信息库与引擎。在异构式的存储环境之上,通过元信息库对每个数据资源建立基本信息档案和链接关系,实现了基于MongoDB的元信息库;通过数据引擎实现数据资源的存取和访问;通过工作者模式实现了数据交互;通过可视化引擎实现每一类别数据的渲染接口,实现了栅格和矢量一体化的可视化引擎及其前端控件。
(3)底层服务。顶层面向用户通过数据资源服务提供数据资源检索等服务接口,通过数据服务实现标准数据产品的获取接口,通过可视化控件提供交互式的展现服务。
在此框架上运行的流程主要包括遥感数据ETL[13](指对数据的抽取Extract、转换Transformation和装载Loading)、入库、出库等步骤。
(1)遥感ETL。针对以卫星遥感为主要数据源产生的栅格数据(影像、DEM、DSM等)和矢量数据(地块、土地利用/覆盖、土地变化等),需依照数据资源及其元信息的标准进行ETL处理,最终生成标准的元信息和数据格式;
(2)入库。入库过程由前端提交,数据引擎通过“管家-工作者”模式[14]完成,经过后台的数据检查后,将元信息写入元信息库,同时将数据资源打包,根据数据类型、特性和用户指定等条件存放至对应的存储环境中;
(3)出库。出库过程由前端提交,数据引擎通过“管家-工作者”模式完成,根据元信息库的链接关系定位到存储位置,使用存储环境对应的读取模型进行数据提取和传输。
在存储管理方法上,主体包括围绕数据资源管理和数据实体存储管理2个核心问题。

3.2 数据资源的组织与服务

在数据资源这个层面,通过遥感ETL实现元信息提取,由元信息库来进行管理,并由资源服务对外提供检索服务。
ETL通过对分散、杂乱数据进行提取、转换、清洗和加载后,使这些数据成为信息管理与分析系统所需的有用数据。本文的遥感ETL过程,主要针对大规模、异源、多类型、多产品级别的影像数据及其增值信息产品的标准化预处理与入库过程(图3)。数据抽取作为数据源的初步整理过程,是将同源数据归整到一起,对合格产品进行自动检测和挑选。数据清洗和转换主要解决数据质量问题,通过针对各类数据的定制工具将海量数据中存在的冗余、错误、缺失等检测出来并加以改正,并按照元数据标准使用自定义的转换规则对数据中的元信息字段进行合并、转换、补充等操作,使数据具有一致性、完整性和可用性。在数据转换过程中,使用自定义转换规则将数据的相关信息转换成数据资源元信息文件(XML或JSON的结构化描述形式)、预览图片文件、拇指图片文件等必备元信息。完成转换后,迭代进行数据清洗,利用自定义的检查程序检测必需文件的完整性,错误的数据进入新一轮清洗、转换的迭代过程。数据装载是将经过清洗与转换后的元信息录入到元信息库中,并将数据实体打包、切分并保存至用户制定的存储系统中,并形成相关的系统日志或错误日志。
Fig. 3 The ETL process for remote sensing image data

图3 遥感影像ETL过程

元信息库构建在异构式存储环境上层,建立存储与资源的链接关系,将不同存储形态的数据资源以统一的描述形式汇聚到一起,并通过数据资源服务进行REST接口[15]封装,对外提供一致的元信息检索服务。
本文在参考遥感卫星数据产品[16]及其地理信息元数据标准[17]的基础上,设计了“元元属性-数据资源模版-数据资源集合-数据资源”的基本元信息组织结构(图4)。该组织结构中,每一种遥感数据资源的元信息由数据资源模版来描述,模版中的每一项由元元属性来表述,数据资源模版可实例化为具体的数据资源集合用于容纳具体的数据资源项,而具体的数据资源项依据模版实例化成对其数据的元描述。通过这种方式可以有效地组织对多源、多类型数据资源的元信息以XML、JSON等形式表述,易于在ETL、入库、出库等过程中交换。
Fig. 4 Organization structure of remote sensing resource meta-information

图4 遥感资源元信息组织结构示意图

通过建立元数据库作为用户检索与数据实体之间的交换站,不管数据实体的物理存储在何处,用户都可以统一根据元数据库定位查找数据,从而实现数据资源服务。在数据查询检索服务中,用户可根据省市县、产品名称、经纬度等信息进行数据查询,服务接口向用户反馈数据的元信息,为用户提供一个可理解的遥感资源信息,使用户能够方便、快速地根据语义信息进行解读与下载。

3.3 数据实体存储管理引擎

本文的底层数据存储采用异构形式,以确保每个数据资源都与元信息对应。在此前提下,不同的存储架构满足不同的组织形式(流式、二进制、对象结构等),同时适应于不同的计算模式。底层数据可支持的存储方式包括适用于影像资源的磁盘(阵列)文件系统、分布式文件系统、离线磁盘或磁带,以及适用于矢量资源的关系型空间数据库、NoSQL数据库、文档型数据库。
数据引擎完成数据操作任务的执行与调度,同时维护数据存储和元信息库间的一致性,其中数据操作包括内外部数据交换、冗余拷贝、存储介质迁移等。数据引擎由任务调度中心、传输管家、传输工作者、传输客户端组成(图5),外部数据入口和出口通过挂载磁盘、共享交换目录、连接传输客户端实现。
Fig. 5 The workflow of data engine

图5 数据引擎工作流程

数据管理用户通过离线操作将数据加载到交换目录,在Web页面提交数据任务(导入、下载、迁移等)后进入调度中心,随后任务被分配至传输管家,由管家来分配相应的工作者完成各项任务。以导入任务为例,具体步骤为:(1)用户先将经过ETL的数据存放到导入交换目录(图5中的数据源入口),并在Web页面提交导入任务(此时页面上会显示交换目录中的数据)至任务调度中心;(2)调度中心根据任务优先级进行调度,满足条件后将该任务下发至管家;(3)管家根据任务要求发指令至相应的客户端,由客户端进行数据打包、切分,然后传输至内存数据库;(4)最后由工作者将切分后的数据包存入数据资源存储环境,并在该资源的所有切分包传输完毕后,写入相应的元信息。整个传输节点(管家、工作者、客户端)由传输中间件来完成,可采用的具体方案有ZeroMQ、RabbitMQ等。
数据引擎保障了内外部数据交换的高效性和稳定性、数据资源元信息库的一致性、数据存储的可靠性,是存储管理模型内部的核心。
针对不同的存储方式,需由相应的数据模型、计算模式及可视化模型与之对应。例如,本文在实现中选择了磁盘阵列和GridFS分布式文件系统进行数据资源的存储,采用矢栅一体的渲染引擎针对影像、矢量的数据资源进行瓦片渲染,再以WMTS形式提供前端可视化展现。可视化是大数据管理的必要组成,同时也是一种特殊的计算技术。在本文的存储管理模型中最终实现的可视化包括3个 层次:
(1)元信息可视化。基于元信息库中包含精确位置信息的预览图可以实现数据资源的显示,同时基于属性集合的统计按需生成图表;
(2)数据资源可视化。将数据资源作为一个整体进行可视化显示,生成基于单个资源数据的固定配色方案的地图切片,在前端通过地图控件进行 展现;
(3)实时交互可视化。最终实现对数据资源进行随机访问与可视渲染,达到实时、交互式的可视化效果。
上述不同层次的可视化对应了元信息库、分布式文件系统、在线磁盘等不同的数据存储与组织模式,与存储管理融为一体。

4 原型系统及试验

依据上述方法开发了原型系统,应用超PB级卫星遥感及其增值产品数据进行试验,实践表明该系流已具备业务化运行能力。本原型系统搭建于苏州中科天启遥感科技有限公司,作为其内部数据管理与运维系统;用户包括该公司数据管理员、销售人员、售前人员、项目经理、数据生产员等业务人员。

4.1 系统部署

本文采用MongoDB作为元信息库、业务数据等的载体,并应用其GridFS文件系统作为底层异构存储的一种;采用Redis作为数据引擎的数据交换缓存,确保处理效率;采用ZeroMQ作为传输中间件,使用Node.js语言开发了“管家-工作者”模式的数据引擎和资源服务(图6)。
Fig. 6 The deployment diagram of the prototype system

图6 原型系统部署图

原型系统的硬件环境构成中,GridFS集群由8个节点组成,总容量为150 TB,其余存储由6组磁盘阵列组成,总容量超过1.2 PB,且2套存储方案均具备横向扩展性。Redis集群由3个节点组成,总内存容量超过700 GB。应用服务器2台,部署了MongoDB、RedisClient、ZeroMQ、“管家-工作者”程序、资源服务、Web服务。

4.2 容量和扩展性测试

原型系统已实现40余万景的遥感影像数据装载量,总数据量已超过1 PB,其中包括资源三号、高分一号卫星接收与加工的各级影像数据产品;信息产品数据资源入库几十个,包括基于影像提取的土地利用/覆盖、各类专题及变化等信息产品。土地利用/覆盖产品以县为单位进行资源的组织,每个资源的要素为4-6万个。原型系统已有的数据资源类型及资源总容量见表1,其规模已超过1 PB,并以平均大于10 TB/d的速度扩充。
Tab. 1 Remote sensing resource list stored and managed in the prototype system

表1 原型系统存储管理的遥感资源清单

序号 资源代号 资源类型 资源数量/个 产品容量/GB
1 ZY3-MUX-ORG 资三多光谱原始影像 17 896 16 132.17
2 ZY3-NAD-ORG 资三全色原始影像 17 896 29 163.93
3 GF1-WFV-ORG 高分1号16 m原始影像 77 568 178 889.47
4 GF1-PMS-ORG 高分1号2 m/8 m原始影像 42 960 100 607.40
5 ZY02c-HRC-ORG 资源02c全色原始影像 8058 13 754.70
6 ZY02c-PMS-ORG 资源02c多光谱原始影像 8058 3979.31
7 ZY3-MUX-DOM 资三多光谱正射 17 896 8854.23
8 ZY3-NAD-DOM 资三全色正射 17 896 17 620.02
9 GF1-WFV-DOM 高分1号16 m正射 77 568 245 449.84
10 GF1-MSS-DOM 高分1号8 m多光谱正射 42 960 71 304.00
11 GF1-PAN-DOM 高分1号2 m全色正射 42 960 73 307.41
12 GF1-DOM-FUS4 高分1号4波段融合 42 960 293 275.54
13 ZY3-DOM-FUS4 资三4波段融合 17 896 140 960.18
14 Landuse 基础土地利用 14 8226.40
15 Road 道路信息 14 3018.40
16 Water 水系信息 14 3313.80
17 Farmland 农业应用信息 3 442.50
总计 432 617 1 208 299.30
在扩展性方面,原型系统可通过2种方式进行存储的扩展:(1)增加磁盘阵列,挂载后的阵列可直接用于存储,每套阵列容量为100~200 TB;(2)依靠GridFS的扩展特性,增加存储服务器,以热插拔的形式对分布式文件系统进行扩充。

4.3 资源服务能力测试

在资源服务方面,系统提供了基于元信息库的交互可视化检索、查看、上图预览等功能(图7),在峰值(20个访问用户)的情况下,接口平均响应时间小于1 s。
Fig. 7 The query results shown in the prototype system

图7 原型系统查询结果显示

4.4 数据服务能力测试

数据的服务包括资源导入与下载,用户根据检索信息下载数据,数据管理员向系统导入数据。底层由“管家-工作者”任务调度模式实现,在测试运行过程中,日均吞吐数据量达到10.4 TB,数据上传、下载吞吐速率平均为121 MB/S。在测试过程中,系统的资源吞吐能力稳定在15 000 ~18 000个/周,峰值达到近20 000个/周(图8)。随着规模的扩大,存储资源可横向扩充,工作者也可进行横向扩充,以满足大数据管理的吞吐需求。
Fig. 8 Statistical chart of the weekly service on remote sensing data resource

图8 遥感数据资源周服务量统计图

4.5 方案对比

在长期的实践中,作者曾使用过多种架构来管理海量的遥感数据,并进行了各种方案的对比分析。本文选取ArcGIS镶嵌影像集的管理方案[18]和Hadoop通用大数据存储计算方案[5]来进行对比分析(表2)。由表2可知,ArcGIS方案依靠Esri公司强大的GIS软件实力,基于集中式的存储提供丰富的数据服务、可视化服务和计算服务,但若需支持PB级和可扩展存储的能力以及应对大用户量访问,还需要进一步研究其更适合的底层存储架构。Hadoop方案,由于天生的大数据基因,其存储能力及扩展性优势巨大,受益于其分布式文件系统,吞吐能力也极为出色,但通用的架构使其对空间检索、空间分析的支持能力较弱,需要进行算法级别的数据拆分和合并,计算(可视化)工具集成难度大。本文方案具备极强的存储能力、扩展性和吞吐能力,同时由于将资源管理与存储管理相分离,可采用不同的策略分别针对元信息和异构条件下的数据建立索引体系,极好地支撑了空间检索、查询与分析的功能实现,且可满足未来不同的计算(可视化)需求,是一种可扩展的架构。
Tab. 2 Comparison betweeen three remote sensing big data storage management methods

表2 遥感大数据存储管理方案对比

方案 模式特点 极限容量 扩展能力 空间支持 吞吐能力
ArcGIS 10.0 集中式,存储计算服务功能齐全 百TB级
Hadoop 0.20.1 分布式,存储计算一体化 PB级
本文方案 异构式,存储计算服务异构分离 PB级 一般

5 结论与展望

本文较为完整地提出了一种大数据架构的遥感资源存储管理方法,并实现和成功实践了原型系统。该方法具有以下特点:
(1)存储方面。底层采用异构的存储模式,具备大数据管理所需的灾备和可扩展性,同时可适应后端不同的计算模式;
(2)管理方面。以数据资源为单元进行存储和组织,元信息库与数据存储分离,建立不同层次的索引体系,提供多级别的检索与查询服务,实现了将数据以资源为单位进行聚合和抽象;
(3)服务方面。通过资源服务提供基于元信息库的资源交互式检索;提出了“管家-工作者”模式,通过数据引擎提供快速、可靠的内外数据交换;通过可视化引擎提供了资源级别的整体可视化方案。
在本研究成果及原型系统基础上,将进一步探索:(1)资源内部数据的组织与管理方法,特别是面向矢量的对象化和时序化管理;(2)针对不同数据类型和存储模式的数据内部实时交互可视化方法,在异构式的数据模型基础上达到动态抽取和渲染的能力;(3)在异构式存储模式上构建大数据计算架构,实现满足遥感应用需要的多模式计算框架。

The authors have declared that no competing interests exist.

[1]
李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014,43(12):1211-1216.成像方式的多样化以及遥感数据获取能力的增强,导致遥感数据的多元化和海量化,这意味着遥感大数据时代已经来临.然而,现有的遥感影像分析和海量数据处理技术难以满足当前遥感大数据应用的要求.发展适用于遥感大数据的自动分析和信息挖掘理论与技术,是目前国际遥感科学技术的前沿领域之一.本文围绕遥感大数据自动分析和数据挖掘等关键问题,深入调查和分析了国内外的研究现状和进展,指出了在遥感大数据自动分析和数据挖掘的科学难题和未来发展方向.

DOI

[ Li D R, Zhang L P, Xia G S.Automatic analysis and mining of remote sensing big data[J]. Acta Geodaetica et Cartographica Sinica, 2014,43(12):1211-1216. ]

[2]
龚健雅,朱欣焰,朱庆,等.面向对象集成化空间数据库管理系统的设计与实现[J].武汉测绘科技大学学报,2000,25(4):289-293.新一代地理信息系统要求矢量、 影像和DEM数据集成化管理。本文提出了一种基于面向对象思想的矢量、影像和DEM三库集成的空间数据模型 ,讨论了集成化空间数据库管理系统的实现方式。该空间数据库管理系统已作为GIS软件GeoStar的核心 ,被用于中国的空间数据基础设施建设 ,管理国家级、省级和市级的多数据源、多比例尺的空间数据 ,被认为是一种高效可行的方案

DOI

[ Gong J Y, Zhu X Y, Zhu Q, et al.Design and implementation of object-oriented integrated spatial database management system[J]. Journal of Wuhan Technical University of Surveying and Mapping, 2000,25(4):289-293. ]

[3]
付雪梅. GIS空间数据快速检索技术研究及应用[D].南京:南京航空航天大学,2006.

[ Fu X M.The GIS-based spatial data query technology and its application[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2006. ]

[4]
王密,龚健雅,李德仁.大型无缝影像数据库管理系统的设计与实现[J].武汉大学学报·信息科学版,2003,28(3):294-300.

[ Wang M, Gong J Y, Li D R.Design and implementation of large-scale image database management system[J]. Geomatics and Information Science of Wuhan University, 2003,28(3):294-300. ]

[5]
池子文,张丰,杜震洪,等.一种基于影像块组织的遥感数据分布式存储方法[J].浙江大学学报(理学版),2014,41(1):95-99.云存储是解决动态增长的海量遥感数据产品存储管理难题的有效手段.针对云存储在遥感数据存储领域中存在的问题,提出了一种基于影像块组织的遥感数据分布式Key-Value存储模型,解决了分布式文件系统存储大规模影像块效率低下的问题,使遥感数据云存储具备了空间区域访问特性;结合开源分布式文件系统HDFS,实现了影像数据的分布式高效存储与空间区域检索.实验与分析表明,系统在多用户并发连接情况下可以维持较高的吞吐率,同时具备良好的可伸缩性和稳定性.

[ Chi Z W, Zhang F, Du Z H, et al.A distributed storage method of remote sensing data based on image blocks organization[J]. Journal of Zhejiang University (Science Edition), 2014,41(1):95-99. ]

[6]
陈崇成,林剑峰,吴小竹,等.基于NoSQL的海量空间数据云存储与服务方法[J].地球信息科学学报,2013,15(2):166-174.近年来, 实现海量空间数据高效地存储管理和在线服务, 成为地学信息科学领域日益关注的热点问题。本文根据矢量和栅格空间数据的不同特点, 提出并实现了矢量栅格数据一体化的海量空间数据分布式云存储管理与访问服务方案, 在海量矢量数据存储和处理中创新性引入分布式图数据库Neo4J 和并行图计算框架。在三层式空间数据云存储架构基础上, 给出NoSQL数据库技术的栅格和矢量数据云存储的实现策略与方法, 并开展了通用数据访问接口的设计。采用分布式文件系统HDFS存储栅格数据, 并使用列族数据库HBase 对其建立分布式空间索引, 及采用满足ACID约束的分布式图数据库Neo4J 来存储矢量数据, 并使用R树建立空间索引。在自主研发的地理知识云平台GeoKSCloud 框架下, 初步实现了核心组件-空间数据聚合中心(GeoDAC)软件, 可为各类用户提供空间数据分布式存储管理和访问服务。通过搭建试验床, 开展GeoDAC与开源GIS 软件PostGIS 在矢量数据读写访问性能方面的对比测试。结果表明, 虽然GeoDAC没有获得写入性能的加速作用, 但其具有PostGIS 无法比拟的强大读取性能。GeoDAC将海量数据经过空间分割后分布在集群上, 能够并行处理查询请求, 极大地提高空间查询速度, 具有广阔的应用前景。

DOI

[ Chen C C, Lin J F, Wu X Z, et al.Massive geo-spatial data cloud storage and services based on NoSQL database technique[J]. Journal of Geo-information Science, 2013,15(2):166-174. ]

[7]
申德荣,于戈,王习特,等.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803.针对大数据管理的新需求,呈现出了许多面向特定应用的 NoSQL数据库系统。针对基于key-value数据模型的 NoSQL 数据库的相关研究进行综述。首先,介绍了大数据的特点以及支持大数据管理系统面临的关键技术问题;然后,介绍了相关前沿研究和研究挑战,其中典型的包括系 统体系结构、数据模型、访问方式、索引技术、事务特性、系统弹性、动态负载均衡、副本策略、数据一致性策略、基于flash的多级缓存机制、基于 MapReduce的数据处理策略和新一代数据管理系统等;最后给出了研究展望。

DOI

[ Shen D R, Yu G, Wang X T, et al.Survey on NoSQL for management of big data[J]. Journal of Software, 2013,15(2):166-174. ]

[8]
吕雪锋,程承旗,龚健雅,等.海量遥感数据存储管理技术综述[J].中国科学:技术科学,2011,41(12):1561-1573.针对海量遥感数据的存储管理问 题,以NASA EOS,World Wind,Google Earth,Google Maps,Bing Maps,Microsoft TerraServer,ESA,Earth Simulator,GeoEye,天地图,中国资源卫星应用中心,国家卫星气象中心,国家海洋应用中心等13个数据存储中心或系统为例,重点从遥感数据 的存储组织方式与存储架构方面,综合与分析各个数据存储管理技术的特点与优势.通过综述国内外实际的数据存储与管理技术,有利于寻求更适合于海量遥感数据 存储的技术与方法,应用于我国海量遥感数据存储管理的实际工作中.

[ Lv X F, Cheng C Q, Gong J Y, et al.Review of data storage and management technologies for massive remote sensing data[J]. Science China Technological Sciences, 2011,41(12):1561-1573. ]

[9]
李荣亚. 双态云支持下高分辨率遥感存储与计算一体化研究[D].杭州:浙江大学,2014.

[ Li R Y.ARAM-drive cloud-based strategy for the high-resolution remote sensing data storage and computation integration[D]. Hangzhou: Zhejiang University, 2014. ]

[10]
Li B, Zhao H, Lv Z.Parallel ISODATA clustering of remote sensing images based on MapReduce[C]. IEEE International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery (CyberC), 2010:380-383.

[11]
王旭东. 面向海量遥感影像数据的分布式文件系统管理技术研究[D].兰州:兰州交通大学,2012.

[ Wang X D.Distributed file system management technology research based on the massive remote sensing image data[D]. Lanzhou: Lanzhou Jiaotong University, 2012. ]

[12]
Lee C A, Gasster S D, Plaza A, et al.Recent developments in high performance computing for remote sensing: a review[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2011,4(3):508-527.Remote sensing data have become very widespread in recent years, and the exploitation of this technology has gone from developments mainly conducted by government intelligence agencies to those carried out by general users and companies. There is a great deal more to remote sensing data than meets the eye, and extracting that information turns out to be a major computational challenge. For this purpose, high performance computing (HPC) infrastructure such as clusters, distributed networks or specialized hardware devices provide important architectural developments to accelerate the computations related with information extraction in remote sensing. In this paper, we review recent advances in HPC applied to remote sensing problems; in particular, the HPC-based paradigms included in this review comprise multiprocessor systems, large-scale and heterogeneous networks of computers, grid and cloud computing environments, and hardware systems such as field programmable gate arrays (FPGAs) and graphics processing units (GPUs). Combined, these parts deliver a snapshot of the state-of-the-art and most recent developments in those areas, and offer a thoughtful perspective of the potential and emerging challenges of applying HPC paradigms to remote sensing problems.

DOI

[13]
徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20.

[ Xu J G, Pei Y.Overview of data extraction, transformation and loading[J]. Computer Science, 2011,4(3):508-527. ]

[14]
Pieter H.ZeroMQ: messaging for many applications[M]. Sebastopol, CA: O’Reilly Media Inc, 2013:164-191.

[15]
Roy T F.Architectural styles and the design of network-based software architectures[D]. Irvine, CA: University of California, 2000.

[16]
王晋年,顾行发,明涛,等.遥感卫星数据产品分类分级规则研究[J].遥感学报,2013,17(3):566-577.随着遥感卫星应用的发展,多源、多时相、多尺度以及不同类型遥感卫星的数据综合集成应用以及与地面观测信息集成,对遥感信息产品进行深度开发利用正在成为遥感应用的重要趋势。目前不同国家和地区、不同系列的遥感卫星数据产品分别采用不同的分类分级方案,难以适应多源、多系列地理空间信息整合应用的需求。本文从遥感应用对遥感卫星数据产品分类分级的需求出发,分析了目前主要遥感卫星的产品系列及其数据产品分类分级规则,参考了正在研究的相关国际标准,遵循系统性、科学性、完整性、兼容性、可操作性和可扩充性原则,研究提出了中国遥感卫星数据产品分类分级的规则。该规则以卫星载荷采用的遥感探测光谱特征及其数据获取方式作为分类依据,以卫星遥感数据的处理水平作为分级依据,建立统一的遥感卫星数据产品的分类分级体系。该规则与正在研究制订的相关国际标准保持一致,不但覆盖目前广泛应用的各类遥感卫星数据产品,而且能方便地建立与现有遥感卫星数据产品分类分级方案的映射关系,并且对未来的数据产品的分类分级留有比较充分的可扩充性,为遥感卫星数据产品分类分级指标体系的研究和相关国家标准的研制提供了依据。

DOI

[ Wang J N, Gu X F, Ming T, et al.Classification and gradation rule for remote sensing satellite data products[J]. Journal of Remote Sensing, 2013,17(3):566-577. ]

[17]
国家测绘局. CH/T 1007-2001,基础地理信息数字产品元数据[S].北京:国家基础地理信息中心,2001:1-24.

[ State Bureau of Surveying and Mapping. CH/T 1007-2001, metadata for digital products of fundamental geographic information[S]. Beijing: National Geomatics Center of China, 2001:1-24. ]

[18]
张莉霞,江南,胡斌,等.TB级多源遥感影像高效建库方法研究[J].遥感技术与应用,2013,28(3):496-504.

[ Zhang L X, Jiang N, Hu B, et al.Study of efficient method of TB-level multi-source remote sensing image database construction[J]. Remote Sensing Technology and Application, 2013,28(3):496-504. ]

Outlines

/