遥感大数据协同计算理论

地理时空大数据协同计算技术

  • 骆剑承 , 1, * ,
  • 胡晓东 1 ,
  • 吴炜 2 ,
  • 王博 3
展开
  • 1. 中国科学院遥感与数字地球研究所 遥感科学国家重点实验室,北京 100101
  • 2. 浙江工业大学计算机学院,杭州 310023
  • 3. 南京航空航天大学航天学院,南京 211106

作者简介:骆剑承(1970-),男,浙江临安人,博士,研究员,研究方向为遥感大数据协同计算。E-mail:

收稿日期: 2016-01-04

  要求修回日期: 2016-03-13

  网络出版日期: 2016-05-10

基金资助

国家自然科学基金项目(41301438、41301473)

国家高技术研究发展计划项目(2015AA123901)

中国科学院重点部署项目(KZZD-EW-07-02)

Collaborative Computing Technology of Geographical Big Data

  • LUO Jiancheng , 1, * ,
  • HU Xiaodong 1 ,
  • WU Wei 2 ,
  • WANG Bo 3
Expand
  • 1. State Key Laboratory of Remote Sensing Science, Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China
  • 2. College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China
  • 3. College of Aerospace Engineering Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
*Corresponding author: LUO Jiancheng, E-mail:

Received date: 2016-01-04

  Request revised date: 2016-03-13

  Online published: 2016-05-10

Copyright

《地球信息科学学报》编辑部 所有

摘要

大数据时代,地理时空数据的迅猛增长给应用理念、技术框架和服务形式带来挑战。本文在阐述地理时空大数据概念的基础上,首先分析了地理时空大数据计算面临的挑战,从数据协同、技术协同、服务协同和生产协同4个层次阐述了地理时空大数据协同计算方法;然后,根据平台化服务的需求设计了地理时空大数据协同计算框架,从遥感数据综合预处理、地理时空数据的组织与管理、地理时空大数据高效计算、地理时空大数据可视化4个方面论述了地理时空大数据协同计算实现的关键技术;最后,以遥感大数据综合处理系统作为案例说明了地理时空大数据协同计算与服务的实现方法,并对地理时空大数据的应用模式进行了展望。

本文引用格式

骆剑承 , 胡晓东 , 吴炜 , 王博 . 地理时空大数据协同计算技术[J]. 地球信息科学学报, 2016 , 18(5) : 590 -598 . DOI: 10.3724/SP.J.1047.2016.00590

Abstract

In the era of big data, the rapid growth of geographic spatial temporal data has challenged the conventional application concepts, technical framework and service modes. In this paper, the concept and features of geographic spatial temporal big data is elaborated firstly. Then, the characteristics and challenges of the geographic spatial temporal big data computation are analyzed. Particularly, the theory of collaborative computing and service for the geographic spatial temporal big data is developed, which includes four levels of collaboration: data collaboration, technology collaboration, service collaboration and producing collaboration. According to the demand of the market-oriented operation and platform-based service, the technical frameworks of the geographic spatial temporal big data collaborative computing are designed. Furthermore, four common key technologies are discussed, including the remote sensing data preprocessing, the geographic spatial temporal data storage and management, the high performance computing and the visualization of geographic spatial temporal big data. Next, the remote sensing data processing system is developed, and is taken as a case to illustrate the implementation of collaborative computing and service of geographic spatial temporal big data. At last, this paper forecasts the future application mode of geographic spatial temporal big data.

1 引言

信息技术发展至今,数据的获取、转换、挖掘与应用已从点汇聚为线,由线构织成网。空间上,包括外太空卫星组网、空中飞行器观测网、地面采集与传感网等;形态上,有测量各种地表指标的传感网、虚拟世界的互联网、连接万物的物联网、链接人人的通信网等。这些“网”产生了各行各业的大数据[1]。从不断流失到简单保存,再发展至有效利用,催生了对大数据计算的巨大需求,大数据已经成为一个新兴产业和巨大的经济增长点。从传统测绘数据到卫星影像,连同包含地理位置的经济社会数据,共同构成了广义地理时空数据,刻画和描述了地表现象和地物的空间位置,也包含了各种经济社会现象的时空分布规律,是大数据时代一种重要而基础的数据。根据相关的研究,人类活动85%以上的信息与空间有关[2]
由于“网”的出现而产生了大数据,使传统软件难以对其接入、处理、管理和分析[3],但又蕴含着大量有价值信息,促使人类进入大数据时代。地理时空数据不仅具有普通数据的属性测量值(V),还包含时间(T)和空间(X, Y, Z)信息,具有空间、时间、属性三维特征。地理时空数据不仅构成了大数据时代描述各种地物和现象的基础空间框架与空间基准(地理基础信息),还蕴藏着地表地物和经济社会活动的时间变化和空间分布规律,是一种重要的数据类型[4-5]
实现地理时空大数据到地理时空信息的转化,需经历一系列的数据预处理和信息提取。该过程既依赖于高精度的信息提取方法,又依靠适合地理时空数据的计算技术。遥感数据信息量巨大,20世纪90年代,为了处理“海量”多光谱遥感数据,利用相对廉价的个人计算机构建了Beowulf集群系统[6]。随着硬件技术的发展,多核、GPU、FPGA等各种计算单元先后被用于遥感地学计算,在提高处理效率和在线计算方面取得了较好的应用效果[7-9]。以Globus为代表的网格计算、以Hadoop为代表的云计算先后应用于遥感数据的数据存储与计算[10-11],相关的原型系统或商业系统已被研制。此外,针对遥感的计算密集和数据密集问题,诸多学者设计和实现了适应不同硬件环境的数据处理与信息提取算法的并行化方法,以提高数据处理效率或增大数据处理规模[12-13]
从以往研究可看出,传统地理时空信息计算是采用并行计算方法获得同样任务的更高计算效率,而大数据时代的计算扩展性强调对更大体量数据的同时处理与分析能力,期望使计算的规模与数据的体量呈正比关系扩充与增长。上述变化使得最终用户在构建相关硬件环境的基础上,完成“数据收集-数据处理-信息提取”的地理时空大数据应用模式已不再适用。在这种要求下,单一的集中式和分布式的计算模式显然已不适应,故协同式计算应运而生。地理时空大数据协同计算,在数据层面,要求不同种类数据在统一时空下协同;在软硬件体系层面,要求多机组网协同、机群间协同、跨网域协同,甚至跨地域协同;在更高级的组织管理、处理分析、服务应用层面,要求传统的数据模型、计算模型、接口模型、管理机制、应用模式等具有可拆分和可组装特性,易于横向扩充,从而满足数据驱动的多层次协同计算。
根据上述分析,本文提出并构建了地理时空大数据计算理念与方法,首先整理和概括了4个层次的地理时空大数据,并在此基础上论述协同计算技术框架;其次,分别讨论遥感数据综合预处理、地理时空数据的组织与管理、地理时空大数据高效计算、地理时空大数据可视化4大关键技术;最后,以遥感大数据综合处理系统作为案例,说明地理时空大数据的应用框架。

2 地理时空大数据协同计算模型

2.1 地理时空大数据层次模型

本文所指的地理时空大数据概括为与一般大数据相对应的4个概念层次(图1)。
Fig. 1 The composition of geographical big data

图1 地理时空大数据层次模型

(1)全覆盖(Volume)的遥感地球大数据,基于“天-空-地”立体感知系统,使地球影像大数据全面实现全空间覆盖,形成“影像地球”,其数据量巨大,一般达到PB级以上。
(2)快速更新(Velocity)的时空结构大数据,与影像对应生成全空间覆盖的基础空间结构矢量信息,并对应影像进行持续地快速更新,形成“基准底图”,在此基础上通过专业模型计算,快速转换成各类专题信息产品[14-16]
(3)多态(Variety)的时空流大数据,在以上2类全覆盖底图之上,汇聚物相联的时空密集型数据[17],进行一体化组织、协同与转化[18-19],揭示了相对稳定的空间结构上的地理对象时序演变规律以及深度拓展趋势,视为“动感地带”。
(4)高密度(Value)的社会经济活动大数据,社会经济各类实时产生的数据在结构化和多态的时空轴上关联与融合,如全球定位系统的普及应用使人类活动的位置数据结合着各类经济社会活动汇聚起来形成多样的LBS[20],这是构建“智慧地球”的重要一环,实现了高密度价值的知识挖掘与多元应用[21]

2.2 地理时空大数据协同计算

以上述地理时空大数据为起点,以构建地理信息互联网运营及其服务的生态系统为目标,提出地理时空大数据协同计算体系(图2)。其主要包含如下4个层面的协同问题:
Fig. 2 Collaborative computing framework of the geographical big data

图2 地理时空大数据协同计算体系

(1)数据协同。首先利用数据价值密度低的多源遥感数据,通过“几何-辐射-有效-合成”的综合处理,形成标准化的遥感数据集。在此基础上,与矢量、时空流等多源数据进行融合、转化和扩展,形成结构化、标准化时空基准数据,构建地表地物和各种经济社会活动等不同时间粒度的多层次数据集。
(2)技术协同。协同利用遥感数据预处理、大数据存储、多源数据融合转化、专题信息提取、数据压缩等技术,实现地理时空大数据从数据到信息的转化,再通过可视化与制图将地理时空信息以图形或者图像化形式表达,通过互联网在线服务的方式,为用户提供服务,构建地理时空大数据计算与服务的技术链条。
(3)生产协同。在此基础上,建立多区域、多组织的地理时空大数据服务平台,通过“众包”和“众创”实现地理时空数据的分布式采集和软件协同开发与功能定制,构建地理时空大数据生产分布式协同网络。
(4)服务协同。以满足不同行业、不同专业人员的需求为目的,建立地理时空大数据的运营平台,提供“数据-计算-服务”一体化的应用模式,并针对大客户发展推送与定制的服务模式,实现数据、软件的定制及其个性化服务。

3 地理时空大数据协同计算关键技术

地理时空大数据在传统大数据的体量之上增加了时间维和空间维,不仅自身表现出时空分布特征,而且也成为各种社会经济现象和活动的时空参考。传统软件难以支撑大数据的接入、转换、处理、管理和分析[22],且通用大数据架构也无法满足其时空建模的要求,因而,发展适合地理时空大数据的处理方法和计算技术,并实现数据、技术、业务、服务、应用等角度协同,显得尤为重要。从计算技术方法方面,具体面临以下4个协同问题:
(1)统一时空基准的“天-空-地”遥感大数据综合处理
国产遥感大数据虽然有效地保障了现代农业、防灾减灾、资源调查、环境保护和国家安全等对地球观测数据的需求,然而在应用中也存在一些问题(如不同来源的遥感影像之间存在几何畸变、遥感器记录的辐射特征值包含了大量与地表无关的噪声、云影将影像分割为有效数据碎片),从而限制了多源遥感数据的协同利用。因而,进行统一时空基准的“天-空-地”遥感大数据综合处理,发挥每一个像元的作用,形成高价值密度的标准化遥感数据是地理时空大数据计算中需要解决的关键问题。
(2)多源、异构、多维时空大数据的统一组织和管理
地理时空大数据具有数据量大、数据更新快等特点。首先,需要建立可灾备、可扩展的大数据存储硬件环境,发展地理空间数据存储及其表达模型,实现海量数据的高效存储、管理和检索;其次,通过全球剖分模型,建立统一的地表时空基准,实现与经济数据等数据关联和融合,真正达到多源数据的协同利用。
(3)数据驱动的地理时空大数据规模化计算
建立面向地理时空大数据的高效IO模型,实现数据的高速、大吞吐IO;协同利用集群、多核、GPU等异构式计算资源,实现高效能的并行化处理;建立分布式的开发环境,实现软件功能的粒度化划分,通过“众创”和“众包”方式实现功能的工具化研发;通过工具流、流水线等方式实现工具的松散集成。
(4)统一时空框架的可视化展现及一体化服务
可视化与制图是将抽象的数据转化为图像、图形等直观方式显示,是一种时空大数据的形象表达和直观数据挖掘方法,地理时空大数据计算需要解决的关键问题之一是地理时空大数据可视化与制图。大数据时代数据获取和处理成本高,使传统的“买软件、买数据”的应用模式已不能满足应用需求,需由专业公司完成数据采集、数据处理、数据存储和管理。因此,通过“数据+计算+服务”一体化的方式,以低廉的价格为最终用户提供信息服务是大数据应用的必然方式。

3.1 遥感大数据综合处理

针对国产卫星应用中由几何畸变、辐射畸变以及云影造成的数据缺失等问题,本文提出遥感数据综合处理的思路,以中国资源卫星应用中心[23]发布的二级数据产品作为输入,通过“几何-辐射-云影-合成”4步处理得到标准化的数据产品。对于所有数据,主动进行几何处理和云影检测,得到定位精确的正射产品和云影掩膜产品;根据用户应用对数据需求,进行辐射归一化。通过有效数据碎片合成,得到无缝的合成数据产品。
遥感大数据综合处理涉及的关键技术主要包括(图3):以建立多源数据间相同的空间参考为目标,在多源控制点库的基础上,通过长条带影像匹配、多星联合平差等关键技术[24-25],实现多源数据的高效匹配。面向时间序列影像,根据伪不变特征的辐射值不随时间变化的特性,通过平稳序列检验提取伪不变特征;提出一种保证任意2景影像校正结果之间的误差最小的优化策略,建立线性回归方程,消除影像由非地表因素引起的辐射改变,实现影像的相对辐射处理。以提供云影掩膜产品为目标,面向影像的主动式处理,通过云影导致获取时间相近2景影像上的灰度值突变的特点,发展一种基于联合概率密度空间的云影检测方法,并结合云影的光谱特征进行检验。利用有效数据碎片,通过分割边界引导的差异影像接缝线搜索,将多期影像碎片合成无缝影像。
Fig. 3 Comprehensive processing of the remote sensing data

图3 遥感数据综合处理

3.2 地理时空大数据的组织与管理

地理时空大数据组织与管理的目标是对全覆盖、多类型、高密度、高频度的地理时空数据进行有效管理和应用,涉及的关键问题(图4)包括:(1)建立具有可扩展、可灾备、易运营的大数据存储环境,具体采用多块硬盘构建的磁盘阵列,实现海量的数据的存储,各个计算节点既配备独立的存储空间,也共享整个局域网的磁盘阵列,建立“自主-共享”多层次存储环境。(2)数据组织上,将影像的元数据与数据本身分割存储,其中,影像以文件的方式存储于文件系统,而将元数据存储于数据库,实现控制流与数据流的分离,获得更高的系统扩展性和I/O并发性。为加快数据的渲染与检索,建立横向分块和纵向金字塔的索引机制。(3)影像元数据、矢量和时空流文件存储于MySQL和Mongo DB等新型数据库中,针对Mongo DB缺乏空间数据引擎的不足,研制基于R树的空间引擎,加速矢量数据的检索。再按照全球剖分模型建立统一的时空框架,根据各种地理时空大数据的空间标签进行关联。在此基础上,研发地理时空大数据的转化和融化工具,实现多源数据的协同利用。
Fig. 4 Geographical big data storage and management method

图4 地理时空大数据组织与管理方法

3.3 地理时空大数据高效计算

地理时空大数据计算需要解决的关键问题包括:如何利用数据库中地理时空数据;如何利用系统中的异构式计算资源协同计算;如何实现工具的图形化定制。本文采用的解决方案如图5所示。
Fig. 5 High performance computation of geographic data

图5 地理时空大数据高效能计算方法

针对地理时空数据IO,在GDAL/OGR等数据模型基础上,结合自主开发的NTI(Node Traffic Interface)数据通信模块,屏蔽数据分布式存储细节,封装新的类,提供与GDAL类似的数据操作接口;自适应分布式平台与本地数据,隐藏数据细节。通过数据多副本并行读写、计算、传输和数据读写的重合、数据预读等多项技术实现分布式环境下的数据快速读写响应。隐藏内部的硬件、数据和并行实现的细节,按照相并行、主-从并行、流水线并行、工作池并行和分治并行等不同并行编程模式[26]提供5种不同的编程模板,开发者在挖掘算法的内在多层次并发性的基础上,选择合适的编程模板,实现处理算法快速并行化。
将软件按照一定功能粒度,拆分为一系列的地理时空大数据工具,工具之间松散耦合,能够独立地完成各个运算,也能通过松散集成,协同完成一项复杂的遥感处理和计算。工具开发者实现工具预定的接口,将工具的元数据存储到集成平台的数据库之中,集成平台通过获得工具的元信息,自动生成工具的界面和控件。严格定义工具的输入、参数、输出格式,使工具之间能够通过输出和输入相互关联,并通过数据流构成一个处理流水线实现的集成。工具定制具体实现上,用户以图形方式构建工具流,后台自动生成工具流脚本,由集成平台根据脚本并结合数据库提供的数据信息自动调用相应的工具进行处理。

3.4 地理时空大数据可视化

遥感应用的出口是影像数据的可视化服务。当前以Google Maps、百度地图、高德地图为代表的电子地图具有显示大规模多源影像数据的能力,并为大众提供基础的地理信息服务,但是基于预生成瓦片缓存技术的地图服务无法满足空间数据可视化管理、可视化计算和可视化分析的需求,因此大规模影像数据的实时渲染与交互可视化技术是遥感大数据协同计算与服务的关键。图6描述了遥感大数据的实时渲染与交互可视化模式:一方面,用户通过服务前端交互式地配置影像地图,可视化服务器响应用户的配置请求,并由渲染节点实时渲染地图瓦片;另一方面,服务器将渲染的地图瓦片实时返回到客户端,实现交互可视化。大规模影像数据实时渲染与交互可视化的实现需要解决2个方面问题:(1)如何实现大规模影像数据的实时渲染;(2)如何实现可视化服务的交互操作。
Fig. 6 The interactive visualization mode based on real-time rendering

图6 基于实时渲染的交互可视化模式

根据统计,影像数据的查询、数据块的读取、逐图层的渲染等步骤占瓦片响应时间的75%~85%,是地图服务中最耗时的环节。为实现大规模影像的数据块的快速抽取,需要建立影像的索引机制。以上述3.2节全球地表剖分模型为规则,先对具有不同空间参考信息的影像数据进行Plate Carreé Projection投影变换,再对变换后的影像进行数据剖分组织。而交互可视化中,渲染瓦片对应的影像数据集和空间位置的不同,渲染所需的数据将来自于多个影像文件,并且这些文件很可能分布在不同的数据节点上。这样,数据在节点间的传输不但占用了较大的网络带宽,而且降低了渲染速度。为此,在渲染任务的分配和调度过程中,应该将任务分配到具有最小计算负载且具有较多本地渲染数据的节点上,即“数据-计算”相一致的任务调度策略。

4 研究案例:遥感大数据综合处理系统

遥感大数据综合处理系统是团队近两年开发的遥感大数据增值处理与应用平台,实践了遥感大数据获取、处理、转换、增值、管理、应用系列链条中协同计算的理念,已研发完成协同工作的遥感大数据规模化生产系统(IPM)、时空大数据操作系统(gDOS)和遥感增值信息产品协同生产系统(PLA),将进一步通过时空大数据服务平台(ABT)针对多元用户开展定制应用(图7)。
Fig. 7 Deployment and collaborative relationship between the four systems

图7 4个子系统的部署与协同关系

IPM旨在针对每一种国产高分辨率卫星数据源分别建立“几何-辐射-有效-合成”一体的卫星影像主动生产线,将标准影像产品录入gDOS;gDOS是“生产-管理-服务-产品”枢纽,负责生产任务调度、生产空间构建、数据组织管理、产品推送服务;PLA在gDOS的支撑下,建立基于高分辨率影像数据的“基础地理-地块级土地利用-土地覆盖变化-专题应用”4级土地信息产品生产线及终端,成果返回至gDOS管理。最后,通过ABT系统搭建运营平台,针对多元的用户,按需定制大数据增值产品,以平台运营方式提供个性化服务。4个子系统形成了以遥感为基底的时空大数据协同计算体系。
IPM是一套可进行生产线模块化定制的遥感卫星影像数据生产系统(图8),系统已完成针对资源02C、资源三号、高分一号、高分二号等国产高分辨率卫星及其传感器的生产线定制。生产线的大部分工作由机器完成,生产人员在生产系统提供的交互式界面中只需要做参数调优和质量检查工作。同时,IPM系统能最大效率的利用计算机多核特性,保证高效地处理,单景高分一号全色影像的正射处理时间在30 s以内,多光谱影像的正射处理时间在20 s以内。
Fig. 8 Main interface of IPM system

图8 IPM系统主界面

遥感增值产品生产的目标是自动化、智能化和高效化,需走过作坊式、流程化、智能化、众包式几个发展阶段。传统“单机”+“人机交互”作业模式已远不能满足海量信息产品生产的要求,更限制了新技术在大规模产品制作与生产中的应用。PLA系统正在从流程化走向智能化,将增值信息产品的作业生产过程工艺化,在实际设计和研发过程中把生产流程中的工艺划分成工序,使不同作业员之间可以分工协作,确保生产过程得到有效监管,并实现实时质量检查跟踪(图9)。在不同的工序中,使用的工具以插件的形式提供,拥有极好的可扩展性。通过这种工艺化的流程设计,将作业员从“全才”变成“专才”,专注于一道工序,提高生产效率。通过PLA系统搭建的生产线,比原先由ArcMap软件构建的生产线效率提高了4倍以上。
Fig. 9 Process list of PLA system

图9 PLA系统工序列表

gDOS系统由冗余备份的元数据库、可扩展的异构式存储及模块化组织的资源服务组成,管理的数据容量已经达到1.5 PB。目前,系统已存储和管理的产品包括多种遥感数据产品(如国产环境系列、高分系列、资源系列、实践系列和国外的SPOT、Landsat系列数据及其相关产品)、土地信息产品(基于米级影像数据生产的土地利用和土地覆盖)和专题信息产品(农业作物结构、土地变化等)。分别由IPM系统和PLA系统建立起影像生产线及土地信息产品生产线,平均每天输出并由gDOS系统自动入库的产品体量达到20 TB。
ABT是一种新的地理大数据运营、服务、应用模式,其实现架构和发展模式如表1所示。具体实现是以IPM、gDOS和PLA作为基础,搭建地理时空大数据的互联网运营服务平台,打通产品的内外网协同交换通道,实现内部生产体系和外部服务通道的信息安全传递,搭建地理时空大数据电商服务平台,使有效的数据及时地传递到用户手中(即A)。在统一时空基准框架及其服务接口基础上,通过开发和推广使用各行业应用终端,采集、更新与维护各类实时信息并汇聚至时空框架下,形成全时空标准的结构化大数据集合,实现社会经济大数据时空协同信息检索和分析,发挥地理空间大数据的价值(即B)。另外,通过研制数据和工具双核引擎,开放“数据-工具-服务”协同的应用接口,实现用户的按需定制,让小微企业通过简洁的操作和低廉的代价获取数据服务,专注于应用业务和创造创新,并提供发展条件甚至创业基金,打造众创空间(即T)。通过3个方面的协同建设,实现互联网+遥感大数据模式的ABT产业应用计划。
Tab. 1 Business development model of remote sensing big data processing system

表1 遥感大数据综合处理系统业务发展模式

发展三步曲 实现目标 协同计算模式 应用与服务模式
“天-空-地”大数据综合处理与应用系统(gDOS) 数据中心与三大系统
① 建设IPM、PLA、gDOS三大系统,实现大数据生产管理
② 建立以gDOS为枢纽的遥感大数据生产中心和运维体系
③ 开展农业、生态、城镇化应用示范,实现数据推送式更新服务
数据协同:统一时空基准的“天-空-地”遥感大数据综合摄影测量与“图-谱”协同认知计算
① IPM:“几何-辐射-有效”三位一体的影像主动计算,发挥每个像元作用
② PLA:“图-谱”协同的信息认知计算
③ gDOS:“栅格-矢量-流”一体化存储与计算
推送式服务
① 增值数据产品销售② 专业解决方案按需定制与数据更新服务
多中心、跨区域增值信息生产与服务网络(PLA.net) “数据制造4.0”模式
① 在总中心基础上,在各地扩展多个数据分中心,形成灾备、联动响应机制
② 将PLA部署到省、市、县各层节点,利用当地知识优势建立信息生产网络
③ 基于各节点开展本地化的产品推广和应用服务
生产协同:多中心、跨区域、多组织、多线协同的增值产品生产与更新服务
① “云”联动:“总-分”数据中心相互联动、相互备份的遥感大数据云存储与服务
② 协作生产:跨区域、多组织、多线协同的信息产品生产与更新计算
③ 用户驱动:后端柔性生产与前端个性订制协同,建立用户驱动的增值产品生产和持续更新的服务新模式
定制式服务
① 建立“总-分”中心网络
② PLA生产终端与移动终端产品在各区域的建立与推广,建立全国增值信息生产与服务网络
③ 面向公众产品的设计与推广
众包、众创
全民大数据
协同服务平台(ABT)
开放、分享、创造
① 在数据中心基础上,建设互联网运营的开放服务平台
② 以众包模式,通过全民信息收集器实现对各类实时信息的采集、更新与维护
③ 以众创模式,提供“数据-工具-服务”接口,实现新产品和服务价值的不断创造
平台协同:以时空大数据作为基本内容支撑的新一代互联网运营平台(ABT)
① 内外协同:数据中心与服务平台内外协同交换,实现内部生产系统和外部服务通道的信息安全传递
② 众包生产:基于服务平台,自上而下万众分包的协同式信息采集
③ 众创空间:开放“数据-工具-服务”协同应用接口,实现按需定制
众创式服务
① 地理时空大数据电商服务平台(A)
② 基于地理时空基准框架的社会经济活动的信息检索(B)
③ 众创空间(T)

5 结论

针对地理时空大数据对计算提出的挑战,本文提出地理时空大数据协同计算的应用理念、方法体系和技术框架。在实现遥感数据综合预处理、地理时空数据的组织与管理、地理时空大数据高效计算、地理时空大数据可视化4个关键技术的基础上,研发了遥感大数据规模化生产系统、时空大数据管理与操作系统、遥感增值信息产品协同生产系统,并以此构建了服务平台。实验结果表明,本系统能够实现多源遥感数据的综合处理,实现海量地理时空大数据的存储与管理,并有望于在未来构建地理时空大数据的生态系统,建立相关的应用链条。

The authors have declared that no competing interests exist.

[1]
李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014,43(12):1211-1216.成像方式的多样化以及遥感数据获取能力的增强,导致遥感数据的多元化和海量化,这意味着遥感大数据时代已经来临.然而,现有的遥感影像分析和海量数据处理技术难以满足当前遥感大数据应用的要求.发展适用于遥感大数据的自动分析和信息挖掘理论与技术,是目前国际遥感科学技术的前沿领域之一.本文围绕遥感大数据自动分析和数据挖掘等关键问题,深入调查和分析了国内外的研究现状和进展,指出了在遥感大数据自动分析和数据挖掘的科学难题和未来发展方向.

DOI

[ Li D R, Zhang L P, Xia G S.Automatic analysis and mining of remote sensing big data[J]. Acta Geodaetica et Cartographica Sinica, 2014,43(12):1211-1216. ]

[2]
周成虎,骆剑承.高分辨率卫星遥感影像地学计算[M].北京:科学出版社,2009.

[ Zhou C H, Luo J C.High resolution satellite remote sensing image computing[M]. Beijing: Science Press, 2009. ]

[3]
Zikopoulos P, Eaton C, Deroos D, et al.Understanding of big data[M]. New York: Mc Graw Hill, 2012.

[4]
王劲峰,葛咏,李连发,等.地理学时空数据分析方法[J].地理学报,2014,69(9):1326-1345.随着地理空间观测数据的多年积累,地球环境、社会和健康数据监测能力的增强,地理信息系统和计算机网络的发展,时空数据集大量生成,时空数据分析实践呈现快速增长.本文对此进行了分析和归纳,总结了时空数据分析的7 类主要方法,包括:时空数据可视化,目的是通过视觉启发假设和选择分析模型;空间统计指标的时序分析,反映空间格局随时间变化;时空变化指标,体现时空变化的综合统计量;时空格局和异常探测,揭示时空过程的不变和变化部分;时空插值,以获得未抽样点的数值;时空回归,建立因变量和解释变量之间的统计关系;时空过程建模,建立时空过程的机理数学模型;时空演化树,利用空间数据重建时空演化路径.通过简述这些方法的基本原理、输入输出、适用条件以及软件实现,为时空数据分析提供工具和方法手段.

DOI

[ Wang J F, Ge Y, Li L F, et al.Spatio temporal data analysis in geography[J]. Acta Geographica Sinica, 2014,69(9):1326-1345. ]

[5]
李德仁,马军,邵振峰.论时空大数据及其应用[J].卫星应用,2015(9):7-11.时空大数据与非空间数据相比,具有空间性、时间性、多维性、海量 性、复杂性等特点,其云计算方法和挖掘技术是目前国际遥感科学技术的前沿领域之一。本文围绕遥感大数据的特点、时空大数据云计算和遥感大数据挖掘等关键问 题,深入探讨了时空大数据的研究进展及应用,并展望了时空大数据的发展前景。

[ Li D R, Ma J, Shao Z F.The application of spatial temporal big data[J]. Satellite application, 2015,9:7-11. ]

[6]
Dorband J, Palencia J, Ranawake U.Commodity computing clusters at Goddard space flight center[J]. Journal of Space Communication, 2003,3(1):1-5.The purpose of commodity cluster computing is to utilize large numbers of readily available computing components for parallel computing to obtaining the greatest amount of useful computations for the least cost. The issue of the cost of a computational resource is key to

DOI

[7]
朱志文,沈占锋,骆剑承.改进SIFT点特征的并行遥感影像配准[J].遥感学报,2011,15(5):1024-1039.本文针对SIFT(尺度不变特征变换)算法存在的内存消耗多、运算速度慢的问题,采用金字塔和分块策略,首先对原始影像进行粗配准,然后进行分块影像匹配以实现精确配准。在匹配过程中,根据影像分辨率限制高斯金字塔影像的阶数,对特征点进行过滤;同时对匹配过程进行并行化,以提高算法效率。实验表明,改进算法在保证配准精度稳定的前提下,解决了原算法对内存要求高的问题,效率比原算法显著提高,适用于大范围遥感影像之间的配准。

DOI

[ Zhu Z W, Shen Z F, Luo J C.Parallel remote sensing image registration based on improved SIFT point feature[J]. Journal of Remote Sensing, 2011,15(5):1024-1039. ]

[8]
Qin C, Zhan L J.Parallelizing flow-accumulation calculations on graphics processing units-from iterative DEM preprocessing algorithm to recursive multiple-flow-direction algorithm[J]. Computers & Geosciences, 2012,43:7-16.

[9]
Besiris D, Tsagaris V, Fragoulis N, et al.An FPGA-based hardware implementation of configurable pixel-level color image fusion[J]. IEEE Transactions on Geoscience and Remote Sensing, 2012,50(2):362-373.Not Available

DOI

[10]
Aloisio G, Cafaro M.A dynamic earth observation system[J]. Parallel Computing, 2003,29(10):1357-1362.The paper presents an overview of SARA/Digital Puglia (Synthetic Aperture Radar Atlas), a remote sensing environment that shows how grid technologies and high performance computing can be efficiently used to build dynamic earth observation systems for the management of huge quantities of data coming from space missions and for their on-demand processing and delivering to final users. SARA/Digital Puglia is a grid-enabled, high performance digital library of remote sensing images, developed in a joint research project with CACR/Caltech, ISI/USC and the Italian Space Agency.

DOI

[11]
康俊锋. 云计算环境下高分辨率遥感影像存储与高效管理技术研究[D].杭州:浙江大学,2011.

[ Kang J F.Technologies of storage and efficient management on cloud computing for high resolution remote sensing image[D]. Hangzhou: Zhejiang University, 2011. ]

[12]
Phillips R D, Watson L T, Wynne R H.Hybrid image classification and parameter selection using a shared memory parallel algorithm[J]. Computers & Geosciences, 2007,33(7):875-897.This work presents a shared memory parallel version of the hybrid classification algorithm IGSCR (iterative guided spectral class rejection) to facilitate the transition from serial to parallel processing. This transition is motivated by a demonstrated need for more computing power driven by the increasing size of remote sensing data sets due to higher resolution sensors, larger study regions, and the like. Parallel IGSCR was developed to produce fast and portable code using Fortran 95, OpenMP, and the Hierarchical Data Format version 5 (HDF5) and accompanying data access library. The intention of this work is to provide an efficient implementation of the established IGSCR classification algorithm. The applicability of the faster parallel IGSCR algorithm is demonstrated by classifying Landsat data covering most of Virginia, USA into forest and non-forest classes with approximately 90% accuracy. Parallel results are given using the SGI Altix 3300 shared memory computer and the SGI Altix 3700 with as many as 64 processors reaching speedups of almost 77. Parallel IGSCR allows an analyst to perform and assess multiple classifications to refine parameters. As an example, parallel IGSCR was used for a factorial analysis consisting of 42 classifications of a 1.2GB image to select the number of initial classes (70) and class purity (70%) used for the remaining two images.

DOI

[13]
吴炜,沈占锋,骆剑承,等.均值漂移高分辨率遥感影像多尺度分割的集群实现[J].计算机工程与应用,2009,45(34):7-9,24.多尺度分割是高分辨率遥感信息计算的重要基础,是高分辨率遥感影像图谱认知中“图”提取的关键技术。当前提出的多尺度分割方法普遍存在着占用内存大,耗费计算资源、计算时间长的缺点,并且这些问题随着遥感数据量的增大、算法的改进等进一步加剧。针对这种情况,根据当前集群计算技术的发展,以均值漂移的多尺度分割方法为例,实现了一种基于集群计算环境的多尺度分割算法,集中解决任务分配和结果回收以及数据并行的方式,统计了算法所消耗的时间,对其的效率进行了分析,通过实验说明了集群化对提高多尺度分割效率的有效性。

DOI

[ Wu W, Shen Z F, Luo J C, et al.Implementation of multi-scales segmentation for high resolution RS images based on cluster[J]. Computer Engineering And Applications, 2009,45(34):7-9,24. ]

[14]
骆剑承,周成虎,沈占锋,等.遥感信息图谱计算的理论方法研究[J].地球信息科学学报,2009,11(5):5664-5669.遥感应用的本质是投入专业知识从对地观测影像中提炼专题信息,并以之服务于各类分析与决策的过程。其中,信息计算是整个遥感应用服务技术链的基底。本文在传承地学信息图谱理论的基础上,提出了遥感"图-谱"信息耦合的空间认知理论,构建了"像元—基元—目标—格局"为一体的遥感信息图谱计算的理论方法体系,将其分为"像元级"和"对象级"两个层次,并阐述了高性能计算环境支持下,遥感信息图谱计算平台的设计开发思路及目前研发进展,总结了遥感信息图谱计算的发展趋势和重点研究问题。

DOI

[ Luo J C, Zhou C H, Shen Z F, et al.Theoretic and methodological review on sensor information Tupu computation[J]. Journal of Geo-Information Science, 2009,11(5):5664-5669. ]

[15]
Zikopoulos P, Eaton C, Deroos D, et al.Understanding of big data[M]. New York: McGraw Hill, 2012.

[16]
国务院.国务院关于印发促进大数据发展行动纲要的通知[EB/OL]. .

[The State Council of the People’s Republic of China. Notice announced by the State Council on printing and distributing the plan of action to promote the development of big data[EB/OL]. ]

[17]
牟乃夏,张恒才,陈洁,等.轨迹数据挖掘城市应用研究综述[J].地球信息科学学报,2015,17(10):136-1142.轨迹数据作为泛在地理信息环境中社会遥感数据的主要表现形式之一,为从个体的视角研究群体的空间移动规律,提供了新的数据支撑和研究思路.特别是在当前的大数据背景下,通过轨迹数据发掘人类的移动规律和活动模式,进而探求蕴含的深层次知识,是解决城市问题的重要途径,轨迹数据挖掘也由此成为地理信息科学及相关学科的研究热点.本文首先阐述了人类移动规律研究常用的轨迹数据集及在该数据集上开展的相关研究和典型应用;然后从城市空间结构功能单元的识别及城市韵律分析、人类活动模式的发现与空间移动行为预测、智能交通的时间估算与异常探测、城市计算的其他4个方面,综述了轨迹数据挖掘在城市中的应用;最后,指出了轨迹数据挖掘面临的挑战和进一步的发展方向.

DOI

[ Mou N X, Zhang H C, Chen J, et al.A review on the application research of trajectory data mining in urban cities[J]. Journal of Geo-Information Science, 2015,17(10):1136-1142. ]

[18]
李建中,李金宝,石胜飞.传感器网络及其数据管理的概念,问题与进展[J].软件学报,2003,14(10):1717-1727.

[ Li J Z, Li J B, Shi S F.Concepts, issues and advance of sensor networks and data management of sensor networks[J]. Journal of Software, 2003,14(10):1717-1727. ]

[19]
宫鹏. 无线传感器网络技术环境应用进展[J].遥感学报,2010,14(2).387-395.过去10年来, 无线传感器网络迅速发展成一门应用技术。它是遥感技术的扩展。文章介绍近年无线传感器网络技术在环境应用中的进展。主要包括无线传感器网络技术在全球变化和生态研究、土壤环境、空气质量、水环境及水文、精准农业等领域的监测以及在目标跟踪方面的进展。总结无线传感器网络技术发展过程中的主要挑战, 并对其未来环境应用中的重点发展方向进行了展望。

DOI

[ Gong P.Progress in recent environmental applications of wireless sensor networks[J]. Journal of Remote Sensing, 2010,14(2).387-395. ]

[20]
刘经南,方媛,郭迟,等.位置大数据的分析处理研究进展[J].武汉大学学报:信息科学版,2014,39(4):379-385.大数据时代的到来,使得社会、科学和经济都发生了巨大的变革。当前,基于各种测量传感网络来 感知人类个体和群体与自然环境和社会环境关系的泛在测绘所产生的位置大数据是大数据研究的重要组成部分。位置大数据已经成为当前用来感知人类社群活动规 律、分析地理国情和构建智慧城市的重要战略资源。通过对位置大数据的处理分析,可从单纯的定位数据引中出人的社会属性以及与环境的关系,这极大地促进了计 算机科学技术、数据科学技术与测绘科学技术的联系,形成了一种智能化、社会化的泛在测绘计算。在定义位置大数据概念的基础上,主要从以下三个方面对位置大 数据进行了介绍和分析:1)位置大数据的分类、特征、作用与意义,以及涉及的研究方法体系;2)从社会感知、群体智能系统的建设和地理国情分析三个方面对 位置大数据的应用分析进行了具体阐述;3)针对位置大数据的混杂型、复杂性、稀疏性以及研究需求,介绍了常用的位置大数据处理方法,包括地图、轨迹数据的 预处理以及降维分析、协同挖掘等方面。

DOI

[ Liu J N, Fang Y, Guo C, et al.Research progress in location big data analysis and processing[J]. Geomatics and Information Science of Wuhan University, 2014,39(4):379-385. ]

[21]
吉根林,赵斌.面向大数据的时空数据挖掘综述[J].南京师大学报:自然科学版,2014,37(1):1-7.时空数据挖掘是数据挖掘领域的前沿研究课题,正致力于开发和应用新兴的计算技术来分析海量、高维的时空数据,揭示时空数据中的有价值知识。本文以时空大数据为背景,介绍数据挖掘技术产生的背景与发展、时空数据挖掘的研究现状、研究内容、应用领域、面向大数据的时空数据挖掘系统架构以及实现技术,为相关领域的研究者提供参考。

DOI

[ Ji G L, Zhao B.A Survey of Spatiotemporal Data Mining for Big Data[J]. Journal of Nanjing Normal University (Natural Science Edition) , 2014,37(1):1-7. ]

[22]
刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(6):957-972.<p>大数据的产生给海量信息处理技术带来新的挑战.为了更全面深入地了解大数据的内涵,从大数据的概念特征、一般处理流程、关键技术三个方面进行详细阐述.分析了大数据的产生背景,简述了大数据的基本概念、典型的4&ldquo;V&rdquo;特征以及重点应用领域;归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、BigTable、Hadoop以及数据可视化等,介绍了基本的处理过程和组织结构;具体分析指出了大数据时代所面临的问题与挑战.</p>

DOI

[ Liu Z H, Zhang Q L.Research overview of big data technology[J]. Journal of Zhejiang University (Engineering Science), 2014,48(6):957-972. ]

[23]
中国资源卫星应用中心.数据服务平台[EB/OL].,2015-11-26.

[China Centre for Resources Satellite Data and Application. China centre for resources satellite data and application: data service platform[EB/OL]. , 2015-11-26. ]

[24]
张永军,熊金鑫,余磊,等.严密定位模型辅助的国产卫星影像匹配[J].武汉大学学报·信息科学版,2014,39(8):897-900,929.针对不同传感器下的国产卫星影 像特点,提出了一种基于严密定位模型的影像匹配方法。在现有方法的基础上,改进扫描行迭代搜索法,实现同名点的快速预测。在全球SRTM数据的辅助下,建 立了近似核线方程。通过局部畸变改正,消除了匹配窗口的几何与辐射变形。引入多片最小二乘匹配(MPGC)算法,对匹配结果进行精化,并剔除误匹配点。综 合运用了小面元几何纠正法与基于控制网的匹配生长算法,提高了匹配点的匹配精度与分布均匀性。利用天绘一号、资源一号02C、资源三号卫星影像进行试验, 结果表明所提出的方法能够较好地结合国产卫星影像特点,实现多传感器下多轨道影像的全自动联合匹配,获得高精度的同名点观测值。

DOI

[ Zhang Y J, Xiong J X, Yu L, et al.Automatic matching for optical imagery acquired from domestic satellites based on rigorous orientation model[J]. Geomatics and Information Science of Wuhan University, 2014,39(8):897-900,929. ]

[25]
熊金鑫,张永军,郑茂腾,等.SRTM高程数据辅助的国产卫星长条带影像匹配[J].遥感学报,2013,17(5):1103-1117.针对国产卫星数据特点及长条带影像匹配困难问题,提出了一种基于全球SRTM数据的影像匹配方法。本文探讨了长条带影像物理分块机制,并引入LBP/C算子实现了兴趣点的筛选。在全球SRTM数据的辅助下,采用投影轨迹法,建立了近似核线方程。沿核线方向,进行局部畸变改正,进而消除匹配窗口的几何变形与辐射差异,利用金字塔匹配策略,逐层进行相关匹配。最后,在原始层引入MPGC(Multi-photo Geometrically Constrained Matching)算法与RANSAC(Random Sample Consensus)算法,进行精化匹配,并剔除误匹配点。文中综合运用了小面元几何纠正法与基于控制网的匹配生长算法,从而提高了匹配点的精度与均匀性。本文方法可在并行环境下全自动实现不同分辨率、不同视角、不同时相的多轨道长条带影像匹配,获得高精度的同名点观测值。以天绘一号与资源三号卫星影像作为试验数据,与现有匹配算法进行对比结果表明该算法具有较好的鲁棒性,能够达到较高的匹配精度。

DOI

[ Xiong J X, Zhang Y J, Zheng M T, et al.An SRTM assisted image matching algorithm for long-strip satellite imagery[J]. Journal of Remote Sensing, 2013,17(5):1103-1117. ]

[26]
陈国良.并行计算:结构算法编程[M].北京:高等教育出版社,2011.

[ Chen G L.Parallel computing: structure, algorithm, programming[M]. Beijing: High Education Press, 2011. ]

文章导航

/