地球信息科学学报 ›› 2016, Vol. 18 ›› Issue (2): 151-159.doi: 10.3724/SP.J.1047.2016.00151
陈达伦1,2, 陈荣国1,**, 谢炯1
收稿日期:
2015-03-12
修回日期:
2015-05-14
出版日期:
2016-02-10
发布日期:
2016-02-04
通讯作者:
陈荣国
作者简介:
作者简介:陈达伦(1990-),男,硕士生,主要从事空间数据库并行化研究。E-mail:Xiaoking31@126.com
基金资助:
CHEN Dalun1,2, CHEN Rongguo1,*, XIE Jiong1
Received:
2015-03-12
Revised:
2015-05-14
Online:
2016-02-10
Published:
2016-02-04
Contact:
CHEN Rongguo
摘要:
快速高效地查询信息是衡量当前空间数据库性能的重要指标之一。传统的单节点关系型空间数据管理方式难以满足大数据量空间数据查询的需求,特别是高性能的复杂空间多表连接任务需求。鉴此,本文设计并实现了基于Massive Parallel Processing(MPP)架构的并行空间数据库中间件原型系统。系统充分利用无共享(shared-nothing)架构的优势,特别是针对空间数据的特性,设计了并行空间数据划分与导入、并行空间多表连接、空间数据查询优化等算法与模型。首先介绍了近年来并行数据库系统的发展现状,接着阐述了基于MPP架构的并行空间数据库中间件系统的查询计划算法及其系统架构,最后作者对一些大规模数据量做查询实验及其查询结果分析。实验表明,在处理挖掘大规模数据量时,该系统有近似线性的加速比,相比于传统单节点数据库,它能充分提高海量空间数据的复杂查询的性能,解决了空间数据库并行化处理海量数据的问题。
陈达伦, 陈荣国, 谢炯. 基于MPP架构的并行空间数据库原型系统的设计与实现[J]. 地球信息科学学报, 2016, 18(2): 151-159.DOI:10.3724/SP.J.1047.2016.00151
CHEN Dalun,CHEN Rongguo,XIE Jiong. Research of the Parallel Spatial Database Proto System Based on MPP Architecture[J]. Journal of Geo-information Science, 2016, 18(2): 151-159.DOI:10.3724/SP.J.1047.2016.00151
表1
非分区多表并行连接算法"
算法:非分区列多表并行连接 |
---|
步骤1 select A.name, A.shape from A For i=1 to Count_node(从节点数) 将表A的查询的投影列(A.name)、连接列(几何列A.shape)发送至协调者。其中,空间列以二进制BLOB对象的形式传输 end for 步骤2 create temp table tmp1(name char(20),shape st_geometry ) 协调者节点将结果集打包,生成临时结果集TDR For i=1 to Count_node(从节点数) 在各个节点上创建临时表TempA*,以及临时空间索引批量插入临时结果集TDR到各个节点的临时表 end for 步骤3 select ta.name, B.name,st_astext( ta.shape) from TempA* as ta,B where st_within(ta.shape = B.shape)=1 For i= 1 to P do(并行地) 对于各个节点,将临时表TempA*与表B进行连接操作,将结果集发送到协调者节点上 对于空间列进行st_astext数据类型转换 end for 协调者归并结果集 步骤4 协调者执行查询计划中的下一步骤(归并数据进行下一个表的连接或格式化输出至客户端) |
表2
系统的硬件配置"
节点名 | 硬件配置 | 操作系统/JDK版本 | 数量/台 | 设备用途 |
---|---|---|---|---|
协调节点 | CPU:I7-3610 QM 内存:8 GB | CentOS 6.4/ JDK 1.7.0 | 1 | 管理后端支持节点,解析SQL语句,制定查询计划,归并查询结果 |
后端从节点 | CPU:I3-3220 内存:4 GB | CentOS 6.4/ JDK 1.7.0 | 4 | 提供数据库计算功能,返回子查询结果集 |
物理元数据库节点 | CPU:I5-2400 内存: 6 GB | CentOS 6.4/ JDK 1.7.0 | 1 | 提供数据库元数据信息。包括表、视图、约束等元数据 |
客户端节点 | CPU:I7-3610 QM 内存: 8 GB | CentOS 6.4/ JDK 1.7.0 | 1 | 输入SQL查询语句,输出查询结果 |
[1] |
雷德龙,郭殿升,陈崇成,等.基于MongoDB 的矢量空间数据云存储与处理系统[J].地球信息科学学报,2014,16(4):507-516.
doi: 10.3724/SP.J.1047.2014.00507 |
[ Lei D L, Guo D S, Chen C C, et al.Vector spatial data cloud storage and processing based on MongoDB[J]. Journal of Geo-information Science, 2014,16(4):507-516. ]
doi: 10.3724/SP.J.1047.2014.00507 |
|
[2] | 龚健雅. 空间数据库管理统的概念与发展趋势[J].测绘科学,2001,26(3):4-9. |
[ Gong J Y.Concepts and development of spatial database management system[J]. Science of Surveying and Mapping, 2001,26(3):4-9. ] | |
[3] |
Stonebraker M.SQL databases v. NoSQL databases[J]. Communications of the ACM, 2010,53(4):10-11.
doi: 10.1145/1721654.1721659 |
[4] |
范协裕,任应超,邓富亮,等.基于代理的并行空间查询语言[J].计算机工程,2013,39(11):61-64.
doi: 10.3969/j.issn.1000-3428.2013.11.013 |
[ Fan X Y, Ren Y C, Deng F L, et al.Parallel spatial query language based on proxy[J]. Computer Engineering, 2013,39(11):61-64. ]
doi: 10.3969/j.issn.1000-3428.2013.11.013 |
|
[5] | 柳锴,唐雨新,张云泉,等.基于机群架构的并行数据库实现技术研究[J].计算机工程与设计,2008,29(3):526-529. |
[ Liu K, Tang Y X, Zhan Y Q, et al.Research on implementation technology of cluster parallel database system[J]. Computer Engineering and Design, 2008,29(3):526-529. ] | |
[6] |
汪永琳,郑若忠.并行数据库系统实现技术的研究[J].陕西工学院学报,2000,16(2):10-12.
doi: 10.3969/j.issn.1673-2944.2000.02.003 |
[ Wang Y L, Liu Q, Zheng R_Z. Study of implementation techniques for parallel database systems[J]. Journal of Shaanxi Institute of Technology, 2000,16(2):10-12. ]
doi: 10.3969/j.issn.1673-2944.2000.02.003 |
|
[7] | 陈虎,张云泉,柳锴,等.基于机群架构的并行数据库中间件系统改进研究[J].计算机研究与发展,2007(z3):142-146. |
[ Chen H, Zhang Y Q, Liu K,et al. Research on improvement of parallel middleware for SQL on beowulf cluster[J]. Journal of Computer Research and Development, 2007(z3):142-146. ] | |
[8] |
贾婷,魏祖宽,唐曙光,等.一种面向并行空间查询的数据划分方法[J].计算机科学,2010,37(8):198-200.
doi: 10.3969/j.issn.1002-137X.2010.08.043 |
[ Jia T, Wei Z K, Tang S G, et al.New spatial data partition approach for spatial data query[J]. Computer Science, 2010,37(8):198-200. ]
doi: 10.3969/j.issn.1002-137X.2010.08.043 |
|
[9] | 周胜. 并行数据库系统 PBASE/3 数据缓冲技术研究[D].北京:北京中国科学院研究生院(计算技术研究所), 2000. |
[ Zhou S.The buffering techniques in parallel database system PBASE/3[D]. Beijing: Institute of Computing Technology, Chinese Academy of Sciences, 2000. ] | |
[10] |
王珊,王会举,覃雄派.架构大数据:挑战,现状与展望[J].计算机学报,2011,34(10):1741-1752.
doi: 10.3724/SP.J.1016.2011.01741 |
[ Wang S, Wang H J, Qin X P, et al.Architecting big data: challenges, studies and forecasts[J]. Chinese Journal of Computers, 2011,34(10):1741-1752. ]
doi: 10.3724/SP.J.1016.2011.01741 |
|
[11] |
刘宇,孙莉.并行空间连接查询处理[J].上海交通大学学报,2002,36(4):512-515.
doi: 10.3321/j.issn:1006-2467.2002.04.019 |
[ Liu Y, Sun L, Tian Y Q.Parallel spatial join query processing[J]. Journal of Shanhai Jiaotong University, 2002,36(4):512-515. ]
doi: 10.3321/j.issn:1006-2467.2002.04.019 |
|
[12] |
蔡亚杰,赵政文,白松,等.并行数据库基于多连接的查询优化算法的研究[J].计算机应用与软件, 2012,12:52.
doi: 10.3969/j.issn.1000-386x.2012.12.050 |
[ Cai Y J, Zhao Z W, Bai S, et al. On query optimization algorithm based on multi-table join for parallel database[J]. Computer Applications and Software, 2012,12:52. ]
doi: 10.3969/j.issn.1000-386x.2012.12.050 |
|
[13] |
王永杰,洪新兰,孙伟.基于并行空间数据库和 GML 的 WebGIS 系统的研究与实现[J].测绘科学,2007,32(4):131-132.
doi: 10.3771/j.issn.1009-2307.2007.04.048 |
[ Wang Y J, Hong X L, Sun W.Research and realization of WebGIS based on parallel spatial database and GML[J]. Science of Surveying and Mapping, 2007,32(4):131-132. ]
doi: 10.3771/j.issn.1009-2307.2007.04.048 |
|
[14] |
文继荣,陈红.Shared-nothing 并行数据库系统查询优化技术[J].计算机学报,2000,23(1):28-38.
doi: 10.3321/j.issn:0254-4164.2000.01.004 |
[ Wen J R, Chen H, Wang S.Query optimization techniques of a shared-nothing parallel database system[J]. Chinese Journal of Computers, 2000,23(1):28-38. ]
doi: 10.3321/j.issn:0254-4164.2000.01.004 |
|
[15] | 许新华,唐胜群,宋振云,等.并行数据库查询优化技术的最新进展[J].计算机工程与设计,2009(16):3814-3819. |
[ Xu X H, Tang S Q, Song Z Y, et al.Latest developments on parallel database query optimization[J]. Computer Engineering and Design, 2009,16:3814-3819. ] | |
[16] | 程昌秀. 空间数据库管理系统概论[M].科学出版社,2012. |
[ Cheng C X.Introduction to spatial database management systems[M]. Beijing: Science Press, 2012. ] | |
[17] | 周光明. DB2并行数据库核心技术探究[J].电子制作,2013,9:69. |
[ Zhou G M.Research for core techniques of parallel spatial database[J]. Practical Electronics, 2013,9:69. ] | |
[18] | Li C, Yang J, Han J, et al.The distributed storage system based on MPP for mass data[C]. 2012 IEEE Asia-Pacific Services Computing Conference (APSCC), 2012:384-387. |
[19] | Alam S R, Agarwal P K, Kuehn J A.Performance evaluation of a scalable molecular dynamics simulation framework on a massively-parallel system[C]. Proceedings of the 7th IEEE International Conference on Bioinformatics and Bioengineering, 2007:1459-1466. |
[20] | 颜勋,陈荣国,程昌秀,等.内嵌式空间数据库优化器代价评估框架及实现[J].武汉大学学报 (信息科学版),2011,36(6):726-730. |
[ Yan X, Chen R G, Cheng C X, et al.Optimizer cost estimation framework and implementation for spatially-enabled database[J]. Geomatics and Information Science of Wuhan University, 2011,36(6):726-730. ] | |
[21] |
Welch M C, Kwan P W, Sajeev A S M. Applying GIS and high performance agent-based simulation for managing an Old World Screwworm fly invasion of Australia[J]. Acta tropica, 2014,138: S82-S93.
doi: 10.1016/j.actatropica.2014.03.021 pmid: 24705073 |
[22] | 高昂,陈荣国,赵彦庆,等.空间数据访问集成与分布式空间数据源对象查询[J].地球信息科学学报,2010,12(4):532-540. |
[ Gao A, Chen R G, Zhao Y Q, et al.Access and integration on geospatial data and its distributed query[J]. Journal of Geo-information Science, 2010,12(4):532-540. ] | |
[23] |
范娟娟,海洋,高明星,等.基于分布式存储与并行计算架构的历史数据库分析解决方案[J].中国铁路,2014(7):60-63.
doi: 10.3969/j.issn.1001-683X.2014.07.016 |
[ Fan J J, Hai Y, Gao M X, et al.The solution for historical database based on distributed storage and parallel computing[J].Chinese Railways, 2014,7:60-63. ]
doi: 10.3969/j.issn.1001-683X.2014.07.016 |
[1] | 聂沛, 陈广胜, 景维鹏. 矢量瓦片并行构建与分布式存储模型研究[J]. 地球信息科学学报, 2020, 22(7): 1487-1496. |
[2] | 秦承志. 数字地形分析方法研究的维度——精准、高效、易用[J]. 地球信息科学学报, 2020, 22(4): 720-730. |
[3] | 裴韬, 舒华, 郭思慧, 宋辞, 陈洁, 刘亚溪, 王席. 地理流的空间模式:概念与分类[J]. 地球信息科学学报, 2020, 22(1): 30-40. |
[4] | 王浩, 王含宇, 杨名宇, 许永森. Retinex图像增强在GPU平台上的实现[J]. 地球信息科学学报, 2019, 21(4): 623-629. |
[5] | 潘淼鑫, 林甲祥, 陈崇成, 叶晓燕. 基于C-SOM和Spark的并行空间离群挖掘方法及应用[J]. 地球信息科学学报, 2019, 21(1): 128-136. |
[6] | 孙经纬, 孙广中, 詹石岩, 毛睿, 周英华. SA*:一种多线程路径规划算法[J]. 地球信息科学学报, 2018, 20(6): 753-761. |
[7] | 邱强, 秦承志, 朱效民, 赵晓芳, 方金云. 全空间下并行矢量空间分析研究综述与展望[J]. 地球信息科学学报, 2017, 19(9): 1217-1227. |
[8] | 周恩波, 毛善君, 李梅, 孙振明. GPU加速的改进PAM聚类算法研究与应用[J]. 地球信息科学学报, 2017, 19(6): 782-791. |
[9] | 左尧, 王少华, 钟耳顺, 蔡文文. 高性能GIS研究进展及评述[J]. 地球信息科学学报, 2017, 19(4): 437-446. |
[10] | 刘洋, 关庆锋. 景观指数的并行计算方法[J]. 地球信息科学学报, 2017, 19(4): 457-466. |
[11] | 景维鹏, 霍帅起. 基于自定义RDD的海量遥感图像并行镶嵌方法[J]. 地球信息科学学报, 2017, 19(10): 1346-1354. |
[12] | 江岭, 王春, 赵明伟, 杨灿灿. 面向数据传输的地理栅格数据快速压缩方法[J]. 地球信息科学学报, 2016, 18(7): 894-901. |
[13] | 沈占锋, 李均力, 于新菊. 基于协同计算的白洋淀湿地时序水体信息提取[J]. 地球信息科学学报, 2016, 18(5): 690-698. |
[14] | 韩志刚, 孔云峰, 秦耀辰, 秦奋. 一个可定位视频对象的地理空间表达框架[J]. 地球信息科学学报, 2015, 17(9): 1014-1021. |
[15] | 程昌秀, 杨山力, 宋晓眉, 王利军. 空间约束对概念的提出与实现[J]. 地球信息科学学报, 2015, 17(9): 1009-1013. |
|