

  江岭
  王春
  赵明伟
  杨灿灿
  滁州学院安徽地理信息集成应用协同创新中心,滁州 239000


收稿日期: 2015-04-05

  要求修回日期: 2016-05-26

  网络出版日期: 2016-07-15






A Fast Compression Approach of Geo-raster Data for Network Transmission

  JIANG Ling
  WANG Chun
  ZHAO Mingwei
  YANG Cancan
  Anhui Center for Collaborative Innovation in Geographical Information Integration and Application, Chuzhou University, Chuzhou 239000, China
Corresponding author: JIANG Ling

Received date: 2015-04-05

  Request revised date: 2016-05-26

  Online published: 2016-07-15


江岭 , 王春 , 赵明伟 , 杨灿灿 . 面向数据传输的地理栅格数据快速压缩方法[J]. 地球信息科学学报, 2016 , 18(7) : 894 -901 . DOI: 10.3724/SP.J.1047.2016.00894


As the main form of representing the geographical information, geo-raster data contains abundant geographical knowledge. With the rapid development of earth observation technology, high-resolution geo-raster data has been widely applied to many research fields, such as landform, soil, environment and hydrology. With respect to this context, the contradiction between the saving and transferring of massive geo-raster data and a limited channel capacity has become increasingly prominent with regard to the intensive increase of data size. Data compression techniques provide the possibility to solve this problem. This paper studies the compression method of geo-raster data based on gridded DEMs for the purpose of realizing massive data’s online transmission. By analyzing the characteristics of geo-grid data, this paper proposes a new compression method named as the two-phase compression method, which combines the conversion compression and the coding compression based on the data fidelity and the real-time compression principle. Meanwhile, this paper establishes an assessment method of two-phase compression method from the perspectives of accuracy and efficiency. In order to test and verify the data fidelity and the compression performance of the two-phase compression method, this paper conducted several experiments on a 10-node server cluster under the Linux operating system by using different sizes of gridded DEMs. The experiment results showed that the proposed two-phase compression method has provided good data fidelity. It keeps the data accuracy on both of the numerical and the representation structure. At the same time, the compression ratio is generally above 50%, and the almost real-time decompression/compression efficiency also indicates that it has a good performance. The two-phase compression method can significantly reduce the time consumption of data transmission through network, and improve the efficiency of network transmission. In all, this two-phase compression method of geo-raster data presents a good universality, and it can provide a technical support to the application of geo-raster data, such as the high-performance geo-computation.

1 引言


2 两阶段压缩方法

地理栅格数据基于不同的数据组织方式,存在众多数据格式,如GeoTIFF、ESRI Grid、ERDAS IMAGINE等。从表达地理信息及参与地理计算的角度出发,可以抽象得到地理栅格数据的共性,这为研究具有普适性的地理栅格数据压缩方法提供了可能性。以规则格网DEM为例,地理栅格数据可抽象为2部分:(1)数据头,包含定义DEM参考起点坐标、无值区标识、格网分辨率、行数及列数;(2)数据体,按行列顺序记录高程数值阵列,其中数据类型为整型、浮点型或者双精度型。对地理栅格数据进行压缩的实质就是对其数据体的压缩。为此,本文提出了一种融合转换压缩和编码压缩的两阶段压缩方法,即对地理栅格数据先进行转换压缩,然后进行编码压缩,解压过程相反。

2.1 转换压缩

由上述分析可知,地理栅格数据的像元值数据类型通常有整型(INT)、浮点型(FLOAT)及双精度型(DOUBLE)3种,其中前2种数据类型较为常见,且浮点型最为广泛。在目前32位计算机系统中,整型和浮点型数据均为32位表示(即4个字节),双精度型为64位表示(即8个字节)。然而,无符号短整型(UNSIGNED SHORT)数据是16位表示(即2个字节),值域范围为[0,65 535]。这便给我们一个启示,能否在保证地理栅格数据满足分析和应用精度的情况下,将像元值通过数据变换而采用无符号短整型进行表示,进而达到数据压缩的目的。本文将地理栅格数据的像元值由高位数据类型转换为低位数据类型表示的过程,称为转换压缩。事实上,转换压缩思想已在矢量数据压缩中得到了较好的应用效果[18-19],然而其在地理栅格数据压缩、乃至与编码压缩相结合等方面的研究较为鲜见,这也进一步促进了本文利用转换压缩进行地理栅格数据压缩的思考。转换压缩的关键在于核函数设计,因为不同的核函数使得转换压缩的效果差异较大。在数值分析方法中,归一化是将数据映射到[0,1]区间,以达到无量纲表达。借鉴归一化方法,本文设计了地理栅格数据转换压缩的核函数:先将像元值进行数据变换到[0,0.6],然后利用无符号短整型数据将变换后的有效数位进行表达,从而实现像元值从高位数据类型映射到低位数据类型表示。转换压缩映射公式如式(1)所示。
US E i = 0.6 × e i - e min e max - e min + ε × 10 p (1)
式中: US E i 为像元 i 转换压缩后的无符号短整型数据; e i 为像元 i 的数值; e min e max 分别为地理栅格数据的最小和最大值; ε 为精度舍入系数, ε = 0.5 × 10 - p ; p 为有效位数指数。本文为确保最小程度丢失数据精度, p 取值5,即地理栅格数据像元值最终转换到[0,60 000]值域间。解压为压缩的逆过程,公式如式(2)所示。
e i = US E i × ( e max - e min ) 0.6 × 10 p + e min (2)

2.2 编码压缩

通常,地理栅格数据的数据结构编码方法均以像元值重复为编码基础[20]。实际上由地理学第一定律可知,地理栅格数据像元值在一定邻近区域常常表现为相近,而非重复。如图1所示,经转换压缩后相邻像元A、B的值变换为22 092、22 064,其值虽不相等,但从它们在内存中表示的二进制码来看,仍存在一定的冗余(第一个字节重复),这种冗余是像元值在内存中字节冗余。由于字符类型(CHAR)数据为8位表示(即1个字节),因此本文从字符压缩的角度考虑,将转换压缩后的像元值看作字符(即1个像元值变为2个字符),并利用字符编码压缩方法对上述字节冗余进行最大程度消除。待数据传输完成后,将解压后字符集两两组合为无符号短整型数值,即可完成编码解压。
Fig.1 Diagram of byte redundancy

图1 字节冗余示例


3 实验结果与分析

3.1 实验环境及数据

本文利用具有跨平台特性的C++编程语言开发实现了两阶段压缩方法。为评价两阶段压缩方法的压缩性能,在一个配置Linux操作系统的集群上进行了测试实验。同时,基于MPI消息传递接口对应用两阶段压缩方法进行数据压缩传输的效率进行了测试。测试的环境为:10个计算节点,每个节点配置2个2.67 GHz六核Intel(R)Xeon(R)X5650处理器和24 GB内存,并通过1000 Mbps的快速交换式以太网互联。
本文选取了位于黄土高原丘陵沟壑区的陕北绥德县韭园沟部分地区为实验样区。区内丘陵起伏,沟壑纵横,地形相对较为复杂。基础数据为按照国家DEM生产规程生成的 1:1万(浮点型、5 m分辨率、1821行×2134列)DEM数据。以上述数据为基础,通过顺时针旋转5°、30°,分别获取了无值区域覆盖不同的数据(2001行×2285列、2645行×2759列),如图2所示。以上3组数据和其对应通过取整生成的整型DEM数据,依次简称为数据组1、数据组2和数据组3。同时,以数据组3中浮点型DEM为基础,通过双线性内插重采样方法,也分别获取了1 m分辨率(13 225行×13 795列,约700 MB,为采样数据1)和0.4 m分辨率(33 063行×34 488列,约4 GB,为采样数据2)大数据量DEM数据,用于压缩传输实验。
Fig.2 DEMs of the study area

图2 实验数据

3.2 评价方法

CE = D V pre - D V com D V pre × 100 % (3)
UCV = CE × D V pre CT + UCT (4)
式中: CE 为压缩率; D V pre D V pre 分别为压缩前后地理栅格数据大小; UCV 是净综合速率; CT UCT 则是压缩时间及解压时间。
CS = DT CT + UCT + TT (5)
式中: CS 为压缩传输比; DT TT 分别为传输压缩前后地理栅格数据消耗时间。

3.3 精度分析与算法选取

以数据组1中浮点型DEM为基础,对两阶段压缩方法的精度保真进行了分析,结果如图3表1所示。从高程和坡度2个角度,评价了数值精度(图3(a)-(b))。由于转换压缩时进行了有效数位截留,从而造成高程残差偏离正态分布,可看作“系统误差”。高程最大误差为0.003 m,精度区间近似为±0.002 m,可看出转换压缩虽是有损压缩,但对高程精度丢失影响甚小。坡度由高程派生得到,其误差近似服从正态分布,说明高程中的“系统误差”对分析结果误差不起主控作用。坡度最大误差为0.034°,精度区间为±0.007°,转换压缩前后坡度精度丢失非常小。为分析压缩前后地表形态精度,从等高线及河网套合2个方面进行了评价(图3(c)-(d))。通过目视等高线套合结果可看出,压缩前后等高线几乎无差异。等值线逼近度平均值为0.05 m,标准差为0.03 m,且最大值也仅为0.45 m,不足DEM分辨率的十分之一,进一步验证了目视结果。在河网套合分析中,径流节点完整度达到98.55%,说明转换前后地形结构几乎无变化。对于径流节点存在变化的地方均为谷底平坦区域,而这些区域DEM本身就存在表达不确定性。综合数值精度和形态精度实验结果可看出,两阶段压缩方法的数据保真性好,解压后的数据无论对于地理对象表达还是分析应用,均可得到可靠的结果。
Tab.1 Performance of different lossless compression algorithms

表1 不同无损压缩算法压缩性能

数据组1(1821行×2134列) 数据组2(2001行×2285列) 数据组3(2645行×2759列)
CE/(%) CT/10-2 s UCT10-2 s CE/(%) CT/10-2 s UCT/10-2 s CE/(%) CT/10-2 s UCT/10-2 s
LZO -0.36(39.03) 0.35( 2.93) 0.27( 2.31) 13.87(46.11) 0.47( 3.10) 0.36( 2.35) 45.49(62.75) 0.58( 3.45) 0.51( 2.58)
QUICKLZ 0.00(48.68) 1.66( 3.50) 0.24( 2.97) 0.00(53.93) 2.24( 3.65) 0.33( 3.14) 40.35(67.43) 3.49( 4.20) 4.27( 3.71)
LZ4 0.08(38.91) 0.70( 3.64) 0.28( 1.05) 14.90(45.63) 0.92( 3.79) 0.34( 1.14) 46.49(61.80) 1.07( 4.10) 0.51( 1.31)
LZFX -1.96(39.62) 6.42( 5.45) 0.61( 3.76) 13.08(46.04) 6.74( 5.79) 0.85( 3.86) 45.26(62.16) 7.14( 6.69) 1.91( 4.03)
SNAPPY 0.29(38.02) 0.44( 5.46) 0.30( 1.39) 14.33(44.36) 0.75( 5.53) 0.35( 1.49) 44.53(59.85) 0.80( 5.54) 0.61( 1.83)
FASTLZ -1.66(32.40) 5.02( 5.69) 0.67( 3.10) 13.40(40.43) 5.22( 6.04) 0.73( 3.14) 45.73(59.44) 5.32( 6.96) 0.86( 3.31)
LZW -39.79(34.14) 36.13(25.50) 7.55( 8.35) -19.11(16.00) 37.52(30.91) 8.50( 8.80) 24.85(46.12) 36.92(37.56) 9.65(11.25)
RLE -0.19( 0.08) 2.14( 2.28) 1.19( 1.36) 14.76( 0.07) 2.68( 2.67) 1.53( 1.55) 46.59( 0.05) 4.18( 4.01) 1.94( 2.26)
HUFFMAN 1.68( 7.58) 30.72(29.35) 32.30(29.17) 8.82(12.40) 33.60(33.15) 34.17(32.86) 35.28(33.00) 34.83(39.22) 35.69(31.96)
SFANO 1.22( 7.05) 31.26(28.56) 24.71(23.74) 8.50(12.02) 31.78(29.19) 25.69(26.54) 30.99(28.47) 36.99(37.34) 31.50(31.57)


Fig.3 Error analysis of DEMs before and after the conversion compression

图3 DEM数据转换压缩前后误差分析

表1表2是字符无损压缩算法性能实验结果。随着数据无值区覆盖面积增大(即数据冗余量增大),各个压缩算法的压缩率均大幅增大,且压缩及解压时间也随之增加,这为面向大数据量进行压缩传输提供了可能。相比浮点型数据,各个压缩算法在处理整型数据时表现更为优越,这与整型和浮点型数据在内存中不同的表示结构有关,同时这也间接表明了转换压缩在两阶段压缩方法中的重要作用。在处理地理栅格数据方面,基于字典模式的压缩算法比基于统计模式的压缩算法表现出更好的性能,特别是基于字典模式的LZ77系列算法更为突出,且随着数据冗余量增加,优势也更加凸显。从净综合速率可知,LZO、LZ4、SNAPPY 3个压缩算法具有较好地即时性特征。在实验数据组里,最大净综合速率为LZO处理浮点型数据时的576.93 MB/s,及LZ4处理整型数据的158.93 MB/s,这表明LZO较为适合处理浮点型数据,而LZ4适合处理整型数据。从表2也可看出,最大净综合速率与数据冗余程度成正比,变化幅度显著。
Tab.2 Net execution speeds of different lossless compression algorithms

表2 不同无损压缩算法的净综合速率

数据组1(1821行×2134列) 数据组2(2001行×2285列) 数据组3(2645行×2759列)
浮点型NCV/(MB/s) 整型NCV/(MB/s) 浮点型NCV/(MB/s) 整型NCV/(MB/s) 浮点型NCV/(MB/s) 整型NCV/(MB/s)
LZO -4.26 55.18 147.37 73.79 576.93 145.00
QUICKLZ 0.00 55.75 0.00 69.28 72.36 118.64
LZ4 0.62 61.48 103.15 80.80 409.46 158.93
LZFX -2.06 31.90 15.02 41.63 69.61 80.76
SNAPPY 2.89 41.15 114.11 55.08 438.75 112.94
FASTLZ -2.16 27.34 19.64 38.42 103.00 80.50
LZW -6.75 7.47 -3.62 3.51 7.43 13.15
RLE -0.42 0.17 30.54 0.14 105.92 0.10
HUFFMAN 0.20 0.96 1.14 1.64 6.96 6.45
SFANO 0.16 1.00 1.29 1.88 6.30 5.75
当进行地理栅格数据传输时,压缩处理过程通常在内存中,字符压缩算法的选择必须有尽可能快的压缩和解压速度,同时要兼顾不能消耗过多CPU资源。针对不同数据特征(大小情况、重复情况等),LZO分为多种压缩方法,如LZO1A,LZO1B,LZO1F,LZO1X等,其中LZO1X对于大部分情况下均具有较好的压缩效果。在速度优先的前提下,为达到不同的压缩率,LZO1X压缩级别分为1-9,99及999几个级别。压缩级别越高,表明压缩率越高;同时,相对的压缩速度会减慢,而且压缩所需内存增加。一般而言,当压缩级别为1时,仅需64 KB的内存(本文实验过程正是采用了该级别)。因此,本文选择LZO1X-1字符压缩算法作为编码压缩阶段方法。

3.4 压缩方法效率分析

表3的两阶段压缩方法性能可看出,无论地理栅格数据是否存在信息冗余,两阶段压缩方法均至少可达近50%的压缩率。两阶段压缩方法压缩和解压速度也会随着数据冗余量的增大而增大,对于实验数据,其压缩速度最大达到1294.79 MB/s、解压速度最大到达766.89 MB/s。综合压缩率和压缩/解压速率看,两阶段压缩方法优于表1中所列的单一字符压缩方法。上述数字充分体现了两阶段压缩方法在高压缩率及即时性2个方面均具有显著的优势。
Tab.3 Performance of two-phase compression method

表3 两阶段压缩方法性能

CE/(%) CT/10-2 s UCT/10-2 s


Fig.4 Data transmission efficient based on the two-phase compression method

图4 基于两阶段压缩方法数据传输效率

Tab.4 Com-transmission rate via the two-phase compression method

表4 基于两阶段压缩方法的压缩传输比

2 4 8 16 32 64
(13 225行×13 795列)
2.50 2.49 2.49 2.47 2.64 2.69
(33 063行×34 488列)
- 2.54 2.60 2.76 2.73 2.75

4 结语


