The Status and Development Trend of Disaggregation of Socio-economic Data

WU Jidong; WANG Xu; WANG Cailin; HE Xin; YE Mengqi

doi:10.12082/dqxxkx.2018.180137

Journal of Geo-information Science >

2018 , Vol. 20 >Issue 9: 1252 - 1262

DOI: https://doi.org/10.12082/dqxxkx.2018.180137

The Status and Development Trend of Disaggregation of Socio-economic Data

WU Jidong ^,¹^,² ,
WANG Xu ¹^,² ,
WANG Cailin ¹^,² ,
HE Xin ¹^,² ,
YE Mengqi ¹^,²

Expand

1. Key Laboratory of Environmental Change and Natural Disaster,MOE,Faculty of Geographical Science,Beijing Normal University,Beijing 100875,China
2. Academy of Disaster Reduction and Emergency Management,MCA & MOE,Beijing 100875,China;

*Corresponding author: WU Jidong; E-mail: wujidong@bnu.edu.cn

Received date: 2018-03-15

Request revised date: 2018-06-27

Online published: 2018-09-25

Supported by

National Natural Science Foundation of China, No.41571492

National Key Research and Development Program, No.2016YFA0602403.

Copyright

《地球信息科学学报》编辑部所有

Fold

Abstract

There is a spatial unit mismatch between statistical socio-economic data that based on administrative division statistics and geographic elements expressed in spatial grid units. It requires spatial processing technique to solve this mismatch. Research on the disaggregation of socio-economic data currently focuses on the indicators of population and gross domestic product. There is relatively few disaggregation of other socio-economic indicators, such as capital stock and housing which are essential input data for risk analysis. Dozens of spatial disaggregation models exist for different research objects. According to the differences in disaggregation ideas and methods of disaggregation, disaggregation models can be classified into three categories: area weighting method, statistical model method, and multi-source data fusion method. Area weighting method is simple but was criticized by its low resolution when applied on small scale studies. Statistical model method is widely used in disaggregation of large-scale socioeconomic statistical data, but needs sufficient spatial data for spatial statistics. While these methods can produce acceptable results, their actual resolution cannot be considered ideal. With the updating and appearing of new data sources for the disaggregation of socio-economic data, multi-source data fusion method has become the main disaggregation method recently. Moreover, the data and methods needed for disaggregation are continuously improved. Comparing principles, advantages and disadvantages of different disaggregation methods, we can see that diversification of socio-economic research indicators and spatial precision requirements, and wide application of big data are the development trend of disaggregation of socio-economic data. Meanwhile, the appearance of new data source is an important opportunity for improving spatial accuracy of the disaggregation. Overall, disaggregation of the socioeconomic data will be a hot subject for future study, one of the reasons for which is the increase of the research needs for high resolution grid data. Another reason is that research institutes and publishers have paid more attention to the scientific data which is reflected by new emerging scientific data journals.

Key words： socio-economic data; population; disaggregation; research progress; big data; raster dataset

Cite this article

WU Jidong , WANG Xu , WANG Cailin , HE Xin , YE Mengqi . The Status and Development Trend of Disaggregation of Socio-economic Data[J]. Journal of Geo-information Science, 2018 , 20(9) : 1252 -1262 . DOI: 10.12082/dqxxkx.2018.180137

1 引言

社会经济统计数据反映了一个地区一段时间内社会和经济的发展状况,同时也是各级政府进行宏观经济管理以及各行业主管部门制定未来发展规划的重要依据^[1]。传统的社会经济数据按行政单元进行搜集、调查和汇编等统计工作获得,并以分区统计表的形式发布;而地理研究中地理要素主要以空间栅格单元分布表达;二者存在空间单元不匹配、数据结构无法融合等问题^[2]。以自然灾害风险分析为例,基于行政单元的统计数据和基于栅格单元的致灾强度数据存在空间不匹配的问题,无法准确衡量暴露在不同致灾因子强度下的人口及财富。社会经济数据空间化就是根据社会经济数据潜在的时空分布特点,采用科学有效的空间化方法将统计数据空间展布到具有一定分辨率的空间栅格单元上,以此来模拟社会经济数据在地理空间上的分布,解决统计数据与空间地理要素数据格式不匹配的问题^[3,4]。

人口空间化是社会经济统计数据空间化关注的重要领域^[5,6],目前全球栅格人口分布数据应用最广的有WorldPop^[7]、LandScan^[8]、全球人口数据库^[9]等;其次为国内生产总值（GDP）空间化^{[10,11,12,13]}。也有研究针对房屋建筑面积进行空间化以进行地震等自然灾害风险评估^{[14,15,16,17,18,19,20,21]}：杨海霞等^[14,15]针对城市、乡镇、农村居民区以及其它建筑区等不同土地利用类型,结合高程、坡度、河流、道路等自然地理和社会经济因子,建立建筑物空间分布权重模型,以实现统计单元总建筑面积展布到格网;邓宏宇和孙柏涛^[16]基于“面向对象特征提取技术”从遥感影像提取建筑物信息用于地震应急管理;韩贞辉等^[17]根据单位面积实地调查抽样区人口密度与人均住房面积的关系实现不同房屋结构的建筑面积空间化;丁文秀等^[18]通过抽样调查数据构建了公里格网尺度房屋面积与城镇建筑用地、农居建筑用地和人均国内生产总值的回归模型,来估计房屋面积的空间分布密度,进而基于城镇与农村不同发达程度下房屋结构类型的比例关系来估计不同建筑结构类型房屋的面积;Thieken等^[20]基于不同土地利用类型下住宅单位面积资产价值构建德国住宅资产价值空间产分布图;Wyss等^[21]针对大城市、小城市和农村人口密度差异估计全球房屋存量的分布以用于全球风险评估。

从空间化方法来看,Goodchild等^[21,22,23]1993年提出面插值法进行社会经济数据的空间化,但其区域内均一化的假设与实际不符。随着遥感技术的发展,卫星遥感数据精度不断提高,土地利用数据的应用逐渐普遍。基于不同土地利用类型与社会经济统计数据的相关性分析,提出了许多空间化研究方法,如面积权重法^[10]、距离衰减指数模型^[24]等。全球尺度的社会经济数据库则多采用降尺度的方法建立^[24,25]。最近几年,夜间灯光数据被广泛应用到社会经济数据空间化研究中,尤其在GDP空间化及城市化进程研究中都有很好的表现,但也存在中心城区灯光溢出问题^{[26,27,28,29,30,31]}。开源数据OpenStreetMap通过众包的方法收集了街道、建筑物、兴趣点等数据,利用这些数据进行人口的空间分布模拟也有很好的效果^{[32,33,34,35]}。本文在对比分析不同空间化的思想和方法差异的基础上,讨论了社会经济数据空间化研究的现状和发展趋势,以期为空间化研究特别是空间化精度的提高提供参考。

2 空间化方法研究现状

社会经济统计数据空间化方法可以归纳为面积权重法、统计模型法和多源数据融合法3大类（表1）。

Tab. 1 Comparison of major disaggregation models

表1 主要空间化模型的综合比较

研究方法	相关模型	基本原理	优势	不足	主要数据
面积权重法	无辅助数据的权重插值模型^[36]	假设研究对象在空间上均匀分布,根据次一级的格网占整体的面积比例计算其值	所需数据源少,便捷	与实际差异较大	行政区划
面积权重法	有辅助数据的权重插值模型^[37]	通过辅助数据限定研究对象在空间分布范围,并根据面积比重计算空间分布值,以期符合实际	缩小了社会经济数据的空间分布范围误差,更贴近实际	区域均匀分布的结果不能表达空间差异	行政区划、土地利用、居民点信息等
统计模型法	数学函数模型^{[38,39,40,41,42,43,44,45,46,47]}	通过已有的数学函数引入参数建立模型,模拟社会经济数据的空间分布	引入数学函数表达空间差异,科学性强,理论基础完备	数学函数较复杂,参数设置针对性强,不易理解	中心密度、带宽
统计模型法	分区密度制图模型^[48,49,50]	不同地区密度存在差异,将研究区根据特征范围划分等级,不同等级建立不同的密度模型	分区概念符合实际,模型简单易懂	区域划分难度会随分区细化程度逐渐增加	人口密度、土地利用、居民点分布、地形、道路等
多源数据融合法	因子权重模型^[30,51-57]	确定不同影响因子对要素空间分布的权重系数,最后叠加得到空间分布结果	要素空间分布更加贴近实际	确定不同因子的权重过程复杂,可控性差	土地利用、居民点分布、夜间灯光、手机信令、道路等
多源数据融合法	多元回归模型^[58]	不同影响因子之间也存在相互影响,通过多种影响因子建立回归模型模拟社会经济数据空间分布	多源数据融合弥补了单一要素表达空间分布密度的不足	不同数据的融合过程容易产生误差,计算过程复杂	土地利用、夜间灯光、手机信令等

2.1 面积权重法

面积权重法在社会经济数据空间化研究中应用最早^[22]。主要思路是：假设社会经济数据在一定的区域内均匀分布,范围较大的行政区域被定义为源区域,一定分辨率的格网单元被定义为目标区域。通过计算目标区域面积在源区域中的占比来决定社会经济数据的分布。以人口密度为例,面积权重法可以用图1来解释^[35],图中A,B表示人口密度分别为POPden_A、POPden_B的源区域,由a、b两个面积为Area_a、Area_b的子区域组成的格网单元表示目标区域C,则目标区域C的人口密度POPden_C为：

POPde n C = POPde n A × Are a a + POPde n B × Are a b Are a a + Are a b

（1）

View original graphic|Download|PPT slide

Fig. 1 Diagram of the areal weighting interpolation method

图1 面积权重法图解^[35]

根据是否使用其他辅助数据可以将其分为无辅助数据的权重插值模型和有辅助数据的权重插值模型^[23,36-37]。无辅助数据的权重插值模型基于数学逻辑关系,将统计数据进行空间展布^[36]。但是,源区域上的社会经济数据空间分布具有一定范围,有些地方在逻辑上很可能不存在社会经济活动。比如,人口的空间分布研究中,河流湖泊在逻辑上是不会有常住人口分布的,可以通过辅助数据将水体部分去除,使空间化结果更加贴近实际。应用最多的辅助数据是土地利用类型数据,尤其在人口和GDP的空间化研究中。金有杰等^[37]在城乡区域划分基础上,假设研究区内相同土地利用类型人口分布系数相同,通过分析各镇人口、GDP与不同土地利用类型面积的相关性,确定分布系数建立空间化模型,模拟了南京市浦口区人口和GDP的空间分布,并据此建立了暴雨洪涝灾害承灾体脆弱性空间分布图^[37]。面积权重法方法简单,较大尺度的应用结果可靠,但是无法满足高分辨率的空间化数据要求。

2.2 统计模型法

2.2.1 数学函数模型

通过已有的数学函数来模拟社会经济数据的空间分布也可以得到较好的结果^{[38,39,40,41,42,43,44,45,46,47]}。比如,负指数模型、空间Copula统计模型和随机森林法等。最早在城市地理学中假设人口密度从市中心向外围存在递减的规律,采用距离衰减模型来模拟人口的空间分布^[39,40]。空间Copula模型将各个随机变量的一元分布边缘函数连接起来,用以表示多元随机变量的联合分布函数。通过Copula函数可以估计未知参数^[41,42],是对非高斯分布、多峰的极值数据进行空间模拟的有效工具^[43]。随机森林模型是一种基于决策树的数据挖掘方法^[43,44],通过行政级别的人口密度变量与若干个协变量拟合一个随机森林模型可以预测栅格单元级的人口密度^[45,46]（图2）,也是WorldPop全球人口数据集的主要生成方法^[7]。谭敏等^[47]选取了道路网络、夜间灯光、建成区范围、水体以及地形坡度等多个变量因子,利用随机森林模型探索了不同空间变量与珠江三角洲人口空间分布之间的关系,对珠江三角洲2010年人口统计数据进行了30 m格网的空间分布模拟。

View original graphic|Download|PPT slide

Fig. 2 Diagram of spatial population density disaggregation base on the random forest method

图2 基于随机森林法的人口密度示意图^[47]

2.2.2 分区密度制图模型

人口的空间化研究中,城镇地区的人口密度较大,乡村地区人口密度较小,二者之间差异明显。所以根据辅助数据对研究区进行适当的分区,分别建模,设置参数,由此得到的空间化结果可以避免空间分布过程中造成高值区低估、低值区高估的两极化问题^[30]。目前主要的分区原则有：按自然地理环境分区、按城乡范围分区以及按居民地分区^[6,48]。通过不断地提高分区的细化等级可以最大程度的减小由区域间差异造成的空间化误差。以人口为例,真实的人口分布由单独的点表示,如图3（b）所示^[49],但通常是无法准确获取的;而统计数据只提供区域的总和（图3（a））。均匀展布法重新分配人口到格网上（图3（d））,并通过次一级区域实际人口计算误差（图3（c））。通过识别区域空间特征可以进一步缩小人口分布范围,如图3（e）所示。但这样会造成农村地区被高估、城市地区被低估的情况,所以需要更多辅助信息划分人口密度不同的区域,如城市、郊区和农村,如图3（f）所示。根据诸多详细的分区信息（公共设施密度等）可以划分更多的层次,可以揭示更为详细的空间分布模式。丁文秀等^[50]在城乡分区的基础上利用人口数据样本建立模型模拟不同地区人口的分布,并应用到巴东地震灾情评估中。分区密度制图模型的核心是根据社会经济数据在空间上的分布密度差异划分区域。随着划分层级的提高,难度也不断增加,所以有一定的局限性。

View original graphic|Download|PPT slide

Fig. 3 Framework of multi-layer and multi-class dasymetric model

图3 分区密度制图模型图解^[49]

2.3 多源数据融合法

社会经济活动的空间分布与多种社会经济因素相关。随着认识的逐渐深入,研究者发现仅通过单一因素来模拟社会经济要素的空间分布难以满足精度的要求,采用多源数据融合法成为趋势^[51,52,53],主要包括道路交通^[3]、人口密度^[7]、地形地貌^[12]（坡度、土地利用）、夜间灯光数据^[30]、居民点密度^[54]和手机信令等数据的融合^[55,56,57]。多源数据融合法的主要研究思路为：通过相关性分析,分析不同影响因子与社会经济统计数据之间的关系,选取几个最主要的影响因素通过加权或回归的方法建立模型,最后利用次级行政区的社会经济统计值进行校正。

因子权重思路为：根据相关性分析结果选择主要影响因子后,计算不同影响因子对社会经济数据空间分布的权重系数W,然后按照权重分配统计数据

G sum

,并根据影响因子格网单元值

valu e i

占整体的比重计算格网的社会经济数据值,最后求和得到格网上的社会经济数据值

G i

：

$G_{i}=G_{sum}\times W_{1}\times \frac{value_{i1}}{\sum\limits_{i1=1}value1}+G_{sum}\times W_{2}\times \frac{value_{i2}}{\sum\limits_{i2=1}value2}$(2)

通过权重系数可以得到不同影响因子对社会经济数据的影响程度。但是实际情况中,不同的影响因子之间也存在着一定相关关系,所以需要通过多元回归的方法建模。多元回归模型可以在综合考虑多源影响因子的同时排除不同影响因子之间的干扰,以期达到更准确的空间化结果^[53]。为了解决低人口密度地区被高估、高人口密度地区被低估的问题,Cockx等^[58]通过逐步回归的方法最终选取房屋类型和家庭规模信息为最佳影响因子模拟了人口的空间分布^[58]。王珂靖等^[48]在土地利用数据的基础上加入夜间灯光数据建立多元回归模型模拟人口的空间分布,是对原有的基于土地利用的回归方法的改进。Wu等^[51]分别利用人口密度、道路网密度和夜间灯光代用数据来表征建筑物、基础设施和其它固定资产的空间分布密度,将3类固定资产存量价值从地市行政单元进行公里格网空间化,并生成高精度的中国2015年固定资产存量价值空间密度分布图。总之,采用多源数据进行空间化可以弥补单一因子表达社会经济要素空间位置和分布密度的不足。

从上述已有主要空间化模型的基本原理及特征可以看出：面积权重法简单但是无法对局部差异进行表达,适用于较大尺度;统计模型法科学性强,但是对城市等空间异质性大的地区表达精度有限;多源数据融合法考虑多种社会经济因素,全面的表达空间差异,适用范围更广,已成为目前空间化研究的主要趋势。目前的空间化研究具有2个特点：①模型从单一影响因子向多因子融合分析发展。随着辅助数据可获得性不断地增加,考虑影响社会经济数据空间分布的自然、人文、经济要素等多源数据融合建模可以弥补各自表达的不足,使模拟结果更加地贴近实际分布;②不同数据的融合方法更科学。社会经济数据的影响因子存在相互联系,简单的叠加处理无法抵消这部分影响。随着数据源种类增多,不同数据之间的关系也更复杂,采用科学的融合处理方法成为空间化研究的重要步骤。

3 研究趋势

3.1 空间化指标更加多样化

随着空间化方法研究的深入、大数据的挖掘和精细化管理需求的增加,除人口、GDP以外的社会经济对象空间分布特征模拟也受到学者的关注。尤其在灾害风险分析领域,需要综合考虑人口、房屋、资本存量等多种承灾体的空间分布^{[51,52,53,54,55,56,57,58,59]}。 Ibrahim等^[35]回顾了近几十年气候变化研究领域被关注的社会经济指标,指出GDP在表达社会经济发展情况具有一定的局限性。非GDP统计指标的经济活动空间化研究也逐渐增多,顾羊羊等利用夜间灯光数据和能源消费数据模拟得到了区域碳排放空间分布特征和规律^[60]。而对于人口的空间分布研究需求也不断细化,不仅要分析人口的时空分布特征,还要分析不同人群的时空分布特征^[61]。随着研究需求的增加,未来的社会经济研究指标会更加的多样化。以人口为基础,包括资本存量、房屋等研究指标的空间分布模拟逐渐受到关注。

3.2 空间化精度要求不断提高

时间和空间分辨率是空间化精度的重要参数,空间分辨率越高则说明空间表达精度越高;同时,在快速城市化和人口膨胀带来的社会经济活动急剧变化背景下,自然灾害风险和社会管理的精细化也对动态社会经济空间数据及其时间分辨率提出了需求。实际研究过程中主要根据研究对象、研究范围、数据源限制、模型方法等来确定时空分辨率。以人口为例,一天之内,人口的空间分布存在巨大差异,模拟人口的时空移动特征对于城市应急管理具有重要的价值^[62,63]。研究中应用最多的空间分辨率为1 km,尤其在全球、国家及省级尺度的研究中非常常见^[52,64],而到了县市及以下的研究区则要求有更高的空间分辨率,如30、50、100 m等^{[65,66,67,68]}。不同的研究对象对空间分辨率的要求也不一样,如房屋资产价值等要求空间分辨率达到可以识别独栋房屋价值为最佳,而人口由于其空间流动性,过高的空间分辨率无法保证其模拟结果的准确性,需要根据数据源等选取适宜的空间分辨率^[6]。

空间分辨率的高低与应用需求密切结合。Figueiredo等^[69]以建筑物为例通过回归拟合分析了空间分辨率的选择如何影响洪水风险评估模型的不确定性和误差,并从概念上说明二者之间应该存在的平衡。结果如图4（c）所示,采用低分辨率可以降低模型的不确定性（灰色曲线）,但是会带来较大的风险评估误差（黑色线条）,所以二者的交集可以对应最佳的平衡范围。图4（a）、（b）分别为500 m×500 m和125 m×125 m分辨率的格网表达效果,可以作为模型最佳分辨率选取的参考。随着科学技术的进步,社会经济数据空间分布精度要求越来越高,如何在降低不确定性的同时提高时空分辨率是未来空间化研究的难点之一。

View original graphic|Download|PPT slide

Fig. 4 Building grids with resolutions of 500 m×500 m and 125 m×125 m and their relationship with flood risk assessment uncertainty

图4 不同分辨率建筑格网表达及与洪水风险评估不确定性的关系^[69]

3.3 大数据的应用越加广泛

随着移动互联网、物联网、智能移动终端的发展,地理信息大数据来源越来越丰富。李德仁^[70]将大数据的特点总结为：体量大、速度快、模态多样、真伪难辨、价值大,并指出时空数据挖掘将是未来的研究热点。大数据可以很好地捕捉到社会经济特征,而传统的遥感数据能力有限。手机的广泛使用使得通过手机定位系统获取长序列高精度人口流动数据成为可能。将电信数据与人口普查数据结合起来,可以用于创建易于更新的实时人口估计数据集^[71]。钟炜菁等^[72]利用手机信令数据,分析了上海市人口空间动态分布特征,发现了人口的向心流动模式。通过互联网以及交通部门获取的诸如社交网站签到数据^[73,74]、电子地图兴趣点数据^[75]、道路交通^[76]等定位数据可以反映城市时间空间行为的特征,它为人口时空动态分布监测,城市应急管理提供了新的技术与途径^[77]。公交刷卡数据是记录人的出行行为的大数据,图5为龙瀛等^[78]根据北京市公交刷卡记录分析得到的通勤形态的时空分布。手机和互联网技术为时空数据挖掘提供了新的资源,大数据在社会经济数据空间分布模拟研究中的应用也越加广泛。

View original graphic|Download|PPT slide

Fig. 5 Identified commuting pattern for extreme commuting trips and main commuting directions using the bus smartcard data

图5 基于公交卡记录的北京市中心区极端出行和通勤链接形态^[78]

基于多智能体模型的高空间分辨率人口空间分布模拟也取得了较好的结果^[79]。近几年社交网络数据在社会经济数据空间化研究中也展现了很好的价值^[80,81]。大数据的空间属性越来越强,如何挖掘大数据在社会经济数据空间化研究中的价值将是未来的研究热点。

总之,社会经济数据空间化可利用的数据越来越丰富,从卫星遥感数据、社会经济统计数据到抽样调查数据,再到具有精确地理位置信息和实时动态变化的手机信令数据、网络文本等大数据,可以获取的社会经济活动时空变化信息越来越多、越来越精确,也为社会经济数据空间化精度提高,特别是动态空间数据的生成和应用提供了可能。

4 结论与讨论

随着对社会经济数据的认识不断深入,人口、GDP之外的社会经济数据指标如固定资产存量、房屋价值等也得到了更多的关注,尤其是固定资产存量的空间化研究对于灾害风险分析意义重大^[51]。通过分析直接或间接暴露于自然灾害中的诸多社会经济指标可以更准确地刻画灾害风险^[82]。本文总结了目前社会经济统计数据空间化的研究方法,并根据空间化研究思想将其分为面积权重法、统计模型法和多源数据融合法3大类,详细介绍了不同方法的特点及代表模型。针对目前的研究进展,本文对未来的社会经济数据空间化研究提出3点研究趋势：社会经济研究指标更加多样化、空间化精度要求不断提高和大数据的应用越加广泛。

研究需求的增加促使社会经济数据空间化研究指标更加丰富,关注点也不再仅仅只是人口、GDP的静态空间分布模拟,其动态时空特征分析和模拟也更加重要。如何针对性地选取辅助数据建立模型是关键。随着研究的精细化,未来对空间化精度的要求也会不断提高。手机的普及、网络技术的进步使得大数据的时间、空间属性不断增强,如何充分挖掘大数据的价值,将其合理地应用到社会经济数据的空间化研究中仍然面临着挑战。

空间化精度的提高是社会经济数据空间化关注的核心问题,但是由于社会经济活动具有高度的空间异质性,目前的空间化方法仍很难刻画局部的空间异质性。例如,土地利用类型分布图可以很好区分社会经济活动的空间分布,但是城市用地内部经济活动的空间密度分布则很难获得,即使夜间灯光强度在一定程度上可以反映城市用地内部经济活动的空间密度分布,但往往存在过饱和以及灯光与经济活动实际不匹配的问题。一方面,包括兴趣点、手机信令等新的数据源的出现,可以为空间化精度的提高带来契机;另一方面,空间化栅格单元的细化不代表实际空间化精度的提高,而空间化格网单元的选择应与实际研究的问题尺度相匹配,即可以通过不同栅格单元造成的误差对比优选适用的栅格单元分辨率范围。

目前的社会经济数据空间化研究依然存在诸多不确定性。如数据时间不匹配问题,统计数据主要针对的是某一特定时间段,而作为辅助数据的代用指标与统计数据存在着时间差异,一般要求代用指标与模拟数据保持在同一个时间得到的结果是可靠的,即保证时间上的一致性。但是受数据获取难易程度及更新周期等因素限制,会造成模拟过程中的时间不匹配问题,这给空间化结果带来了一定的不确定性。因此,社会经济数据的空间化研究需要在创新方法的同时关注空间化过程中可能造成不确定性的因素。总之,社会经济统计数据的空间化将逐步成为研究热点,一方面是由于科学研究的细化对格网化数据的需求增加,另一方面是科研机构和出版商等对空间化数据的重视,具体反映在近年来国内外出现的科学数据出版相关期刊的增多,且已出版大量社会经济统计数据空间化的科学数据。

The authors have declared that no competing interests exist.

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]

胡云锋,王倩倩,刘越,等.国家尺度社会经济数据格网化原理和方法[J].地球信息科学学报,2011,13(5):573-578.

空间信息获取和处理技术,可将传统关系型社会经济数据转变为空间化的矢量或者格网数据。首先,分析了传统关系型社会经济数据库的不足,并对社会经济数据格网化理论研究及格网数据库建设的历史做了回顾;在明确社会经济数据格网化基本概念的基础上,提出了社会经济数据格网化的3个基本要求,即时间可比、空间一致和逻辑自洽;同时提出了一个包括24个关键指标的国家尺度社会经济格网数据库的指标体系,认为社会经济格网数据库生产过程的主要步骤为逻辑检查、空间匹配、代码匹配、空间离散和检查校验;研究对国家尺度社会经济指标的空间离散过程和离散模型、不同层级社会经济数据的整合和离散策略进行了重点分析。研究最后就社会经济数据格网化过程中存在的主要问题进行了总结。

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 空间化方法研究现状

Tab. 1 Comparison of major disaggregation models

2.1 面积权重法

Fig. 1 Diagram of the areal weighting interpolation method

2.2 统计模型法

Fig. 2 Diagram of spatial population density disaggregation base on the random forest method

Fig. 3 Framework of multi-layer and multi-class dasymetric model

2.3 多源数据融合法

3 研究趋势

3.1 空间化指标更加多样化

3.2 空间化精度要求不断提高

Fig. 4 Building grids with resolutions of 500 m×500 m and 125 m×125 m and their relationship with flood risk assessment uncertainty

3.3 大数据的应用越加广泛

Fig. 5 Identified commuting pattern for extreme commuting trips and main commuting directions using the bus smartcard data

4 结论与讨论

References