The Status and Development Trend of Disaggregation of Socio-economic Data

There is a spatial unit mismatch between statistical socio-economic data that based on administrative division statistics and geographic elements expressed in spatial grid units. It requires spatial processing technique to solve this mismatch. Research on the disaggregation of socio-economic data currently focuses on the indicators of population and gross domestic product. There is relatively few disaggregation of other socio-economic indicators, such as capital stock and housing which are essential input data for risk analysis. Dozens of spatial disaggregation models exist for different research objects. According to the differences in disaggregation ideas and methods of disaggregation, disaggregation models can be classified into three categories: area weighting method, statistical model method, and multi-source data fusion method. Area weighting method is simple but was criticized by its low resolution when applied on small scale studies. Statistical model method is widely used in disaggregation of large-scale socioeconomic statistical data, but needs sufficient spatial data for spatial statistics. While these methods can produce acceptable results, their actual resolution cannot be considered ideal. With the updating and appearing of new data sources for the disaggregation of socio-economic data, multi-source data fusion method has become the main disaggregation method recently. Moreover, the data and methods needed for disaggregation are continuously improved. Comparing principles, advantages and disadvantages of different disaggregation methods, we can see that diversification of socio-economic research indicators and spatial precision requirements, and wide application of big data are the development trend of disaggregation of socio-economic data. Meanwhile, the appearance of new data source is an important opportunity for improving spatial accuracy of the disaggregation. Overall, disaggregation of the socioeconomic data will be a hot subject for future study, one of the reasons for which is the increase of the research needs for high resolution grid data. Another reason is that research institutes and publishers have paid more attention to the scientific data which is reflected by new emerging scientific data journals.

1 引言


2 空间化方法研究现状

Tab. 1 Comparison of major disaggregation models

表1 主要空间化模型的综合比较

研究方法 相关模型 基本原理 优势 不足 主要数据
面积权重法 无辅助数据的权重插值模型[36] 假设研究对象在空间上均匀分布,根据次一级的格网占整体的面积比例计算其值 所需数据源少,便捷 与实际差异较大 行政区划
有辅助数据的权重插值模型[37] 通过辅助数据限定研究对象在空间分布范围,并根据面积比重计算空间分布值,以期符合实际 缩小了社会经济数据的空间分布范围误差,更贴近实际 区域均匀分布的结果不能表达空间差异 行政区划、土地利用、居民点信息等
统计模型法 数学函数
通过已有的数学函数引入参数建立模型,模拟社会经济数据的空间分布 引入数学函数表达空间差异,科学性强,理论基础完备 数学函数较复杂,参数设置针对性强,不易理解 中心密度、带宽
不同地区密度存在差异,将研究区根据特征范围划分等级,不同等级建立不同的密度模型 分区概念符合实际,模型简单易懂 区域划分难度会随分区细化程度逐渐增加 人口密度、土地利用、居民点分布、地形、道路等
多源数据融合法 因子权重
确定不同影响因子对要素空间分布的权重系数,最后叠加得到空间分布结果 要素空间分布更加贴近实际 确定不同因子的权重过程复杂,可控性差 土地利用、居民点分布、夜间灯光、手机信令、道路等
多元回归模型[58] 不同影响因子之间也存在相互影响,通过多种影响因子建立回归模型模拟社会经济数据空间分布 多源数据融合弥补了单一要素表达空间分布密度的不足 不同数据的融合过程容易产生误差,计算过程复杂 土地利用、夜间灯光、手机信令等

2.1 面积权重法

POPde n C = POPde n A × Are a a + POPde n B × Are a b Are a a + Are a b (1)
Fig. 1 Diagram of the areal weighting interpolation method

图1 面积权重法图解[35]


2.2 统计模型法

2.2.1 数学函数模型
通过已有的数学函数来模拟社会经济数据的空间分布也可以得到较好的结果[38,39,40,41,42,43,44,45,46,47]。比如,负指数模型、空间Copula统计模型和随机森林法等。最早在城市地理学中假设人口密度从市中心向外围存在递减的规律,采用距离衰减模型来模拟人口的空间分布[39,40]。空间Copula模型将各个随机变量的一元分布边缘函数连接起来,用以表示多元随机变量的联合分布函数。通过Copula函数可以估计未知参数[41,42],是对非高斯分布、多峰的极值数据进行空间模拟的有效工具[43]。随机森林模型是一种基于决策树的数据挖掘方法[43,44],通过行政级别的人口密度变量与若干个协变量拟合一个随机森林模型可以预测栅格单元级的人口密度[45,46]图2),也是WorldPop全球人口数据集的主要生成方法[7]。谭敏等[47]选取了道路网络、夜间灯光、建成区范围、水体以及地形坡度等多个变量因子,利用随机森林模型探索了不同空间变量与珠江三角洲人口空间分布之间的关系,对珠江三角洲2010年人口统计数据进行了30 m格网的空间分布模拟。
Fig. 2 Diagram of spatial population density disaggregation base on the random forest method

图2 基于随机森林法的人口密度示意图[47]

2.2.2 分区密度制图模型
Fig. 3 Framework of multi-layer and multi-class dasymetric model

图3 分区密度制图模型图解[49]

2.3 多源数据融合法

因子权重思路为:根据相关性分析结果选择主要影响因子后,计算不同影响因子对社会经济数据空间分布的权重系数W,然后按照权重分配统计数据 G sum ,并根据影响因子格网单元值 valu e i 占整体的比重计算格网的社会经济数据值,最后求和得到格网上的社会经济数据值 G i
$G_{i}=G_{sum}\times W_{1}\times \frac{value_{i1}}{\sum\limits_{i1=1}value1}+G_{sum}\times W_{2}\times \frac{value_{i2}}{\sum\limits_{i2=1}value2}$(2)

3 研究趋势

3.1 空间化指标更加多样化

随着空间化方法研究的深入、大数据的挖掘和精细化管理需求的增加,除人口、GDP以外的社会经济对象空间分布特征模拟也受到学者的关注。尤其在灾害风险分析领域,需要综合考虑人口、房屋、资本存量等多种承灾体的空间分布[51,52,53,54,55,56,57,58,59]。 Ibrahim等[35]回顾了近几十年气候变化研究领域被关注的社会经济指标,指出GDP在表达社会经济发展情况具有一定的局限性。非GDP统计指标的经济活动空间化研究也逐渐增多,顾羊羊等利用夜间灯光数据和能源消费数据模拟得到了区域碳排放空间分布特征和规律[60]。而对于人口的空间分布研究需求也不断细化,不仅要分析人口的时空分布特征,还要分析不同人群的时空分布特征[61]。随着研究需求的增加,未来的社会经济研究指标会更加的多样化。以人口为基础,包括资本存量、房屋等研究指标的空间分布模拟逐渐受到关注。

3.2 空间化精度要求不断提高

时间和空间分辨率是空间化精度的重要参数,空间分辨率越高则说明空间表达精度越高;同时,在快速城市化和人口膨胀带来的社会经济活动急剧变化背景下,自然灾害风险和社会管理的精细化也对动态社会经济空间数据及其时间分辨率提出了需求。实际研究过程中主要根据研究对象、研究范围、数据源限制、模型方法等来确定时空分辨率。以人口为例,一天之内,人口的空间分布存在巨大差异,模拟人口的时空移动特征对于城市应急管理具有重要的价值[62,63]。研究中应用最多的空间分辨率为1 km,尤其在全球、国家及省级尺度的研究中非常常见[52,64],而到了县市及以下的研究区则要求有更高的空间分辨率,如30、50、100 m等[65,66,67,68]。不同的研究对象对空间分辨率的要求也不一样,如房屋资产价值等要求空间分辨率达到可以识别独栋房屋价值为最佳,而人口由于其空间流动性,过高的空间分辨率无法保证其模拟结果的准确性,需要根据数据源等选取适宜的空间分辨率[6]
空间分辨率的高低与应用需求密切结合。Figueiredo等[69]以建筑物为例通过回归拟合分析了空间分辨率的选择如何影响洪水风险评估模型的不确定性和误差,并从概念上说明二者之间应该存在的平衡。结果如图4(c)所示,采用低分辨率可以降低模型的不确定性(灰色曲线),但是会带来较大的风险评估误差(黑色线条),所以二者的交集可以对应最佳的平衡范围。图4(a)、(b)分别为500 m×500 m和125 m×125 m分辨率的格网表达效果,可以作为模型最佳分辨率选取的参考。随着科学技术的进步,社会经济数据空间分布精度要求越来越高,如何在降低不确定性的同时提高时空分辨率是未来空间化研究的难点之一。
Fig. 4 Building grids with resolutions of 500 m×500 m and 125 m×125 m and their relationship with flood risk assessment uncertainty

图4 不同分辨率建筑格网表达及与洪水风险评估不确定性的关系[69]

3.3 大数据的应用越加广泛

Fig. 5 Identified commuting pattern for extreme commuting trips and main commuting directions using the bus smartcard data

图5 基于公交卡记录的北京市中心区极端出行和通勤链接形态[78]


4 结论与讨论


