The Status and Development Trend of Disaggregation of Socio-economic Data

  • WU Jidong , 1, 2 ,
  • WANG Xu 1, 2 ,
  • WANG Cailin 1, 2 ,
  • HE Xin 1, 2 ,
  • YE Mengqi 1, 2
Expand
  • 1. Key Laboratory of Environmental Change and Natural Disaster,MOE,Faculty of Geographical Science,Beijing Normal University,Beijing 100875,China
  • 2. Academy of Disaster Reduction and Emergency Management,MCA & MOE,Beijing 100875,China;
*Corresponding author: WU Jidong; E-mail:

Received date: 2018-03-15

  Request revised date: 2018-06-27

  Online published: 2018-09-25

Supported by

National Natural Science Foundation of China, No.41571492

National Key Research and Development Program, No.2016YFA0602403.

Copyright

《地球信息科学学报》编辑部 所有

Abstract

There is a spatial unit mismatch between statistical socio-economic data that based on administrative division statistics and geographic elements expressed in spatial grid units. It requires spatial processing technique to solve this mismatch. Research on the disaggregation of socio-economic data currently focuses on the indicators of population and gross domestic product. There is relatively few disaggregation of other socio-economic indicators, such as capital stock and housing which are essential input data for risk analysis. Dozens of spatial disaggregation models exist for different research objects. According to the differences in disaggregation ideas and methods of disaggregation, disaggregation models can be classified into three categories: area weighting method, statistical model method, and multi-source data fusion method. Area weighting method is simple but was criticized by its low resolution when applied on small scale studies. Statistical model method is widely used in disaggregation of large-scale socioeconomic statistical data, but needs sufficient spatial data for spatial statistics. While these methods can produce acceptable results, their actual resolution cannot be considered ideal. With the updating and appearing of new data sources for the disaggregation of socio-economic data, multi-source data fusion method has become the main disaggregation method recently. Moreover, the data and methods needed for disaggregation are continuously improved. Comparing principles, advantages and disadvantages of different disaggregation methods, we can see that diversification of socio-economic research indicators and spatial precision requirements, and wide application of big data are the development trend of disaggregation of socio-economic data. Meanwhile, the appearance of new data source is an important opportunity for improving spatial accuracy of the disaggregation. Overall, disaggregation of the socioeconomic data will be a hot subject for future study, one of the reasons for which is the increase of the research needs for high resolution grid data. Another reason is that research institutes and publishers have paid more attention to the scientific data which is reflected by new emerging scientific data journals.

Cite this article

WU Jidong , WANG Xu , WANG Cailin , HE Xin , YE Mengqi . The Status and Development Trend of Disaggregation of Socio-economic Data[J]. Journal of Geo-information Science, 2018 , 20(9) : 1252 -1262 . DOI: 10.12082/dqxxkx.2018.180137

1 引言

社会经济统计数据反映了一个地区一段时间内社会和经济的发展状况,同时也是各级政府进行宏观经济管理以及各行业主管部门制定未来发展规划的重要依据[1]。传统的社会经济数据按行政单元进行搜集、调查和汇编等统计工作获得,并以分区统计表的形式发布;而地理研究中地理要素主要以空间栅格单元分布表达;二者存在空间单元不匹配、数据结构无法融合等问题[2]。以自然灾害风险分析为例,基于行政单元的统计数据和基于栅格单元的致灾强度数据存在空间不匹配的问题,无法准确衡量暴露在不同致灾因子强度下的人口及财富。社会经济数据空间化就是根据社会经济数据潜在的时空分布特点,采用科学有效的空间化方法将统计数据空间展布到具有一定分辨率的空间栅格单元上,以此来模拟社会经济数据在地理空间上的分布,解决统计数据与空间地理要素数据格式不匹配的问题[3,4]
人口空间化是社会经济统计数据空间化关注的重要领域[5,6],目前全球栅格人口分布数据应用最广的有WorldPop[7]、LandScan[8]、全球人口数据库[9]等;其次为国内生产总值(GDP)空间化[10,11,12,13]。也有研究针对房屋建筑面积进行空间化以进行地震等自然灾害风险评估[14,15,16,17,18,19,20,21]:杨海霞等[14,15]针对城市、乡镇、农村居民区以及其它建筑区等不同土地利用类型,结合高程、坡度、河流、道路等自然地理和社会经济因子,建立建筑物空间分布权重模型,以实现统计单元总建筑面积展布到格网;邓宏宇和孙柏涛[16]基于“面向对象特征提取技术”从遥感影像提取建筑物信息用于地震应急管理;韩贞辉等[17]根据单位面积实地调查抽样区人口密度与人均住房面积的关系实现不同房屋结构的建筑面积空间化;丁文秀等[18]通过抽样调查数据构建了公里格网尺度房屋面积与城镇建筑用地、农居建筑用地和人均国内生产总值的回归模型,来估计房屋面积的空间分布密度,进而基于城镇与农村不同发达程度下房屋结构类型的比例关系来估计不同建筑结构类型房屋的面积;Thieken等[20]基于不同土地利用类型下住宅单位面积资产价值构建德国住宅资产价值空间产分布图;Wyss等[21]针对大城市、小城市和农村人口密度差异估计全球房屋存量的分布以用于全球风险评估。
从空间化方法来看,Goodchild等[21,22,23]1993年提出面插值法进行社会经济数据的空间化,但其区域内均一化的假设与实际不符。随着遥感技术的发展,卫星遥感数据精度不断提高,土地利用数据的应用逐渐普遍。基于不同土地利用类型与社会经济统计数据的相关性分析,提出了许多空间化研究方法,如面积权重法[10]、距离衰减指数模型[24]等。全球尺度的社会经济数据库则多采用降尺度的方法建立[24,25]。最近几年,夜间灯光数据被广泛应用到社会经济数据空间化研究中,尤其在GDP空间化及城市化进程研究中都有很好的表现,但也存在中心城区灯光溢出问题[26,27,28,29,30,31]。开源数据OpenStreetMap通过众包的方法收集了街道、建筑物、兴趣点等数据,利用这些数据进行人口的空间分布模拟也有很好的效果[32,33,34,35]。本文在对比分析不同空间化的思想和方法差异的基础上,讨论了社会经济数据空间化研究的现状和发展趋势,以期为空间化研究特别是空间化精度的提高提供参考。

2 空间化方法研究现状

社会经济统计数据空间化方法可以归纳为面积权重法、统计模型法和多源数据融合法3大类(表1)。
Tab. 1 Comparison of major disaggregation models

表1 主要空间化模型的综合比较

研究方法 相关模型 基本原理 优势 不足 主要数据
面积权重法 无辅助数据的权重插值模型[36] 假设研究对象在空间上均匀分布,根据次一级的格网占整体的面积比例计算其值 所需数据源少,便捷 与实际差异较大 行政区划
有辅助数据的权重插值模型[37] 通过辅助数据限定研究对象在空间分布范围,并根据面积比重计算空间分布值,以期符合实际 缩小了社会经济数据的空间分布范围误差,更贴近实际 区域均匀分布的结果不能表达空间差异 行政区划、土地利用、居民点信息等
统计模型法 数学函数
模型[38,39,40,41,42,43,44,45,46,47]
通过已有的数学函数引入参数建立模型,模拟社会经济数据的空间分布 引入数学函数表达空间差异,科学性强,理论基础完备 数学函数较复杂,参数设置针对性强,不易理解 中心密度、带宽
分区密度制图
模型[48,49,50]
不同地区密度存在差异,将研究区根据特征范围划分等级,不同等级建立不同的密度模型 分区概念符合实际,模型简单易懂 区域划分难度会随分区细化程度逐渐增加 人口密度、土地利用、居民点分布、地形、道路等
多源数据融合法 因子权重
模型[30,51-57]
确定不同影响因子对要素空间分布的权重系数,最后叠加得到空间分布结果 要素空间分布更加贴近实际 确定不同因子的权重过程复杂,可控性差 土地利用、居民点分布、夜间灯光、手机信令、道路等
多元回归模型[58] 不同影响因子之间也存在相互影响,通过多种影响因子建立回归模型模拟社会经济数据空间分布 多源数据融合弥补了单一要素表达空间分布密度的不足 不同数据的融合过程容易产生误差,计算过程复杂 土地利用、夜间灯光、手机信令等

2.1 面积权重法

面积权重法在社会经济数据空间化研究中应用最早[22]。主要思路是:假设社会经济数据在一定的区域内均匀分布,范围较大的行政区域被定义为源区域,一定分辨率的格网单元被定义为目标区域。通过计算目标区域面积在源区域中的占比来决定社会经济数据的分布。以人口密度为例,面积权重法可以用图1来解释[35],图中A,B表示人口密度分别为POPdenAPOPdenB的源区域,由a、b两个面积为AreaaAreab的子区域组成的格网单元表示目标区域C,则目标区域C的人口密度POPdenC为:
POPde n C = POPde n A × Are a a + POPde n B × Are a b Are a a + Are a b (1)
Fig. 1 Diagram of the areal weighting interpolation method

图1 面积权重法图解[35]

根据是否使用其他辅助数据可以将其分为无辅助数据的权重插值模型和有辅助数据的权重插值模型[23,36-37]。无辅助数据的权重插值模型基于数学逻辑关系,将统计数据进行空间展布[36]。但是,源区域上的社会经济数据空间分布具有一定范围,有些地方在逻辑上很可能不存在社会经济活动。比如,人口的空间分布研究中,河流湖泊在逻辑上是不会有常住人口分布的,可以通过辅助数据将水体部分去除,使空间化结果更加贴近实际。应用最多的辅助数据是土地利用类型数据,尤其在人口和GDP的空间化研究中。金有杰等[37]在城乡区域划分基础上,假设研究区内相同土地利用类型人口分布系数相同,通过分析各镇人口、GDP与不同土地利用类型面积的相关性,确定分布系数建立空间化模型,模拟了南京市浦口区人口和GDP的空间分布,并据此建立了暴雨洪涝灾害承灾体脆弱性空间分布图[37]。面积权重法方法简单,较大尺度的应用结果可靠,但是无法满足高分辨率的空间化数据要求。

2.2 统计模型法

2.2.1 数学函数模型
通过已有的数学函数来模拟社会经济数据的空间分布也可以得到较好的结果[38,39,40,41,42,43,44,45,46,47]。比如,负指数模型、空间Copula统计模型和随机森林法等。最早在城市地理学中假设人口密度从市中心向外围存在递减的规律,采用距离衰减模型来模拟人口的空间分布[39,40]。空间Copula模型将各个随机变量的一元分布边缘函数连接起来,用以表示多元随机变量的联合分布函数。通过Copula函数可以估计未知参数[41,42],是对非高斯分布、多峰的极值数据进行空间模拟的有效工具[43]。随机森林模型是一种基于决策树的数据挖掘方法[43,44],通过行政级别的人口密度变量与若干个协变量拟合一个随机森林模型可以预测栅格单元级的人口密度[45,46]图2),也是WorldPop全球人口数据集的主要生成方法[7]。谭敏等[47]选取了道路网络、夜间灯光、建成区范围、水体以及地形坡度等多个变量因子,利用随机森林模型探索了不同空间变量与珠江三角洲人口空间分布之间的关系,对珠江三角洲2010年人口统计数据进行了30 m格网的空间分布模拟。
Fig. 2 Diagram of spatial population density disaggregation base on the random forest method

图2 基于随机森林法的人口密度示意图[47]

2.2.2 分区密度制图模型
人口的空间化研究中,城镇地区的人口密度较大,乡村地区人口密度较小,二者之间差异明显。所以根据辅助数据对研究区进行适当的分区,分别建模,设置参数,由此得到的空间化结果可以避免空间分布过程中造成高值区低估、低值区高估的两极化问题[30]。目前主要的分区原则有:按自然地理环境分区、按城乡范围分区以及按居民地分区[6,48]。通过不断地提高分区的细化等级可以最大程度的减小由区域间差异造成的空间化误差。以人口为例,真实的人口分布由单独的点表示,如图3(b)所示[49],但通常是无法准确获取的;而统计数据只提供区域的总和(图3(a))。均匀展布法重新分配人口到格网上(图3(d)),并通过次一级区域实际人口计算误差(图3(c))。通过识别区域空间特征可以进一步缩小人口分布范围,如图3(e)所示。但这样会造成农村地区被高估、城市地区被低估的情况,所以需要更多辅助信息划分人口密度不同的区域,如城市、郊区和农村,如图3(f)所示。根据诸多详细的分区信息(公共设施密度等)可以划分更多的层次,可以揭示更为详细的空间分布模式。丁文秀等[50]在城乡分区的基础上利用人口数据样本建立模型模拟不同地区人口的分布,并应用到巴东地震灾情评估中。分区密度制图模型的核心是根据社会经济数据在空间上的分布密度差异划分区域。随着划分层级的提高,难度也不断增加,所以有一定的局限性。
Fig. 3 Framework of multi-layer and multi-class dasymetric model

图3 分区密度制图模型图解[49]

2.3 多源数据融合法

社会经济活动的空间分布与多种社会经济因素相关。随着认识的逐渐深入,研究者发现仅通过单一因素来模拟社会经济要素的空间分布难以满足精度的要求,采用多源数据融合法成为趋势[51,52,53],主要包括道路交通[3]、人口密度[7]、地形地貌[12](坡度、土地利用)、夜间灯光数据[30]、居民点密度[54]和手机信令等数据的融合[55,56,57]。多源数据融合法的主要研究思路为:通过相关性分析,分析不同影响因子与社会经济统计数据之间的关系,选取几个最主要的影响因素通过加权或回归的方法建立模型,最后利用次级行政区的社会经济统计值进行校正。
因子权重思路为:根据相关性分析结果选择主要影响因子后,计算不同影响因子对社会经济数据空间分布的权重系数W,然后按照权重分配统计数据 G sum ,并根据影响因子格网单元值 valu e i 占整体的比重计算格网的社会经济数据值,最后求和得到格网上的社会经济数据值 G i
$G_{i}=G_{sum}\times W_{1}\times \frac{value_{i1}}{\sum\limits_{i1=1}value1}+G_{sum}\times W_{2}\times \frac{value_{i2}}{\sum\limits_{i2=1}value2}$(2)
通过权重系数可以得到不同影响因子对社会经济数据的影响程度。但是实际情况中,不同的影响因子之间也存在着一定相关关系,所以需要通过多元回归的方法建模。多元回归模型可以在综合考虑多源影响因子的同时排除不同影响因子之间的干扰,以期达到更准确的空间化结果[53]。为了解决低人口密度地区被高估、高人口密度地区被低估的问题,Cockx等[58]通过逐步回归的方法最终选取房屋类型和家庭规模信息为最佳影响因子模拟了人口的空间分布[58]。王珂靖等[48]在土地利用数据的基础上加入夜间灯光数据建立多元回归模型模拟人口的空间分布,是对原有的基于土地利用的回归方法的改进。Wu等[51]分别利用人口密度、道路网密度和夜间灯光代用数据来表征建筑物、基础设施和其它固定资产的空间分布密度,将3类固定资产存量价值从地市行政单元进行公里格网空间化,并生成高精度的中国2015年固定资产存量价值空间密度分布图。总之,采用多源数据进行空间化可以弥补单一因子表达社会经济要素空间位置和分布密度的不足。
从上述已有主要空间化模型的基本原理及特征可以看出:面积权重法简单但是无法对局部差异进行表达,适用于较大尺度;统计模型法科学性强,但是对城市等空间异质性大的地区表达精度有限;多源数据融合法考虑多种社会经济因素,全面的表达空间差异,适用范围更广,已成为目前空间化研究的主要趋势。目前的空间化研究具有2个特点:①模型从单一影响因子向多因子融合分析发展。随着辅助数据可获得性不断地增加,考虑影响社会经济数据空间分布的自然、人文、经济要素等多源数据融合建模可以弥补各自表达的不足,使模拟结果更加地贴近实际分布;②不同数据的融合方法更科学。社会经济数据的影响因子存在相互联系,简单的叠加处理无法抵消这部分影响。随着数据源种类增多,不同数据之间的关系也更复杂,采用科学的融合处理方法成为空间化研究的重要步骤。

3 研究趋势

3.1 空间化指标更加多样化

随着空间化方法研究的深入、大数据的挖掘和精细化管理需求的增加,除人口、GDP以外的社会经济对象空间分布特征模拟也受到学者的关注。尤其在灾害风险分析领域,需要综合考虑人口、房屋、资本存量等多种承灾体的空间分布[51,52,53,54,55,56,57,58,59]。 Ibrahim等[35]回顾了近几十年气候变化研究领域被关注的社会经济指标,指出GDP在表达社会经济发展情况具有一定的局限性。非GDP统计指标的经济活动空间化研究也逐渐增多,顾羊羊等利用夜间灯光数据和能源消费数据模拟得到了区域碳排放空间分布特征和规律[60]。而对于人口的空间分布研究需求也不断细化,不仅要分析人口的时空分布特征,还要分析不同人群的时空分布特征[61]。随着研究需求的增加,未来的社会经济研究指标会更加的多样化。以人口为基础,包括资本存量、房屋等研究指标的空间分布模拟逐渐受到关注。

3.2 空间化精度要求不断提高

时间和空间分辨率是空间化精度的重要参数,空间分辨率越高则说明空间表达精度越高;同时,在快速城市化和人口膨胀带来的社会经济活动急剧变化背景下,自然灾害风险和社会管理的精细化也对动态社会经济空间数据及其时间分辨率提出了需求。实际研究过程中主要根据研究对象、研究范围、数据源限制、模型方法等来确定时空分辨率。以人口为例,一天之内,人口的空间分布存在巨大差异,模拟人口的时空移动特征对于城市应急管理具有重要的价值[62,63]。研究中应用最多的空间分辨率为1 km,尤其在全球、国家及省级尺度的研究中非常常见[52,64],而到了县市及以下的研究区则要求有更高的空间分辨率,如30、50、100 m等[65,66,67,68]。不同的研究对象对空间分辨率的要求也不一样,如房屋资产价值等要求空间分辨率达到可以识别独栋房屋价值为最佳,而人口由于其空间流动性,过高的空间分辨率无法保证其模拟结果的准确性,需要根据数据源等选取适宜的空间分辨率[6]
空间分辨率的高低与应用需求密切结合。Figueiredo等[69]以建筑物为例通过回归拟合分析了空间分辨率的选择如何影响洪水风险评估模型的不确定性和误差,并从概念上说明二者之间应该存在的平衡。结果如图4(c)所示,采用低分辨率可以降低模型的不确定性(灰色曲线),但是会带来较大的风险评估误差(黑色线条),所以二者的交集可以对应最佳的平衡范围。图4(a)、(b)分别为500 m×500 m和125 m×125 m分辨率的格网表达效果,可以作为模型最佳分辨率选取的参考。随着科学技术的进步,社会经济数据空间分布精度要求越来越高,如何在降低不确定性的同时提高时空分辨率是未来空间化研究的难点之一。
Fig. 4 Building grids with resolutions of 500 m×500 m and 125 m×125 m and their relationship with flood risk assessment uncertainty

图4 不同分辨率建筑格网表达及与洪水风险评估不确定性的关系[69]

3.3 大数据的应用越加广泛

随着移动互联网、物联网、智能移动终端的发展,地理信息大数据来源越来越丰富。李德仁[70]将大数据的特点总结为:体量大、速度快、模态多样、真伪难辨、价值大,并指出时空数据挖掘将是未来的研究热点。大数据可以很好地捕捉到社会经济特征,而传统的遥感数据能力有限。手机的广泛使用使得通过手机定位系统获取长序列高精度人口流动数据成为可能。将电信数据与人口普查数据结合起来,可以用于创建易于更新的实时人口估计数据集[71]。钟炜菁等[72]利用手机信令数据,分析了上海市人口空间动态分布特征,发现了人口的向心流动模式。通过互联网以及交通部门获取的诸如社交网站签到数据[73,74]、电子地图兴趣点数据[75]、道路交通[76]等定位数据可以反映城市时间空间行为的特征,它为人口时空动态分布监测,城市应急管理提供了新的技术与途径[77]。公交刷卡数据是记录人的出行行为的大数据,图5为龙瀛等[78]根据北京市公交刷卡记录分析得到的通勤形态的时空分布。手机和互联网技术为时空数据挖掘提供了新的资源,大数据在社会经济数据空间分布模拟研究中的应用也越加广泛。
Fig. 5 Identified commuting pattern for extreme commuting trips and main commuting directions using the bus smartcard data

图5 基于公交卡记录的北京市中心区极端出行和通勤链接形态[78]

基于多智能体模型的高空间分辨率人口空间分布模拟也取得了较好的结果[79]。近几年社交网络数据在社会经济数据空间化研究中也展现了很好的价值[80,81]。大数据的空间属性越来越强,如何挖掘大数据在社会经济数据空间化研究中的价值将是未来的研究热点。
总之,社会经济数据空间化可利用的数据越来越丰富,从卫星遥感数据、社会经济统计数据到抽样调查数据,再到具有精确地理位置信息和实时动态变化的手机信令数据、网络文本等大数据,可以获取的社会经济活动时空变化信息越来越多、越来越精确,也为社会经济数据空间化精度提高,特别是动态空间数据的生成和应用提供了可能。

4 结论与讨论

随着对社会经济数据的认识不断深入,人口、GDP之外的社会经济数据指标如固定资产存量、房屋价值等也得到了更多的关注,尤其是固定资产存量的空间化研究对于灾害风险分析意义重大[51]。通过分析直接或间接暴露于自然灾害中的诸多社会经济指标可以更准确地刻画灾害风险[82]。本文总结了目前社会经济统计数据空间化的研究方法,并根据空间化研究思想将其分为面积权重法、统计模型法和多源数据融合法3大类,详细介绍了不同方法的特点及代表模型。针对目前的研究进展,本文对未来的社会经济数据空间化研究提出3点研究趋势:社会经济研究指标更加多样化、空间化精度要求不断提高和大数据的应用越加广泛。
研究需求的增加促使社会经济数据空间化研究指标更加丰富,关注点也不再仅仅只是人口、GDP的静态空间分布模拟,其动态时空特征分析和模拟也更加重要。如何针对性地选取辅助数据建立模型是关键。随着研究的精细化,未来对空间化精度的要求也会不断提高。手机的普及、网络技术的进步使得大数据的时间、空间属性不断增强,如何充分挖掘大数据的价值,将其合理地应用到社会经济数据的空间化研究中仍然面临着挑战。
空间化精度的提高是社会经济数据空间化关注的核心问题,但是由于社会经济活动具有高度的空间异质性,目前的空间化方法仍很难刻画局部的空间异质性。例如,土地利用类型分布图可以很好区分社会经济活动的空间分布,但是城市用地内部经济活动的空间密度分布则很难获得,即使夜间灯光强度在一定程度上可以反映城市用地内部经济活动的空间密度分布,但往往存在过饱和以及灯光与经济活动实际不匹配的问题。一方面,包括兴趣点、手机信令等新的数据源的出现,可以为空间化精度的提高带来契机;另一方面,空间化栅格单元的细化不代表实际空间化精度的提高,而空间化格网单元的选择应与实际研究的问题尺度相匹配,即可以通过不同栅格单元造成的误差对比优选适用的栅格单元分辨率范围。
目前的社会经济数据空间化研究依然存在诸多不确定性。如数据时间不匹配问题,统计数据主要针对的是某一特定时间段,而作为辅助数据的代用指标与统计数据存在着时间差异,一般要求代用指标与模拟数据保持在同一个时间得到的结果是可靠的,即保证时间上的一致性。但是受数据获取难易程度及更新周期等因素限制,会造成模拟过程中的时间不匹配问题,这给空间化结果带来了一定的不确定性。因此,社会经济数据的空间化研究需要在创新方法的同时关注空间化过程中可能造成不确定性的因素。总之,社会经济统计数据的空间化将逐步成为研究热点,一方面是由于科学研究的细化对格网化数据的需求增加,另一方面是科研机构和出版商等对空间化数据的重视,具体反映在近年来国内外出现的科学数据出版相关期刊的增多,且已出版大量社会经济统计数据空间化的科学数据。

The authors have declared that no competing interests exist.

[1]
胡云锋,王倩倩,刘越,等.国家尺度社会经济数据格网化原理和方法[J].地球信息科学学报,2011,13(5):573-578.空间信息获取和处理技术,可将传统关系型社会经济数据转变为空间化的矢量或者格网数据。首先,分析了传统关系型社会经济数据库的不足,并对社会经济数据格网化理论研究及格网数据库建设的历史做了回顾;在明确社会经济数据格网化基本概念的基础上,提出了社会经济数据格网化的3个基本要求,即时间可比、空间一致和逻辑自洽;同时提出了一个包括24个关键指标的国家尺度社会经济格网数据库的指标体系,认为社会经济格网数据库生产过程的主要步骤为逻辑检查、空间匹配、代码匹配、空间离散和检查校验;研究对国家尺度社会经济指标的空间离散过程和离散模型、不同层级社会经济数据的整合和离散策略进行了重点分析。研究最后就社会经济数据格网化过程中存在的主要问题进行了总结。

DOI

[ Hu Y F, Wang Q Q, Liu Y, et al.Index system and transferring methods to build the national society and economy grid database[J]. Geo-information Science, 2011,13(5):573-578. ]

[2]
李飞,张树文,杨久春,等.社会经济数据空间化研究进展[J].地理与地理信息科学,2014,30(4):102-107.

[ Li F, Zhang S W, Yang J C, et al.A review on research about disaggregation of socioeconomic data[J]. Geography and geo-information science, 2014,30(4):102-107. ]

[3]
Bono A D, Mora M G.A global exposure model for disaster risk assessment[J]. International Journal of Disaster Risk Reduction, 2014,10:442-451.The Global Exposure database is being produced for the Global Risk Assessment 2013, part of the Global Assessment Report 2013 (GAR 2013). It aims to map at a granular geographical level the world07s capital stock in urban areas. It is designed primarily to assess the risk of economic losses as consequence of natural hazards at a global scale. The Global Exposure database for GAR 2013 (GEG-2013) is an open exposure global dataset at 5km spatial resolution which integrates population and country-specific building typology, use and value. It is currently suitable mainly for earthquakes and cyclones probabilistic risk modeling using the CAPRA platform (http://www.ecapra.org). This paper describes the development of the GEG-2013. The database is based on a top-down or “downscaling” approach of national/regional socio-economic and building type information. These information are transposed onto a regular raster dataset (grid format) using a geographic population distribution model as a proxy.

DOI

[4]
马静,焦文献.我国社会统计数据空间化研究综述[J].未来与发展,2008(3):25-28.

[ Ma J, Jiao W X.A review on pixelizing of social statistical data[J].Future and Development, 2008(3):25-28. ]

[5]
江东,王乃斌,刘红辉.人口数据空间化的处理方法[J].地理学报,2002,57(B12):70-75.

[ Jiang D, Wang N B, Liu H H, et al.Method of pixelizing population data[J]. Acta Geographica Sinica, 2002,57(B12):70-75. ]

[6]
董南,杨小唤,蔡红艳.人口数据空间化研究进展[J].地球信息科学学报,2016,18(10):1295-1304.<p>人口数据空间化旨在揭示人口在地理空间上的分布位置及数量信息,展现人口统计数据的地理学含义,其研究已经成为人口学、地理学、GIS领域的研究热点。人口空间数据库在各级政府部门的规划和决策、灾害评估、资源配置等方面,具有重要的应用价值和科学意义。经过近30年的发展,人口数据空间化研究水平逐渐成熟,模型丰富多样,已获得众多成果。为把握人口空间化研究的研究现状,本文首先依据研究目的、建模思想及模型原理的异同,从3个方面对人口空间化研究进行梳理:(1)格网大小(尺度)的确定;(2)3种常用建模思想及6类主要模型的对比分析;(3)提高人口空间化精度的措施及其应用背景、优点。在此基础上,依据现阶段人口数据空间化的研究内容,从格网尺度适宜性研究、高时空分辨率人口空间分布模拟、引入新型数据源及多思想多模型综合应用等方面探讨了人口数据空间化的研究方向。</p>

DOI

[ Dong N, Yang X H, Cai H Y.Research progress and perspective on the disaggregation of population data[J]. Geo-information Science, 2016,18(10):1295-1304. ]

[7]
Lloyd C T, Sorichetta A, Tatem A J.High resolution global gridded data for use in population studies[J]. Scientific Data, 2017,4:170001.Recent years have seen substantial growth in openly available satellite and other geospatial data layers, which represent a range of metrics relevant to global human population mapping at fine spatial scales. The specifications of such data differ widely and therefore the harmonisation of data layers is a prerequisite to constructing detailed and contemporary spatial datasets which accurately describe population distributions. Such datasets are vital to measure impacts of population growth, monitor change, and plan interventions. To this end the WorldPop Project has produced an open access archive of 3 and 30 arc-second resolution gridded data. Four tiled raster datasets form the basis of the archive: (i) Viewfinder Panoramas topography clipped to Global ADMinistrative area (GADM) coastlines; (ii) a matching ISO 3166 country identification grid; (iii) country area; (iv) and slope layer. Further layers include transport networks, landcover, nightlights, precipitation, travel time to major cities, and waterways. Datasets and production methodology are here described. The archive can be downloaded both from the WorldPop Dataverse Repository and the WorldPop Project website.

DOI PMID

[8]
Dobson J E, Bright E A, Coleman P R, et al.LandScan: A global population database for estimating populations at risk[J]. Photogrammetric engineering and remote sensing, 2000,66(7):849-857.

[9]
Doxsey-Whitfield E, MacManus K, Adamo S B, et al. Taking advantage of the improved availability of census data: a first look at the gridded population of the world, version 4[J]. Papers in Applied Geography, 2015,1(3):226-234.

DOI

[10]
刘红辉,江东,杨小唤,等.基于遥感的全国GDP 1km 格网的空间化表达[J].地球信息科学学报,2005,7(2):120-123.针对资源环境研究领域对空间型社会经济数据的需求,在我国经济社会的区域差异的综合分析基础上,对现有的统计型行政单元主要社会经济发展指标国内生产总值(GDP)进行空间化模拟,建立了统一空间坐标参数、统一数据格式、统一的数据和元数据标准的全国1km格网水平社会经济空间数据库。利用1995年遥感数据建立的1:100000比例尺土地利用格局分布图,综合分析人类活动形成的土地利用状态与GDP大小的空间互动规律,建立影响经济发展的关键因素评估模型,通过一、二、三产业GDP与土地利用类型的空间关联性,分区建立1995年县级GDP和土地利用格局的空间关联度模型库,实现在1km格网的社会经济数据的空间定量模拟。

[ Liu H H, Jiang D, Yang X H, et al.Disaggregation approach to 1 km grid GDP supported by remote sensing[J]. Geo-information Science, 2005,7(2):120-123. ]

[11]
钟凯文,黎景良,张晓东.土地可持续利用评价中GDP数据空间化方法的研究[J].测绘信息与工程,2007,32(3):10-12.分析了社会经济统计数据的空间化方法及GDP空间分布情况,提出了一种应用遥感和GIS技术,以土地利用类型为基础,结合面积权重与反距离加权的GDP数据空间化方法,实现了广东省韶关市GDP空间化。

DOI

[ Zhong K W, Li J L, Zhang X D.GDP disaggregation in land sustainable use assessment[J]. Journal of Geomatics, 2007,32(3):10-12. ]

[12]
韩向娣,周艺,王世新,等.基于夜间灯光和土地利用数据的GDP空间化[J].遥感技术与应用,2012,27(3):396-405.<p>GDP是社会经济发展、区域规划和资源环境保护的重要指标之一。然而,传统以各级行政单元为主的GDP统计资料无法显示区域内部GDP的差异,尝试通过GDP空间化来解决这个问题,以满足资源环境研究领域对空间型社会经济数据的需求。在分析总结国内外社会经济数据空间化技术方法的基础上,第一产业基于土地利用数据建模\,第二产业和第三产业基于DMSP/OLS与土地利用数据结合生成的土地灯光参数建模。为提高模型质量,全国按照省级行政边界分区,将因变量GDP分产业分区建模,第一产业绝大部分区域的模型精度在0.7~0.95之间,第二产业和第三产业绝大部分区域的模型精度在0.8~0.98之间。通过与其他GDP空间化技术和结果的比较分析,本研究中的GDP空间化方法无论是模型精度还是GDP密度分布结果都具有一定的优势。生成的GDP密度图能较完整地反映全国GDP分布细节以及宏观分布特征,可为将来经济策略和发展路线的绘制提供一定依据。</p>

[ Han X T, Zhou Y, Wang S X, et al.GDP disaggregation in China based on DMSP/OLS data and land use data[J]. Remote Sensing Technology and Application, 2012,27(3):396-405. ]

[13]
梁友嘉,徐中民.基于夜间灯光辐射数据的张掖市甘州区GDP空间分布建模[J].冰川冻土,2013,35(1):249-254.<p>尽管近年来统计数据的生成技术有了很大提高, 但可用的详细GDP空间分布数据始终难以得到满足. 以夜间灯光辐射数据、 官方统计数据和已有空间化人口分布数据构建了一种GDP空间化建模方法, 得到张掖市甘州区2000年的GDP空间分布. 首先, 分析基于乡镇单元的GDP与对应的夜间灯光辐射数据DN值之间的关系, 得到GDP模拟模型; 然后结合人口空间分布数据和三次产业的比例, 得到基于500 m&times;500 m栅格的GDP空间分布图. 各乡镇的GDP平均值为372&times;10<sup>4</sup>元, 标准差为34&times;10<sup>4</sup>元.</p>

DOI

[ Liang Y J, Xu Z M.Modeling the spatial distribution of GDP based on night light radiation: A case study in Ganzhou District, Zhangye Municipality[J]. Journal of Glaciology and Geocryology, 2013,35(1):249-254. ]

[14]
杨海霞. 建筑物空间分布格网化方法研究[D].北京:中国地震局地震预测研究所,2015.

[ Yang H X.Research on the Geometrical Method of Building Spatial Distribution[D]. Beijing: Institute of Earthquake Science CEA, 2015. ]

[15]
杨海霞,王晓青,窦爱霞,等.基于RS和GIS的建筑物空间分布格网化方法研究[J].地震,2015,35(3):136-146.

[ Yang H X, Wang X Q, Dou A X, et al.Multi-source and multi-factor gridding method of housing distribution based on RS and GIS[J]. Earthquake, 2015,35(3):136-146. ]

[16]
邓宏宇,孙柏涛.遥感技术在地震应急基础数据库建设中的应用[J].地震工程与工程振动,2013,33(3):81-87.

[ Deng H, Sun B.The application of remote sensing technology in the construction of earthquake emergency foundational database[J]. Earthquake Engineering and Engineering Vibration, 2013,33(3):81-87. ]

[17]
韩贞辉,李志强,陈振拓,等.人口、房屋数据空间化及其在震灾快速评估中的应用——以彝良地震为例[J].地震地质,2013,35(4):894-906.介绍了人口、房屋数据空间化的方法,并首次利用实地调查数据对结果进行了验证,获得了符合实际应用要求的1km格网人口和房屋数据。以彝良地震为例,利用GIS软件空间分析功能,叠加地震烈度图和格网人口与房屋数据,获得受灾人口和受灾房屋数据,并对彝良地震云南灾区的地震直接经济损失进行了估算,相比官方公布的调查结果,误差为-6%。研究结果表明,1km格网的人口密度图、房屋密度图合理地反映了统计单元内部的人口和房屋分布的实际情况,具有较高的精度;利用生成的格网数据进行震害快速评估,可以快速获得可靠的地震灾情信息,包括受灾人口、受灾房屋的数量及分布以及地震直接经济损失等,为地震应急救援和决策提供可靠的依据。

DOI

[ Han Z H, Li Z Q, Chen Z Y, et al.Population, housing statistics data disaggregation research in the application of rapid earthquake loss assessment: A case of Yiliang Earthquake[J]. Seismology and Geology, 2013,35(4):894-906. ]

[18]
丁文秀,李志强,李晓丽,等.四川省房屋数据空间化及在芦山7.0级地震灾情快速评估中的应用[J].灾害学,2015,30(2):128-132.在四川省城乡布局和经济分区的基础上,通过308个房屋数据抽样点(1 km×1 km)并结合土地利用数据,建立分类的房屋数据空间化模型。将其结果应用到芦山7.0级地震震例中,得到以下结论:灾区毁坏与严重破坏房屋数量591 077间,误差为4.1%;房屋直接经济损失估算259.6~300亿元,误差为4.5%~10.2%;死亡人数误差为26.0%~71.9%;受伤人数误差12.7%~22.3%。结果表明:提出的房屋空间化方法较好地体现了实际房屋分布情况,为建立大区域的房屋空间数据提供了途径。用该数据评估得到的灾区房屋倒损、人员伤亡、经济损失数据有较高的可信度。在此基础上以房屋倒损结构类型和面积为指标划分救援区域,为救援力量的合理部署提供依据。

DOI

[ Ding W X, Li Z Q, Li X L, et al.Housing data disaggregation in Sichuan province and its application in fast assessment on Lushan M7.0 earthquake disaster[J]. Journal of Catastrophology, 2015,30(2):128-132. ]

[19]
Thieken A H, Müller M, Kleist L, et al.Regionalisation of asset values for risk analyses[J]. Natural Hazards and Earth System Science, 2006,6(2):167-178.

DOI

[20]
Wyss M, Tolis S, Rosset P, et al.Approximate model for worldwide building stock in three size categories of settlements[R]. Background Paper prepared for the Global Assessment Report on Disaster Risk Reduction, 2013.

[21]
Goodchild M F, Anselin L, Deichmann U.A framework for the areal interpolation of socioeconomic data[J]. Environment and planning A, 1993,25(3):383-397.

DOI

[22]
潘志强,刘高焕.面插值的研究进展[J].地理科学进展,2002,21(2):156-152.空间插值从广义上讲包括点插值和面插值 ,本文从有无辅助数据的角度介绍了还不为多数人熟知的面插值 ,在无辅助数据的方法中介绍了基于点的面插值法、面域比重插值法、使用控制区的面域比重法、Pycnophylactic面插值法等的算法和特点 ,在有辅助数据的方法中介绍了 EM算法和遥感作为辅助数据的面插值法 ,并介绍了面插值中的特例 -统计数据的空间化方法。

DOI

[ Pan Z Q, Liu G H.The research progress of areal interpolation[J]. Progress in Geography, 2002,21(2):156-152. ]

[23]
田永中,陈述彭,岳天祥,等.基于土地利用的中国人口密度模拟[J].地理学报,2004,59(2):283-292.

[ Tian Y Z, Chen S P, Yue T X, et al.Simulation of Chinese population density based on land use[J]. Acta Geographica Sinica, 2004,59(2):283-292. ]

[24]
Gunasekera R, Ishizawa O, Aubrecht C, et al.Developing an adaptive global exposure model to support the generation of country disaster risk profiles[J]. Earth-Science Reviews, 2015,150:594-608.

DOI

[25]
Desai B, Maskrey A, Peduzzi P, et al.Making development sustainable: the future of disaster risk management[R]. Global Assessment Report on Disaster Risk Reduction, 2015.

[26]
Shi K, Yu B, Huang Y, et al.Evaluating the ability of NPP-VIIRS nighttime light data to estimate the gross domestic product and the electric power consumption of China at multiple scales: A comparison with DMSP-OLS data[J]. Remote Sensing, 2014,6(2):1705-1724.

DOI

[27]
卓莉,陈晋,史培军,等.基于夜间灯光数据的中国人口密度模拟[J].地理学报,2005,60(2):266-276.

[ Zhuo L, Chen J, Shi P J, et al.Modeling population density of China in 1998 based on DMSP/OLS nighttime light image[J]. Acta Geographica Sinica, 2005,60(2):266-276. ]

[28]
何春阳,李景刚,陈晋,等.基于夜间灯光数据的环渤海地区城市化过程[J].地理学报,2005,60(3):409-417.利用1992年、1996年和1998年的三期DMSP/OLS夜间灯光数据,提取了区域尺度的环渤海地区20世纪90年代的城市群空间信息,建立了城市群地区面状、线状和点状城市化空间模式,分析了环渤海城市群地区20世纪90年代的城市化过程。基本结论如下:①20世纪90年代环渤海城市群地区城市斑块数量增长较快,城市化过程明显,但小斑块所占比重较大,城市斑块破碎度增加。同时,区域内城市重心基本维持在经度117.93o和纬度38.49o附近,整体上表现出向西北方向移动的趋势。②20世纪90年代环渤海城市群地区城市化过程基本上可以从空间上概括为在中心城市和大城市周围的面状城市化过程、沿交通干线周围的线状城市化过程和广大区域内以新兴小城市或小城镇出现为特征的点状城市化过程三种基本过程。其中,面状城市化过程一直居于优势地位,但面状城市化过程的基本有效范围主要局限在面状城市斑块周围3 ̄4km范围。线状城市化过程和点状城市过程所占的比例相对较小,但表现出明显的增强趋势,在区域内的影响范围正逐渐扩大。

DOI

[He C Y, Li J G, Chen J, et al.The urbanization model and process in Bohai Sea surrounding area in the 1990s by using DMSP/OLS data[J]. Acta Geographica Sinica, 2005,60(3):409-417. ]

[29]
王旭,吴吉东,王海,等.基于夜间灯光和人口密度数据的京津冀GDP空间化对比[J].地球信息科学学报,2016,18(7):969-976.<p>国内生产总值(GDP)是衡量地区经济发展水平的重要指标,GDP的空间化可以为灾害风险分析等多学科交叉研究提供基础数据。空间化代用数据的选择是社会经济统计数据空间化的关键,本文以京津冀地区作为研究区,将夜间灯光、全球人口密度(LandScan)和亚洲人口密度(AsiaPop)空间分布信息作为代用数据,将市级GDP统计数据空间展布到栅格单元,以绝对误差、相对误差和均方根误差为指标,利用县级统计数据对展布结果进行误差分析,并对比3种数据对GDP空间模拟的表达效果。结果表明:相对于夜间灯光和LandScan数据,AsiaPop模拟得到的综合误差最小;基于夜间灯光和LandScan的GDP空间展布误差格局比较接近,即存在经济较发达的市辖区GDP值被低估、市郊区县GDP被高估的误差“两极区”倾向,而基于AsiaPop的GDP空间展布误差格局与经济发展水平关系不密切。因此,利用单一代用数据很难合理地反映经济活动的空间分布,综合夜间灯光、人口密度、道路和建筑物等多源空间数据是提高GDP空间展布精度的发展趋势。</p>

DOI

[ Wang X, Wu J D, Wang H, et al.Comparison of GDP disaggregation in Beijing-Tianjin-Hebei based on night light and population density data[J]. Geo-information Science, 2016,18(7):969-976. ]

[30]
陈晴,侯西勇,吴莉.基于土地利用数据和夜间灯光数据的人口空间化模型对比分析——以黄河三角洲高效生态经济区为例[J].人文地理,2014,29(5):94-100.

[ Chen Q, Hou X Y, Wu L.Comparing of population disaggregation models based on land use data and DMSP/OLS data respectively: A case study in the efficient ecological economic zone of the Yellow River Delta[J]. Human Geography, 2014,29(5):94-100. ]

[31]
Fan J, Ma T, Zhou C, et al.Comparative estimation of urban development in China's cities using socioeconomic and DMSP/OLS night light data[J]. Remote Sensing, 2014,6(8):7840-7856.

DOI

[32]
Rosina K, Hurbánek P, Cebecauer M.Using OpenStreetMap to improve population grids in Europe[J]. Cartography and Geographic Information Science, 2017,44(2):139-151.OpenStreetMap (OSM) database has previously been used to support spatial disaggregation of population data by partly masking out non-residential impervious areas in the European Copernicus imperviousness layer (IL). However, the exact procedure of OSM data incorporation is unknown, and its contribution to the improvement of estimation accuracy has never been studied. In this article, we present a sensitivity study to find out which road categories should be used for masking of IL and how the linear features might be transformed to raster representation. Using Austria and Slovenia as a study area, 2006 commune population counts are disaggregated into 100 m grid cells using 12 versions of modified IL. Further tuning of estimates is performed using CORINE Land Cover (CLC) data in an iterative algorithm. Disaggregated grids are then validated against reference 1 km census-based data. The results show that overall error was reduced thanks to OSM incorporation in all tested scenarios, although the relative improvement varies between as well as within the two countries. The best result (5.3% reduction) was achieved using railways and three major road categories (motorway, trunk, and primary) with double exaggeration of width.

DOI

[33]
Bakillah M, Liang S, Mobasheri A, et al.Fine-resolution population mapping using OpenStreetMap points-of-interest[J]. International Journal of Geographical Information Science, 2014,28(9):1940-1963.2014). Fine-resolution population mapping using OpenStreetMap points-of-interest. International Journal of Geographical Information Science: Vol. 28, No. 9, pp. 1940-1963. doi: 10.1080/13658816.2014.909045

DOI

[34]
闫庆武,卞正富.基于GIS的社会统计数据空间化处理方法[J].云南地理环境研究,2007,19(2):92-97.

[ Yan Q W, Bian Z F.Method of pixelizing social statistical data based on the GIS[J]. Yunnan Geographic Environment Research, 2007,19(2):92-97. ]

[35]
Ibrahim I, Samah A A, Asmawi M Z.Reviews on the socio-economic indicators for spatial urban scale[J]. Planning Malaysia Journal, 2017,15(4):139-150.

[36]
范一大,史培军,辜智慧,等.行政单元数据向网格单元转化的技术方法[J].地理科学,2004,24(1):105-108.

[ Fan Y D, Shi P J, Gu Z H, et al.A method of data gridding from administration cell to gridding cell[J]. Scientia Geographica Sinica, 2004,24(1):105-108. ]

[37]
金有杰,曾燕,邱新法,等.人口与GDP空间化技术支持下的暴雨洪涝灾害承灾体脆弱性分析[J].气象科学,2014,34(5):522-529.基于统计年鉴资料和土地利用数据,分别建立人口、GDP空间化模型,模拟南京市浦口区人口和GDP的空间分布。并结合暴雨洪涝历史灾情数据,探索区县级行政区域暴雨洪涝灾害承灾体脆弱性风险评估技术方法,最终获得100 m×100 m格网的浦口区暴雨洪涝灾害承灾体脆弱性空间分布图。研究结果表明:(1)人口、GDP的空间化模拟结果,既与各镇街统计数据保持一致,又反映了各镇街内部的人口、GDP分布的空间变化,可以为承灾体脆弱性评估提供精细化、可靠的数据源。(2)浦口区暴雨洪涝灾害承灾体脆弱性高风险区,分布在东北部经济较为发达的城镇街道而老山山脉和沿江内陆滩涂地区脆弱性风险较低。

DOI

[ Jin Y J, Zeng Y, Qiu X F, et al.Vulnerability analysis of flood disasters hazard-affected body under the support of disaggregation technology of population and GDP[J]. Journal of the Meteorological Sciences, 2014,34(5):522-529. ]

[38]
杨强,李丽,王运动,等.1935-2010年中国人口分布空间格局及其演变特征[J].地理研究,2016,35(8):1547-1560.在自然地理和社会经济等因素影响作用下,中国东西部人口分布与社会经济长期处于不平衡的发展态势.采用人口分布结构指数、基尼系数、重心迁移、空间自相关等方法,以中国1935-2010年6期人口普查县级统计数据为数据源,实现人口密度分界线的空间刻画和中国人口分布的时空分析.结果表明:受社会历史、自然环境和经济条件的影响,中国人口空间分布的时空演变特征差异相对明显;尽管人口分布的均衡性发展态势不断增强,但总体空间格局并未发生明显的改变;胡焕庸线至今仍能很好地概括中国人口东南地狭人稠、西北地广人稀的空间格局,但该线西侧的甘肃、宁夏、内蒙古等人口密度超过50人/km2的区域面积呈现增长的趋势,且持续向西北扩张.

DOI

[ Yang Q, Li L, Wang Y D, et al.Spatial distribution pattern of population and characteristics of its revolution in China during 1935-2010[J]. Geographical Research, 2016,35(8):1547-1560. ]

[39]
江东,杨小唤,王乃斌,等.基于RS, GIS的人口空间分布研究[J].地球科学进展,2002,17(5):734-738.lt;p>人口的空间分布问题涉及人口学、经济学、地理学等多个学科,统计型人口数据的空间化是&quot;数字地球&quot;的重要研究内容。阐述了人口地域分布的基本理论,回顾了人口空间分布的研究进展,结合研究实践,提出了在遥感、GIS技术支持下,统计型人口数据空间化的研究思路和技术流程,并对该方法的特点和应用前景做了展望。</p>

DOI

[ Jiang D, Yang X H, Wang N B, et al.Study on spatial distribution of population based on remote sensing and GIS[J]. Advance in Earth Sciences, 2002,17(5):734-738. ]

[40]
闫庆武,卞正富,王红.利用泰森多边形和格网平滑的人口密度空间化研究——以徐州市为例[J].武汉大学学报:信息科学版,2011,36(8):987-990.

[ Yan Q W, Bian Z F, Wang H.Census disaggregation based on thiessen polygons and grids[J]. Geomatics and Information Science of Wuhan University, 2011,36(8):987-990. ]

[41]
张强,李剑锋,陈晓宏,等.基于Copula函数的新疆极端降水概率时空变化特征[J].地理学报,2011,66(1):3-12.依据新疆地区53个雨量站1957-2009年日降水资料,根据研究需要,定义了8个极端降水指标。运用K-S法确定降水指标最适概率分布函数,确定十年一遇极端降水量值;在此基础上,采用Copula非参数估计方法,通过Akaike Information Criterion(AIC)法确定两降水指标联合分布函数,系统分析极端降水单变量极值及降水极值二维联合概率分布特征,研究新疆地区降水极值概率变化的空间演变特征。研究结果表明:(1)北疆比南疆湿润,北疆发生极端强降水的概率大,而南疆发生极端弱降水的概率较大,另外,相比较而言,山区要比平原降水多;(2)极端强、弱降水同年发生的概率分布特征复杂,从降水天数来看,一年内同时发生长历时强降水与弱降水事件的概率山区较平原大;从极端降水总量来看,同时发生强降水与弱降水事件的概率在平原区较山区为大;从极端降水强度来看,同时发生强度较大的强降水与弱降水事件的概率在天山南坡较其他地区为大;(3)洪旱发生概率与地形有关,天山是洪旱发生的分界线,山区发生洪旱灾害的概率比平原小。

DOI

[ Zhang Q, Li J F, Chen X H, et al.Spatial variability of probability distribution of extreme precipitation in Xinjiang[J]. Acta Geographica Sinica, 2011,66(1):3-12. ]

[42]
Poulin A, Huard D, Favre A C, et al.Importance of tail dependence in bivariate frequency analysis[J]. Journal of Hydrologic Engineering, 2007,12(4):394-403.

DOI

[43]
方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38.

[ Fang K N, Wu J B, Zhu J P, et al.A review of technologies on random forests[J]. Statistics & Information Forum, 2011,26(3):32-38. ]

[44]
Gaughan A E, Stevens F R, Huang Z, et al.Spatiotemporal patterns of population in mainland China, 1990 to 2010[J]. Scientific data, 2016,3:160005.According to UN forecasts, global population will increase to over 8 billion by 2025, with much of this anticipated population growth expected in urban areas. In China, the scale of urbanization has, and continues to be, unprecedented in terms of magnitude and rate of change. Since the late 1970s, the percentage of Chinese living in urban areas increased from ~18% to over 50%. To quantify these patterns spatially we use time-invariant or temporally-explicit data, including census data for 1990, 2000, and 2010 in an ensemble prediction model. Resulting multi-temporal, gridded population datasets are unique in terms of granularity and extent, providing fine-scale (~100?m) patterns of population distribution for mainland China. For consistency purposes, the Tibet Autonomous Region, Taiwan, and the islands in the South China Sea were excluded. The statistical model and considerations for temporally comparable maps are described, along with the resulting datasets. Final, mainland China population maps for 1990, 2000, and 2010 are freely available as products from the WorldPop Project website and the WorldPop Dataverse Repository.

DOI PMID

[45]
Stevens F R, Gaughan A E, Linard C, et al.Disaggregating census data for population mapping using random forests with remotely-sensed and ancillary data[J]. PloS one, 2015,10(2):e0107042.

DOI

[46]
Sorichetta A, Hornby G M, Stevens F R, et al.High-resolution gridded population datasets for Latin America and the Caribbean in 2010, 2015, and 2020[J]. Scientific data, 2015,2:150045.

DOI

[47]
谭敏,刘凯,柳林,等.基于随机森林模型的珠江三角洲30 m格网人口空间化[J].地理科学进展,2017,36(10):1304-1312.

[ Tan M, Liu K, Liu L, et al.Disaggregation of population in the Pearl River Delta in 30 m grids using random forest model[J]. Progress in Geography, 2017,36(10):1304-1312. ]

[48]
王珂靖,蔡红艳,杨小唤,等.基于城镇居民用地再分类的人口数据空间化方法研究:以长江中游4省为例[J].遥感技术与应用,2015,30(5):987-995.lt;p>基于土地利用数据的人口统计数据空间化方法,在处理过程中会出现同一土地利用类型下人口难以细分的情况,从而影响人口空间数据精度。引入夜间灯光信息并提出了一种基于夜间灯光强度对城镇居民地再分类的人口空间化方法,以改善人口空间数据精度。基于DMSP/OLS夜间灯光及土地利用数据,以长江中游4省为研究区进行方法试验。研究结果显示:利用夜间灯光数据对城镇居民地再分类后,各分区模型的调整R<sup>2</sup>都提高到了0.8以上,人口空间数据总体平均相对误差较重分类前降低了12.32%。说明该方法在提高传统人口数据空间化模型精度的基础上能够细化城镇居民地人口空间分布。</p>

DOI

[ Wang K j, Cai H y, Yang X h, et al. Disaggregation method for census data based on reclassifying residential land use in urban areas: A case study in the middle reaches of the Yangtze River Watershed[J]. Remote Sensing Technology and Application, 2015,30(5):987-995. ]

[49]
Su M D, Lin M C, Hsieh H I, et al.Multi-layer multi-class dasymetric mapping to estimate population distribution[J]. Science of the total environment, 2010,408(20):4807-4816.The spatial patterns of population distribution are very important information for most regional planning and management decisions. But the socioeconomic data are usually published in areal aggregated format due to privacy concerns. Although choropleth maps are used extensively to display spatial distributions of these areal aggregated data, patterns may be distorted due to assumptions of homogeneous distributions and the modifiable areal unit problem. Most human activity, including population distribution, is spatially heterogeneous due to variations in topography and regional development. A multi-layer multi-class dasymetric (MLMCD) framework was proposed in this study to better redistribute the regionally aggregated population statistics into smaller areal units and reveal more realistic spatial population distribution pattern. The Taipei metropolitan area in Taiwan was used as a case study area to demonstrate the disaggregation ability of the proposed framework and the improvements to the traditional binary or multi-class dasymetric method. Assorted data, including remote sensing images, land use zoning, topography, transportation and accessibility to facilities were introduced in different layers to improve the redistribution of aggregated regional population data. The concept of multi-layer multi-class dasymetric modeling is both useful and flexible. Different levels of accuracy in this population redistribution process can be achieved depending on data and budget availabilities and the needs for different data usage purposes.

DOI PMID

[50]
丁文秀,张亦梅,陈振拓,等.湖北省人口数据空间化及在巴东Ms5.1地震灾情盲估中的应用[J].大地测量与地球动力学,2014,34(3):28-30.<p>通过样本数据建模,改进传统的人口分布模型中&ldquo;行政区划的统计样本&rdquo;与&ldquo;网格单元&rdquo;尺度不一致的问题,并将湖北省人口数据空间化结果应用于巴东Ms5.1地震灾情盲估。结果表明,人口数据空间化方法可以较好地反映人口分布情况,用该数据得到的灾情盲估结果有较高的可信度。</p>

[ Ding W X, Zhang Y M, Cheng Z Y, et al.Population grid disaggregation research in Hubei province and the application of rapid earthquake loss assessment: A Case of Badong Ms5. 1 earthquake[J]. Journal of Geodesy and Geodynamics, 2014,34(3):28-30. ]

[51]
Wu J, Li Y, Li N, et al.Development of an asset value map for disaster risk assessment in China by spatial disaggregation using ancillary remote sensing data[J]. Risk Analysis, 2018,38(1):17-30.

DOI

[52]
Bhaduri B, Bright E, Coleman P, et al.LandScan USA: a high-resolution geospatial and temporal modeling approach for population distribution and dynamics[J]. GeoJournal, 2007,69(1-2):103-117.

DOI

[53]
柏中强,王卷乐,姜浩,等.基于多源信息的人口分布格网化方法研究[J].地球信息科学学报,2015,17(6):653-660.lt;p>格网化人口分布数据比行政单元人口密度数据更易直观表达人口的真实分布状况。本文面向人口格网化管理的区域发展需求, 以延安市为研究对象, 基于增强居民地空间分布及其内部结构信息的理念, 利用乡镇界线和乡镇级人口统计数据为输入控制单元, 以土地利用数据、居民点信息、DEM、夜晚灯光数据等多源信息为指示因子, 采用多元回归建模方法获得了延安市2010年100 m格网人口分布数据。结果表明, 本文采用的人口格网化建模方法最终模型选用变量数少, 决定系数(<em>R</em><sup>2</sup>)达到0.872。最终模型在用于验证的24个乡镇中, 有18个乡镇的估计人口数与统计值误差绝对值小于10%。分析认为, 该建模策略结果可信, 多源的人口分布指示信息在人口格网化方法上明显优于单独的土地利用数据方法。本文获得的100 m格网延安市人口数据格网化结果, 显著增强了人口空间分布的细节信息, 对于县市一级的人口数据格网化具有借鉴意义。</p>

DOI

[ Bai Z Q, Wang J L, Jiang H, et al.The gridding approach to redistribute population based on multi-source data[J]. Journal Geo-information Science, 2015,17(6):653-660. ]

[54]
闫庆武,卞正富,张萍,等.基于居民点密度的人口密度空间化[J].地理与地理信息科学,2011,27(5):95-98.提出了一种基于居民点密度的人口密度空间化方法.以江苏省人口数 据空间化为例,在采用核密度估计法得到江苏省镇(乡、街道)居民点密度后,运用基于居民点密度的人口密度空间化计算公式获得江苏省1 000 m×1 000 m的人口密度格网图,结果表明:江苏省人口分布的热点地区正是在建的三大都市圈(苏锡常都市圈、南京都市圈和徐州都市圈),其中苏锡常都市圈的人口分布呈 现各向异性,而南京和徐州都市圈的人口分布则表现为各向同性;人口密度不仅取决于居民点密度,还与平均每个居民点的人口数密切相关,居民点密度大的区域的 人口密度不一定大,居民点密度小的区域的人口密度也不一定小.

[ Yan Q 2, Bian Z F, Zhang P, et al. Census disaggregation based on settlements density[J]. Geography and Geo-information Science, 2011,27(5):95-98. ]

[55]
高义,王辉,王培涛,等.基于人口普查与多源夜间灯光数据的海岸带人口空间化分析[J].资源科学,2013,35(12):2517-2523.我国海岸带区域是台风、风暴潮、地震海啸和海岸侵蚀等海洋灾害的重灾区,精细空间分辨率的人口数据,能够有效服务海岸带灾害风险管理.本文基于我国第六次人口普查资料、OLS/DMSP和NPP/VIIRS DNB两种夜间灯光数据及Landsat卫星遥感影像,综合利用遥感与地理信息系统理论与技术,进行了我国海岸带人口空间化方法与应用研究.利用建筑物与裸地增强指数法(EBBI)基于Landsat卫星遥感影像提取了我国沿海区县建成区数据,作为人口分布的空间控制因素,以普查人口数与夜间灯光数据回归函数关系为依据,对人口进行空间化处理.反演得到了我国海岸带区县1km×1km和0.5km×0.5km两个空间尺度的人口格网数据.并利用福建省沿海乡镇人口数据对人口空间化结果进行了精度评价.研究结果表明NPP/VIIRS DNB夜间灯光数据适用于人口空间化研究,且其反演精度整体优于基于DMSP/OLS传统夜间灯光数据反演的人口格网模型.通过本文实践,可以发现NPP/VIIRS DNB夜间灯光数据具有实现人口和社会经济数据空间化的巨大潜力.

[ Gao Y, Wang H, Wang P T, et al.Population spatial processing for Chinese coastal zones based on census and multiple night light data[J]. Resources Science, 2013,35(12):2517-2523. ]

[56]
杨振山,龙瀛,Nicolas,等.大数据对人文—经济地理学研究的促进与局限[J].地理科学进展,2015,34(4):410-417.大数据技术的诞生不仅快速推动着社会的进步,而且也将科学研究不断引向新的高度。以人类社会经济活动为主要研究对象的人文—经济地理学与当前大数据建设和发展趋势具有高度一致性,大数据的发展对丰富和完善人文—经济地理学势必起到积极的推动作用,同时也对人文—经济地理学的学科思维和研究方法提出了新的挑战。梳理和分析了目前大数据在人文—经济地理学主要研究领域,包括城市内部空间研究、交通与消费行为、社会空间与社会网络研究中的最近进展,以及大数据对参与式研究和决策平台的作用。着重剖析了大数据对人文—经济地理学数据获取,研究思维与范式,研究内容、研究时空尺度与研究目标等方面的促进作用与存在问题,特别是由于大数据自身发展的不完善,在数据收集特别是数据属性方面还存在很大的局限,缺乏理论基础将会使得大数据与实际应用受到很大限制,同时,数据本身也不能替代研究者思维和决策过程。因此,人文—经济地理学者应该科学对待大数据所带来的机遇,弥补和丰富以往发展中的短板,即完善学科数据建设、建立大数据应用较为完善的研究方法体系,促进跨域数据整合和跨域研究,以及推进研究对象和研究目的的转变。

DOI

[ Yang Z S, Long Y, Douay N.Opportunities and limitations of big data applications to human and economic geography: The state of the art[J]. Progress in Geography, 2015,34(4):410-417. ]

[57]
卓莉,黄信锐,陶海燕,等.基于多智能体模型与建筑物信息的高空间分辨率人口分布模拟[J].地理研究,2014,33(3):520-531.自上而下的人口分布模拟模型自动化程度较低,难以分析人口分布成因,且因精细尺度的人口样本较难获取而不太适用于高空间分辨率人口分布模拟。提出了一种基于多智能体模型和建筑物信息的高空间分辨率人口分布模拟模型。首先利用建筑物三维分布数据提取住宅建筑,构建智能体人口分布模拟模型的环境;然后基于统计、调研数据定义智能体属性,确定智能体居住选择行为规则;最后以泰日社区为例进行了居住人口分布仿真模拟。研究结果表明,基于建筑物信息的人口分布多智能体模型,可以获取每栋建筑物上的人口,改进了当前高分辨率人口模拟主要只模拟小区或者居委会人口的不足;多智能体模型具有较高的自动化程度,不仅能获得较好的模拟结果,而且可在一定程度上从微观机理解释宏观居住分布模式,是对传统统计模型的有益补充。

DOI

[ Zhuo L, Huang X R, Tao H Y, et al.High spatial resolution population distribution simulation based on building information and multi-agent[J]. Geographical Research, 2014,33(3):520-531. ]

[58]
Cockx K, Canters F.Incorporating spatial non-stationarity to improve dasymetric mapping of population[J]. Applied Geography, 2015,63:220-230.Population data are traditionally obtained through censuses and aggregated up to the level of administrative units for reasons of privacy. This way, however, detailed information on the spatial distribution of the population within these units is masked. Dasymetric mapping techniques were developed to disaggregate population to a finer spatial level using ancillary data. However, a frequently recurring problem in dasymetric mapping studies relates to the overestimation of low-population-density areas and the underestimation of high-population-density areas. To tackle this issue, this research proposes a novel dasymetric mapping approach explicitly dealing with spatial non-stationarity. For this purpose, a comparative model building framework was set up. The impact of spatial non-stationarity on model performance was investigated by comparing global (OLS), regional (rule-based) and local (geographically weighted) regression. Also, the impact of model complexity was considered through stepwise inclusion of information on address type and location, household size and demographic and residential characteristics in the dasymetric model. The approach was tested in the highly complex environment of the Flanders russels region. It was found that the regional model that incorporates address type and household size information performs best and overcomes the structural over- and underestimation issue in dasymetric mapping.

DOI

[59]
戚伟,李颖,刘盛和,等.城市昼夜人口空间分布的估算及其特征——以北京市海淀区为例[J].地理学报,2013,68(10):1344-1356.

[ Qi W, Li Y, Liu S H, et al.Estimation of urban population at daytime and nighttime and analyses of their spatial pattern: A case study of Haidian District, Beijing[J]. Acta Geographica Sinica, 2013,68(10):1344-1356. ]

[60]
顾羊羊,乔旭宁,樊良新,等.夜间灯光数据的区域能源消费碳排放空间化[J].测绘科学,2017,42(2):140-146.针对传统统计数据无法准确、客观地测量区域能源消费碳排放量并展现地理分布差异的问题,该文提出利用DMSP/OLS卫星数据稳定夜间灯光数据和能源消费数据,模拟区域碳排放空间分布,揭示区域碳排放分布特征和规律。以河南省为研究区的分析结果表明:1995—2012年河南省能源消费碳排放总量逐年增加,郑州、洛阳和新乡市的能源消费碳排放量年均增长较快,三门峡、济源市的碳排放量增长较慢;2012年各地区能源消费碳排放强度高于1995年,18年间地均碳排放强度均呈现出明显的地域分布差异规律,主要集中在郑州、洛阳和安阳市区域内。基于夜间灯光数据模拟区域能源消费碳排放具有一定的可行性,该数据能比较可靠地反映区域能源消费碳排放的时空动态变化规律。

DOI

[ Gu Y Y, Qiao X N, Fan L X, et al.Spatial analysis of carbon emissions from region energy consumption based on night light data[J]. Science of Surveying and Mapping, 2017,42(2):140-146. ]

[61]
Dmowska A, Stepinski T F.Mapping changes in spatial patterns of racial diversity across the entire United States with application to a 1990-2000 period[J]. Applied Geography, 2016,68:1-8.

DOI

[62]
李明晓,陈洁,张恒才,等.上海市精细时空尺度人口分布估计与特征分析[J].地球信息科学学报,2017,19(6):800-807.

[ Li M X, Chen J, Zhang H C, et al.Fine-grained population estimation and distribution characteristics in shanghai[J]. Journal of Geo-information Science, 2017,19(6):800-807. ]

[63]
Lwin K K, Sugiura K, Zettsu K.Space-time multiple regression model for grid-based population estimation in urban areas[J]. International Journal of Geographical Information Science, 2016,30(8):1579-1593.We can collect, store, and analyze a huge amount of information about human mobility and social interaction activities due to the emergence of information and communication technologies and location-enabled mobile devices under cyber physical system frameworks. The high spatial resolution of population data on a multi-temporal scale is required by transport planners, human geographers, social scientists, and emergency management teams. In this study, we build a space-time multiple regression model to estimate grid-based (500 m 500 m) spatial resolution at multi-temporal scale (30-min intervals) population data based on the space-time relationship among geospatially enabled person trip (PT) survey data and incorporate both mobile call (MC) and geotagged Twitter (GT) data. Since using geospatially enabled PT survey data as dependent variables enables us to acquire actual population amounts, which strongly depend on MCs and social interaction activities. Although many grids have a strong correlation between PT and MC/GT, some show fewer correlation results, especially where the grids have factories, schools, and workshops in which fewer MCs are found but a large population is presented. Although GT data are sparser than MCs, people from amusement and tourist areas can be detected by GT data. The space-time multiple regression model can also estimate the different amounts of populations based on human travel behavior that changes over space and time. According to accuracy assessments, the night-time estimated results, especially between 00:00 and 06:30, strongly correlate with national census data except in places where the grids have railway and subway stations.

DOI

[64]
刘纪远,岳天祥,王英安,等.中国人口密度数字模拟[J].地理学报,2003,58(1):17-24.

[ Liu J Y, Yue T X, Wang Y A, et al.Digital simulation of population density in China[J]. Acta Geographica Sinica, 2003,58(1):17-24. ]

[65]
颜清梅. 基于格网的人口空间分布特征分析[D].成都:四川师范大学,2013.

[ Yan Q M.The analysis of population spatial distribution characteristics based of grid[D]. Chengdu:Sichuan Normal University, 2013. ]

[66]
Jia P, Qiu Y, Gaughan A E.A fine-scale spatial population distribution on the high-resolution gridded population surface and application in Alachua County, Florida[J]. Applied Geography, 2014,50:99-107.

DOI

[67]
Mennis J.Dasymetric mapping for estimating population in small areas[J]. Geography Compass, 2009,3(2):727-745.A dasymetric map depicts a statistical surface, most commonly population density, as a set of simply connected regions, such that variation within each region is minimized and the region boundaries approximate the steepest escarpments of the surface. Dasymetric mapping has its roots in early thematic mapping of population, but has recently been taken up by researchers focusing on areal interpolation and population estimation using remote sensing. The process of dasymetric mapping typically involves the disaggregation of population data encoded in choropleth map form using an ancillary spatial data set, most commonly either an area-class map or satellite image. The functional relationship between the ancillary data and the statistical surface being mapped may be specified a priori by the researcher or estimated using a variety of statistical techniques. Challenges facing dasymetric mapping research include handling spatio-temporal data and the development of standardized and accessible methods.

DOI

[68]
Dmowska A, Stepinski T F.High resolution dasymetric model of US demographics with application to spatial distribution of racial diversity[J]. Applied Geography, 2014,53:417-426.

DOI

[69]
Figueiredo R, Martina M.Using open building data in the development of exposure data sets for catastrophe risk modelling[J]. Natural Hazards and Earth System Sciences, 2016,16(2):417-429.

DOI

[70]
李德仁. 展望大数据时代的地球空间信息学[J].测绘学报,2016,45(4):379-384.20世纪90年代,随着全球信息化和互联网的推进,地球空间信息学应运而生,推动了数字地球和数字城市的建设。21世纪以来,随着全球信息化与工业化的高度集成发展,出现了物联网和云计算,人类进入了大数据时代。本文论述大数据时代地球空间信息学的特点(无所不在、多维动态、互联网+网络化、全自动与实时化、从感知到认知、众包与自发地理信息、面向服务)和必须解决的主要关键技术问题(全球空天地一体化的非线性地球参考框架构建技术、星基导航增强技术、天地一体化网络通信技术、多源成像数据在轨处理技术、天基信息智能终端服务技术、天基资源调度与网络安全、基于载荷的多功能卫星平台设计与研制)。本文最后给出大数据时代地球空间信息学的新定义,即地球空间信息学是用各种手段和集成各种方法对地球及地球上的实体目标(physical objects)和人类活动(human activities)进行时空数据采集、信息提取、网络管理、知识发现、空间感知认知和智能位置服务的一门多学科交叉的科学和技术。从这个新定义出发,地球空间信息学将在构建智慧地球和智慧城市的大数据时代面临更多的发展机遇和艰巨的任务,必将为人类社会的进步和可持续发展作出更大的贡献。

DOI

[ Li D R.Towards geo-spatial information science in big data era[J]. Acta Geodaetica et Cartographica Sinica, 2016,45(4):379-384. ]

[71]
Douglass R W, Meyer D A, Ram M, et al.High resolution population estimates from telecommunications data[J]. EPJ Data Science, 2015,4(1):4.Spatial variations in the distribution and composition of populations inform urban development, health-risk analyses, disaster relief, and more. Despite the broad relevance and importance of such data, acquiring local census estimates in a timely and accurate manner is challenging because population counts can change rapidly, are often politically charged, and suffer from logistical and administrative challenges. These limitations necessitate the development of alternative or complementary approaches to population mapping. In this paper we develop an explicit connection between telecommunications data and the underlying population distribution of Milan, Italy. We go on to test the scale invariance of this connection and use telecommunications data in conjunction with high-resolution census data to create easily updated and potentially real time population estimates in time and space.

DOI

[72]
钟炜菁,王德,谢栋灿,等.上海市人口分布与空间活动的动态特征研究——基于手机信令数据的探索[J].地理研究,2017,36(5):972-984.对城市人口空间分布的动态把握是了解人口活动规律、认识城市空间结构、配置城市基础设施和公共服务设施及制订城市公共安全应急保障方案的重要依据。由于目前国内缺少系统的人口动态变化统计数据,城市内部层面的人口空间分布和活动的动态特征方面的相关研究难以开展,研究成果较为有限。移动电话是目前普及率最高的通讯终端设备,其用户的动态分布信息可以准确地反应整个城市人口的空间分布与活动的动态特征。利用手机信令数据,以上海市为例,构建“人口—时间—行为”关系的人口空间动态分析框架,分析上海市人口分布和活动的动态特征。结果表明:上海整体人口密度呈单中心的圈层空间分布结构,昼夜空间分布经历“白天向中心集聚、夜晚向郊区分散”的流动过程;人的各类活动(如通勤、消费休闲)会产生人口空间分布的动态变化,职住关系的不匹配和活动对中心的高度依赖使得人口的空间分布不均,形成向心流动模式。消费休闲行为对中心城区的依赖度明显高于就业活动,且集中体现在紧邻中心城区的外围近郊呈圈层分布。

DOI

[ Zhong W J, Wang D, Xie D C, et al . Dynamic characteristics of Shanghai's population distribution using cell phone signaling data[J]. Geographical research, 2017,36(5):972-984. ]

[73]
Patel N N, Stevens F R, Huang Z, et al.Improving large area population mapping using geotweet densities[J]. Transactions in GIS, 2017,21(2):317-331.Many different methods are used to disaggregate census data and predict population densities to construct finer scale, gridded population data sets. These methods often involve a range of high resolution geospatial covariate datasets on aspects such as urban areas, infrastructure, land cover and topography; such covariates, however, are not directly indicative of the presence of people. Here we tested the potential of geo-located tweets from the social media application, Twitter, as a covariate in the production of population maps. The density of geo-located tweets in 1x1 km grid cells over a 2-month period across Indonesia, a country with one of the highest Twitter usage rates in the world, was input as a covariate into a previously published random forests-based census disaggregation method. Comparison of internal measures of accuracy and external assessments between models built with and without the geotweets showed that increases in population mapping accuracy could be obtained using the geotweet densities as a covariate layer. The work highlights the potential for such social media-derived data in improving our understanding of population distributions and offers promise for more dynamic mapping with such data being continually produced and freely available

DOI PMID

[74]
洪东升. 基于定位数据的人口分布特征研究[D].北京:中国地质大学 (北京),2015.

[ Hong D S.Research on characteristics of population distribution based on positioning data[D]. Beijing:China University of Geosciences, 2015. ]

[75]
Yao Y, Liu X, Li X, et al.Mapping fine-scale population distributions at the building level by integrating multisource geospatial big data[J]. International Journal of Geographical Information Science, 2017,31(6):1220-1244.

[76]
韩昊英,于翔,龙瀛.基于北京公交刷卡数据和兴趣点的功能区识别[J].城市规划,2016,40(6):52-60.

[ Han H Y, Yu X, Long Y.Identifying urban functional zones using bus smart card data and points of interest in Beijing[J]. City planning review, 2016,40(6):52-60. ]

[77]
秦萧,甄峰,熊丽芳,等.大数据时代城市时空间行为研究方法[J].地理科学进展,2013,32(9):1352-1361.信息技术的快速发展带来了“大数据”时代的到来,改变了城市的空间组织和居民行为,并使得城市时空间行为研究方法面临变革。本文在总结传统城市时空间行为研究方法存在问题的基础上,对影响其变革的数据获取与处理技术进行梳理,重点从居民时空行为、城市空间及城市等级体系3个方面综述了国内外应用大数据进行城市时空间行为研究的最新进展,构建了基于大数据应用的城市时空间行为研究方法框架。本文认为,大数据时代城市时空间行为研究方法的变革主要取决于对反映居民时空行为的网络或移动信息设备数据的挖掘、处理及应用,但是还需要进一步推动相关学科间的交叉与融合,加强社交网站等网络数据在居民时空行为和城市空间研究中的应用,并指导城市规划编制与管理方法的创新。

DOI

[ Qin X, Zhen F, Xiong L F.Human geography research and practical application in big data era[J]. Progress in Geography, 2013,32(9):1352-1361. ]

[78]
龙瀛,张宇,崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报,2012,67(10):1339-1352.

[ Long Y, Zhang Y, Cui C C.Identifying commuting pattern of Beijing using bus smart card data[J]. Acta Geographica Sinica, 2012,67(10):1339-1352. ]

[79]
单杰,秦昆,黄长青,等.众源地理数据处理与分析方法探讨[J].武汉大学学报·信息科学版,2014,39(4):390-396.

[ Shan J, Qin K, Huang C Q, et al.Methods of crowd sourcing geographic data processing and analysis[J]. Geomatics and Information Science of Wuhan University, 2014,39(4):390-394. ]

[80]
Deville P, Linard C, Martin S, et al.Dynamic population mapping using mobile phone data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014,111(45):15888-15893.During the past few decades, technologies such as remote sensing, geographical information systems, and global positioning systems have transformed the way the distribution of human population is studied and modeled in space and time. However, the mapping of populations remains constrained by the logistics of censuses and surveys. Consequently, spatially detailed changes across scales of days, weeks, or months, or even year to year, are difficult to assess and limit the application of human population maps in situations in which timely information is required, such as disasters, conflicts, or epidemics. Mobile phones (MPs) now have an extremely high penetration rate across the globe, and analyzing the spatiotemporal distribution of MP calls geolocated to the tower level may overcome many limitations of census-based approaches, provided that the use of MP data is properly assessed and calibrated. Using datasets of more than 1 billion MP call records from Portugal and France, we show how spatially and temporarily explicit estimations of population densities can be produced at national scales, and how these estimates compare with outputs produced using alternative human population mapping methods. We also demonstrate how maps of human population changes can be produced over multiple timescales while preserving the anonymity of MP users. With similar data being collected every day by MP network providers across the world, the prospect of being able to map contemporary and changing human population distributions over relatively short intervals exists, paving the way for new applications and a near real-time understanding of patterns and processes in human geography.

DOI

[81]
Lin J, Cromley R G.Evaluating geo-located Twitter data as a control layer for areal interpolation of population[J]. Applied Geography, 2015,58:41-47.Control data are critical for improving areal interpolation results. Remotely sensed imagery, road network, and parcels are the three most commonly used ancillary data for areal interpolation of population. Meanwhile, the open access geographic data generated by social networks is emerging as an alternative control data that can be related to the distribution of population. This study evaluates the effectiveness of geo-located night-time tweets data as ancillary information and its combination with the three commonly used ancillary datasets in intelligent areal interpolation. Due to the skewed Twitter user age, the other purpose of this study is to test the effect of age bias control data on estimation of different age group populations. Results suggest that geo-located tweets as single control data does not perform as well as the three other control layers for total population and all age-specific population groups. However, the noticeable enhancement effect of Twitter data on other control data, especially for age groups with a high percentage of Twitter users, suggests that it helps to better reflect population distribution by increasing variation in densities within a residential area delineated by other control data.

DOI

[82]
Marin G, Modica M.Socio-economic exposure to natural disasters[J]. Environmental Impact Assessment Review, 2017,64:57-66.Even though the correct assessment of risks is a key aspect of the risk management analysis, we argue that limited effort has been devoted in the assessment of comprehensive measures of economic exposure at very low scale. For this reason, we aim at providing a series of suitable methodologies to provide a complete and detailed list of the exposure of economic activities to natural disasters. We use Input-Output models to provide information about several socio-economic variables, such as population density, employment density, firms' turnover and capital stock, that can be seen as direct and indirect socio-economic exposure to natural disasters. We then provide an application to the Italian context. These measures can be easily incorporated into risk assessment models to provide a clear picture of the disaster risk for local areas.

DOI

Outlines

/