Spatialization of Township-level Population based on Nighttime Light and Land Use Data in Shandong Province

  • WANG Mingming , 1, 2 ,
  • WANG Juanle , 2, 3, *
Expand
  • 1. School of Civil and Architectural Engineering,Shandong University of Technology,Zibo, 255049, China
  • 2. State Key Laboratory of Resources and Environment Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: WANG Juanle, E-mail:

Received date: 2018-09-29

  Request revised date: 2019-02-25

  Online published: 2019-05-25

Supported by

the Strategic Priority Research Program of the Chinese Academy of Sciences, No.XDA19040501

the Specific Informatization Scientific Research Science Program of the Chinese Academy of Sciences, No.XXH13505-07.

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Gridded population data can be used to describe the actual spatial distribution of populations and is an effective way to achieve better integration of population data with natural, social, and economic factors. This study analyzed the demand of fine-scale gridded population data. Taking the densely populated Shandong Province in eastern China as an example, the spatialization method of township-level demographic data was investigated using nighttime satellite data and land use data fusion modeling. In this process, EVI was used to reduce saturation of DMSP/OLS nighttime satellite data to increase the difference of population distribution within the urban land. The urban and rural two-level partition method was used to avoid the shortcomings of nighttime data in the low radiance area of rural areas. The demographic values from the rest region were used to evaluate the modeling accuracy, and the results showed that 78% of the administrative units had an absolute relative error of less than 20%. Finally, based on the population data of the township-level which was first published in the fifth census in 2000, the gridded population data SDpop2000 at 100 m- resolution in Shandong Province was generated. The SDpop2000 was compared with the global WorldPop population data product with higher precision. The results showed that the correlation coefficient between SDpop2000 and WorldPop on the 10 km grid scale was as high as 0.93, and the population distribution of SDpop2000 was obviously more accurate than that of WorldPop in the central Shandong, southwestern Taian, southern Jining, southern Linyi, northern Zaozhuang, and the northern Shandong coastal areas. In addition, the SDpop2000 better described the population distribution trend in Shandong Province, which was denser in western Shandong and the plains of northern Shandong than in the mountainous hilly areas in the central and southern Shandong, the coast of northern Shandong, and the hilly area of Shandong Peninsula. Overall, the spatialization method of township-level population data developed in this study significantly improved spatialization precision and is suitable for township-level population spatialization.

Cite this article

WANG Mingming , WANG Juanle . Spatialization of Township-level Population based on Nighttime Light and Land Use Data in Shandong Province[J]. Journal of Geo-information Science, 2019 , 21(5) : 699 -709 . DOI: 10.12082/dqxxkx.2019.180497

1 引言

人口的空间分布是人口地理学研究的核心问题[1]。研究人口空间分布与其他因素的相关关系,精确估计和掌握详实的人口分布信息,是改善人类生存环境和解决人口问题的重要科学基础。人口统计数据是以最小行政区划为统计单元逐级汇总而得[2],往往具有以下局限性:① 不能在更小的尺度(行政单元内)反映人口空间分布特征[3];② 随着时间的推移,行政单元随着行政系统的改变而变化,使得基于行政单元的长时间序列分析变得困难[4];③ 行政边界与自然地物的边界一般不重合,造成地学研究中的“可变元问题”[5];④ 人口统计数据的更新周期较长,如中国人口普查一般为10年一次,更新周期难以满足科学研究的需要。
人口数据空间化是将一种空间尺度的人口数据合理分配到另一种空间尺度上的过程,通常指将人口统计数据分配到一定尺寸的规则格网上[6]。产生的格网化人口空间数据可以同自然、地理、生态等数据融合分析,可有效避免上述人口统计数据的局限性,是人口统计数据的拓展和补充,并且现在已经得到广泛应用[7],如用于支持疾病风险评估、气候变化和人类健康适应性政策和防灾减灾等。当前全球可开放获得的格网化人口空间分布数据集主要包括中国公里网格人口分布数据集(CnPop)、全球栅格人口数据集(GPW)、全球农村城镇制图计划数据集(GRUMP)和世界人口计划数据集(Worldpop)等。柏中强等[8]研究发现Worldpop在这些数据集中的估计精度最高,准确估计了约60%人口的区域人口分布。随着遥感、GIS和计算机技术的发展,人口数据空间化研究发展迅速,陆续出现了基于理论的方法[9]、基于遥感和GIS的方法[10,11,12,13]、基于多源数据融合的方法[14]和基于社会感知数据的方法[7]等不同的人口数据空间化方法。基于遥感和GIS的人口数据空间化方法使用最为广泛,其中土地利用和夜间灯光数据是该方法中最为常用的2类基础数据[15,16,17,18,19],但在应用中面临着诸多技术方法挑战。
土地利用类型与人口分布格局有耦合关系,但难以区分土地利用类型内部的人口分布差异。DMSP/OLS夜间灯光数据是美国国防气象卫星计划(DMSP)卫星的线性扫描业务系统(OLS)探测的某地区夜晚的灯光亮度信息,是监测人类活动的有效数据源。DMSP/OLS夜间灯光数据已被证实其同人口之间的高相关性[11,18-19],土地利用数据和夜间灯光数据结合使用,可有效弥补城镇地区土地利用类型内部的人口分布差异。如梁友嘉等[20]利用土地利用数据和夜间灯光数据的关系获取更符合真实人口空间分布的灯光辐射数据,基于不同土地利用类型的灯光区面积、非灯光区面积和总灯光辐射强度进行人口空间分布建模,实现对张掖市甘州区乡镇级人口统计数据空间化,模型拟合优度系数为0.88;黄杰等[21]以土地利用数据和夜间灯光数据为建模参考要素,基于空间滞后回归模型实现江苏省县级人口统计数据的空间化,模型拟合优度达到0.93,乡镇级尺度空间化精度检验相关系数为0.90;陈晴等[6]集成土地利用数据和夜间灯光数据,以县域相对误差的绝对值20%为阈值控制动态样本的逐渐回归和分区建模,实现大陆沿海区域县级人口统计数据的空间化,整体拟合优度系数大于0.8。但由于DMSP卫星传感器本身的缺陷,DMSP/OLS夜间灯光数据在高强度灯光区会存在灯光强度饱和值[22],在低辐射亮度区域探测能力不足[23],这大大地影响到城市中心和农村地区的人口估计精度。总体来看,土地利用和夜间灯光数据在人口数据空间化应用中既有优势又有劣势,如何做到扬长避短是人口数据空间化应用中的关键问题之一。
针对这一难题,本文探索基于土地利用和DMSP/OLS夜间灯光的乡镇级人口统计数据的空间化方法。以山东省为例,利用土地利用数据和乡镇级行政单元构建城乡二级分区方法将城镇地区和农村地区分开建模,利用EVI植被指数对DMSP/OLS夜间灯光数据进行修正,尝试解决DMSP/OLS夜间灯光数据在农村低辐射亮度区和城市高辐射亮度区进行人口模拟的不足,最终实现2000年山东省乡镇级人口统计数据的空间化。这不仅为我国当前最精细尺度的乡镇级统计数据空间化提供方法参考,而且因规避了乡镇界限问题而为乡镇级人口空间化数据产品的数据共享创造了条件。

2 研究区概况、数据来源与研究方法

2.1 研究区概况

本文选取中国东部人口稠密的山东省作为研究区(图1)。山东省位于华东地区最北端,东部沿海、西部连接中原,与河北省、河南省、安徽省和江苏省接壤。陆地南北最长约420 km,东西最宽约700 km,陆地总面积15.67万km2。境内包括内陆和半岛两部分,可划分为鲁中南山地丘陵区、山东半岛丘陵区和鲁西、鲁北平原区3个区,鲁中南山地丘陵区为全省海拔最高、山地面积最广的地区,泰山是最高峰;山东半岛丘陵区位于山东省东部,伸入渤海、黄海间,是典型的丘陵区;鲁西、鲁北平原区是全省海拔最低处,属于华北大平原的一部分。2000年底,山东省境内共有2303个乡镇级行政单元[24],2000年第五次人口普查结果表明,山东省人口总数为8997.1789万人[25],约占全国总人口的7%。
Fig. 1 Map of study area (Shandong province)

图1 山东省行政区划

2.2 数据源

本文涉及的数据源包括DMSP/OLS夜间灯光数据、EVI植被指数数据、土地利用数据、世界人口计划数据集WorldPop、乡镇级人口统计数据和行政边界数据。数据时间为2000年,数据范围为山东省。
(1)DMSP/OLS夜间灯光数据来源于美国国家海洋和大气管理局国家环境信息中心夜间非辐射定标的平均稳态数据(Stable_Lights.avg_vis Data)[26],可见像素值范围为0~63,空间分辨率约为850 m。
(2)EVI植被指数数据来源于美国国家航空航天局LAADS DAAC数据中心的3级格网数据产品(MOD13Q1)[27],空间分辨率约为250 m。
(3)土地利用数据来源于国家科技基础条件平台—国家地球系统科学数据共享平台[28],空间分辨率为100 m,该数据集包含耕地、林地、草地、水域、建设用地和未利用地在内的一级类和包括有林地、灌木林、疏林地、其他林地和高、中、低覆盖度草地等二级类型数据,共23类属性值。
(4)WorldPop数据来源于WorldPop project官方网站[29],由英国南安普顿大学地理数据研究所领导的全球人口分布制图计划研制,其空间分辨约为90 m。2000年中国区域WorldPop数据集生产方法是土地覆被类型法,所用的土地覆被数据为MDA GeoCover数据集,辅助数据包括建筑用地分布数据、OpenStreetMap数据、城镇规划数据等,主要用来校正土地覆被数据上的居民地分布。
(5)乡镇级行政边界数据来源于国家科技基础条件平台—国家地球系统科学数据共享平台[30],比例尺为1:25万。
(6)乡镇级人口统计数据来源于《中国乡、镇、街道人口资料》[25]

2.3 数据预处理

在乡镇级人口数据空间化之前,需先整编构建乡镇级人口空间数据库、修正DMSP/OLS夜间灯光数据和对土地利用数据进行重分类。所有数据源均统一为China Geodetic Coordinate System 2000地理坐标系统和Albers投影。
(1)乡镇级人口空间数据。利用政府官网、行政区划网、百度地图等查阅相关乡镇(街道)的区划调整、更名或缺失等信息,根据该信息将部分乡镇(街道)的行政边界数据或人口统计数据进行合并或更名,以使两者能够匹配。利用ArcGIS的“拓扑关系构建”功能处理行政边界之间的重叠和空隙等拓扑错误,完成所有行政单元的精确匹配。
(2)夜间灯光数据。借鉴卓莉等[22]提出的方法对DMSP/OLS夜间灯光数据进行修正,得到基于EVI指数修正的增强型植被指数的夜间灯光调整指数(Enhanced Vegetation Index Adjusted Nighttime Light Index, EANTLI):① 利用ArcGIS的栅格计算器取7、8月份4景EVI影像的均值,并做归一化处理和剔除值小于0.01的像元,得到 EV I a 影像的值域为[0.010025,0.8642];② 将DMSP/OLS夜间灯光数据做归一化处理,并利用栅格计算器根据式(1)对EANTLI影像进行栅格计算;③ 根据以往研究的做法[17,20],将EANTLI影像重采样为100 m分辨率。
EANTLI = 1 + NT L n - EV I a 1 - NT L n - EV I a × NTL (1)
式中: NT L n 为归一化后的DMSP/OLS夜间灯光指数; EV I a 为归一化的剔除值小于0.01的EVI均值;NTL为未归一化的DMSP/OLS夜间灯光指数。
(3)土地利用数据。将土地利用数据中的水田和旱地合并为耕地,有林地、灌木林、疏林地和其他林地合并为林地,高覆盖度草地、中覆盖度草地和低覆盖度草地合并为草地,河渠、湖泊、水库坑塘、滩涂、滩地和沼泽地合并为水系用地,沙地、盐碱地、裸土地、裸岩石质地和其他合并为未利用地,保留城镇用地、农村居民点、其他建设用地共8个属性。

2.4 城乡分区回归模型构建及检验

2.4.1 城乡二级分区方法
城乡二级分区方法如图2所示。一级分区:将所有乡镇级行政单元按照其内部居民地的类型分为3类:城镇地区、农村地区和其余地区。只包含城镇用地的行政单元属于城镇地区;只包含农村居民点的行政单元属于农村地区;同时包含城镇用地和农村居民点两种居民地类型的行政单元属于其余地区。二级分区:在一级分区的基础上,将农村地区和其余地区再各自分为3个分区,其中农村地区按照农村居民点人口密度(式(2))大小,将农村地区的行政单元分为低人口密度区 A 2 、中人口密度区 A 3 和高人口密度区 A 4 ,具体分区比例根据模型检验结果调整,当建模精度达到最优,则最终确定分区比例。其余地区用来检验建模精度,其分区方法依赖于模型检验过程,具体在模型检验中叙述。
Fig. 2 Flowchart of modeling and inspection based on urban and rural two-level partition

图2 城乡二级分区建模和检验技术流程

densit y v = po p v are a v (2)
式中: densit y v 为农村居民点人口密度; po p v 为农村地区行政单元总人口数; are a v 为农村居民点面积。
2.4.2 城乡分区回归模型构建
城镇地区作为 A 1 分区,在乡镇级行政单元尺度上,建立EANTLI夜间灯光总值和人口总值的回归模型,回归方程如式(3)所示,建模结果对应图2中的方程式(a)。
po p c = a × EANTLI + b (3)
式中: po p c 为城镇地区行政单元总人口数量;EANTLI为城镇地区行政单元中城镇用地范围内的灯光总强度;a为待定回归系数;b为常数项,代表城镇地区行政单元人口数量的修正值。
在农村地区的低人口密度区、中人口密度区和高人口密度区分别建立人口总数同农村居民点面积的回归模型,回归方程如式(4)所示,建模结果分别对应图2中的方程式(b)、方程式(c)和方程式(d)。
po p vi = a i × are a vi + b i (4)
式中: po p vi 为农村地区第i个分区的行政单元人口总数; are a vi 为农村地区第i个分区的行政单元农村居民点面积; a i 为待定回归系数,代表农村居民点的人口密度; b i 为常数项,代表农村地区行政单元人口数量的修正值;i的取值为2、3、4,分别代表分区 A 2 A 3 A 4
2.4.3 模型检验
本文利用其余地区的乡镇级人口统计值对建模精度进行检验,即利用其余地区的人口统计值和模拟值之间的相对误差(式(5))评估建模精度。其中其余地区的人口模拟值利用图2中方程式(a)-(d)计算所得:① 利用方程式(a)、(c)对其余地区的人口做初次模拟,并通过式(5)计算人口统计值和模拟值的相对误差δ。② 统计 - 20 < δ < 20 的行政单元作为 A 5 分区, δ < - 20 的行政单元作为 A 6 分区, δ > 20 的行政单元作为 A 7 分区。③ 保留 A 5 分区的人口模拟值不变, A 6 A 7 分区的人口分别利用方程式(a)、(b)和(a)、(d)进行重新模拟。
δ = po p i sta - po p i mo po p i sta × 100 % (5)
式中: po p i sta 为其余地区第i个行政单元的统计人口数; po p i mo 为其余地区第i个行政单元的模拟人口数。

2.5 人口数据空间化及结果对比

2.5.1 人口数据空间化
基于上文建立的各个分区,利用图2中的方程式(a)~方程式(d)去掉公式的常数项——行政单元尺度人口数量的修正值)模拟每个分区网格单元的初始人口数。其中 A 1 A 2 A 3 A 4 分区分别利用方程式(a)-(d)模拟, A 5 分区利用方程式(a)和(c)模拟, A 6 分区利用方程式(a)和(b)模拟, A 7 分区利用方程式(a)和(d)模拟。然后统计每个乡镇级行政单元内的初始人口模拟总数 po p i 0 ,因受模型公式误差的影响,每个行政单元的初始人口模拟值 po p i 0 和实际人口统计值 po p i sta 不一致,因此建立各行政单元的修正公式(式(6)),对各网格的初始模拟结果进行调整,使得各行政单元模拟的人口总数与实际统计人口数完全吻合。最后将调整后的网格人口数转换成100 m栅格数据。
p ij mo = p ij 0 po p i 0 × po p i sta (6)
式中: p ij mo 表示第i个乡镇级行政单元第j个格网单元修正后的人口模拟值; p ij 0 表示第i个行政单元第j个格网单元初始人口模拟值; po p i 0 表示第i个行政单元的初始人口模拟值; po p i sta 表示第i个行政单元人口统计值。
2.5.2 空间化结果对比
对比WorldPop和SDpop2000的制图效果、 10 km网格内人口数的相关性、10 km网格内人口数的相对误差和相对误差的空间分布。其中相对误差计算公式如下:
δ = p s - p w p w × 100 % (7)
式中: p s 代表SDpop2000在10 km网格内的人口数; p w 代表WorldPop在10 km网格内的人口数, δ 代表相对误差。

3 结果及分析

3.1 分区建模及模型检验

经过多次调整农村地区二级分区比例,最终确定 A 2 A 3 A 4 分别取农村地区行政单元数量的1/6、2/3和1/6时模型精度达到最高。经过检验,有占比78%的行政单元的相对误差绝对值小于20%,且其余地区的模拟人口同统计人口的相关系数为0.931,建模精度较高。建模及分区结果如表1所示。
Tab. 1 Results of partitioning and modeling

表1 各地区分区和建模结果

分区 行政单元数/个 建模结果 方程拟合优度系数
城镇地区 A1 31 popc=0.165×EANTLI+8399.931 0.992
农村地区 A2 181 popv2=0.0025×areav2+3210.143 0.778
A3 724 popv3=0.004×areav3+6403.842 0.763
A4 181 popv4=0.006×areav4+8873.137 0.838
其余地区 A5 322
A6 177
A7 210

3.2 行政单元人口统计值与建模数据的相关性分析

在各建模区域,检验行政单元内人口统计值同各类土地利用类型面积及EANTLI夜间灯光数据的相关性,如表2所示。其中,城镇地区行政单元人口统计值与城镇用地面积、夜间灯光辐射值有较高的相关性;农村地区行政单元人口统计值与农村居民点面积有较高的相关性,与耕地面积有较弱相关性。说明本文的建模数据选择合理,其中农村地区的人口统计值与耕地面积有较弱的相关性,主要是因为耕地面积在一定程度上可以表征一个乡镇行政单元内的人口数量,但并不表征人口分布在耕地上的数量多少。
Tab. 2 Correlation coefficients between demographic values of administrative units in each partition and various modeling elements

表2 各建模区域行政单元人口统计值同各要素之间的相关性

分区 耕地 林地 草地 水系用地 未利用地 城镇用地 农村居民点 其他建设用地 EANTLI
城镇地区 A1 0.294 0.093 0.092 0.204 0 0.819** 0 -0.095 0.996**
农村地区 A2 0.524** 0.022 -0.133 -0.160* -0.184* 0 0.883** -0.216** 0.228**
A3 0.635** 0.015 0.09* 0.025 -0.027 0 0.873** 0.034 0.279**
A4 0.595** -0.227 -0.068 0.053 0.045 0 0.915** 0.112 0.143

注:*表示在0.05水平(双侧)上显著相关,**表示在0.01水平(双侧)上显著相关。

3.3 空间化结果与对比

3.3.1 乡镇级人口数据空间化结果
山东省2000年乡镇级人口统计数据空间化结果如图3所示,分辨率为100 m。从格网人口分布数量来看,山东全省人口密度的值域在0~335之间,人口密度超过100人的地区基本分布在地级市。从100 m格网人口空间分布趋势来看,城镇地区的人口密度明显高于农村地区,且高人口密度主要集中在济南、青岛、潍坊、淄博、烟台、德州、威海和济宁等地级城市驻地处,济南和青岛两地的人口密度和数量最高;鲁西、鲁北平原区的人口分布较鲁中南山地丘陵区、鲁北沿海和山东半岛丘陵区的更为稠密。
Fig. 3 Spatial distribution of population in Shandong Province in year 2000 with 100 m×100 m grids

图3 山东省2000年100 m分辨率人口分布

3.3.2 结果对比
本文从3个方面对比SDpop2000和WorldPop。
(1)2000年WorldPop在山东省的成图效果如图4所示,SDpop2000和WorldPop的局部对比如图5所示。可以发现SDpop2000和WorldPop有相似的人口分布趋势,但SDpop2000在城市地区较WorldPop有更详细的人口分布信息,且局部区域的人口密度比WorldPop高,如图5中的济南市和青岛市;WorldPop在鲁中部、泰安西南部、济宁南部、临沂南部和枣庄北部存在大面积连续区域人口密度相同的错误分布现象,而SDpop2000在这些区域的人口分布主要集中在农村居民点处,人口分布符合实际情况,如图5展示的SDpop2000和WorldPop在泰安西南部存在的人口分布差异。
Fig. 4 WorldPop of Shandong Province area in 2000

图4 山东省2000年WorldPop成果

Fig. 5 Comparison of SDpop2000 and WorldPop in local areas

图5 SDpop2000和WorldPop局部区域对比

(2)本文分别统计SDpop2000和WorldPop在10 km网格内的人口数,对两者进行相关性分析。如图6所示,SDpop2000和WorldPop具有显著的线性关系,R2达到0.866,且两者之间的相关系数为0.93,达到较高的相关性。
Fig. 6 Scatter plots of population of SDpop2000 and WorldPop with 10 km×10 km grids

图6 10 km网格内SDpop2000与WorldPop人口数散点图

(3)通过式(7)计算SDpop2000和WorldPop的相对误差,相对误差值域分布如图7所示,其中相对误差绝对值在50%以内的10 km网格数占总网格数的88%;将相对误差分布到空间(图8),发现SDpop2000的人口估计较WorldPop严重偏低的蓝色区域主要分布在鲁北沿海和济宁市以南,严重偏高的红色区域分布较为分散,其中滨州市、东营市、聊城市和烟台市等地级市驻地处的人口估计较WorldPop偏高,其余地级市驻地处的人口估计同worldPop相当。
Fig. 7 Scatter plots of population relative errors between SDpop2000 and WorldPop with 10 km×10 km grids

图7 10 km格网内SDpop2000与WorldPop的人口相对误差散点图

Fig. 8 Spatial distribution of population relative error between SDpop2000 and WorldPop with 10 km×10 km grids

图8 10 km格网内SDpop2000与WorldPop人口相对误差的空间分布

4 结论与讨论

本文结合夜间灯光数据和土地利用数据在人口数据空间化应用中的优势,采用城乡二级分区建模的方法,利用EVI植被指数对DMSP/OLS夜间灯光数据进行了修正,对山东省2000年乡镇级人口统计数据进行100 m格网的空间化。结果显示本文所建模型拟合度较好,空间化结果在较细尺度下能反映研究区2000年的人口分布状况,SDpop2000较WorldPop的人口分布更加精细,空间差异性更加显著。具体分析如下:
(1)乡镇级二级分区建模及检验。一级分区将城镇用地和农村居民点用地区分开,实现了不同居民地类型采用不同模型的建模方法,有效地避免了DMSP/OLS夜间灯光数据在低辐射亮度区域探测能力不足的缺点,其中乡镇级行政单元的使用是实现城乡分区的有利条件。二级分区将农村地区和其余地区进行了更细致的分区,通过调整农村地区二级分区比例,使得建模精度达到最优。本方法的模型精度利用其余地区的人口统计值进行检验,结果显示,有占比78%的行政单元的相对误差绝对值小于20%,且模拟人口同统计人口的相关系数达到0.931,说明本建模方法估计结果可靠。
(2)基于EVI指数修正的EANTLI夜间灯光数据处理。此方法由卓莉等[22]提出,从城市内部灯光强度差异的可区分性、同辐射定标数据RCNTL的相似性、估算电能消耗等方面证实了EANTLI较植被调节型城市灯光指数(VANUI)更具有优越性。因此本文选择此方法对DMSP/OLS夜间灯光数据进行修正。本文在EVI数据的选择上有所不同:使用7、8月份EVI的均值而非年均值,是因为山东省的冬季基本没有绿色植被,年均值会降低植被覆盖程度的有效信息,从而影响到EANTLI的精度,而7、8月份是植被生长最茂盛的时候,可较好体现植被覆盖度的程度。经上文检验,城镇地区行政单元人口数与EANTLI夜间灯光辐射值之间有较高的相关性,且从SDpop2000和WorldPop的对比结果来看,SDpop2000在城镇地区比WorldPop有更详细的人口分布信息,且在城市中心SDpop2000的人口数量要比WorldPop高,说明EANTLI夜间灯光数据的使用,明显提高了城市中心人口分布的实际差异性。
(3)城镇用地和农村居民点用地处理。城镇用地指城市及县镇以上建成区用地,农村居民点指独立于城镇用地以外的农村居民点,本文将人口统计数据空间化到这两种土地利用类型。人口在农村地区的分布,除居民地上的人口具有一定的稳定状态外,其余土地利用类型上的人口均有一定的流动性,处于不稳定状态,很难通过分析行政单元尺度上的人口同土地利用类型之间的相关关系,得到格网尺度上这类土地利用类型上的人口分布概率密度。因此本文只考虑人口分布于居民点处的稳定状态,有效避免了SDpop2000在耕地、林地和草地等土地利用类型上出现大面积相同人口密度区域的偏差错误分布现象,提高了人口数据空间化的精度,如SDpop2000和WorldPop在鲁中部、泰安西南部、济宁南部、临沂南部和枣庄北部所表现出的人口分布差异。
(4)SDpop2000与WorldPop的对比分析。2000年WorldPop数据被柏中强等[8]利用乡镇级人口统计数据进行验证,结果显示其人口分布是目前可开放获取的人口分布产品中最为精确的,因此本文利用WorldPop和SDpop2000做对比分析。对比结果显示SDpop2000与WorldPop有相似的人口分布趋势,在异于行政区划尺度的10 km网格内,两者的人口数具有较高的相关性和较低的相对误差,表明SDpop2000同样有着较为准确的人口分布,而SDpop2000在城市、泰安西南部、济宁南部、临沂南部、枣庄北部、鲁中部和鲁北沿海等地的人口分布与WorldPop存在差异。在城市,SDpop2000的城市中心和城市周边的人口密度差异性较大,SDpop2000较WorldPop反映出的人口分布信息更丰富,更为准确地反映了中国的实际人口分布,如图5中的济南市和青岛市。图4中,WorldPop在泰安西南部、济宁南部、临沂南部、枣庄北部和鲁中部等地存在着大面积相同人口密度区域,不符合实际人口分布,而SDpop2000在这些地方展现出更具差异性的人口空间分布信息(图3)。图8显示SDpop2000和WorldPop在济宁南部、鲁北沿海和鲁中三地存在较大面积的人口分布差异,济宁南部和鲁北沿海的蓝色区域表示SDpop2000的人口分布密度比WorldPop低,鲁中莱芜市东南部的红色区域表示SDpop2000的人口分布密度比WorldPop高。其中济宁南部是山东省微山湖和独山湖等水域所在地,人口分布较为稀少;鲁北沿海蓝色区域靠近海洋,多为沙滩、生态旅游区、农田、渔港等,人口分布同样较为稀少;从图4可以看出,worldPop在鲁中莱芜市东南部为大面积连续较低人口分布区域,由此可见SDpop2000在济宁南部、鲁北沿海和鲁中三地的人口分布较WorldPop更加准确。
(5)本文基于2000年乡镇级人口统计数据进行空间化,主要有以下3点突破意义:① 乡镇级人口统计数据是我国目前公开的最精细的统计数据,但对于乡镇级人口统计数据的空间化研究较少。因为,这其中的人口统计数据和行政边界数据的空间匹配等需要使用乡镇界限,并且要做大量的空间数据处理工作。本文的研究工作丰富了乡镇级人口统计数据的空间化方法;② 2000年是我国首次公布乡镇级统计数据的年份,以该年份开展研究可以为乡镇级人口数据空间化提供一个基准;③ 乡镇级的人口空间数据是不能直接发布的,因为乡镇界线具有保密限制。面对数据共享的需要,可以将该数据按实际人口分布进行重新展布,形成空间化格网产品。这既提高产品的实际地理学含义,也解决了共享问题。
本文方法的不足与展望:① 本文的建模思路之一是将城镇地区和农村地区分开建模,由于缺少能够精确区分城镇地区和农村地区的矢量边界数据,以及与之对应的农村人口和城镇人口数据,本文暂利用土地利用类型区分城镇地区和农村地区,这样缩减了建模的样本数量,对建模精度有所影响。在今后的研究中,可以进一步思考和获取精确的城乡矢量边界,辅以统计数据中的农业人口和非农人口,对空间化模型进行改进;② 针对本文产出100 m格网化人口分布数据,比较理想的结果评估方法是利用村级人口实际统计数据对其精度进行评价。但目前还没有公开可获得的村级人口统计数据和村级行政边界数据,希望今后可以获取这一微观样本数据提高模型精度,并对SDpop2000做更加准确的精度评价。

The authors have declared that no competing interests exist.

[1]
胡焕庸. 论中国人口之分布[M].北京:科学出版社,1983.

[ Hu H Y.Distribution of China's population[M]. Beijing: Science Press, 1983. ]

[2]
廖顺宝,孙九林.基于GIS的青藏高原人口统计数据空间化[J].地理学报,2003,58(1):25-33.

[ Liao S B, Sun J L.GIS based spatialization of population census data in Qinghai-Tibet Plateau[J]. Acta Geographica Sinica, 2003,58(1):25-33. ]

[3]
Briggs D J, Gulliver J, Fecht D, et al.Dasymetric modelling of small-area population distribution using land cover and light emissions data[J]. Remote sensing of Environment, 2007,108(4):451-466.

DOI

[4]
Zeng C Q, Zhou Y, Wang S X, et al.Population spatialization in China based on night-time imagery and land use data[J]. International journal of remote sensing, 2011,32(24):9599-9620.Population is a key indicator of socioeconomic development, urban planning and environmental protection, particularly for developing countries like China. But, census data for any given area are neither always available nor adequately reflect the internal differences of population. The authors tried to overcome this problem by spatializing the population across China through utilizing integer night-time imagery (Defense Meteorological Satellite Program/Operational Linescan System, DMSP/OLS) and land-use data. In creating the population linear regression model, night-time light intensity and lit areas, under different types of land use, were employed as predictor variables, and census data as dependent variables. To improve model performance, eight zones were created using night-time imagery clustering and shortest path algorithm. The population model is observed to have a coefficient of determination (R 2) ranging from 0.80 to 0.95 in the research area, which remained the same in different years. A comparison of the results of this study with those of other researchers shows that the spatialized population density map, prepared on the basis of night-time imagery, reflects the population distribution character more explicitly and in greater detail.

DOI

[5]
柏中强,王卷乐,杨飞.人口数据空间化研究综述[J].地理科学进展,2013,32(11):1692-1702.人口数据空间化研究旨在发掘和展现人口统计数据中隐含的空间信息,并以地理格网或其他区域划分的形式再现客观世界的人口分布,具有重要的科学意义。人口空间分布数据有助于从不同地理尺度和地理维度对人口统计数据形成有益补充,其应用广泛,相关研究方兴未艾。主要从以下3 个方面对人口数据空间化研究进行综述:① 主要空间化方法的原理及其适用性;② 空间化中用到的建模参考因素,并结合具体应用案例分析其作用机理;③ 典型人口空间化数据集。在此基础上,分析了现阶段人口数据空间化所运用的输入数据的质量和详细程度、尺度效应及时空分辨率、长时间序列数据集和精度检验等方面存在的问题;并探讨了人口数据空间化未来的研究方向。

DOI

[ Bai Z Q, Wang J L, Yang F.Research progress in spatialization of population data[J]. Progress in Geography, 2013,32(11):1692-1702. ]

[6]
陈晴,侯西勇.集成土地利用数据和夜间灯光数据优化人口空间化模型[J].地球信息科学学报,2015,17(11):1370-1377.<p>人口统计数据空间化是解决统计数据与自然要素数据融合分析的有效途径。随着RS和GIS技术的发展,人口统计数据空间化方法推陈出新,其中,土地利用数据、夜间灯光数据是人口空间化研究中普遍利用的数据源,但各有优、缺点:土地利用数据中的城镇用地、农村居民点能准确表示人口分布的空间范围,却不能反映其内部的人口密度差异特征;夜间灯光数据的强度信息能体现人口分布的疏密程度,但其像元溢出问题显著夸大人口分布范围,像元过饱和现象也影响着人口数据空间化结果的精度。本研究以中国大陆沿海区域为例,尝试集成土地利用数据和夜间灯光数据优化人口空间化方法,设计了基于精度阈值和动态样本的渐进回归与分区建模的方法,获得了中国沿海2000、2005、2010年1 km分辨率人口空间化数据。结果表明,优化模型显著提高了研究区整体的精度,尤其适用于人口空间结构内部差异较为显著的区域。</p>

DOI

[ Chen Q, Hou X Y.An improved population spatialization model by combining land use data and DMSP/OLS data[J]. Journal of Geo-information Science, 2015,17(11):1370-1377. ]

[7]
Patel N N, Stevens F R, Huang Z, et al.Improving large area population mapping using Geotweet densities[J]. Transactions in Gis, 2017,21(2):317-331.

[8]
Bai Z Q, Wang J L, Wang M M, et al.Accuracy assessment of multi-source gridded population distribution datasets in China[J]. Sustainability, 2018,10.

[9]
江东,杨小唤,王乃斌,等.基于RS、GIS的人口空间分布研究[J].地球科学进展,2002,17(5):734-738.lt;p>人口的空间分布问题涉及人口学、经济学、地理学等多个学科,统计型人口数据的空间化是&quot;数字地球&quot;的重要研究内容。阐述了人口地域分布的基本理论,回顾了人口空间分布的研究进展,结合研究实践,提出了在遥感、GIS技术支持下,统计型人口数据空间化的研究思路和技术流程,并对该方法的特点和应用前景做了展望。</p>

DOI

[ Jiang D, Yang X H, Wang N B, et al.Study on spatial distribution of population based on remote sensing and GIS[J]. Advance in Earth Sciences, 2002,17(5):734-738. ]

[10]
Harvey J T.Population estimation models based on individual TM pixels[J]. Photogrammetric Engineering & Remote Sensing, 2002,68(11):1181-1192.

[11]
卓莉,陈晋,史培军,等.基于夜间灯光数据的中国人口密度模拟[J].地理学报,2005,60(2):266-276.

[ Zhuo L, Chen J, Shi P J, et al.Modeling population density of China in 1998 based on DMSP/OLS nighttime light image[J]. Acta Geographica Sinica, 2005,60(2):266-276. ]

[12]
Azar D, Engstrom R, Graesser J, et al.Generation of fine-scale population layers using multi-resolution satellite imagery and geospatial data[J]. Remote Sensing of Environment, 2013,130:219-232.

[13]
田永中,陈述彭,岳天祥,等.基于土地利用的中国人口密度模拟[J].地理学报,2004,59(2):283-292.

[ Tian Y Z, Chen S P, Yue T X, et al.Simulation of Chinese population density based on land use[J]. Acta Geographica Sinica, 2004,59(2):283-292. ]

[14]
柏中强,王卷乐,姜浩,等.基于多源信息的人口分布格网化方法研究[J].地球信息科学学报,2015,17(6):653-660.lt;p>格网化人口分布数据比行政单元人口密度数据更易直观表达人口的真实分布状况。本文面向人口格网化管理的区域发展需求, 以延安市为研究对象, 基于增强居民地空间分布及其内部结构信息的理念, 利用乡镇界线和乡镇级人口统计数据为输入控制单元, 以土地利用数据、居民点信息、DEM、夜晚灯光数据等多源信息为指示因子, 采用多元回归建模方法获得了延安市2010年100 m格网人口分布数据。结果表明, 本文采用的人口格网化建模方法最终模型选用变量数少, 决定系数(<em>R</em><sup>2</sup>)达到0.872。最终模型在用于验证的24个乡镇中, 有18个乡镇的估计人口数与统计值误差绝对值小于10%。分析认为, 该建模策略结果可信, 多源的人口分布指示信息在人口格网化方法上明显优于单独的土地利用数据方法。本文获得的100 m格网延安市人口数据格网化结果, 显著增强了人口空间分布的细节信息, 对于县市一级的人口数据格网化具有借鉴意义。</p>

DOI

[ Bai Z Q, Wang J L, Jiang H, et al.The gridding approach to redistribute population based on multi-source data[J]. Journal of Geo-information Science, 2015,17(6):653-660. ]

[15]
符海月,李满春,赵军,等.人口数据格网化模型研究进展综述[J].人文地理,2006,21(3):115-119.人口数据格网化是目前人口空间分布研究的热点。本文对国内外人口数据格网化模型研究进行总结,重点剖析几种主要的人口数据格网化模型。研究表明:人口数据格网化模型从单纯的、静态的格网化方法,逐步向自然、经济社会因素综合影响下的空间模型过渡,朝着动态模型方向发展;随着格网化数据应用领域的不断拓展,以不同级别格网为基本统计单元的人口数据生产将是人口数据获取的一个重要发展趋势。

DOI

[ Fu H Y, Li M C, Zhao J, et al.Summary of grid transformation models of population data[J]. Human Geography, 2006,21(3):115-119. ]

[16]
Eicher C L, Brewer C A.Dasymetric mapping and areal interpolation: Implementation and evaluation[J]. American Cartographer, 2001,28(2):125-138.

[17]
李翔,陈振杰,吴洁璇,等.基于夜间灯光数据和空间回归模型的城市常住人口格网化方法研究[J].地球信息科学学报,2017,19(10):1298-1305.

[ Li X, Chen Z J, Wu J X, et al.Gridding methods of city permanent population based on night light data and spatial regression models[J]. Journal of Geo-information Science, 2017,19(10):1298-1305. ]

[18]
Elvidge C D, Baugh K E, Dietz J B, et al.Radiance calibration of DMSP-OLS low-light imaging data of human settlements[J]. Remote Sensing & Environment, 1999,68(1):77-88.Nocturnal lighting is a primary method for enabling human activity. Outdoor lighting is used extensively worldwide in residential, commercial, industrial, public facilities, and roadways. A radiance calibrated nighttime lights image of the United States has been assembled from Defense Meteorological Satellite Program (DMSP) Operational Linescan System (OLS). The satellite observation of the location and intensity of nocturnal lighting provide a unique view of humanities presence and can be used as a spatial indicator for other variables that are more difficult to observe at a global scale. Examples include the modeling of population density and energy related greenhouse gas emissions.

DOI

[19]
高义,王辉,王培涛,等.基于人口普查与多源夜间灯光数据的海岸带人口空间化分析[J].资源科学,2013,35(12):2517-2523.我国海岸带区域是台风、风暴潮、地震海啸和海岸侵蚀等海洋灾害的重灾区,精细空间分辨率的人口数据,能够有效服务海岸带灾害风险管理.本文基于我国第六次人口普查资料、OLS/DMSP和NPP/VIIRS DNB两种夜间灯光数据及Landsat卫星遥感影像,综合利用遥感与地理信息系统理论与技术,进行了我国海岸带人口空间化方法与应用研究.利用建筑物与裸地增强指数法(EBBI)基于Landsat卫星遥感影像提取了我国沿海区县建成区数据,作为人口分布的空间控制因素,以普查人口数与夜间灯光数据回归函数关系为依据,对人口进行空间化处理.反演得到了我国海岸带区县1km×1km和0.5km×0.5km两个空间尺度的人口格网数据.并利用福建省沿海乡镇人口数据对人口空间化结果进行了精度评价.研究结果表明NPP/VIIRS DNB夜间灯光数据适用于人口空间化研究,且其反演精度整体优于基于DMSP/OLS传统夜间灯光数据反演的人口格网模型.通过本文实践,可以发现NPP/VIIRS DNB夜间灯光数据具有实现人口和社会经济数据空间化的巨大潜力.

[ Gao Y, Wang H, Wang P T, et al.Analysis of population spatialization for Chinese coastal zones based on census and multiple night light data[J]. Resources Science, 2013,35(12):2518-2525. ]

[20]
梁友嘉,徐中民.基于LUCC和夜间灯光辐射数据的张掖市甘州区人口空间分布建模[J].冰川冻土,2012,34(4):999-1006.尽管近年来统计数据的生成技术有了很大提高, 但可用的详细人口数据始终难以得到满足.在一些自然-人文要素耦合的建模研究中, 如生态经济集成建模、 环境和健康分析等都需要基于区域尺度的栅格人口分布建模方法.随着GIS和RS技术的发展, 上述建模方法已有较大进步.利用GIS技术, 基于夜间灯光辐射数据和LUCC在象元栅格水平上构建张掖市甘州区人口空间分布. 首先对DMSP夜间灯光辐射数据进行重采样, 通过普通克里金插值获得灯光数据; 然后与LUCC叠加分析, 利用回归分析的方法获取研究区土地利用、 灯光辐射指标和人口统计数据之间的定量关系, 完成空间化.并在乡镇尺度上进行模型检验, 模型总体的调整<i>R</i><sup>2</sup>为0.88, 标准误差为400, 为下一步开展时空变化分析提供支持.

[ Liang Y J, Xu Z M.Modeling the spatial distribution of population based on night light radiation and LUCC: A case study in Ganzhou District, Zhangye Municipality[J]. Journal of Glaciology and Geocryology, 2012,34(4):999-1006. ]

[21]
黄杰,闫庆武,刘永伟,等.基于DMSP/OLS与土地利用的江苏省人口数据空间化研究[J].长江流域资源与环境,2015,24(5):735-741.准确、高分辨率的人口分布信息是人地关系研究的重要前提。人口数据空间化可实现人口统计数据与空间信息集成, 重构人口空间分布特征, 为区域可持续发展研究提供数据支持。基于DMSP/OLS夜间灯光数据与土地利用数据, 以遥感与地理信息系统理论与方法为基础, 采用空间滞后回归模型模拟了江苏省2010年人口空间分布状况, 并得到1 km&#215;1 km的人口密度网格图。通过从县级、乡镇级两种空间尺度对人口数据空间化结果进行检验, 结果表明基于DMSP/OLS与土地利用的人口数据空间化能够正确地表达人口空间分布规律, 尤其对于人口较为密集地区, 具有很高的数据重现精度;但是对于人口密度畸高或畸低的地区, 由于人口空间分布异质性较大, 数据重现的准确性下降。

DOI

[ Huang J, Yan Q W, Liu Y W, et al.Modeling the population density of Jiangsu Province based on DMSP/OLS satellite imagery and land use data[J]. Resources and Environment in the Yangtze Basin, 2015,24(5):735-741. ]

[22]
卓莉,张晓帆,郑璟,等.基于EVI指数的DMSP/OLS夜间灯光数据去饱和方法[J].地理学报,2015,70(8):1339-1350.

[ Zhuo L, Zhang X F, Zheng J, et al.An EVI-based method to reduce saturation of DMSP/OLS nighttime light data[J]. Acta Geographica Sinica, 2015,70(8):1339-1350. ]

[23]
Elvidge C D, Baugh K E, Zhizhin M, et al.Why VIIRS data are superior to DMSP for mapping nighttime lights[J]. Proceedings of the Asia-Pacific Advanced Network, 2013,35:62-69.

[24]
中华人民共和国民政部.中华人民共和国行政区划简册[M].北京:中国地图出版社,2001.

[ Ministry of Civil Affairs of the People's Republic of China. The administrative divisions of the People's Republic of China[M]. Beijing: China Cartographic Publishing House, 2001. ]

[25]
国家统计局人口和社会科技统计司.中国乡、镇、街道人口资料[M].北京:中国统计出版社,2002.

[ Department of Population Social Science and Technology Statistics National Bureau of Statistics of China. China population by township[M]. Beijing: China Statistics Press, 2002. ]

[26]
NationalOceanic and Atmospheric Administration (NOAA) National Centers for Environmental Information. Version 4 DMSP-OLS nighttime lights time series [DB/OL]., 2018-08-12.

[27]
National Aeronautics and Space Administration (NASA) Level-1 and Atmosphere Archive & Distribution System (LAADS) Distributed Active Archive Center (DAAC). MOD13Q1 - MODIS/Terra vegetation indices 16-Day L3 global 250 m SIN Grid [DB/OL]. , 2018-08-12.

[28]
国家科技基础条件平台—国家地球系统科学数据共享服务平台.山东省100 m土地利用数据(2000年)[DB/OL]. ,2018-08-12.

[ National Earth System Science Data Sharing Infrastructure, National Science & Technology Infrastructure of China. Land use data of Shandong Province in 100 m(2000) [DB/OL]. , 2018-08-12. ]

[29]
WorldPop. Chinapopulation 2000 [DB/OL]. , 2018-08-12.

[30]
国家科技基础条件平台—国家地球系统科学数据共享服务平台.中国1:25万乡镇界限数据(2000年) [DB/OL]. ,2018-08-12.

[ National Earth System Science Data Sharing Infrastructure, National Science & Technology Infrastructure of China. China's 1:25 million township boundary data (2000) [DB/OL] , 2018-08-12. ]

Outlines

/