人口数据空间化研究进展

董南; 杨小唤; 蔡红艳

doi:10.3724/SP.J.1047.2016.01295

地球信息科学学报 >

2016 , Vol. 18 >Issue 10: 1295 - 1304

DOI: https://doi.org/10.3724/SP.J.1047.2016.01295

人口数据空间化研究进展

董南 ^,¹^,² ,
杨小唤 ^,¹^,^2*^,^* ,
蔡红艳 ¹

展开

1. 中国科学院地理科学与资源研究所资源环境信息系统国家重点实验室,北京 100101
2. 中国科学院大学,北京 100049

*通讯作者：杨小唤（1965-）,男,安徽潜山人,博士,研究员,主要从事遥感和GIS应用、资源环境科学空间数据库等研究。 E-mail: yangxh@igsnrr.ac.cn

作者简介：董南（1984-）,男,河北唐山人,博士生,研究方向为人口地理研究、遥感和GIS应用。E-mail: dongnan67@126.com

收稿日期: 2015-12-30

要求修回日期: 2016-01-26

网络出版日期: 2016-10-25

基金资助

国家自然科学基金项目“人口空间数据获取方法及格网尺度适宜性研究”（41271173）

国家科技支撑计划项目课题“流动人口动态监测与信息获取关键技术研究”（2012BAI32B06）

收起

Research Progress and Perspective on the Spatialization of Population Data

DONG Nan ^,¹^,² ,
YANG Xiaohuan ^,¹^,²^,^* ,
CAI Hongyan ¹

Expand

1. State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100049, China

*Corresponding author: YANG Xiaohuan, E-mail: yangxh@igsnrr.ac.cn

Received date: 2015-12-30

Request revised date: 2016-01-26

Online published: 2016-10-25

Copyright

《地球信息科学学报》编辑部所有

Fold

摘要

人口数据空间化旨在揭示人口在地理空间上的分布位置及数量信息,展现人口统计数据的地理学含义,其研究已经成为人口学、地理学、GIS领域的研究热点。人口空间数据库在各级政府部门的规划和决策、灾害评估、资源配置等方面,具有重要的应用价值和科学意义。经过近30年的发展,人口数据空间化研究水平逐渐成熟,模型丰富多样,已获得众多成果。为把握人口空间化研究的研究现状,本文首先依据研究目的、建模思想及模型原理的异同,从3个方面对人口空间化研究进行梳理：（1）格网大小（尺度）的确定;（2）3种常用建模思想及6类主要模型的对比分析;（3）提高人口空间化精度的措施及其应用背景、优点。在此基础上,依据现阶段人口数据空间化的研究内容,从格网尺度适宜性研究、高时空分辨率人口空间分布模拟、引入新型数据源及多思想多模型综合应用等方面探讨了人口数据空间化的研究方向。

关键词： 人口; 空间化; 格网; 模型; 尺度

本文引用格式

董南 , 杨小唤 , 蔡红艳 . 人口数据空间化研究进展[J]. 地球信息科学学报, 2016 , 18(10) : 1295 -1304 . DOI: 10.3724/SP.J.1047.2016.01295

Abstract

The research purpose of the spatialization of population data is to capture the size and the distribution location of population in the geographical space. It plays an important role in presenting the geographical meaning of demographic data. Spatializing the statistical population data has increasingly become a research hotspot in the fields of demography, geography and GIS. Population distribution dataset is a key achievement in the spatialization study. At present, there are a few widely-used population distribution datasets and influential population spatialization projects, including GPW/GRUMP, LandScan and UNEP/GRID & China km grid population datasets. Population distribution dataset has practical application values and the scientific significance for relevant researches, such as government planning and decision making at all levels, disaster assessment and resource allocation. After nearly 30 years' development, the spatialization researches are evolving into the maturity stage. They have obtained many achievements and produce a rich variety of spatialization models of population data. Based on the purpose of spatializing census data and the differences between modeling concept and model principle, this paper reviews the spatialization methodologies in three major aspects: (1) the method and characteristic of the selection of grid size (scale); (2) 3 types of common adopted modeling ideas and a comparative analysis between 6 types of basic models; and (3) the proper strategies used for improving the simulation accuracy and their application background and advantages. Finally, according to the research contents of population data spatialization at present stage, this article discusses the further study direction through four perspectives: (1) the suitability of grid size; (2) the simulation of spatial distribution of population at high spatial and temporal resolution; (3) the adoption of new type of data source; and (4) the comprehensive application of multi-thought and multi-model. It is significant to grasp the current status of spatialization research and promote the further development of spatialization methodologies.

Key words： population; spatialization; grid; model; scale

1 引言

人口空间分布是指一定时间点上人口在地域上的分布状况,是人口过程在空间上的表现形式,是人口地理学研究的核心问题^[1],是人地关系研究的重要基础^[2]。人口数据空间化是获取人口空间分布数据的有效途径,其在精确刻画人口分布、多源数据融合研究等方面具有重要科学意义^[3-5]。

随着遥感、GIS等技术突飞猛进,“社会数据空间化”和“空间数据社会化”（Pixelizing the Social and Socializing the Pixel）已成为地理科学、社会科学共同关注的焦点之一^[6-7]。“人口数据空间化”是其研究的典型代表^[8]。人口数据空间化采用适宜的、合理的人口分布指示因素,构建数学模型,将以行政区为单元的人口统计数据展布到一定大小的地理格网上,实现表达人口信息的载体由行政单元向格网转换。

1994年全球人口制图研讨会达成共识,认为统一的全球栅格人口数据对跨学科研究具有重要意义,从而诞生了1995年GPW的第一个版本（GPWv1）。2000年5月,在美国哥伦比亚大学召开了“格网人口数据”研讨会,对人口数据空间化的机理、方法和技术支撑进行了广泛的探讨,认为在土地利用、DEM等数据的支持下,可以获得高空间分辨率的人口数据,以取代县级乃至省级的统计数据^[9]。陈述彭先生早在2002年就倡导借助网格地图的现代功能构建新一代网格数据库^[10]。目前,已诞生一批具有代表性的全球及国家尺度的人口空间数据库,如Gridded Population of the World（GPW）^[11-12]、Global Rural-Urban Mapping Project（GRUMP）^[13]、LandScan^[14-15]、Global Resource Information Database (UNEP/GRID)^[16]、中国1 km格网人口数据库^[6,17]等。经过近30年的发展,人口数据空间化研究水平逐渐成熟,方法及模型丰富多样,并已获得许多成果。依据研究目的、建模思想、模型原理的异同,本文从格网大小的确定、常用建模思想及主要模型、提高模型精度措施等方面,对人口数据空间化研究进行梳理,把握其研究现状,进而发现问题,为进一步推动人口空间化发展提供支持。

2 格网大小（尺度）的确定

2.1 常见格网大小及特点

格网是表达人口空间信息的基本单元,格网大小直接影响人口空间数据的表达精度^[18]。理论上说,格网越小的人口空间数据,其精度越高,越能准确地揭示人口分布的空间差异;格网越大的人口空间数据,其精度越低,越难以准确地刻画人口空间分布的真实情况。人口数据空间化的首要任务是确定格网大小。

由于研究目的、数据源、模型方法、区域特征等多因素影响,国内外人口数据空间化研究的常见格网大小为20 m~1 km（表1）。各尺度的研究案例体现出格网大小的选取具有以下特点：（1）格网大小（尺度）趋于精细化,并向居住建筑物尺度过渡;（2）格网大小的选择与研究区域的尺度无明显关系,因为在洲、国家、省、市、县尺度上,皆存在大格网（1 km、500 m）及小格网（100 m、50 m）的研究。

Tab. 1 Study cases on the selection of grid size at different regional scales

表1 不同区域尺度下关于格网大小选取的研究案例

研究尺度	研究时间	研究地区（数据集）及格网大小
全球	1991-2004	GPW、UNEP/5 km^[12,16];LandScan/1 km^[15]
洲或国家级	2002、2003、2005、2007;2004;2012、2013、2015;2014	中国、欧盟/1 km^[6,17,19-22];美国/250 m^[22];非洲、东南亚、塞尔维亚/100 m^[24-26]; 美国/90 m^[27]
省级	2005、2006、2007、2015;2012、2014	山东、福建、北京、河北、长江中游4省/1 km^[28-33];云贵川结合部、山东/100 m^[34-36]
市级	2009、2011;2011;2006、2013、2015	山东半岛,徐州市/500 m^[37];贵州猫跳河流域/300 m^[38-39];临沂市,江西梅江流域,延安市/100 m^[40-42]
县级	2007;2014;2009;2003;2013;2014;2010	和顺县/1 km^[43];鹤峰县/500 m^[44];张家界永定区/250 m^[45];宾夕法尼亚5县/100 m^[18];攀枝花市东区/50 m^[46];Alachua County/30 m^[47];义乌市/20 m、50 m等^[48]
居住建筑物	2009、2011、2012、2014	单个建筑物^[49-52]

2.2 适宜格网大小的选取方法

适宜格网大小的确定,即选取能准确揭示某研究区域人口分布空间特征的格网大小。目前,主要有2类方法确定适宜格网大小。

（1）基于数据源的方法主要有：土地利用数据的精度损失分析法^[36]、街道平均面积百分比法^[37]、遥感数据源与格网尺度的响应关系法^[8]、最小居民地面积确定法^[53]。该类方法用于在人口数据空间化建模之前,依据对源数据的分析来确定适宜格网大小。其优点是思路简单,便于实现,缺点是只对源数据进行分析,缺乏对人口空间数据信息的适宜性分析。

（2）基于人口空间化结果表达度的方法主要有：统计学法、空间自相关法、景观指数法和半方差函数法^[35,54-55]。该类方法通过对多格网尺度人口空间数据的表达度分析来确定适宜格网大小。其优点是对源数据及人口空间数据隐含的适宜性信息进行分析,结果具有说服力,但需要以多格网尺度人口空间数据为前提。

3 人口数据空间化主要方法

3.1 常用建模思想及主要模型

3.1.1 分区密度思想

分区密度思想（Dasymetric Mapping）,是依据辅助信息将人口分布空间细分成能够反映人口空间变化的小区域,应用面插值技术生成精细尺度人口分布数据^[18,49]。分区密度模型已经成为广泛应用的精细尺度人口空间化技术,其应用多见于国外研究中^[27,56-57]。

该思想代表性做法有：Binary Dasymetric Method^[58]将目标区域分为居住和非居住区;The Three-Class Dasymetric Method^[18]将目标区域分为high urbanization、low urbanization和nonurban 3类区域;A Multi-Layer and Multi-Class Dasymetric Algorithm^[59]将目标区域分为非居住区、农村、多种公共基础设施密度区域。分区密度思想的优点是思路清晰、模型简单、便于实现,能够保证源区域与目标区域人口总量不变性,适合精细尺度人口空间化研究。

3.1.2 多元回归思想

多元回归思想,是采用土地利用/土地覆盖（夜间灯光）等蕴含人口分布信息的空间数据,构建土地利用类型面积（夜间灯光强度、像元个数）与人口统计数据的多元回归关系,应用最小二乘法求取回归系数,实现人口数据空间化。其基本假设为：假定某分区下同一土地利用类型人口密度相同,遵从“无土地则无人口”原则,或基于灯光强度与人口的显著相关关系。

该思想代表性研究有杨小唤等^[32,39,60]、吴桂平等^[45]、Gallego等^[56]、唐华秀等^[61]基于土地利用的研究;柏中强等^[40]、卓莉等^[62]、高义等^[63]基于夜间灯光数据的研究。该思想的优点是模型所需参数少,易于建模,结果较为可控,便于推广,适合中大尺度上人口空间化研究。

3.1.3 多因素融合思想

多因素融合思想的基本思路：（1）采用相关性分析,选择人口空间分布指示因素;(2)确定各单因素对人口分布的函数关系（影响值）;(3)对各单因素赋予不同权重方案进行加权（乘积）融合,获取各格网单元人口分布系数;(4)以行政单元的人口总数为控制条件,依据系数分配人口,实现人口数据空间化。

该思想最典型的应用是美国橡树岭国家实验室开发的全球人口分布数据库LandScan^[14-15],其空间化策略是基于道路、坡度、土地覆被、夜间灯光和城市密度等数据构建多因素融合模型。较具代表性的包括廖顺宝等^[64]、叶宇等^[30]、汪蓉^[65]、曾祥贵等^[42]、董春等^[28]开展的研究。该思想的优点是综合考虑多因素对人口分布的指示作用,模型结果具有较强的说服力。需要说明的是,不同的研究尺度所选取的人口分布影响因素不同。例如,在省级尺度及以上时,地形地貌因素的影响较为明显,而市辖区尺度时,地形地貌因素则可以忽略,应重点考虑城市生活基础设施要素的影响。

3.1.4 主要模型分析

人口数据空间化模型旨在实现表达人口信息的载体由行政单元向格网转换。本文依据建模原理的不同,将人口空间化主要模型归纳为负指数、核密度估计、分区密度、多元回归、多因素融合、智能化6类（表2）。

Tab. 2 Comparing major spatialization models of population data

表2 人口数据空间化主要模型综合比较

模型名称	建模参数	原理	优点	局限性
负指数模型及改进模型^[66-67]	中心人口密度理论值、距市中心距离、城市特征半径等	基于城市地理学原理,人口密度从城市中心向外围递减,人口围绕城市中心成圆形分布	模型简单,是众多模型理论基础,适用于大中城市人口密度模拟	市中心确定较为主观,不适用于小城市及乡村地区
核密度估计模型^[68-69]	区域（格网）中心人口密度、带宽等	人口密度从区域中心向外围递减,基于人口加权质心将人口密度内插到格网面	引入统计分析法,模拟人口连续分布情况;模型允许部分栅格无人口,趋于实际	未考虑人口空间分布影响因素,带宽τ值确定较主观
分区密度模型^[18,59]	人口数量、土地类型、地形地貌、交通路网、不透水面等	假设面元内同一类别分区上人口分布一致,通过面插值技术实现人口空间化	模型简单,易实现,保证源区域与目标区域人口总量不变	各分区的人口分配权重确定较为困难;无法揭示同一类别分区内人口分布异同
多元回归模型^[17,62,70]	各土地类型面积,并用DEM、居民点等数据进行修正	土地面积与人口强相关性;假定某分区下同一土地类型人口密度相同,遵从“无土地则无人口”原则	适合中大尺度研究,参数少,易于建模,便于推广,结果较为可控	相同土地类型下难以揭示人口分布差异
多元回归模型^[17,62,70]	夜间灯光、NDVI、土地利用类型	夜间灯光与人口强相关性;夜间灯光蕴含人口分布信息,一定程度上反映人口分布情况	参数少,易于建模,便于推广,适合中大尺度研究	灯光像元过饱和及溢出问题使其应用受限,像元灰度值相同地区难以揭示人口分布异同
多因素融合模型^{[15,22,64,71]}	人口数量、水域因子、交通路网、第一性生产力、DEM、城市规模及点位	基于重力模型构建格点生成法;人口分布与城市规模、交通网密度、净第一性生产力成正比,与到城市中心点的距离、高程成反比	综合考虑自然、经济因素对人口分布的影响,体现了各因素的影响程度	参数设置及模型计算较为复杂
多因素融合模型^{[15,22,64,71]}	土地利用、DEM、交通路网、河流水系、居民点等	人口分布受自然地理要素、社会经济条件、历史条件等众多因素的综合影响	注重分析单因子及多因子对人口分布的影响程度,为其他研究提供清晰思路	融合权重确定较为主观,缺少因子间的相关性分析,选取指标多变,增加复杂性及信息冗余
智能化模型^[43,52,72]	交通条件、自然环境、公共服务设施、建筑物（面积、楼层、新旧程度、区位、密度）	微观个体根据自身偏好以及环境因素,来决定居住选择行为,呈现出人口空间分布;构建“自下而上”多智能体模拟系统	适合城市地区精细尺度人口分布模拟,“自下而上”的模型能够描述城市内部人口分异特性	表征多智能体行为的环境参数的选取较为主观、设置复杂
智能化模型^[43,52,72]	DEM、河流水系、交通路网、土地利用、邻近村镇	利用遗传进化计算技术的优点,构建智能算法,实现人口数据内插方法	智能化与自动化程度高,无须人工干预,模型结构灵活多样	模型精度受算法优劣、样本大小、样本类型的影响,选取合适的影响因素较为困难

通过对主要模型的综合对比分析,得出模型各有优缺点并具有以下发展趋势：

（1）模型趋于实用化、智能化

模型从单纯的格网化模型（负指数、核密度估计）,向综合考虑自然、经济因素影响下的空间化模型（分区密度、多元回归、多因素融合）,到智能化模型过渡,经历了从简单到实用、从人工干预到智能化模型的发展过程。针对研究区特点及现有基础条件,建立不同格网尺度人口空间转换方法,综合利用多种模型开展实证案例研究,强调模型的实用性和可实现性,使模拟结果更加符合实际。“自下而上”的多智能体模型研究为人口空间化向自动化、智能化发展提供新思路。

（2）建模因素趋于多源化、新型化

建模因素从采用单一的人口密度、距离、土地利用、夜间灯光等数据（负指数、核密度估计、多元回归模型）,到综合考虑地形地貌、河流水系、交通路网、城市规模、居民点位、高精度不透水面^[25]等（分区密度、多因素融合模型）,到引入建筑物轮廓及体积^[49-50]、城市公共服务设施^[73]、LiDAR点数据^[74-75]等新型数据,建模数据源向多源化、新型化发展。建模因素的多样化对合理选择建模参数提出挑战。需要深入研究各因素对人口分布的指示机理,寻求合理的、适宜的因素进行建模,是提高模型精度的关键。

因人口空间分布机理尚不明确,指示因素复杂多样,故不能推断哪种模型更具有普遍意义的精度优势^[76]。6类代表性模型各有优缺点,主要表现为：①建模参数少、易于实现、适用于城市研究区,但某些参数确定较为主观,如负指数模型、核密度估计模型;②模型简单、便于推广、结果较为可控,但会存在相同土地利用类型下（像元灰度值相同区域）难以揭示人口分布差异的局限性,如分区密度模型、多元回归模型;③考虑多因素对人口分布的指示作用,但又导致建模参数过多、模型复杂、信息冗余,各因素权重配比较难,如多因素融合模型;④模型智能化、自动化程度高,但又导致结果可控性差,建模参数设置复杂,如智能化模型。

3.2 提高精度措施

人口空间分布规律和机理是人口数据空间化方法的理论来源。综合性、多要素的人口数据空间化模型在提高精度的同时,也引起了模型构建复杂,计算难度加大、机理不明等问题^[3-4]。为实现模型易构、兼顾人口分布规律异同的特征,研究学者采用多种措施进行建模,以提高模型精度。

3.2.1 分区域建模

分区域建模是在已知人口分布区域差异的前提下,选取特定指标或方法对研究区进行分区,达到区内的自然、经济条件基本一致的目的,即体现“区间人口分布差异明显、区内人口分布特征相似”的特点,不同区域依据自身条件分别进行建模。

各地区由于自然条件、资源禀赋、基础设施、人口发展、历史条件的差异,人口分布区域差异特征明显。特别是在中国,人口分布区域差异明显：“胡焕庸线以东地区以43%的国土面积养育了94%的人口。”因此,当研究区域在省级、国家级尺度以上时,分区域建模很有必要。分区的方式多种多样,代表性研究如杨小唤等^[6,17]的全国人口8大区,田永中等^[70]的全国12生态农业区,卓莉等^[62]利用夜间灯光斑块面积百分比将中国归属为3大区,王静^[77]依据地貌类型分山地、丘陵、平原进行建模。分区域建模的优点是在建模之初就考虑地域人口分布异质性特征,能够减少因区域条件差异过大而引起的人口空间化误差。

3.2.2 分城乡建模

分城乡建模是从城乡人口分布特征不同的角度出发,分城乡区域构建人口空间化模型,避免因城乡统一建模而引起误差,提高模型精度。

人口地理学家将制约人口分布的因素分为自然地理环境与社会经济2大类^[1,78]。城市和农村地区的自然地理及社会经济条件差异很大,导致城乡人口分布规律不同。城市地区拥有更多的社会经济活动与就业机会、更完善的基础设施和更高的土地资产价值,城市地区的人口密度往往也大于乡镇农村人口密度^[59]。因此,当研究区包括城市和乡村时,分城乡建模不可或缺。典型研究有GRUMP全球数据库^[13]、田永中等^[70]、Linard等^[26]、韩贞辉等^[79]。分城乡建模的优点是能够防止统一建模时由于模型及参数选取不当而使城市和乡村之间的人口再分配,造成系统误差。

3.2.3 分县分乡镇控制

现代意义的人口普查公开发行的各种统计年鉴中,可查询到的最详细的人口统计数据大多数是县级的。因此,多数学者以县级人口数量作为模型方程的因变量,来避免不同县之间的人口再分配,提高模型精度。代表性研究如杨小唤等^[17]、田永中等^[70]、高占慧等^[36]。分县控制的优点是人口统计数据容易获取,模型便于实现、推广,避免人口数量在不同县区之间的再分配。

分乡镇控制是获取精细尺度人口空间数据库的前提条件之一。胡焕庸先生^[80]在“句容县之人口分布”中阐述：“制作精密之人口地图,必须备有各县分乡人口统计,及分乡区划地图。”可见乡镇（街道）级别的人口统计数据和行政区划图是绘制高精度人口密度图的2个必要条件。代表性研究如闫庆武等^[69]、王培震等^[55]、柏中强等^[40]。以乡镇（街道）为建模单元,减小了模型空间尺度转换的跨度,保证精细尺度人口空间化精度。

3.2.4 居民地再分类建模

居民地再分类建模,就是从各种类型居民地人口居住密度不同的角度出发,将居民地进行分类,用人口统计数据与各类型居民地面积、人口居住密度进行线性回归建模,获取各类型居民地居住密度,提高模拟精度。

以人工建筑物为主要特征的居民地是人们共同生活和进行经济、政治和文化等活动而聚集的定居场所,是土地利用类型中最直接反映人口分布的因素^[81]。居民地是人口空间化的常用建模因素。由于居民地的等级、周边环境、功能定位、居住类型不同,导致各居民地人口居住密度的差异性,因此进行居民地再分类建模,能够提高模型精度。居民地再分类的方式很多,如农村居民地百分比分类法^[41],人口分布的聚集性与分散性特征分类法^[34,42],居民地解译标志信息的分类法^[82-83],夜间灯光数据分类法^[29]。居民地再分类建模的优点是避免对所有居民地一概而论,而引起的各居民地居住密度相同的错误结果,有助于获取更加实际的人口空间数据。

4 研究展望

4.1 格网尺度适宜性研究

格网大小（尺度）的确定是人口数据空间化的首要任务,国内外代表性研究的常用格网大小为20 m~1 km。基于现有基础数据条件下,用于表达人口空间分布的适宜格网大小是多大?格网尺度适宜性研究,就是要解决这一科学问题。目前,相关研究较少,主要从数据源及人口空间化结果表达适宜尺度2方面确定适宜格网大小。

结合已有研究及对格网尺度适宜性的理解,未来可以从位置表达度、数值信息表达度及空间关系表达度3方面进行研究,构建人口空间数据适宜格网评价指标体系,确定研究区适宜格网。所谓位置表达度,是指选取的适宜格网大小能够正确揭示人口空间分布位置。数值信息表达度,是指在人口密度差异的区域,所选取的适宜格网大小也能够揭示其人口密度差异。空间关系表达度,是指所选取的适宜格网大小,其人口空间数据的空间依赖性最小,既体现人口分布差异,又减少数据冗余。

4.2 高时空分辨率人口空间分布模拟

高时空分辨率的人口空间数据在灾害评估、资源配置、商业选址、智慧城市建设及规划、突发事件应急响应等方面有广泛应用。以摄影测量与遥感为代表的现代测绘技术,为获取高分辨率影像、大比例尺正射影像、地表三维立体提供技术支持,进而获取的建筑物类型、轮廓、体积、层高^[49-50,84]及LiDAR点数据^[74-75]等精细地理数据,其应用将人口空间数据的精度提高到十米级或单个建筑物尺度。高时间分辨率人口空间化的研究主要侧重“人口-昼夜-土地利用类型”^[85-87],“人口出行规律-小时-建筑物类型”^[88-89],“个人地理坐标-小时”^[90]等关系模型的构建,取得了一定成果。高时空分辨率的人口空间分布模拟仍是未来人口空间化研究的方向。

4.3 新型数据源的应用

获取人口空间分布数据,最简单、精确的方法是收集每个人的地理位置数据,以此来计算每个格网内人口数量^[56]。这种“自下而上”的方法是今后研究的方向,而新型数据源,例如移动基站数据、手机通讯数据,为“自下而上”的方法提供数据基础。毛夏等^[90]利用移动基站手机用户信息,实现了深圳市的日变化人口动态密度分布数据。Kang等^[91]利用手机通讯数据获取人口“活动强度”进而估计人口空间分布。“大数据”时代,数据就是价值,丰富人口空间化研究的数据源十分迫切。

4.4 多思想多模型的综合应用

人口数据空间化的最终成果是人口空间数据库,为保证其精度达到预期目的,学者们针对具体问题提出相应的解决方法,本文将其总结为3类常用建模思想、6类主要模型、4类提高精度措施。各思想及模型都存在优缺点,用单一的思想及模型难以准确地表达人口空间分布。在实际研究中,如何综合利用多种思想、模型,扬长避短,是当前的研究难点,也是提高精度的关键。张建辰等^[44]基于土地利用数据,从全局与局部、线性回归与非线性回归着眼,选取地理加权（GWR）模型、多元回归模型和BP神经网络模型,模拟鹤峰县人口空间数据,并进行多角度精度对比分析的研究提供了很好的启示。

The authors have declared that no competing interests exist.

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	胡焕庸. 论中国人口之分布[M].北京:科学出版社,1983. [ Hu H Y.Distribution of China's population[M]. Beijing: Science Press, 1983. ]

[2]

杨存建,白忠,贾月江,等.基于多源遥感的聚落与多级人口统计数据的关系分析[J].地理研究,2009,28(1):19-26.

在四川省市州、区县和典型村等三级尺度上,探讨了基于多源遥感的聚落面积与多级人口统计数据的关系。首先,从LANSAT TM影像中提取农村和城镇聚落信息,从Quickbird 影像上提取农村聚落及其房屋地基信息。其次,通过叠加统计得到各级统计单元内的聚落面积;再次,在四川省市州和区县尺度上,分别对城乡聚落面积和总人口数、城镇聚落面积和非农业人口数、农村聚落面积和农业人口数等进行相关性分析, 城镇聚落和非农业人口数的相关系数最高,分别为0.962和0.791,并建立了基于城镇聚落面积的非农业人口数估算模型,其模型的判定系数分别为0.926和0.625;最后,在村级尺度上,对农村聚落及其房屋地基面积与农村人口数之间的相关性进行分析,其相关系数分别为0.806和0.825,分别建立基于农村聚落及其房屋地基面积的农村人口数估算模型,其模型的判定系数分别为0.65和0.68。研究表明,LANDSAT TM适用于大尺度的非农业人口估算,估算效果随尺度的降低而有所降低;Quickbird适合于精细尺度的农业人口估算。

[ Yang C

, Bai

, Jia Y

, et al.Study on the relationship between residential area frommulti-source remote sensing images and multi-level population data[J]. Geographical Research, 2009,28(1):19-26. ]

[3]

柏中强,王卷乐,杨飞.人口数据空间化研究综述[J].地理科学进展,2013,32(11):1692-1702.

人口数据空间化研究旨在发掘和展现人口统计数据中隐含的空间信息，并以地理格网或其他区域划分的形式再现客观世界的人口分布，具有重要的科学意义。人口空间分布数据有助于从不同地理尺度和地理维度对人口统计数据形成有益补充，其应用广泛，相关研究方兴未艾。主要从以下3 个方面对人口数据空间化研究进行综述：① 主要空间化方法的原理及其适用性；② 空间化中用到的建模参考因素，并结合具体应用案例分析其作用机理；③ 典型人口空间化数据集。在此基础上，分析了现阶段人口数据空间化所运用的输入数据的质量和详细程度、尺度效应及时空分辨率、长时间序列数据集和精度检验等方面存在的问题；并探讨了人口数据空间化未来的研究方向。

模态框（Modal）标题

摘要