
  • 董南 , 1, 2 ,
  • 杨小唤 , 1, 2*, * ,
  • 蔡红艳 1
  • 1. 中国科学院地理科学与资源研究所 资源环境信息系统国家重点实验室,北京 100101
  • 2. 中国科学院大学,北京 100049
*通讯作者:杨小唤(1965-),男,安徽潜山人,博士,研究员,主要从事遥感和GIS应用、资源环境科学空间数据库等研究。 E-mail: yangxh@igsnrr.ac.cn

作者简介:董 南(1984-),男,河北唐山人,博士生,研究方向为人口地理研究、遥感和GIS应用。E-mail:

收稿日期: 2015-12-30

  要求修回日期: 2016-01-26

  网络出版日期: 2016-10-25




Research Progress and Perspective on the Spatialization of Population Data

  • DONG Nan , 1, 2 ,
  • YANG Xiaohuan , 1, 2, * ,
  • CAI Hongyan 1
  • 1. State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author: YANG Xiaohuan, E-mail:

Received date: 2015-12-30

  Request revised date: 2016-01-26

  Online published: 2016-10-25


关键词: 人口; 空间化; 格网; 模型; 尺度


董南 , 杨小唤 , 蔡红艳 . 人口数据空间化研究进展[J]. 地球信息科学学报, 2016 , 18(10) : 1295 -1304 . DOI: 10.3724/SP.J.1047.2016.01295


The research purpose of the spatialization of population data is to capture the size and the distribution location of population in the geographical space. It plays an important role in presenting the geographical meaning of demographic data. Spatializing the statistical population data has increasingly become a research hotspot in the fields of demography, geography and GIS. Population distribution dataset is a key achievement in the spatialization study. At present, there are a few widely-used population distribution datasets and influential population spatialization projects, including GPW/GRUMP, LandScan and UNEP/GRID & China km grid population datasets. Population distribution dataset has practical application values and the scientific significance for relevant researches, such as government planning and decision making at all levels, disaster assessment and resource allocation. After nearly 30 years' development, the spatialization researches are evolving into the maturity stage. They have obtained many achievements and produce a rich variety of spatialization models of population data. Based on the purpose of spatializing census data and the differences between modeling concept and model principle, this paper reviews the spatialization methodologies in three major aspects: (1) the method and characteristic of the selection of grid size (scale); (2) 3 types of common adopted modeling ideas and a comparative analysis between 6 types of basic models; and (3) the proper strategies used for improving the simulation accuracy and their application background and advantages. Finally, according to the research contents of population data spatialization at present stage, this article discusses the further study direction through four perspectives: (1) the suitability of grid size; (2) the simulation of spatial distribution of population at high spatial and temporal resolution; (3) the adoption of new type of data source; and (4) the comprehensive application of multi-thought and multi-model. It is significant to grasp the current status of spatialization research and promote the further development of spatialization methodologies.

1 引言

随着遥感、GIS等技术突飞猛进,“社会数据空间化”和“空间数据社会化”(Pixelizing the Social and Socializing the Pixel)已成为地理科学、社会科学共同关注的焦点之一[6-7]。“人口数据空间化”是其研究的典型代表[8]。人口数据空间化采用适宜的、合理的人口分布指示因素,构建数学模型,将以行政区为单元的人口统计数据展布到一定大小的地理格网上,实现表达人口信息的载体由行政单元向格网转换。
1994年全球人口制图研讨会达成共识,认为统一的全球栅格人口数据对跨学科研究具有重要意义,从而诞生了1995年GPW的第一个版本(GPWv1)。2000年5月,在美国哥伦比亚大学召开了“格网人口数据”研讨会,对人口数据空间化的机理、方法和技术支撑进行了广泛的探讨,认为在土地利用、DEM等数据的支持下,可以获得高空间分辨率的人口数据,以取代县级乃至省级的统计数据[9]。陈述彭先生早在2002年就倡导借助网格地图的现代功能构建新一代网格数据库[10]。目前,已诞生一批具有代表性的全球及国家尺度的人口空间数据库,如Gridded Population of the World(GPW)[11-12]、Global Rural-Urban Mapping Project(GRUMP)[13]、LandScan[14-15]、Global Resource Information Database (UNEP/GRID)[16]、中国1 km格网人口数据库[6,17]等。经过近30年的发展,人口数据空间化研究水平逐渐成熟,方法及模型丰富多样,并已获得许多成果。依据研究目的、建模思想、模型原理的异同,本文从格网大小的确定、常用建模思想及主要模型、提高模型精度措施等方面,对人口数据空间化研究进行梳理,把握其研究现状,进而发现问题,为进一步推动人口空间化发展提供支持。

2 格网大小(尺度)的确定

2.1 常见格网大小及特点

由于研究目的、数据源、模型方法、区域特征等多因素影响,国内外人口数据空间化研究的常见格网大小为20 m~1 km(表1)。各尺度的研究案例体现出格网大小的选取具有以下特点:(1)格网大小(尺度)趋于精细化,并向居住建筑物尺度过渡;(2)格网大小的选择与研究区域的尺度无明显关系,因为在洲、国家、省、市、县尺度上,皆存在大格网 (1 km、500 m)及小格网(100 m、50 m)的研究。
Tab. 1 Study cases on the selection of grid size at different regional scales

表1 不同区域尺度下关于格网大小选取的研究案例

研究尺度 研究时间 研究地区(数据集)及格网大小
全球 1991-2004 GPW、UNEP/5 km[12,16];LandScan/1 km[15]
洲或国家级 2002、2003、2005、2007;2004;2012、2013、2015;2014 中国、欧盟/1 km[6,17,19-22];美国/250 m[22];非洲、东南亚、塞尔维亚/100 m[24-26];
美国/90 m[27]
省级 2005、2006、2007、2015;2012、2014 山东、福建、北京、河北、长江中游4省/1 km[28-33];云贵川结合部、山东/100 m[34-36]
市级 2009、2011;2011;2006、2013、2015 山东半岛,徐州市/500 m[37];贵州猫跳河流域/300 m[38-39];临沂市,江西梅江流域,延安市/100 m[40-42]
县级 2007;2014;2009;2003;2013;2014;2010 和顺县/1 km[43];鹤峰县/500 m[44];张家界永定区/250 m[45];宾夕法尼亚5县/100 m[18];攀枝花市东区/50 m[46];Alachua County/30 m[47];义乌市/20 m、50 m等[48]
居住建筑物 2009、2011、2012、2014 单个建筑物[49-52]

2.2 适宜格网大小的选取方法


3 人口数据空间化主要方法

3.1 常用建模思想及主要模型

3.1.1 分区密度思想
分区密度思想(Dasymetric Mapping),是依据辅助信息将人口分布空间细分成能够反映人口空间变化的小区域,应用面插值技术生成精细尺度人口分布数据[18,49]。分区密度模型已经成为广泛应用的精细尺度人口空间化技术,其应用多见于国外研究中[27,56-57]
该思想代表性做法有:Binary Dasymetric Method[58]将目标区域分为居住和非居住区;The Three-Class Dasymetric Method[18]将目标区域分为high urbanization、low urbanization和nonurban 3类区域;A Multi-Layer and Multi-Class Dasymetric Algorithm[59]将目标区域分为非居住区、农村、多种公共基础设施密度区域。分区密度思想的优点是思路清晰、模型简单、便于实现,能够保证源区域与目标区域人口总量不变性,适合精细尺度人口空间化研究。
3.1.2 多元回归思想
该思想代表性研究有杨小唤等[32,39,60]、吴桂平 等[45]、Gallego等[56]、唐华秀等[61]基于土地利用的研究;柏中强等[40]、卓莉等[62]、高义等[63]基于夜间灯光数据的研究。该思想的优点是模型所需参数少,易于建模,结果较为可控,便于推广,适合中大尺度上人口空间化研究。
3.1.3 多因素融合思想
该思想最典型的应用是美国橡树岭国家实验室开发的全球人口分布数据库LandScan[14-15],其空间化策略是基于道路、坡度、土地覆被、夜间灯光和城市密度等数据构建多因素融合模型。较具代表性的包括廖顺宝等[64]、叶宇等[30]、汪蓉[65]、曾祥贵 等[42]、董春等[28]开展的研究。该思想的优点是综合考虑多因素对人口分布的指示作用,模型结果具有较强的说服力。需要说明的是,不同的研究尺度所选取的人口分布影响因素不同。例如,在省级尺度及以上时,地形地貌因素的影响较为明显,而市辖区尺度时,地形地貌因素则可以忽略,应重点考虑城市生活基础设施要素的影响。
3.1.4 主要模型分析
Tab. 2 Comparing major spatialization models of population data

表2 人口数据空间化主要模型综合比较

模型名称 建模参数 原理 优点 局限性
中心人口密度理论值、距市中心距离、城市特征半径等 基于城市地理学原理,人口密度从城市中心向外围递减,人口围绕城市中心成圆形分布 模型简单,是众多模型理论基础,适用于大中城市人口密度模拟 市中心确定较为主观,不适用于小城市及乡村地区
核密度估计模型[68-69] 区域(格网)中心人口密度、带宽等 人口密度从区域中心向外围递减,基于人口加权质心将人口密度内插到格网面 引入统计分析法,模拟人口连续分布情况;模型允许部分栅格无人口,趋于实际 未考虑人口空间分布影响因素,带宽τ值确定较主观
分区密度模型[18,59] 人口数量、土地类型、地形地貌、交通路网、不透水面等 假设面元内同一类别分区上人口分布一致,通过面插值技术实现人口空间化 模型简单,易实现,保证源区域与目标区域人口总量不变 各分区的人口分配权重确定较为困难;无法揭示同一类别分区内人口分布异同
多元回归模型[17,62,70] 各土地类型面积,并用DEM、居民点等数据进行修正 土地面积与人口强相关性;假定某分区下同一土地类型人口密度相同,遵从“无土地则无人口”原则 适合中大尺度研究,参数少,易于建模,便于推广,结果较为可控 相同土地类型下难以揭示人口分布差异
夜间灯光、NDVI、土地利用类型 夜间灯光与人口强相关性;夜间灯光蕴含人口分布信息,一定程度上反映人口分布情况 参数少,易于建模,便于推广,适合中大尺度研究 灯光像元过饱和及溢出问题使其应用受限,像元灰度值相同地区难以揭示人口分布异同
多因素融合模型[15,22,64,71] 人口数量、水域因子、交通路网、第一性生产力、DEM、城市规模及点位 基于重力模型构建格点生成法;人口分布与城市规模、交通网密度、净第一性生产力成正比,与到城市中心点的距离、高程成反比 综合考虑自然、经济因素对人口分布的影响,体现了各因素的影响程度 参数设置及模型计算较为 复杂
土地利用、DEM、交通路网、河流水系、居民点等 人口分布受自然地理要素、社会经济条件、历史条件等众多因素的综合影响 注重分析单因子及多因子对人口分布的影响程度,为其他研究提供清晰思路 融合权重确定较为主观,缺少因子间的相关性分析,选取指标多变,增加复杂性及信息冗余
智能化模型[43,52,72] 交通条件、自然环境、公共服务设施、建筑物(面积、楼层、新旧程度、区位、密度) 微观个体根据自身偏好以及环境因素,来决定居住选择行为,呈现出人口空间分布;构建“自下而上”多智能体模拟系统 适合城市地区精细尺度人口分布模拟,“自下而上”的模型能够描述城市内部人口分异特性 表征多智能体行为的环境参数的选取较为主观、设置 复杂
DEM、河流水系、交通路网、土地利用、邻近村镇 利用遗传进化计算技术的优点,构建智能算法,实现人口数据内插方法 智能化与自动化程度高,无须人工干预,模型结构灵活多样 模型精度受算法优劣、样本大小、样本类型的影响,选取合适的影响因素较为困难

3.2 提高精度措施

3.2.1 分区域建模
3.2.2 分城乡建模
3.2.3 分县分乡镇控制
3.2.4 居民地再分类建模

4 研究展望

4.1 格网尺度适宜性研究

格网大小(尺度)的确定是人口数据空间化的首要任务,国内外代表性研究的常用格网大小为20 m~1 km。基于现有基础数据条件下,用于表达人口空间分布的适宜格网大小是多大?格网尺度适宜性研究,就是要解决这一科学问题。目前,相关研究较少,主要从数据源及人口空间化结果表达适宜尺度2方面确定适宜格网大小。

4.2 高时空分辨率人口空间分布模拟


4.3 新型数据源的应用


4.4 多思想多模型的综合应用


