芦蕊12, 马廷1*

1. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
2. 中国科学院大学,北京 100049

Spatially Modeling of Multiple Factors for City-level Population Growth in China

LU Rui12, MA Ting1*

1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100049, China

通讯作者:  *Corresponding author: MATing, E-mail: mting@lreis.ac.cn

收稿日期: 2018-03-15

修回日期:  2018-05-29

网络出版日期:  2018-07-20

本文以中国市域单元为研究对象,利用1990-2010年人口普查数据,采用探索性空间数据分析的方法,分析了过去20 年间中国市级人口增长率的空间分布特征和多变量的空间依赖关系。使用空间计量模型和空间滤波后的经典线性回归模型分别探究了经济、气候、地形、社会文化等因素对中国市级人口增长率的影响。模型对比结果显示,经过空间滤波后的经典线性回归模型能够更好的模拟中国市级人口增长率的变化。在该模型中,经济因素是影响中国城市人口增长率的主要因素,例如代表城市经济发展水平的城市夜光指数密度。气候因素对人口增长率也有着不可忽视的作用,如七月热指数随着等级的提升对人口增长率有着越来越强的负向影响。研究结果表明:人口的区域增长模式是多要素综合作用的结果,在相关建模研究和政策制定中需要重点考虑经济发展水平和气候条件因素对人口增长趋势的不同影响。

关键词: 人口增长 ; 影响因素 ; 探索性空间数据分析 ; 空间自回归 ; 空间滤波


This paper is aimed at exploring the determinants of population growth in Chinese urban areas. With the method of exploratory spatial data analysis and the data of traditional population census between 1990 and 2010, we could delve into the spatial distribution characteristics of the population growth rate and the multivariable spatial dependency during the past twenty years in Chinese city-level. Based on a thorough interpretation of population data, we are able to discover an existing spatial dependency between different cities. Obviously, spatial relations should not be negligible, because the spatial dependency is much stronger within cities living in shorter distance. It is more reasonable to use spatial regression model for our work, therefore, we use spatial lag regression model, spatial error model and classical linear regression model with spatial filtering to explore the influences of economic factors, climate factors, sociocultural factors and topography factors on population growth rate. It is showed that the classical linear regression model with spatial filtering can simulate the urban population growth rate batter than other models in our outcomes. The findings also suggest that economy is the most pivotal factors in population growth, such as the total amount of economy reflected by density of urban nightlight index plays an important role in driving population growth. Meanwhile other factors are following as well. Climatic variation is another systematic and significant factor affecting the rates of urban population growth. Some weather-related movement appears. People are willing to leave the unpleasant places and move to the places with nice weather. For example, with the increase of July heat index, there is a more and more stronger negative impact on population growth. The research shows that Chinese population growth is a complex question. There is a comprehensive action of multi-factor in generating the model of regional population growth. It is necessary to consider the different effects of economic development and climate conditions on the population growth in the researches on corresponding modeling and formulation of policy.

Keywords: population growth ; influence factors ; exploratory spatial data analysis ; spatial regression ; spatial filtering


1 引言



在探究人口增长影响因素的模型中,常用的主要有2类:① 传统统计学模型,主要包括经典线性回归模型、面板数据模型以及经济计量模型等,例如,基于多元回归模型探究经济、地形、气候等因素对城市人口增长率的影响[15],基于固定效应的静态和动态面板数据模型讨论区域人口增长的影响因素[16],基于经济计量模型分析城市人口增长的决定因素[17,18]。此类模型通常只考虑人口的统计特征,忽略了人口增长的空间特征,极易导致模型结果出现偏差或错误。② 空间分析模型,此类模型考虑了人口分布的空间关系,将空间关系纳入模型的计量之中。例如,基于Getis-Ord Gi*方法揭示人口密度空间变化与降水量空间分布间的关系[19],基于地理加权回归模型考察自然、经济和社会因素对一个地区人口密度的影响[20],基于空间滞后模型分析人口增长的空间自相关关系[10]


2 研究区概况及数据源

2.1 研究区概况


2.2 数据源

本文使用的人口数据来自第四、第五、第六次人口普查数据,经济数据来自1992-2012年的21幅DMSP/OLS遥感影像,道路里程数据来自中国1 km格网的道路长度数据,气象数据来自中国气象科学数据共享服务网,社会文化数据来自国家统计局的统计数据。数据预处理过程如下:



图1   1990-2010年中国市级人口增长率分布图

Fig.1   Distribution of Chinese population growth rate from 1990 to 2010

人口增长率的空间依赖关系用全局莫兰指数(Global Moran's I)分析,如式(1)所示。


式中:n表示研究单元的总数;yiyj表示i区域和j区域的属性值; y̅表示该属性均值;wij为空间权重矩阵;I为全局莫兰指数。用R软件spdep包进行全局空间自相关分析(表1)。

表1   Global Moran's I 统计结果表

Tab. 1   Statistics of Global Moran's I

Moran I statistic0.338


Global Moran's I的值为0.338,对其进行近似正态分布的相关性检验。假设中国344个市的人口增长率在空间分布上不存在相关性,在α=0.05显著水平下检验的临界值Z0.05=1.96。本文ZI)>1.96,拒绝假设,即中国各市的人口增长率在空间上存在正相关关系。

3 多因素作用下的人口增长建模

在模型选择方面主要采用两种思路来处理人口增长率的空间正相关关系:① 将空间自相关关系纳入模型中,包括空间滞后模型和空间误差模型;② 在模型分析前过滤掉空间自相关关系,即经过空间滤波的经典线性回归模型。在解释变量选择的过程中使用了逐步回归的方法。

3.1 变量选择



式中:popgrowthi表示第i个城市的人口增长率;POP1990i表示第i个城市1990年人口数量;POP2010i表示第i个城市2010年人口数量;i表示344个城市 (i=1,2,…,344)。

在多因素作用下人口增长率的研究中,解释变量的选择往往要基于相关的理论假设,或借鉴已有研究,有些难以精确测量或无法测量的变量,只能使用替代变量或相似变量[22]。本文参考了相关研究[11,14-17],在充分考虑数据可获得性的基础上,选择了经济、气候、地形、社会文化4类影响因素,共12个解释变量(表2)。其中,为了减少通货膨胀带来的影响,本文使用夜晚灯光指数代替GDP数值;考虑到少数民族人口增长迅速的问题[23],加入了少数民族区域的影响;引入Heat Index(HI)表征一个城市七月的人体舒适程度[24]

表2   变量说明表

Tab. 2   Definitions of the variables

APMean年降雨量年平均降水量小于400 mm时值为1,否则值为0


AIC准则是1974年日本统计学家Akaike根据极大似然估计原理提出的一种回归模型自变量选择准则,其核心思想是从m元回归分析开始,每一步舍去一个不显著且导致AIC值大的变量。假设回归模型的似然函数为Lθ, x),AIC定义为:


式中: θˆLθ的极大似然估计;x为样本数;p是未知参数的个数。根据AIC准则,使用逐步回归法选出的对模型显著影响的自变量。设城市人口增长率与经济Ei、气候Ci、社会文化Si、地形Ti等有关,其中:










式中:popgrowthi表示人口增长率;α表示常数项;βn表示回归系数;εi表示随机误差; Ei'Ci'Si'Ti'表示逐步回归后选取的经济、气候、社会文化、地形变量。

3.2 空间滞后模型


popgrowthi=α+ρWij+β1Ei'+β2Ci'+β3Si'+β4Ti'+εi (10)

式中:popgrowthi表示人口增长率;α表示常数项;ρ表示空间回归系数;Wij表示空间权重矩阵;βn表示回归系数; Ei'Ci'Si'Ti'表示逐步回归筛选后的解释变量;εi表示随机误差;i表示344个城市(i=1,2,…,344)。

3.3 空间误差模型


popgrowthi=α+β1Ei'+β2Ci'+β3Si'+β4Ti'+μi (11)

式中:popgrowthi表示人口增长率;α表示常数项;βn表示回归系数; Ei'Ci'Si'Ti'表示逐步回归后选取的解释变量;λ表示空间误差系数;ε表示随机误差项;W表示空间权重矩阵;μi表示正态分布的随机误差项;i表示344个城市(i=1,2,…,344)。

3.4 空间滤波后的经典线性回归模型

空间滤波是一种比较新颖的空间统计方法。常用的空间滤波方法有3种:① 参数空间滤波,最早通过交叉相关系数的方法来比较2个变量之间的空间自相关关系,与时间序列分析中,预先确定2个序列之间潜在的传递函数的方法相似。② 非参数空间滤波,主要是运用一系列的空间代理变量,从被观测空间对象的基础空间关系矩阵中提取特征向量,通过特征向量移除被观测对象的空间依赖关系[25,26,27]。③ 半参数空间滤波,该方法是在参数空间滤波和非参数空间滤波的基础上发展而来的,主要用空间代理变量来代替空间滞后模型和空间误差模型中的误差项,并且在非参数空间滤波的基础上优化了特征向量的选取,运用最小化残差平方和的原则搜索特征向量[28]


4 结果分析


4.1 变量选择结果


表3   经典线性回归模型(OLS)统计表

Tab. 3   Statistics of OLS model




4.2 空间回归统计结果


表4   空间回归模型统计表

Tab. 4   Statistics of spatial regression

LR test20.385***13.329***-
Wald statistic24.397***19.165***-
Log likelihood-342.353-345.882-319.109
ML residual variance0.4210.428-
LM test12.001(0.000)--



4.3 模型对比分析

图2中3个模型的预测值与人口增长率的实测值比较接近。本文使用方差分析的方法,两两比较模型的拟合程度。首先比较空间滞后模型和空间误差模型(表5)。根据Anselin等提出的标准[29],Log likelihood的值越大,模型拟合的效果越好,因此空间滞后模型优于空间误差模型。从AIC的结果分析,空间滞后模型的AIC值较小。所以在空间计量模型中,空间滞后模型的拟合效果优于空间误差模型。

图2   3种模型对344个城市的人口增长率模拟结果比较

Fig.2   Comparisons of modelled results of growth rate of human population from three models across 344 cities

表5   方差分析结果1

Tab. 5   Statistics of anova analysis 1



对比分析空间滞后模型与经过空间滤波后的经典线性回归模型。方差分析结果显示(表6),经过空间滤波后的线性回归模型的AIC值为678.220,低于空间滞后模型,Log likelihood值为-319.110,高于空间滞后模型。所以经过空间滤波后的经典线性回归模型的拟合效果更优。

表6   方差分析结果2

Tab. 6   Statistics of anova analysis 2




在气候因素中,降水量因素的影响系数达到0.449,通过了显著性检验,表明干旱区域人口增长率相对较高,干旱区多分布在中国西北地区,降水量较少,生态脆弱,但人口出生率却普遍较高,而且西部大开发的政策导向使得西北干旱区人口大量增加。1月平均气温的影响系数为0.274,通过了显著性检验,随着中国经济的发展,国民收入的不断增加,冬季气候宜人,风景优美的地方对人口的吸引力不断提高,例如中国海南省,近几年大量外来人口涌入。7月热指数对人口增长的影响随着等级的不同而有所不同。如表4中所示,体感温度在27~32 ℃时(Ⅱ级),热指数的影响系数为-0.105,未通过显著性检验。体感温度在32~41 ℃时(Ⅲ级),热指数的影响系数为-0.535,通过了显著性检验。体感温度在41~54 ℃时(Ⅳ级),热指数的影响系数为-0.587,且通过了显著性检验。整体来看,7月热指数对人口增长率有着负向的作用,并且这种作用随着体感温度的增加而增加。


5 结论与展望




