The Near-real-time Prediction of Urban Population Distributions Based on Mobile Phone Location Data

  • CHEN Lina , 1, 2 ,
  • WU Sheng 1, 2 ,
  • CHEN Jie , 3, * ,
  • LI Mingxiao 3, 4 ,
  • LU Feng 3
  • 1. Spatial Information Research Center of Fujian Province, Fuzhou University, Fuzhou 350002, China
  • 2. Fujian Collaborative Innovation Center for Big Data Applications in Governments, Fuzhou 350002, China
  • 3. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 4. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author: CHEN Jie, E-mail:

Received date: 2017-11-27

  Request revised date: 2018-02-28

  Online published: 2018-04-20

Supported by

National Natural Science Foundation of China, No.41571431

Cultivate Project of Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences ,No.TSYJS03

Fujian Provincial Science and Technology Innovation Platform Construction Project,China, No.2015H2001.


The near-real-time prediction of urban populations at the fine-grained scales can provide an important scientific basis in many fields, such as optimizing the allocation of public resources, assisting urban traffic guidance, making the early warning in urban emergencies, as well as exploring daily life patterns of urban residents. In this study, based on time series analysis method, a parameter prediction model (i.e., the Autoregressive Integrated Moving Average model) and a non-parameter prediction model (i.e., the K-Nearest Neighboring model) are constructed to predict urban populations in large spatial and temporal scales. The spatial resolution is 0.005 arc-degree and the temporal resolution is 30 minutes. When applying these two prediction models to a large mobile phone location dataset, the results demonstrate that both of them can be helpful to the near-real-time prediction of urban populations. In particular, the non-parameter prediction model produced more stable prediction results with lower error than the parameter prediction model, from the perspectives of prediction error distributions by grid population, prediction error distributions in space and time, prediction error at different temporal granularities, and prediction error distributions under a special event.

Cite this article

CHEN Lina , WU Sheng , CHEN Jie , LI Mingxiao , LU Feng . The Near-real-time Prediction of Urban Population Distributions Based on Mobile Phone Location Data[J]. Journal of Geo-information Science, 2018 , 20(4) : 523 -531 . DOI: 10.12082/dqxxkx.2018.170536

1 引言


2 研究方法

精细尺度下,每个空间单元内的人口数量随时间的发展变化均可视为一个时间序列。因此本文将精细尺度下的城市人口分布预测转化为时间序列的预测问题。已有时间序列预测模型主要包括 2类:参数模型和非参数模型。参数模型形式简单明确,由一些参数表达,假设函数形式已给定,仅需估计其中未知参数。当模型参数假设成立时,预测精度较高。参数模型主要有历史平均模型、时间序列模型、卡尔曼波模型等,其中时间序列模型中的差分自回归移动平均(Autoregressive Integrated Moving Average, ARIMA)模型在交通人口预测方面应用最为广泛[23]。相对于参数模型,非参数模型更具灵活性,其不是事先假定函数形式,而是从历史数据中获取因变量与自变量之间的关系进而建立一个近似模型[24]。非参数模型包括2个重要分支:神经网络模型和非参数回归模型。其中,K近邻(K-Nearest Neighbors, KNN)作为非参数回归的经典模型,被广泛应用于交通流预测[25]。参数模型和非参数模型在城市人口分布预测方面都具有一定的应用潜力,为了对比2类模型的预测能力,本文分别构建基于ARIMA的预测模型和基于KNN的预测模型,实现精细时空尺度下城市人口分布的近实时预测。

3 研究区概况与数据源

3.1 研究区概况

本文将上海市中心城区(外环线以内的区域)作为研究区,其空间范围如图1所示。中心城区既是上海市的发展核心,又是居住人口和就业岗位最为集中的区域,常住人口约1132万人,总面积约664 km2,仅以占全市10%的面积集中了全市约50%的常住人口[26]。针对人口密集的中心城区的人口数量近实时预测,对于公共服务资源配置、动态交通诱导、公共安全预警等方面尤为重要。
Fig. 1 Study areas

图1 研究区域

3.2 研究数据

本文采用的研究数据为匿名化处理后的上海市移动通讯信令数据。该数据一共8 d(2012年10月13日至2012年10月20日),覆盖全上海市域。日均用户数约1700万,约占上海市总人口的70%。日均信令数据记录逾10亿条,每条记录包括经匿名化处理后用户ID、记录时间、记录所属基站位置经纬度,如表1所示。本文的研究对象为上海市的移动用户人口,每个用户一天的轨迹为 Traj = x 1 , y 1 , t 1 , x 2 , y 2 , t 2 , , x m , y m , t m ,其中tm为记录时间,(xm,ym)为地理坐标。
Tab. 1 Samples of a mobile phone user’s records

表1 手机用户轨迹数据实例

用户ID 时间 基站经度 基站纬度
060F3***** 00:33 121.*** 31.***
060F3***** 00:45 121.*** 31.***
060F3***** 01:03 121.*** 31.***
…… …… …… ……
060F3***** 21:08 121.*** 31.***
060F3***** 21:32 121.*** 31.***
该数据空间定位精度为上海市移动基站小区,中心城区基站间距约100~500 m、郊区基站间距较大,约400~1000 m[19],平均采样时间间隔约20 min。基于此,本文选择空间分辨率为0.005个经、纬度(在上海市,0.005个经、纬度对应空间距离约为500 m)、时间分辨率为30 min,对数据进行网格化处理。然后,对各网格单元、各时间段内的人口数量进行统计,从而得到一系列时间序列 G i = n 1 , t 1 , n 2 , t 2 , , n j , t j ,其中,Gi为格网i各个时段的人口数量的时间序列,tj为第j个时段,nj为第j个时段内的人口数量。

4 预测结果

网格化处理后,上海市中心城区共计2742个网格单元,其中未包含基站的网格单元被标记为无数据网格。图2显示了工作日、周末夜间及日间的典型时段(如2:00-2:30,14:00-14:30)上海市中心城区网格人口预测结果的时空分布特征。图上网格颜色从绿色到红色的渐变表示网格人口数量逐渐增加。白色网格代表没有人口数据的区域,主要集中分布在城区西北角的工业厂房区域、黄浦江沿岸人口稀少区域以及中心城区东南角飞机设计研究院附近大片空地区域(图2(a1)黑色标注处)。总体上,基于ARIMA预测模型和KNN预测模型,其预测的网格人数分布均与观测的网格人数分布较为一致。此外,上海市中心城区内部呈现两处明显的人口聚集(图2(a2)黑色标注处),其中一处位于中心城区西北部,中环共和新路综合客运中心附近,这里是上海市中心城区与各郊区之间的24 h全天候客运中转站,不论工作日或周末、日间或夜间,其网格人口都极为密集。另一处是城区中部的人民广场和外滩附近,这里是上海的政治、经济、文化中心和交通枢纽,上海市政府、地铁换乘站、人民公园及外滩景区均聚集于此,不论工作日或周末,人口均较为密集,其中,工作日日间较周末日间人口聚集程度更高,显示此处汇聚了大量城市通勤人口。
Fig. 2 The population prediction results of grids in the study area

图2 研究区人口分布预测结果

5 预测误差对比分析

5.1 评估准则

在城市内部,不同区域、不同时段的人口数量迥异,常常呈现数量级的差异。例如,大型体育场馆附近,在举办体育赛事期间人口密集,而其他时间则相对稀少;工作日白天,写字楼人头攒动,而居住区则人烟稀少。为了有效评价整个研究区各个区域、各个时段的人口分布预测精度,本文采用绝对百分误差(absolute percentage error,APE)和平均绝对百分误差(mean absolute percentage error, MAPE)对预测精度进行评价,如式(1)、(2)所示。
AP E i , t = N i , t pr - N i , t N i , t × 100 % (1)
MAP E i = 1 n t = 1 n N i , t pr - N i , t N i , t × 100 % (2)
式中:APEi,t为网格it时段的绝对百分误差,MAPEi为网格i在所有时段上的平均绝对百分误差,Ni,t N i , t pr 分别表示t时段网格i的人口的观测值和预测值。

5.2 误差的时空分布

Fig. 3 The spatial distributions of prediction errors

图3 预测误差空间分布

Fig. 4 The temporal distributions of prediction errors

图4 预测误差时序分布

5.3 基于网格人数的误差分布

Fig. 5 The error distributions by grid population

图5 基于网格人数的预测误差分布图

5.4 基于多时间尺度的误差分布

基于30 min、1 h、2 h时间尺度的预测误差分布如图6所示。首先,随着时间尺度的不断增大,两种模型预测误差均逐渐升高,KNN预测模型平均误差相比ARIMA预测模型增长较为缓慢且涨幅较小。其次,2种模型在30 min、1 h时间尺度下,各个时段预测误差都比较稳定;在2 h时间尺度下,预测误差显著增大,且各时段波动较大,特别是在早晚高峰时段,表现尤为明显。对比2种模型,ARIMA预测模型在30 min、1 h、2 h时间尺度下的平均误差分别为6.60%、8.64%、15.20%,KNN预测模型在30 min、1 h、2 h时间尺度下的平均误差分别为4.15%、6.04%、8.93%。该结果表明,随着预测时间尺度的加大,KNN预测模型仍然保持更低的预测误差。此外,在2 h时间尺度下8:00-10:00时段,ARIMA模型的预测误差从16%增加到了35%,而KNN的预测误差从9%增到了11%,表明在人口活动与出行高峰时段,KNN预测模型具有更好的稳定性。
Fig.6 The error distributions at different temporal scales

图6 基于多时间尺度的误差分布

5.5 基于特殊事件的误差分布

Fig. 7 The temporal distributions of prediction errors under a special event

图7 基于特殊事件的误差分布

6 结论与讨论

本文基于城市海量手机定位数据,通过对数据进行时空重构,将空间单元上的人口数量转化为时间序列,分别建立参数预测模型(ARIMA预测模型)和非参数预测模型(KNN预测模型),实现精细尺度下城市人口分布的近实时预测。预测结果表明2种模型其预测的网格人数分布均与观测的网格人数分布较为一致。基于预测结果,分别从人数规模、时空分布、多时间尺度及特殊事件等多个角度,对2种模型人口分布预测的误差进行对比分析。分析结果表明:① KNN预测模型其平均误差均小于ARIMA预测模型。② 2种模型的误差分布时序特征与城市人口活跃程度随时间变化特征均表现出高度一致,且KNN预测模型在人数波动较大的时段,预测结果更为稳定。③ 多时间尺度及特殊事件条件下,KNN预测模型其平均误差更低且稳定性更好。究其原因,KNN预测模型基于模式识别,其在寻找近邻样本时搜索到了历史近似样本,而ARIMA预测模型基于参数方法,其数学函数一旦确定无法改变,对于人数突变的捕捉能力较弱。本文研究成果可为快速掌握城市人口移动时空动态及趋势提供方法支持,并为优化公共资源配置、协助城市交通诱导、制定公共安全应急预案、探索城市居民活动规律等提供科学依据。
本文仍存在若干不足之处。首先,研究数据来源单一,且研究仅采用连续8 d的手机信令数据,该数据集表达城市人口活动与出行行为的能力有限,未来将采用更加全面的手机信令数据以及结合其他类型的城市地理大数据,如社交媒体签到数据、POI数据等,以更好地表达城市人口的动态分布,进一步提高人口分布近实时预测的准确性。其次,对于参数方法和非参数方法的对比,目前仅各选择了一种典型模型,如何更全面地对比2类方法在城市人口分布预测方面的适用性及模型效率还有待于今后不断深入研究。

