The Near-real-time Prediction of Urban Population Distributions Based on Mobile Phone Location Data

  • CHEN Lina , 1, 2 ,
  • WU Sheng 1, 2 ,
  • CHEN Jie , 3, * ,
  • LI Mingxiao 3, 4 ,
  • LU Feng 3
Expand
  • 1. Spatial Information Research Center of Fujian Province, Fuzhou University, Fuzhou 350002, China
  • 2. Fujian Collaborative Innovation Center for Big Data Applications in Governments, Fuzhou 350002, China
  • 3. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 4. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author: CHEN Jie, E-mail:

Received date: 2017-11-27

  Request revised date: 2018-02-28

  Online published: 2018-04-20

Supported by

National Natural Science Foundation of China, No.41571431

Cultivate Project of Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences ,No.TSYJS03

Fujian Provincial Science and Technology Innovation Platform Construction Project,China, No.2015H2001.

Copyright

《地球信息科学学报》编辑部 所有

Abstract

The near-real-time prediction of urban populations at the fine-grained scales can provide an important scientific basis in many fields, such as optimizing the allocation of public resources, assisting urban traffic guidance, making the early warning in urban emergencies, as well as exploring daily life patterns of urban residents. In this study, based on time series analysis method, a parameter prediction model (i.e., the Autoregressive Integrated Moving Average model) and a non-parameter prediction model (i.e., the K-Nearest Neighboring model) are constructed to predict urban populations in large spatial and temporal scales. The spatial resolution is 0.005 arc-degree and the temporal resolution is 30 minutes. When applying these two prediction models to a large mobile phone location dataset, the results demonstrate that both of them can be helpful to the near-real-time prediction of urban populations. In particular, the non-parameter prediction model produced more stable prediction results with lower error than the parameter prediction model, from the perspectives of prediction error distributions by grid population, prediction error distributions in space and time, prediction error at different temporal granularities, and prediction error distributions under a special event.

Cite this article

CHEN Lina , WU Sheng , CHEN Jie , LI Mingxiao , LU Feng . The Near-real-time Prediction of Urban Population Distributions Based on Mobile Phone Location Data[J]. Journal of Geo-information Science, 2018 , 20(4) : 523 -531 . DOI: 10.12082/dqxxkx.2018.170536

1 引言

城市化进程不断推进,城市生活节奏不断加快,人口在空间上的活动与移动也呈现出高时空动态变化的特征[1]。掌握精细时空尺度下的城市人口发展动态,可为探索城市居民活动规律、优化公共资源配置、指导商业设施选择、制定公共安全应急预案等提供重要科学依据。
城市人口分布与预测,需要个体时空数据做支撑。以往研究多基于问卷调查数据[2,3,4,5],由于数据获取成本高、数据时效性低,难以应用于精细时空尺度下的人口分布与预测研究。进入大数据时代,随着传感器网络、移动定位、无线通讯和移动互联网技术的快速发展和普及,获取时空精度更高的海量个体时空数据成为现实[6,7,8,9,10]。志愿者定位数据、浮动车定位数据、手机定位与通讯记录、社交网络签到数据、公交卡或银行卡消费记录等各种个体时空数据类型不断涌现。这些定位数据有效地记录了个体时空位置与行为信息,为国内外学者开展精细尺度下的人类移动性研究提供了重要的数据来源[11,12,13,14]
在城市人口分布研究方面,尹凌等[15]结合手机信令数据分析了利用手机通话位置数据估计人口分布的偏差;杨喜平等[16]使用手机位置数据,结合基站的空间分布,采用一种可变带宽的核密度估计城市人口的时空停留分布;Kang等[17]利用手机通话数据估计了精细尺度下的城市人口分布;Deville等[18]利用手机通话位置数据绘制了全国范围的动态人口分布图;钟炜菁等[19]利用手机信令数据分析了上海市人口空间活动分布特征;李明晓等[20]]利用手机信令数据分析了上海市人口空间集聚与时空移动特征。在人口流量预测研究方面,Guo等[21]基于浮动车定位数据,利用高斯过程回归模型研究人口流动模式;Zhang等[22]利用浮动车定位数据,基于深度学习,开展城市范围内的人口流量预测。现有的人口时空分布研究和人口流量预测为城市人口分布近实时预测奠定了重要基础。
本文以城市手机用户人口为研究对象,采用手机信令数据,基于时间序列分析方法建立时空预测模型,开展精细时空尺度下的城市人口分布近实时预测,并从时空分布、多时间尺度、特殊事件等不同角度评估模型精度,可为探索城市居民活动规律、优化公共资源配置、协助城市交通诱导、制定公共安全应急预案等提供科学依据。

2 研究方法

精细尺度下,每个空间单元内的人口数量随时间的发展变化均可视为一个时间序列。因此本文将精细尺度下的城市人口分布预测转化为时间序列的预测问题。已有时间序列预测模型主要包括 2类:参数模型和非参数模型。参数模型形式简单明确,由一些参数表达,假设函数形式已给定,仅需估计其中未知参数。当模型参数假设成立时,预测精度较高。参数模型主要有历史平均模型、时间序列模型、卡尔曼波模型等,其中时间序列模型中的差分自回归移动平均(Autoregressive Integrated Moving Average, ARIMA)模型在交通人口预测方面应用最为广泛[23]。相对于参数模型,非参数模型更具灵活性,其不是事先假定函数形式,而是从历史数据中获取因变量与自变量之间的关系进而建立一个近似模型[24]。非参数模型包括2个重要分支:神经网络模型和非参数回归模型。其中,K近邻(K-Nearest Neighbors, KNN)作为非参数回归的经典模型,被广泛应用于交通流预测[25]。参数模型和非参数模型在城市人口分布预测方面都具有一定的应用潜力,为了对比2类模型的预测能力,本文分别构建基于ARIMA的预测模型和基于KNN的预测模型,实现精细时空尺度下城市人口分布的近实时预测。

3 研究区概况与数据源

3.1 研究区概况

本文将上海市中心城区(外环线以内的区域)作为研究区,其空间范围如图1所示。中心城区既是上海市的发展核心,又是居住人口和就业岗位最为集中的区域,常住人口约1132万人,总面积约664 km2,仅以占全市10%的面积集中了全市约50%的常住人口[26]。针对人口密集的中心城区的人口数量近实时预测,对于公共服务资源配置、动态交通诱导、公共安全预警等方面尤为重要。
Fig. 1 Study areas

图1 研究区域

3.2 研究数据

本文采用的研究数据为匿名化处理后的上海市移动通讯信令数据。该数据一共8 d(2012年10月13日至2012年10月20日),覆盖全上海市域。日均用户数约1700万,约占上海市总人口的70%。日均信令数据记录逾10亿条,每条记录包括经匿名化处理后用户ID、记录时间、记录所属基站位置经纬度,如表1所示。本文的研究对象为上海市的移动用户人口,每个用户一天的轨迹为 Traj = x 1 , y 1 , t 1 , x 2 , y 2 , t 2 , , x m , y m , t m ,其中tm为记录时间,(xm,ym)为地理坐标。
Tab. 1 Samples of a mobile phone user’s records

表1 手机用户轨迹数据实例

用户ID 时间 基站经度 基站纬度
060F3***** 00:33 121.*** 31.***
060F3***** 00:45 121.*** 31.***
060F3***** 01:03 121.*** 31.***
…… …… …… ……
060F3***** 21:08 121.*** 31.***
060F3***** 21:32 121.*** 31.***
该数据空间定位精度为上海市移动基站小区,中心城区基站间距约100~500 m、郊区基站间距较大,约400~1000 m[19],平均采样时间间隔约20 min。基于此,本文选择空间分辨率为0.005个经、纬度(在上海市,0.005个经、纬度对应空间距离约为500 m)、时间分辨率为30 min,对数据进行网格化处理。然后,对各网格单元、各时间段内的人口数量进行统计,从而得到一系列时间序列 G i = n 1 , t 1 , n 2 , t 2 , , n j , t j ,其中,Gi为格网i各个时段的人口数量的时间序列,tj为第j个时段,nj为第j个时段内的人口数量。

4 预测结果

本研究基于ARIMA预测模型和KNN预测模型进行城市人口空间分布预测。考虑到城市居民在工作日和周末其活动与出行行为特征具有明显差异,本研究针对工作日和周末分别开展人口空间分布预测。为了保证相同的实验条件,一方面,训练集和测试集均保持一致。具体地,从研究数据中选取13、14日(周六、周日)作为周末训练集,并将20日(周六)作为周末测试集;选取15、16、17、18日(周一、周二、周三、周四)作为工作日训练集,并将19日(周五)作为工作日测试集。另一方面,经统计,2种模型的时间延迟参数均设置为3。
网格化处理后,上海市中心城区共计2742个网格单元,其中未包含基站的网格单元被标记为无数据网格。图2显示了工作日、周末夜间及日间的典型时段(如2:00-2:30,14:00-14:30)上海市中心城区网格人口预测结果的时空分布特征。图上网格颜色从绿色到红色的渐变表示网格人口数量逐渐增加。白色网格代表没有人口数据的区域,主要集中分布在城区西北角的工业厂房区域、黄浦江沿岸人口稀少区域以及中心城区东南角飞机设计研究院附近大片空地区域(图2(a1)黑色标注处)。总体上,基于ARIMA预测模型和KNN预测模型,其预测的网格人数分布均与观测的网格人数分布较为一致。此外,上海市中心城区内部呈现两处明显的人口聚集(图2(a2)黑色标注处),其中一处位于中心城区西北部,中环共和新路综合客运中心附近,这里是上海市中心城区与各郊区之间的24 h全天候客运中转站,不论工作日或周末、日间或夜间,其网格人口都极为密集。另一处是城区中部的人民广场和外滩附近,这里是上海的政治、经济、文化中心和交通枢纽,上海市政府、地铁换乘站、人民公园及外滩景区均聚集于此,不论工作日或周末,人口均较为密集,其中,工作日日间较周末日间人口聚集程度更高,显示此处汇聚了大量城市通勤人口。
Fig. 2 The population prediction results of grids in the study area

图2 研究区人口分布预测结果

5 预测误差对比分析

5.1 评估准则

在城市内部,不同区域、不同时段的人口数量迥异,常常呈现数量级的差异。例如,大型体育场馆附近,在举办体育赛事期间人口密集,而其他时间则相对稀少;工作日白天,写字楼人头攒动,而居住区则人烟稀少。为了有效评价整个研究区各个区域、各个时段的人口分布预测精度,本文采用绝对百分误差(absolute percentage error,APE)和平均绝对百分误差(mean absolute percentage error, MAPE)对预测精度进行评价,如式(1)、(2)所示。
AP E i , t = N i , t pr - N i , t N i , t × 100 % (1)
MAP E i = 1 n t = 1 n N i , t pr - N i , t N i , t × 100 % (2)
式中:APEi,t为网格it时段的绝对百分误差,MAPEi为网格i在所有时段上的平均绝对百分误差,Ni,t N i , t pr 分别表示t时段网格i的人口的观测值和预测值。

5.2 误差的时空分布

预测误差的空间分布如图3所示。首先,误差较大的格网主要集中分布在沿黄浦江边缘、中心城区西北部厂矿区域、中心城区西南部虹桥国际机场外围区域,以及位于浦东新区的直升机实验场、飞机设计研究院等人口密度极低的地区(图3红色标注处)。其次,相对于工作日,周末表现出更大的预测误差。究其原因,城市人口的活动与出行行为,在工作日大多围绕工作通勤、居家生活展开,而周末则更加复杂多样且更具弹性,因此针对城市人口分布的预测难度也随之增大。此外,对比两种预测模型发现,不论工作日或周末,KNN预测模型的预测误差均小于ARIMA预测模型。在工作日,基于ARIMA预测模型,MAPE值小于10%的网格约占86.51%;基于KNN预测模型,MAPE值小于10%的网格约占97.82%。在周末,基于ARIMA预测模型,MAPE值小于10%的网格约占82.68%;基于KNN预测模型,MAPE值小于10%的网格约占94.47%。
Fig. 3 The spatial distributions of prediction errors

图3 预测误差空间分布

预测误差的时序分布如图4所示。首先,工作日呈现出更为明显的“双峰”特点,且双峰出现时段分别为城市工作日早、晚高峰时段。相对而言,周末则呈现更为明显的“单峰”特点,且高峰比工作日早高峰时段略为延迟。上述误差分布特征与城市人口的活跃程度随时间变化特征表现出高度一致。工作日人们早出晚归,而周末人们稍晚起床而后开展活动。在人们活动与出行行为的高峰时段,由于不同区域人口数量波动较大,导致预测误差上升。然后,对比2种模型的误差时序分布,KNN预测模型平均误差(工作日3.04%、周末4.15%)小于ARIMA预测模型平均误差(工作日6.60%、周末6.89%),且KNN预测模型预测结果“峰谷”比ARIMA预测模型预测结果更加平缓,表明KNN预测模型在人数波动较大的时段,预测较为稳定。
Fig. 4 The temporal distributions of prediction errors

图4 预测误差时序分布

5.3 基于网格人数的误差分布

基于网格人数规模(每隔1000人)的误差分布如图5所示。总体上,ARIMA预测模型和KNN预测模型的误差均主要集中于人数小于1000的格网,该网格数量约占研究区所有网格的25%。随着人数增加,预测误差明显减少。具体地,当网格人数大于1000人,ARIMA预测模型的APE整体分布小于15%,平均值为6.8%;KNN预测模型的APE整体分布小于10%,平均值为4.3%。基于网格人数的误差分布表明KNN预测模型对不同格网人数的预测误差更小且更稳定。究其原因,ARIMA预测模型隶属参数方法,其根据历史数据获得的函数形式一旦确定就无法改变,难以兼顾人数出现较大波动的情况。
Fig. 5 The error distributions by grid population

图5 基于网格人数的预测误差分布图

5.4 基于多时间尺度的误差分布

基于30 min、1 h、2 h时间尺度的预测误差分布如图6所示。首先,随着时间尺度的不断增大,两种模型预测误差均逐渐升高,KNN预测模型平均误差相比ARIMA预测模型增长较为缓慢且涨幅较小。其次,2种模型在30 min、1 h时间尺度下,各个时段预测误差都比较稳定;在2 h时间尺度下,预测误差显著增大,且各时段波动较大,特别是在早晚高峰时段,表现尤为明显。对比2种模型,ARIMA预测模型在30 min、1 h、2 h时间尺度下的平均误差分别为6.60%、8.64%、15.20%,KNN预测模型在30 min、1 h、2 h时间尺度下的平均误差分别为4.15%、6.04%、8.93%。该结果表明,随着预测时间尺度的加大,KNN预测模型仍然保持更低的预测误差。此外,在2 h时间尺度下8:00-10:00时段,ARIMA模型的预测误差从16%增加到了35%,而KNN的预测误差从9%增到了11%,表明在人口活动与出行高峰时段,KNN预测模型具有更好的稳定性。
Fig.6 The error distributions at different temporal scales

图6 基于多时间尺度的误差分布

5.5 基于特殊事件的误差分布

人口分布近实时预测关键在于有大型活动举行或异常事件发生时,能否准确预测到人口数量的变化并为聚集、风险预警提供决策辅助。因此,本文进一步对两种模型在大型活动场景下的预测结果进行对比分析。研究数据中包含2个大型活动,其一是2012年10月14日举行的NBA中国赛,其二是2012年10月20日举行的李宇春疯狂世界巡演演唱会,2个活动的地点均为上海梅赛德斯奔驰文化中心。基于演唱会活动当天的误差时序分布如图7所示。首先,活动当天,ARIMA预测模型和KNN预测模型的平均误差分别为13%和6.19%,表明KNN预测模型在有人口聚集事件发生时,具有更低的预测误差。其次,活动开始之前(18:30-19:00),人口快速聚集地过程中,2种模型的预测误差均出现明显增长,KNN预测模型和ARIMA预测模型的误差分别达到了24.91%和38.19%。活动结束时(22:00-22:30),人口快速消散,KNN和ARIMA的预测误差分别达到了22.73%和75.26%。该结果表明,KNN预测模型在人数突增和骤减的情况下,预测误差均低于ARIMA预测模型。究其原因,KNN预测模型基于模式识别,其在寻找近邻样本时搜索到了历史近似样本,而ARIMA预测模型基于参数方法,其数学函数一旦确定无法改变,对于人数突变的捕捉能力较弱。
Fig. 7 The temporal distributions of prediction errors under a special event

图7 基于特殊事件的误差分布

6 结论与讨论

本文基于城市海量手机定位数据,通过对数据进行时空重构,将空间单元上的人口数量转化为时间序列,分别建立参数预测模型(ARIMA预测模型)和非参数预测模型(KNN预测模型),实现精细尺度下城市人口分布的近实时预测。预测结果表明2种模型其预测的网格人数分布均与观测的网格人数分布较为一致。基于预测结果,分别从人数规模、时空分布、多时间尺度及特殊事件等多个角度,对2种模型人口分布预测的误差进行对比分析。分析结果表明:① KNN预测模型其平均误差均小于ARIMA预测模型。② 2种模型的误差分布时序特征与城市人口活跃程度随时间变化特征均表现出高度一致,且KNN预测模型在人数波动较大的时段,预测结果更为稳定。③ 多时间尺度及特殊事件条件下,KNN预测模型其平均误差更低且稳定性更好。究其原因,KNN预测模型基于模式识别,其在寻找近邻样本时搜索到了历史近似样本,而ARIMA预测模型基于参数方法,其数学函数一旦确定无法改变,对于人数突变的捕捉能力较弱。本文研究成果可为快速掌握城市人口移动时空动态及趋势提供方法支持,并为优化公共资源配置、协助城市交通诱导、制定公共安全应急预案、探索城市居民活动规律等提供科学依据。
本文仍存在若干不足之处。首先,研究数据来源单一,且研究仅采用连续8 d的手机信令数据,该数据集表达城市人口活动与出行行为的能力有限,未来将采用更加全面的手机信令数据以及结合其他类型的城市地理大数据,如社交媒体签到数据、POI数据等,以更好地表达城市人口的动态分布,进一步提高人口分布近实时预测的准确性。其次,对于参数方法和非参数方法的对比,目前仅各选择了一种典型模型,如何更全面地对比2类方法在城市人口分布预测方面的适用性及模型效率还有待于今后不断深入研究。

The authors have declared that no competing interests exist.

[1]
曹劲舟,涂伟,李清泉,等.基于大规模手机定位数据的群体活动时空特征分析[J].地球信息科学学报,2017,19(4):467-474.城市空间与居民行为不断交互,相互影响。探究城市空间中的群体活动分布及其时空变化能够帮助数据驱动的城市规划与城市治理。基于大数据的时空间群体活动研究是当前时空大数据研究的一个热点。本文以深圳市为例,基于约1000万手机用户在某一工作日的基站尺度的手机定位数据,识别用户停留位置和停留活动,重建活动语义信息,分析用户的停留点和停留活动的分布差异,研究群体活动的时空分布模式,探讨人群活动模式的多样分布特征。研究表明:停留位置和活动分布存在差异,每人每天平均的停留个数约为2.1个,而每人每天平均从事的活动约为3.4个;不同类型的活动在时间上存在波动;群体活动存在空间分异特征,整体上服从"空间幂律"。本研究揭示了城市空间中群体活动的多样性及其时空分布特征,对于城市居民活动研究、城市交通优化和城市规划具有重要的意义。

[ Cao J Z, Tu W, Li Q Q, et al.Spatio-temporal analysis of aggregated human activities based on massive mobilep hone tracking data[J]. Journal of Geo-information Science, 2017,19(4):467-474.]

[2]
Kenneth C.Land. Methods for national population forecasts: A review[J]. Journal of the American Statistical Association, 1986,81(396):888-901.

DOI

[3]
Lutz, Wolfgang.The Future population of the world[M]. Earthsan Publications, 1994.

[4]
黄荣清. 关于人口预测问题的思考[J].人口研究,2004,28(1):88-90.人口预测 ,作为经济、社会研究的一种方法 ,应用越来越广泛 ,也越来越受到人们的重视。在描绘未来小康社会的蓝图时 ,首先要考虑的是未来中国的人口数量、结构、分布、劳动力、负担系数等等 ,这又必须通过人口预测来一一显示。2 0多年前 ,我国人口学界对人口预测还比较陌生。当人们看到只要向计算机中输入一些数字后 ,就能输出 1 0年、2 0年 ,甚至几十年、上百年的各种人口变动的结果时 ,在惊呼之余 ,又感到高深莫测。而今天 ,人口预测已不是什么难事 ,任何一个人口专业的学生 ,或即使不是学人口专业的 ,只要懂得一些人口学知识 ,又会操作计算机的人 ,都能对人口作预测。且实际上 ,从上至下 ,虽然不

DOI

[ Huang R Q.The thinking of population projection[J]. Population Research, 2004,28(1):88-90. ]

[5]
Carmichael G A.Population pProjections[M]// Fundamentals of Demographic Analysis: Concepts, Measures and Methods. Springer International Publishing, 2016.

[6]
Yang Y, Tian L, Yeh A G O, et al. Zooming into individuals to understand the collective: A review of trajectory-based travel behaviour studies[J]. Travel Behaviour & Society, 2014,1(2):69-78.Understanding travel behaviour is significant in travel demand management as well as in urban and transport planning. Over the past decade, with the advancement of data collection techniques, such as GPS, transit smart cards, and mobile phones, various types of travel trajectory data are increasingly complementing or replacing conventional travel diaries and stated preference data. Other location-aware data are used in studying human movement patterns, such as social network check-in data and banknote dispersal data. Abundance of the emerging trajectory data has driven a new wave of travel behaviour research, and introduced new research problems. This paper provides a state-of-the-art review of the travel behaviour studies categorised by trajectory data types. Based on the literature review, research challenges are discussed and promising research topics in this field are proposed for future studies.

DOI

[7]
Zheng V W, Zheng Y, Xie X, et al. Towards mobile intelligence: Learning from GPS history data for collaborative recommendation[J]. Artificial Intelligence, 2012,184-185(2):17-37.With the increasing popularity of location-based services, we have accumulated a lot of location data on the Web. In this paper, we are interested in answering two popular location-related queries in our daily life: (1) if we want to do something such as sightseeing or dining in a large city like Beijing, where should we go? (2) If we want to visit a place such as the Bird03s Nest in Beijing Olympic park, what can we do there? We develop a mobile recommendation system to answer these queries. In our system, we first model the users03 location and activity histories as a user–location–activity rating tensor.11A “tensor” is a multi-dimensional array (Symeonidis et al., 2008 [1]; Cichocki et al., 2009 [2]) Because each user has limited data, the resulting rating tensor is essentially very sparse. This makes our recommendation task difficult. In order to address this data sparsity problem, we propose three algorithms22This work is an extension to our previous work (Zheng et al., 2010 [3,4]). We propose a new model in Section 5.3 and completely re-conduct the experiments for all our three algorithms. based on collaborative filtering. The first algorithm merges all the users03 data together, and uses a collective matrix factorization model to provide general recommendation (Zheng et al., 2010 [3]). The second algorithm treats each user differently and uses a collective tensor and matrix factorization model to provide personalized recommendation (Zheng et al., 2010 [4]). The third algorithm is a new algorithm which further improves our previous two algorithms by using a ranking-based collective tensor and matrix factorization model. Instead of trying to predict the missing entry values as accurately as possible, it focuses on directly optimizing the ranking loss w.r.t. user preferences on the locations and activities. Therefore, it is more consistent with our ultimate goal of ranking locations/activities for recommendations. For these three algorithms, we also exploit some additional information, such as user–user similarities, location features, activity–activity correlations and user–location preferences, to help the CF tasks. We extensively evaluate our algorithms using a real-world GPS dataset collected by 119 users over 2.5 years. We show that all our three algorithms can consistently outperform the competing baselines, and our newly proposed third algorithm can also outperform our other two previous algorithms.

DOI

[8]
刘瑜,康朝贵,王法辉.大数据驱动的人类移动模式和模型研究[J].武汉大学学报·信息科学版,2014,39(6):660-666.大数据时代的到来使得基于个体粒度的海量时空轨迹获取人类移动模式成为可能。来自不同领域的学者基于手机通话数据、公交卡刷卡记录、社交网站签到数据、出租车轨迹、银行刷卡记录等进行了人类移动模式的研究,这些研究丰富了地理信息系统的时空分析方法,为从个体角度审视人与地理环境之间的交互关系提供了一个新视角,并可以应用于交通、公共卫生等领域。总结了基于大数据的人类移动模式研究流程,归纳了人类移动模式的基本度量方法,探讨了解释所观测移动模式的模型构建方法,指出了地理环境对于移动模型建立的影响。

DOI

[ Liu Y, Kang C G, Wang F H.Towards big data-driven human mobility patterns and models[J]. Geomatics and Information Science of Wuhan University, 2014,39(6):660-666. ]

[9]
李婷,裴韬,袁烨城,等.人类活动轨迹的分类、模式和应用研究综述[J].地理科学进展,2014,33(7):938-948.各种传感器的应用与发展,如车载GPS、手机、公交卡、银行卡等,记录了人类的活动轨迹。这些海量的人类活动轨迹数据中蕴含着人类行为的时空分布模式。通过对这些轨迹的研究可以挖掘个体轨迹模式,理解人类动力学特征,进而为对轨迹预测、城市规划、交通监测等提供支持。因此,研究各类传感器记录的人类活动轨迹数据成为当前的研究热点。本文对人类活动轨迹的获取与表达方式进行剖析,并将人类的活动轨迹按照采样方式和驱动因素的不同分为基于时间间隔采样、基于位置采样和基于事件触发采样等3 类轨迹数据。由于各类轨迹数据均由起始点、锚点和一般节点等构成,因而将轨迹模式挖掘的研究按照锚点、出行范围、形状模式、OD流模式、时间模式等进行组织,研究成果揭示人类活动轨迹在时间、空间的从聚模式、周期性等特点。在此基础上,将人类活动轨迹在城市研究中的应用,按照用户轨迹预测、城市动态景观、城市交通模拟与监控、城市功能单元识别以及城市中其他方面的研究应用进行系统综述,认为人类活动模式挖掘是城市规划、城市交通、公共安全等方面应用的基础。

DOI

[ Li T, Pei T, Yuan Y C, et al.A review on the classification, patterns and applied research of human mobility trajectory[J]. Progress in Geography, 2014,33(7):938-948. ]

[10]
陆锋,刘康,陈洁.大数据时代的人类移动性研究[J].地球信息科学学报,2014,16(5):665-672.lt;p>人类个体/群体移动特征是多学科共同关注的研究主题。移动定位、无线通讯和移动互联网技术的快速发展使得获取大规模、长时间序列、精细时空粒度的个体移动轨迹和相互作用定量化成为可能。同时,地理信息科学、统计物理学、复杂网络科学和计算机科学等多学科交叉也为人类移动性研究的定量化提供了有力支撑。本文首先系统总结了大数据时代开展人类移动性研究的多源异构数据基础和多学科研究方法,然后将人类移动性研究归纳为面向人和面向地理空间两大方向。面向人的研究侧重探索人类移动特性的统计规律,并建立模型解释相应的动力学机制,或分析人类活动模式,并预测出行或活动;面向地理空间的研究侧重从地理视角分析人类群体在地理空间中的移动,探索宏观活动和地理空间的交互特征。围绕这两大方向,本文评述了人类移动性的研究进展和存在问题,认为人类移动性研究在数据稀疏性、数据偏斜影响与处理、多源异构数据挖掘、机器学习方法等方面依然面临挑战,对多学科研究方法的交叉与融合提出了更高要求。</p>

DOI

[ Lu F, Liu K, Chen J.Research on human mobility in big data era[J]. Journal of Geo-information Science, 2014,16(5):665-672. ]

[11]
龙瀛,张宇,崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报,2012,67(10):1339-1352.基于位置服务(Location Based Service,LBS)技术为研究城市系统的时空动态规律提供了新的视角,已往多基于移动通讯(GSM)、全球定位系统(GPS)、社会化网络(SNS)和无线宽带热点(Wi-Fi)数据开展研究,但少有研究利用公交IC卡刷卡数据进行城市系统分析。普遍存在的LBS数据虽然具有丰富的时间和空间信息,但缺乏社会维度信息,使其应用范围受到一定限制。本文基于2008年北京市连续一周的公交IC卡(Smart Card Data,SCD)刷卡数据,结合2005年居民出行调查、地块级别的土地利用图,识别公交持卡人的居住地、就业地和通勤出行,并将识别结果在公交站点和交通分析小区(TAZ)尺度上汇总:①将识别的通勤出行分别从通勤时间和距离角度,与居民出行调查数据和其他已有北京相关研究进行对比,显示较好的吻合性;②对来自3大典型居住区和去往6大典型办公区的通勤出行进行可视化并对比分析;③对全市基于公交的通勤出行进行可视化,并识别主要交通流方向。本研究初步提出了从传统的居民出行调查和城市GIS数据建立规则,用于SCD数据挖掘的方法,具有较好的可靠性。

DOI

[ Long Y, Zhang Y, Cui C Y.Identifying commuting pattern of Beijing using bus smart card data[J]. Acta Geographica Sinica, 2012,67(10):1339-1352. ]

[12]
申悦,柴彦威.基于GPS数据的北京市郊区巨型社区居民日常活动空间[J].地理学报,2013,68(4):506-516.在城市快速郊区化的过程中,北京市兴建了大规模的郊区经济适用房居住区和郊区新城,形成了特有的郊区居住和日常生活空间.由于这些郊区巨型社区周边配套设施和就业岗位的不足,造成了社区居民的长距离通勤,激化了北京市交通拥堵、职住空间错位等城市问题,也降低了居民的生活质量.伴随着人文地理学中的行为转向,时空间行为已成为透视城市空间的重要视角,行为论方法中的活动空间作为城市社会空间研究的重要测度,受到国内外学者的关注,而国内已有的活动空间研究往往基于传统问卷调查数据利用密度插值法从汇总的角度进行分析,忽略了居民的个体差异性.本研究利用2010年基于GPS的北京市活动与出行调查数据,以天通苑和亦庄两个郊区巨型社区为例,采用GIS空间分析和标准置信椭圆法,从非汇总角度对郊区居民的整日活动空间进行测度,并在居民活动空间叠加分析的基础上,研究北京市郊区巨型社区居民工作日和休息日的日常活动空间及其对城区空间和案例社区附近空间的利用情况,挖掘工作日居民对城区空间利用的影响因素,从而透视中国大城市郊区化存在的问题.

DOI

[ Shen Y, Chai Y W.Daily activity space of suburban mega- community residents in Beijing based on GPS data[J]. Acta Geographica Sinica, 2013,68(4):506-516. ]

[13]
杨喜平,方志祥,赵志远,等.城市人群聚集消散时空模式探索分析——以深圳市为例[J].地球信息科学学报,2016,18(4):486-492.lt;p>城市中人群的移动是带有目的性的,城市空间结构功能也存在差异,导致人群在城市中出现聚集或消散的现象,而且该现象会随着时间不断变化。本文基于海量的手机位置数据,以深圳市为例,采用自相关分析识别出城市中人群聚集与消散的区域,然后将这些区域一天中人群聚散组合成时间序列矩阵,采用自组织图聚类方法(SOM)进行聚类得到9种典型的人群聚集、消散时空模式,结合土地利用现状数据,分析解释了每种聚散模式最可能出现的土地利用组合。该研究从聚集和消散的角度探索了城市人群移动的时空模式,进一步帮助理解城市不同区域人群的移动模式以及与城市空间结构功能之间的关系,对城市规划、交通管理具有参考和指导意义。</p>

DOI

[ Yang X P, Fang Z X, Zhao Z Y, et al.Exploring urban human spatio-temporal convergence-dispersion patterns: A case study of Shenzhen city[J]. Journal of Geo-information Science, 2016,18(4):486-492. ]

[14]
Ahas R, Aasa A, Yuan Y, et al.Everyday space-time geographies: Using mobile phone-based sensor data to monitor urban activity in Harbin, Paris, and Tallinn[J]. International Journal of Geographical Information Science, 2015,29(11):2017-2039.This paper proposes a methodology for using mobile telephone-based sensor data for detecting spatial and temporal differences in everyday activities in cities. Mobile telephone-based sensor data has great applicability in developing urban monitoring tools and smart city solutions. The paper outlines methods for delineating indicator points of temporal events referenced as ‘midnight’, ‘morning start’, ‘midday’, and ‘duration of day’, which represent the mobile telephone usage of residents (what we call social time) rather than solar or standard time. Density maps by time quartiles were also utilized to test the versatility of this methodology and to analyze the spatial differences in cities. The methodology was tested with data from cities of Harbin (China), Paris (France), and Tallinn (Estonia). Results show that the developed methods have potential for measuring the distribution of temporal activities in cities and monitoring urban changes with georeferenced mobile phone data.

DOI

[15]
尹凌,姜仁荣,赵志远,等.利用手机通话位置数据估计城市24h人口分布误差[J].地球信息科学学报,2017,19(6):763-771.

[ Yin L, Jiang R R, Zhao Z Y, et al.Exploring the bias of estimating 24-hour population distributions using call detail record[J]. Journal of Geo-information Science, 2017,19(6):763-771. ]

[16]
杨喜平,方志祥,赵志远,等.顾及手机基站分布的核密度估计城市人群时空停留分布[J].武汉大学学报·信息科学版,2017,42(1):49-55.为了减小人群在连续空间上停留分布的估计误差,结合手机基站的空间的分布特点,根据基站间的邻近性来计算带宽控制参数,使搜索带宽随着基站的分布而变化;利用最小二乘交叉验证和对数概率两种方法来评价其估计效果,结果表明变化带宽比固定带宽的核密度估计效果更优。以深圳市手机位置数据为例,利用改进方法估计了几个典型时段城市人群停留的时空分布差异,反映了城市人群对城市不同区域的使用情况及其随时间变化情况。

DOI

[ Yang X P, Fang Z X, Zhao Z Y, et al.Analyzing space-time variation of urban human stay using kernel density estimation by considering space distribution of mobile phone towers[J]. Geomatics and Information Science of Wuhan University, 2017,42(1):49-55. ]

[17]
Kang C G, Liu Y, Ma X J, et al.Towards estimating urban population distributions from mobile call data[J]. Journal of Urban Technology, 2012,19(4):3-21.Today, large-volume mobile phone call datasets are widely applied to investigate the spatio-temporal characteristics of human urban activity. This paper discusses several fundamental issues in estimating population distributions based on mobile call data. By adopting an individual-based call activity dataset that consists of nearly two million mobile subscribers who made over one hundred million communications over seven consecutive days, we explore the relationships among the Erlang values, the number of calls, and the number of active mobile subscribers. Then, the LandScan population density dataset is introduced to evaluate the process of estimating the population. The empirical findings indicate that: (1) Temporal variation exists in the relation between the Erlang values and the number of calls; (2) The number of calls is linearly proportional to the number of active mobile subscribers; (3) The proportion between the mobile subscribers and the actual total population varies in different areas, thus failing to represent the underlying population. Hence, the call activity reflects ctivity intensity rather than population distribution. The Erlang is a defective indicator of population distribution, whereas the number of calls serves as a better measure. This research provides an explicit clarification with respect to using call activity data for estimating population distribution.

DOI

[18]
Deville P, Linard C, Martin S, et al.Dynamic population mapping using mobile phone data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014,111(45):15888.During the past few decades, technologies such as remote sensing, geographical information systems, and global positioning systems have transformed the way the distribution of human population is studied and modeled in space and time. However, the mapping of populations remains constrained by the logistics of censuses and surveys. Consequently, spatially detailed changes across scales of days, weeks, or months, or even year to year, are difficult to assess and limit the application of human population maps in situations in which timely information is required, such as disasters, conflicts, or epidemics. Mobile phones (MPs) now have an extremely high penetration rate across the globe, and analyzing the spatiotemporal distribution of MP calls geolocated to the tower level may overcome many limitations of census-based approaches, provided that the use of MP data is properly assessed and calibrated. Using datasets of more than 1 billion MP call records from Portugal and France, we show how spatially and temporarily explicit estimations of population densities can be produced at national scales, and how these estimates compare with outputs produced using alternative human population mapping methods. We also demonstrate how maps of human population changes can be produced over multiple timescales while preserving the anonymity of MP users. With similar data being collected every day by MP network providers across the world, the prospect of being able to map contemporary and changing human population distributions over relatively short intervals exists, paving the way for new applications and a near real-time understanding of patterns and processes in human geography.

DOI

[19]
钟炜菁,王德,谢栋灿,等.上海市人口分布与空间活动的动态特征研究—基于手机信令数据的探索[J].地理研究,2017,36(5):972-984.对城市人口空间分布的动态把握是了解人口活动规律、认识城市空间结构、配置城市基础设施和公共服务设施及制订城市公共安全应急保障方案的重要依据。由于目前国内缺少系统的人口动态变化统计数据,城市内部层面的人口空间分布和活动的动态特征方面的相关研究难以开展,研究成果较为有限。移动电话是目前普及率最高的通讯终端设备,其用户的动态分布信息可以准确地反应整个城市人口的空间分布与活动的动态特征。利用手机信令数据,以上海市为例,构建“人口—时间—行为”关系的人口空间动态分析框架,分析上海市人口分布和活动的动态特征。结果表明:上海整体人口密度呈单中心的圈层空间分布结构,昼夜空间分布经历“白天向中心集聚、夜晚向郊区分散”的流动过程;人的各类活动(如通勤、消费休闲)会产生人口空间分布的动态变化,职住关系的不匹配和活动对中心的高度依赖使得人口的空间分布不均,形成向心流动模式。消费休闲行为对中心城区的依赖度明显高于就业活动,且集中体现在紧邻中心城区的外围近郊呈圈层分布。

DOI

[ Zhong W J, Wang D, Xie D C, et al.Dynamic characteristics of Shanghai's population distribution using cell phone signaling data[J]. Geographical Research, 2017,36(5):972-984. ]

[20]
李明晓,陈洁,张恒才,等.上海市精细时空尺度人口分布估计与特征分析[J].地球信息科学学报,2017,19(6):800-807.城市人口实时分布与动态变化特征是城市规划与综合治理的重要依据。受数据获取手段的局限性,准确地获取城市人口的实时分布状况一直是技术瓶颈,而移动通讯技术的迅速普及为这一问题的解决提供了技术途径。本文基于移动通讯信令的连续轨迹数据,实现了城市精细尺度人口分布时空估算的方法流程,并以上海市为研究区,对城市人口分布特征及时空移动过程进行了量化分析。研究表明:(1)在数据方面,基于移动通讯信令数据估算城市人口分布的方式样本覆盖广、时空精度高、时效性较强且支持时空尺度灵活多变的应用研究需求,能够定量地描述城市人口分布时空动态特征且能推算城市真实人口规模;(2)在人口分布时空特征方面,上海市在全市尺度上,各时段人口空间分布较为稳定且差异较小,而在中心城区日间人口较夜间人口呈现更为显著的空间集聚特征;(3)在人口移动时空特征方面,城市功能承载区与其它区域之间人口移动很少,早晚高峰期各城市功能承载区之间人口移动均体现为中心城区与其它新城之间的移动,且2个方向移动人数较为平衡;各城市功能承载区内均有超过半数的人口全天仅在其所在城区内部活动。本文的研究成果可为上海城市规划、应急管理、交通出行等提供更精准的科学依据。

[ Li M X, Chen J, Zhang H C, et al.Fine-grained population estimation and distribution characteristics in Shanghai[J]. Journal of Geo-Information Science, 2017,19(6):800-807. ]

[21]
Guo Q L, Karimi H A.A novel methodology for prediction of spatial-temporal activities using latent features[J]. Computers Environment & Urban Systems, 2017,62:74-85.In today's era of big data, huge amounts of spatial-temporal data are generated daily from all kinds of citywide infrastructures. Understanding and predicting accurately such a large amount of data could benefit many real-world applications. In this paper, we propose a novel methodology for prediction of spatial-temporal activities such as human mobility, especially the inflow and outflow of people in urban environments based on existing large-scale mobility datasets. Our methodology first identifies and quantifies the latent characteristics of different spatial environments and temporal factors through tensor factorization. Our hypothesis is that the patterns of spatial-temporal activities are highly dependent on or caused by these latent spatial-temporal features. We model this hidden dependent relationship as a Gaussian process, which can be viewed as a distribution over the possible functions to predict human mobility. We tested our proposed methodology through experiments conducted on a case study of New York City's taxi trips and focused on the mobility patterns of spatial-temporal inflow and outflow across different spatial areas and temporal time periods. The results of the experiments verify our hypothesis and show that our prediction methodology achieves a much higher accuracy than other existing methodologies.

DOI

[22]
Zhang J, Zheng Y, Qi D, et al.DNN-based prediction model for spatio-temporal data[C]// ACM Sigspatial International Conference on Advances in Geographic Information Systems. ACM, 2016:92.

[23]
Gang X L, Zhao h. Prediction of urban human mobility using large-scale taxi traces and its applications[J]. Frontiers of Computer Science, 2012,6(1):111-121.这篇论文在一个城市的出租车交通系统调查人的活动性模式。这个工作集中于预言 humanmobility fromdiscovering 模式在从城市的热点的旅客提取数量(PUQ ) 的数字。这份报纸建议改进 ARIMA 基于预言方法在一个热点预报旅客的空间时间的变化。有 4 000 出租车 GPS 的一个大规模 realworld 数据集合的评估跟踪超过一年表演一个预言错误仅仅 5.8% 。我们也探索预言途径的申请帮助司机发现他们的下位旅客。用历史的真实世界的数据的模拟结果证明与我们的指导,驱动程序能减少花的时间,距离旅行,到发现他们的下位旅客在 37.1% 和 6.4% ,分别地。

DOI

[24]
Smith B L, Demetsky M J.Traffic flow forecasting: Comparison of modeling approaches[J]. Journal of Transportation Engineering, 1997,123(4):261-266.

DOI

[25]
Smith B L, Williams B M, Oswald R K.Comparison of parametric and nonparametric models for traffic flow forecasting[J]. Transportation Research Part C Emerging Technologies, 2002,10(4):303-321.Single point short-term traffic flow forecasting will play a key role in supporting demand forecasts needed by operational network models. Seasonal autoregressive integrated moving average (ARIMA), a classic parametric modeling approach to time series, and nonparametric regression models have been proposed as well suited for application to single point short-term traffic flow forecasting. Past research has shown seasonal ARIMA models to deliver results that are statistically superior to basic implementations of nonparametric regression. However, the advantages associated with a data-driven nonparametric forecasting approach motivate further investigation of refined nonparametric forecasting methods. Following this motivation, this research effort seeks to examine the theoretical foundation of nonparametric regression and to answer the question of whether nonparametric regression based on heuristically improved forecast generation methods approach the single interval traffic flow prediction performance of seasonal ARIMA models.

DOI

[26]
上海市统计局. 2016年上海市国民经济和社会发展统计公报[J].统计科学与实践,2017(3):12-21.

[ Shanghai Statistics Bureau. Statistical communique of Shanghai on national economic and social development in 2016[J]. Statistical Theory and Practice, 2017(3):12-21. ]

Outlines

/