Approaches for Human Mobility Data Generation: Research Progress and Trends

  • LIU Kang , *
Expand
  • Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055, China
* LIU Kang, E-mail:

Received date: 2023-08-21

  Revised date: 2023-10-17

  Online published: 2024-05-11

Supported by

National Key Research and Development Program of China(2022YFB3904203)

National Natural Science Foundation of China(42271474)

National Natural Science Foundation of China(41901391)

Abstract

Human mobility data play a crucial role in many real-world applications such as infectious diseases, transportation, and public safety. The development of modern Information and Communication Technologies (ICT) has made it easier to collect large-scale individual-level human mobility data, however, the availability and usability of the raw data are still significantly limited due to privacy concerns, as well as issues of data redundancy, missing, and noise. Generating synthetic human mobility data through modeling approaches to statistically approximate the real data is a promising solution. From the data perspective, the generated human mobility data can serve as a substitute for real data, mitigating concerns about personal privacy and data security, and enhance the low-quality real data. From the modeling perspective, the constructed models for human mobility data generation can be used for scenario simulations and mechanism exploration. The human mobility data generation tasks include individual trajectory data generation and collective mobility data generation, and the research methods primarily consist of mechanistic models and machine learning models. This article firstly provides a systematic review of the research progress in human mobility data generation and then summarizes its development trends and challenges. It can be observed that mechanistic-model-based methods are predominantly studied in the field of statistical physics, while machine-learning-based methods are primarily studied in the field of computer science. Although the two types of models have complementary advantages, they are still developing independently. The article suggests that future research in human mobility data generation should focus on: 1) exploring and revealing the underlying mechanisms of human mobility behavior from a multidisciplinary perspective; 2) designing hybrid approaches by coupling machine learning and mechanistic models; 3) leveraging cutting-edge generative Artificial Intelligence (AI) and Large Language Model (LLM) technologies; 4) improving the models' spatial generalization and transfer-learning capabilities; 5) controlling the costs of model training and implementation; and 6) designing reasonable evaluation metrics and balancing data utility with privacy-preserving effectiveness. The article asserts that human mobility processes are typical phenomenon of human-environment interactions. On the one hand, research in Geographic Information Science (GIS) field should integrate with theories and technologies from other disciplines such as computer science, statistical physics, complexity science, transportation, and others. While on the other hand, research in GIS field should harness the unique characteristics of GIS by explicitly incorporating geographic spatial effects, including spatial dependency, distance decay, spatial heterogeneity, scale, and more into the modeling process to enhance the rationality and performance of the human mobility data generation models.

Cite this article

LIU Kang . Approaches for Human Mobility Data Generation: Research Progress and Trends[J]. Journal of Geo-information Science, 2024 , 26(4) : 831 -847 . DOI: 10.12082/dqxxkx.2024.230488

1 引言

人类移动数据对传染病传播预测与防控 模拟[1-2]、交通规划与拥堵治理[3-4]、犯罪风险评估[5-6]、人群聚集预警与疏散[7]等诸多应用具有重要意义。人类移动数据可分为个体轨迹数据(Individual Trajectory Data)和群体移动数据(Collective Flow Data)。其中,个体轨迹数据通常表达为带时间戳或等时间间隔的位置采样点或停留点序列;群体移动数据通常表达为给定时间范围内位置之间的移动量矩阵或加权有向图。上述位置通常以笛卡尔坐标(Lagrangian View)或途经地理空间单元ID(Eulerian View)表示[8-9]
进入21世纪以来,传感器、移动定位、移动互联网等现代信息和通信技术(Information and Communication Technology, ICT)的飞速发展使得采集大规模人类定位数据成为易事。通过全球导航卫星系统(GNSS)、移动通讯信令、社交网站签到等各类以主动或被动形式采集的人类移动数据不但推动了相关领域发展和研究范式改变,也产生了巨大的应用价值[10-11]。然而,尽管当前数据采集手段多样,但由于涉及个人隐私、存在数据安全隐患,真实的个体移动轨迹数据在实际应用中的可得性仍存在很大局限[12-13]。同时,由于通讯、存储、设备性能等的不稳定性,原始轨迹数据可能存在大量冗余、缺失和噪声,也严重影响了数据的易用性[7]。此外,仅依赖历史数据也难以对观测范围外的实时突发场景进行模拟和假设分析(What-if Analysis)。在此背景下,构建人类移动数据生成模型,产生在统计层面接近并在应用层面可替代真实数据的合成数据(Synthetic Data),是上述问题的有效解决思路之一。值得一提的是,在更广泛的层面,合成数据近年来愈发受到关注。Nature近期发表题为“Synthetic data could be better than real data”的展望(Outlook)文章,强调机器生成的数据集在隐私保护和解决数据偏斜等方面具有较大潜力,并倡导研究者和大众拥抱并接纳数据生成技术及其带来的影响[14]
当前已有若干人类移动数据建模的相关综述论文[15-18]。例如, Barbosa等[16]从机理模型视角综述了包括个体和群体在内的人类移动性建模研究进展; Luca等[17]从机器学习视角综述了人类移动性建模研究进展,涵盖了个体轨迹预测、个体轨迹生成、群体移动量预测和群体移动量生成四类问题; Rong等[18]从多学科视角出发,针对群体移动量建模问题进行了综述。本文从机理模型与机器学习视角,针对个体和群体层面的人类移动数据生成问题进行了综述,相比上述论文,综述角度更加全面。此外,人类移动数据生成研究近两年由于生成式人工智能(Generative AI)的迅猛发展而格外受到关注,相比现有综述论文,本文涵盖了学界产出的一系列新成果,并有助于推动中文社区对该主题的关注和探讨。
本文梳理了人类移动数据生成的研究框架,如图1所示。人类移动数据生成方法的研究内容可分为个体轨迹数据生成方法和群体移动数据生成方法,其研究目的可分为四种。从数据层面来说,一方面,所生成的人类移动数据可代替真实数据使用,规避个人隐私与数据安全问题;另一方面,所生成的人类移动数据能够对难获取、稀疏或缺失的真实数据起到数据增强作用。从模型层面来说,所构建的人类移动数据生成模型本身可用来做机理揭示与情景假设分析。统计物理学领域的研究者侧重于从个体行为视角揭示个体/群体移动行为机理,构建了一系列机理模型;计算机领域的研究者更关注人类移动数据生成结果的真实度,提出了一系列机器学习模型。地理信息科学领域的相关研究成果相比统计物理学和计算机科学领域较少,但其更侧重从地理空间视角出发构建模型。本文基于该研究框架,对当前人类移动数据生成研究进行系统综述,在此基础上,从机制认知、模型设计和模型评价层面出发探讨其发展趋势。
图1 人类移动数据生成研究框架

Fig. 1 The research framework of human mobility data generation

2 个体轨迹数据生成方法研究进展

当前个体轨迹数据生成研究主要分为基于机理模型的方法和基于机器学习的方法两大类。其中,前者主要集中于统计物理学领域,后者主要集中于计算机科学领域。
个体轨迹生成任务与轨迹插值/重构/下一个轨迹点或兴趣点(Point of Interest, POI)预测等任务有一定区别。前者侧重于对生成的轨迹数据集进行评价,期望生成轨迹数据集的时空统计特征分布与真实数据集一致;后者致力于将每条轨迹还原或预测至与真实一致。此外,在机器学习方法中,轨迹生成任务通常使用生成模型,即通过建模原始数据的分布来生成新的数据;轨迹插值/重构/预测等任务通常使用判别模型,将其建模为分类或回归任务。
为评价生成轨迹数据集的质量,现有研究通常从数据中统计等待时间/停留时间、移动步长、回转半径等轨迹时空特征指标,并利用KL散度(Kullback-Leibler Divergence)、JS散度(Jensen-Shannon divergence)等度量真实轨迹数据集与生成轨迹数据集的指标概率分布差异。此外,还常采用Common Part of Commuters(CPC)指标度量生成轨迹聚合所得区域之间群体移动量与真实群体移动量之间的相似性。

2.1 基于机理模型的个体轨迹生成方法

通过定量统计大量人类时空行为事件,发现其中隐含的统计规律,进而对个体移动过程建模的方法,可称之为基于机理模型的个体轨迹生成方法。这种方法有助于揭示宏观统计规律背后的微观底层机制[19-24]
Brockmann等[20]采用同时具有幂律步长分布和幂律等待时间分布的连续时间随机游走模型(Continuous Time Random Walk, CTRW)来模拟钞票在大尺度地理空间中的移动轨迹。Song等[25]基于Gonzalez等[21]的研究,提出人类同时具有探索未知地点和返回之前熟悉地点的移动行为机制,通过幂律移动步长探索机制、频率偏好返回机制以及幂律等待时间建立了探索和偏好返回模型(Exploration and Preferential Return, EPR)。此外,一些研究在EPR模型的基础上增加了更多复杂的个体行为机制、社会机制及地理空间特征,以更真实地再现统计规律[26-31]。其中, r-EPR模型[26]在返回阶段根据个体已访问地点的频率或距离当前访问时间远近的次序选择地点,m-EPR模型[27]在返回阶段设置固定大小的地点集,p-EPR模型[28]在探索阶段引入偏转角度使得个体倾向于选择潜在吸引力大的地点。此外,一些模型在探索和返回阶段引入社交偏好和群体访问偏好。例如,d-EPR模型[29]在探索阶段基于距离与静态群体访问频率;CMM模型[32]在探索阶段基于距离与动态群体访问频率; GeoSim模型[30]在探索阶段从随机地点或社交关系的访问地点集中选择,返回阶段根据个体已访问地点的频率或从社交关系的访问地点集中选择; STS-EPR模型[31]将GeoSim模型探索阶段基于随机地点的选择替换为基于距离与群体访问频率的选择。最近, Alessandretti等[33]通过手机数据分析了人类移动行为的尺度效应,提出容器模型(Container Model)来模拟个体在不同空间尺度容器(从社区到国家)之间的移动行为。不过,这些模型及其变种只关注人类移动性的空间特征,未能较好地顾及时空特征。
在城市内部尺度,居民活动通常具有昼夜、通勤等较为明显的周期性和规律性时间特征[34-35]。因此,一系列兼顾个体移动行为空间与时间特征的轨迹生成模型应运而生[36-39]。其中,周期性随机游走模型[36]假设: ① 每个个体具有固定唯一的家和工作地; ② 个体每天在家和工作地停留的总时间为固定下限 t m; ③ 个体的出行平均速度固定为 v; ④ 个体每天休闲出行的次数固定为1次。但该模型是一个极端简化的人类空间运动模型,无法重现人类空间运动的全部统计特征。TimeGeo模型[37]通过时间非均质的马尔科夫模型及3个参数,刻画个体出行昼夜节律和短程活动安排倾向;同时,提出基于目的地距离排序的探索和偏好返回模型 (r-EPR)进行空间位置选择。不过,该模型是对基于手机通话记录(Call Detail Record, CDR)的稀疏轨迹进行插值,以得到以10分钟为间隔的精细个体轨迹,其本质是个体稀疏轨迹重构而非轨迹生成。w-EPR模型[39]将距离衰减效应和人口分布空间异质性融入EPR模型,使得距离越近、人口越多的新地点在探索阶段被选择的概率越大。然而,该模型强制所有个体具有相同的外出活动时间并根据数据分布确定个体在当前位置的活动持续时间,使得所生成个体轨迹的活动模式难以符合实际规律。DITRAS[38]通过构建日志生成器和轨迹生成器依次从时间和空间的角度确定一条完整轨迹。日志生成器是一个基于真实个体轨迹数据集训练的马尔可夫模型,通过获取个体在全天各个时段遵循或打破其居家等“常规活动模式(routine)”的概率,得到个体活动日志(即等时间间隔的个体活动类型序列);轨迹生成器则通过改进EPR模型(d-EPR)为个体活动日志获取各个活动的空间位置。然而,DITRAS仅使用各时段居家与否作为典型活动模式来参照生成个体活动类型序列,忽视了城市中居民居家、工作、就餐等日常活动构成的更多显著活动模式[35]。此外,基于马尔科夫模型得到的活动类型转移概率只与其当前活动类型相关,与其历史活动不相关,这种“无记忆性”使得新生成的个体和群体活动类型序列丢失了原有的时序模式。
表1整理了经典的基于机理模型的个体轨迹生成方法,并列出了模型名称、主要建模机制、实验数据及代码链接。其中,实验数据一般用于定量统计人类移动行为特征以揭示宏观规律、对所构建的微观机理模型进行参数标定以及建模效果评价。从模型归类可以看出,大多数机理模型都属于EPR模型的变种,利用了探索与偏好返回的思想。
表1 基于机理模型的个体轨迹生成方法

Tab. 1 Individual trajectory generation methods based on mechanistic models

类型 模型名称 年份 主要建模机制 实验数据 文献 代码链接
EPR模型及其扩展 EPR 2010 幂律等待时间、幂律移动步长探索机制、
频率偏好返回机制
CDR、GPS Song等[25] -
r-EPR 2015 幂律等待时间、幂律移动步长探索机制、
频率偏好返回机制、最近访问返回机制
CDR、Brightkite Barbosa等[26] -
m-EPR 2018 幂律移动步长探索机制、频率偏好返回
机制、固定大小的返回地点集
Mobile Data Challenge (MDC) Alessandretti等[27] -
GeoSim 2015 幂律等待时间、社交偏好探索机制、随机
地点探索机制、社交偏好返回机制、频率
偏好返回机制
CDR Toole等[30] https://scikit-mobil ity.github.io/scikit-mobility/reference/models.html
d-EPR 2015 幂律等待时间、基于距离与静态群体访
问频率的探索机制、频率偏好返回机制
CDR、GPS Pappalardo 等[29]
STS-EPR 2021 幂律等待时间、社交偏好探索机制、基于
距离与静态群体访问频率的探索机制、
社交偏好返回机制、频率偏好返回机制
Foursquare Cornacchia 等[31]
DITRAS 2018 活动时序模式、基于距离与静态群体访
问频率的探索机制、频率偏好返回机制
CDR、GPS Pappalardo 等[38]
TimeGeo 2016 昼夜节律及短程活动倾向、基于排序距离
衰减函数的探索机制、频率偏好返回机制
CDR、GPS Jiang等[37] https://github.com/tsinghua-fib-lab/TrajSynVAE
w-EPR 2019 幂律等待时间、固定每日外出时长、基于
排序距离衰减函数的探索机制、频率偏
好返回机制
CDR、Taxi GPS、Travel survey Wang等[39] -
p-EPR 2021 幂律等待时间、
偏转角度及幂律移动步长探索机制、频率
偏好返回机制
CDR Dong等[28] https://github.com/leiii/VisitationLaw
CMM 2021 幂律等待时间、基于距离与动态群体访
问频率的探索机制、频率偏好返回机制
- Xu等[32] https://github.com/tsinghua-fib-lab/Collective-Mobilit-y-Model
其他重
要模型
连续时间随机游走模型(CTRW) 2006 幂律等待时间、幂律移动步长 Bank Note Brockmann等[20] -
周期性随机游走模型 2011 固定个体居住与工作地、个体通勤时间
下限、个体恒定旅行速度恒定、个体每天
只有一次工作外活动
Travel Survey Yan等[36] -
Container Model 2020 位置之间的空间尺度层级距离、位置在
不同空间尺度层级中的吸引力
GPS Alessandretti等[33] https://github.com/lalessan/scales_h uman_mobility/
一般而言,机理模型建模仅依赖少量宏观统计数据及参数,原理清晰可解释,具备较强的外推泛化能力。然而,由于其对人类移动行为的假设过于简化,使得生成轨迹与实际差异较大。

2.2 基于机器学习的个体轨迹生成方法

利用机器学习模型从大量真实轨迹数据中学习其中隐含的模式和规律,进而对个体移动过程建模的方法,可称之为基于机器学习的个体轨迹生成方法。这种方法通常能生成与真实更接近的轨迹数据。
早期方法主要集中于马尔可夫模型[40-43],但这类模型利用历史位置序列信息的能力有限,并且预测的下一个位置只能是历史位置中出现过的,具有较大的局限性。常规判别式机器学习模型如支持向量机、决策树等需要人工定义合适的特征,通过从个体历史轨迹中提取有用信息作为模型输入,实现下一个轨迹点预测[44-45]
随着深度学习的兴起和快速发展,被广泛用于机器翻译、语音识别等序列生成问题的循环神经网络(Recurrent Neural Network, RNN)也被引入轨迹生成研究中。长短期记忆神经网络(Long Short-Term Memory, LSTM)作为一种特殊的RNN,因其可解决一般RNN存在的梯度消失问题,能够学习到序列的长期依赖信息,也得到广泛应用[46-47]。例如,Berke等[48]利用RNN通过连续预测下一个轨迹点实现轨迹生成。不过,这种方式存在暴露偏差(Bias Exposure)问题,即,每一步均将模型新预测出的轨迹点作为输入进行下一个轨迹点预测,造成误差累积。
为更有效地从历史轨迹序列中捕捉与当前预测位置相关的有用信息,学者们还在深度学习模型中引入了注意力机制(Attention Mechanism)和元学习(Meta Learning)等。例如, Feng等[49]利用RNN捕捉轨迹序列中复杂的转移模式,同时设计了注意力模块从历史轨迹中捕捉多时间尺度周期性影响。该研究称其是首次将注意力机制引入轨迹预测问题。最近的研究直接利用注意力机制生成 轨迹[50-51]。例如, Xia等[50]设计了不同的注意力机制神经网络模块,分别捕捉轨迹内部和轨迹之间的时空依赖关系,实现了稀疏轨迹补全。为了解决轨迹数据的维度高和分布不均导致生成数据质量较差的问题,Wang等[52]借用元学习的思想,构建元生成器(Meta Generator)并利用底层的时空道路属性作为元知识,学习轨迹数据中的时空分布模式。
生成对抗网络(Generative Adversarial Network, GAN)作为典型的生成式模型近年被广泛引入个体轨迹生成任务中。其中,生成器(Generator)用于生成轨迹,其目标是使生成的轨迹尽量接近真实轨迹;判别器(Discriminator)用于执行分类任务,其目标是尽量准确判断输入轨迹是生成的还是真实的,并将判别结果返回给生成器以指导其训练。通过对抗博弈学习,生成器和判别器的性能均不断提升。基于这种思想, Ouyang等[53]使用基于空间格网的轨迹表示方法,构建了基于卷积神经网络(Convolutional Neural Network, CNN)的生成器和判别器,训练得到的生成器可基于输入的随机噪声直接生成整条轨迹。但该模型结构设计简单、有效信息利用少,效果相对较差。 Rao等[54]将轨迹的空间、时间和语义信息进行编码,设计了融合LSTM等神经网络结构的轨迹生成器和轨迹判别器。实验表明,给定真实轨迹和随机噪声,生成器生成的轨迹较好地实现了对真实轨迹的隐私保护目的,且在一定程度上保留了真实轨迹的空间、时间和语义特征。在更常见的GAN结构中,生成器基于 RNN[55]、自注意力机制[51]等对轨迹进行逐点序列化生成。Wang等[56]构建了由探索分支和停留分支组成的双分支生成器:探索分支采用门控循环单元(Gate Recurrent Unit, GRU)生成下一个位置点;停留分支通过Sigmoid激活函数处理GRU输出的隐状态,用于判断下一时刻是探索还是停留。该方法有助于避免常规序列生成模型容易生成大量重复位置的缺陷。Wang等[57]和Jiang等[58]均使用了两阶段的GAN来生成路网约束下的连续轨迹。 Cao等[59]将轨迹的空间和时间信息解耦,使用GAN和Seq2Seq模型处理其空间和时序特征并实现轨迹生成。Yuan等[60]通过神经微分方程(Neural Differential Equation, NDE)对人类时空活动背后的时空动力学进行建模,提出基于生成式对抗模仿学习(Generative Adversarial Imitation Learning, GAIL)框架,将轨迹建模为时空点过程以实现轨迹生成。为了增强对GAN生成数据的隐私保护, Zhang等[61]使用差分隐私(Differential Privacy, DP),采用部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)对其差分隐私机制中隐私预算的动态分配过程进行建模,以平衡生成模型的隐私性和实用性。Rao等[62]通过在K-匿名化的人类移动矩阵上的条件对抗训练、基于注意力机制的轨迹全局上下文学习和相邻轨迹点的循环二分图匹配,从条件采样的位置中重构轨迹拓扑,并生成高质量的个体合成轨迹数据作为原始轨迹数据的补充或替代,以实现隐私保护。
除了GAN,变分自编码器(Variational Autoencoder, VAE)是另一种典型的生成式模型。Huang等[63]结合VAE和Seq2Seq模型,提出基于序列变分自动编码器(SVAE)的轨迹生成方法。VAE的引入使得模型可从少量轨迹数据中有效学习人类移动模式,从而生成与训练数据不完全相同又符合其数据分布特征的合成轨迹。Long等[64]提出一种由用户VAE和轨迹VAE组成的轨迹生成器。其中,用户VAE从群体角度出发,学习所有轨迹的用户分布;轨迹VAE从个体角度出发,通过解耦出行时间和停留时间对复杂移动模式进行建模,以准确模拟个体轨迹。Wang等[65]提出一种基于变分时间点过程的个体轨迹生成方法。该模型将时间点过程与神经变分推断框架结合来模拟具有连续时间分布、可变长度和多维上下文信息的个体轨迹。
此外,扩散模型(Diffusion Models)作为一种新提出的生成式模型,在图像生成等领域表现出强大的能力,引起了各界学者的广泛关注。Zhu等[66]将扩散模型应用到轨迹生成任务中,从真实轨迹中学习时空特征,通过扩散模型的正向和反向过程来生成高质量的轨迹。扩散模型强大的生成能力可以模拟真实世界中人类移动行为的不确定性和多样性,进而生成逼真的轨迹数据。
表2整理了近年来主流的基于机器学习的个体轨迹生成方法,并列出了模型名称、主要模块、实验数据及代码链接。从模型归类可以看出,GAN、VAE和Diffusion作为三类典型的生成式模型,被广泛应用到轨迹生成方法中;而其他方法则主要包含利用了RNN及其变种的方法和基于注意力机制的方法,也是当前深度学习领域用于序列预测或生成的经典模型模块。
表2 基于机器学习的个体轨迹生成方法

Tab. 2 Individual trajectory generation methods based on machine learning

类型 模型名称 年份 主要模块 实验数据 文献 代码链接
利用GAN的
模型
OuyangGAN 2018 GAN, CNN MDC Ouyang等[53] -
- 2018 SRNN, RNN-LSTM, RHN, PSMM, SGAN, RGAN MDC Kulkarni等[55] -
LSTM-TrajGAN 2020 LSTM, GAN Foursquare Rao等[54] https://github.com/GeoDS/LSTM-TrajGAN
MoveSim 2020 GAN, Attention, CNN Mobile phone positioning data, GeoLife Feng等[51] https://github.com/FIBLAB/MoveSim
TSG 2021 GAN, LSTM, CNN Taxi GPS Wang等[57] -
TS-TrajGen 2023 GAN, LSTM Taxi GPS Jiang等[58] https://github.com/WenMellors/TS-TrajGen
DP-TrajGAN 2022 GAN, LSTM, POMDP GeoLife, Taxi GPS Zhang等[61] -
TrajGen 2021 DCGAN, GRU Taxi GPS Cao等[59] https://github.com/caochuntu/KDD2021_guizu
利用VAE的
模型
SVAE 2019 VAE, LSTM GPS Huang等[63] -
TrajSynVAE 2023 VAE, LSTM Mobile phone positioning data, Geolife, Foursquare Wang等[65] https://github.com/tsinghua-fib-lab/TrajSynVAE
VOLUNTEER 2023 VAE, Transformer, LSTM, MLP Mobile phone positioning data Long等[64] -
利用Diffusion
的模型
Diff-Traj 2023 Diffusion Model, U-Net Taxi GPS Zhu等[66] -
其他模型 STAR 2023b GNN, GRU Foursquare Wang等[56] -
ActSTD 2022 NDE, GRU, LSTM Foursquare, Mobile phone positioning data Yuan等[60] https://github.com/tsinghua-fib-lab/Activity-Trajectory-Generation
MTNet, TNet 2022 Encoder, Decoder, LSTM Taxi GPS Wang等[52] https://github.com/wangyong01/MTNet_Code
AttnMove 2021 Attention GeoLife, GPS, Tencent location data Xia等[50] https://github.com/XTxiatong/AttnMove
一般而言,机器学习尤其是深度学习可以用各种巧妙和复杂的非线性方法从数据中学习隐含模式,使得生成轨迹更接近真实。然而,这种“黑箱”模型和纯数据驱动方式同时也存在可解释性差、训练数据要求高(如需要大量真实个体轨迹)、模型复杂且参数众多、对超出数据观测条件的外推泛化能力不足等缺点。

3 群体移动数据生成方法研究进展

群体移动数据生成一般指给定地理空间单元的社会经济特征(如人口分布、土地利用等)及其交互特征(如距离、空间邻接关系、交通交互关系等),通过(拟合或训练后的)模型生成两两单元之间的群体移动量[67-71]。除了“生成(generation)”,该过程在不同文献中还被表述为推断(inference)、估计(estimation)、预测(prediction)或补全(imputation)。群体移动量生成模型在地理领域被称为“空间交互模型”[72];在交通领域则指交通四阶段法中的“出行分布(trip distribution)预测模型”,即通过模型将每个交通分析小区的总出行量分配至其他交通分析小区,构建OD出行量矩阵[70]
当前群体移动数据生成研究也可分为基于机理模型的方法和基于机器学习的方法两大类。前者主要集中于统计物理学、地理学和交通行为学领域,且有多年发展历史,一般被视为“传统方法”;后者主要集中于计算机科学领域,近几年受到较多关注。

3.1 基于机理模型的群体移动数据生成方法

用于群体移动数据生成的机理模型可分为重力模型和介入机会类模型两类[73]
重力模型(Gravity Model)是类比物理学中万有引力定律提出的,假设空间单元 i j之间的群体移动量 T i j与空间单元的人口数量 P i P j成正比,与空间单元之间的距离 d i j成反比[67]。重力模型具体定义为:
T i j = O i P i P j f ( d i j )
式中: O i是空间单元 i的总人口流出量, f ( d i j )是空间单元 i j之间的距离衰减函数,常见形式包括幂函数和指数函数。重力模型形式简洁,应用广泛,但需对少量参数进行拟合,也缺乏严格的理论依据。
不同于重力模型,介入机会类模型属于微观机制模型,从个体目的地选择行为的角度建模,将介入机会而不是距离作为影响人类移动的关键因素[73]。介入机会模型[74]、辐射模型[68]、人口权重机会模型[69]、机会优先选择模型[75]、统一机会模型[76]等均属于介入机会类模型。这些模型具有类似的建模思路,即假设个体在选择目的地时会比较起点机会、介入机会和目的地机会大小,其区别在于在比较各地点机会时的准则不同。“机会”通常以人口数量表示。
Stouffer等[74]最早提出的介入机会模型(Intervening Opportunity Model, IO)假设起点 i和目的地 j之间的群体移动量 T i j正比于目的地 j机会,反比于介入机会:
T i j = O i e - γ ( S i j - P j ) - e - γ S i j 1 - e - γ S
式中:   S i j为介入机会,即介于目的地 j与起点 i之间的所有地点的总机会(以起点 i为中心、起点 i和目的地 j之间距离为半径的圆内所有地点的总机会); S为总机会; γ为参数。
Simini等[68]于2012年提出的辐射模型(Radiation Model)假设个体倾向于选择距离起点最近且机会大于起点的地点作为工作地:
T i j = O i P i P j P i + s i j P i + P j + s i j
式中: s i j为不包含起点和目的地机会的介入机会。辐射模型是无参数模型,具有巨大的应用优势,对通勤类群体移动量预测较准,但对城市内出行等非通勤类群体移动量的预测精度不高。
Yan等[69]于2014年提出的人口权重机会模型(Population-Weighted Opportunity, PWO)假设个体选择目的地 j的概率正比于目的地的机会 P j,反比于目的地到个体所在地点之间的人口总数 S j i
T i j = O i P j S j i
式中: S j i指以目的地 j为中心、目的地 j和起点 i之间距离为半径的圆内所有地点的总机会。PWO模型也是无参数模型。
Liu和Yan[75]于2019年提出的机会优先选择模型(Opportunity Priority Selection, OPS)假设个体倾向于选择机会比起点 i的机会以及介入机会 S i j都高的地点作为目的地:
T i j = O i P j S i j
OPS模型也是无参数模型。这类模型能够较准确地预测城市内、城市间的出行。
Liu和Yan[76]于2020年提出的统一机会模型(Universal Opportunity Model, UO)试图通过参数统一辐射模型和机会优先选择模型:
T i j = O i ( P i + α s i j ) P j [ P i + ( α + β ) s i j ] [ P i + P j + ( α + β ) s i j ]
式中: α表示个体选择目的地时的探索性倾向; β表示个体选择目的地时的谨慎性倾向, α + β 1。探索性倾向越强,个体选择远距离潜在目的地的可能性就越大;谨慎性倾向越强,个体选择近距离潜在目的地的可能性就越大。当 α = 0 β = 1时,UO模型等同于辐射模型;当 α = 1 β = 0时,UO模型等同于机会优先选择模型。Liu和 Yan[76]使用全球14个不同空间尺度下的群体移动数据集,验证了UO模型对城市内、城市间、通勤、求职、货运、迁移等群体移动量的预测准确性。
表3整理了经典的基于机理模型的群体移动量生成方法,列出了模型特点、参数情况及适用尺度。
表3 基于机理模型的群体移动量生成方法

Tab. 3 Collective flow generation methods based on mechanistic models

类型 特点 模型名称 年份 参数 适用尺度 文献
重力模型 形式简单、易于应用,
但缺乏理论依据
Gravity 1946 城市间 Zipf等[67]
介入机会类
模型
可反映个体目的地选择
的微观机制
IO 1940 Stouffer等[74]
Radiation 2012 通勤 Simini等[68]
PWO 2014 城市内、城市间 Yan等[69]
OPS 2019 城市内、城市间 Liu和Yan[75]
UO 2020 求职、迁移、货运、通勤、城市内、城市间 Liu和Yan[76]

3.2 基于机器学习的群体移动数据生成方法

基于机理模型的群体移动数据生成方法通常只建模人口和距离特征。与之相比,基于机器学习的群体移动数据生成方法还可纳入土地利用类型、POI类型、交通网络等更丰富的区域特征及区域间交互特征,构建这些特征与区域之间群体流动量之间的非线性关系。
Robinson和Dilkina[77]使用ANN和XGBoost模型,基于起点特征、终点特征及起终点交互特征预测美国3 106个郡县之间和全球207个国家之间的群体移动量,取得了比传统方法更好的预测效果。Pourebrahim等[70]使用ANN和随机森林(Random Forest, RF)模型,基于起点特征、终点特征及起终点交互特征预测纽约市人口普查区之间的群体移动量。结果显示, RF取得了比传统模型和ANN更好的预测效果,且人口、距离、Twitter用户量和就业人数对于预测结果具有显著影响。 Simini等[71]将单约束重力模型[16]看作线性分类器,将其扩展为多层前馈神经网络(Multilayer Feed-Forward Neural Network, FFNN)模型——DeepGravity,并融入更多起点和终点特征(如土地利用、POI、道路长度等)作为输入来预测区域之间的群体移动量。实验表明,引入更丰富的特征和非线性隐含神经网络层对于预测效果具有显著提升作用。
除了使用原始特征,部分研究将区域看作节点,区域之间的交互关系看作边,使用基于图的神经网络,如图卷积神经网络(Graph convolutional network, GCN)和图注意力网络(Graph Attention Network, GAT),同时捕捉区域特征及区域间关系特征以获取区域(节点)的嵌入表示,以此作为机器学习输入来预测两两区域之间的群体移动量[78-82]
上述模型的共同点在于构建丰富的起点特征、终点特征及交互特征(或特征融合后的嵌入表示),利用机器学习构建这些特征与起终点间群体移动量之间的非线性关系。这类模型通常使用部分区域之间的真实群体移动量训练模型,并将其应用于预测未知区域之间的群体移动量。
更前沿的研究利用生成式算法,采用对抗学习和迁移学习等策略,将基于若干城市训练得到的模型应用至其他城市进行城市内部OD移动量矩阵生成。Rong等[83]提出ODGN模型,设计了编码-解码结构的OD移动量矩阵生成器。该研究以8个城市的城市内部区域特征及交互特征以及OD移动量矩阵作为训练数据,采用一种特殊设计的GAN结构对模型进行训练;给定其他城市的内部区域特征及交互特征,模型能够生成与真实较为一致的OD移动量矩阵,显示出较好的城市间迁移效果。Rong等[84]提出DiffODGen模型,将城市内部OD移动量矩阵生成任务拆分为基于扩散模型的网络拓扑生成和边权重生成两个连续任务。该论文以1个城市的数据对模型进行训练,并用其生成另外2个城市的OD移动量矩阵,验证了方法的有效性。Rong等[85]提出GODDAG模型,基于图注意力网络GAT提取OD区域特征、基于图同构网络(Graph Isomorphism Network, GIN)提取OD交互特征,在此基础上以多层线性感知器(Multilayer Perceptron, MLP)生成两两区域之间的群体流动量。该论文采用一种迁移学习策略——领域对抗训练,使得模型能够迁移应用至新城市。
Mauro等[86]提出与上述范式均不同的模型MoGAN。该模型使用深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Network, DCGAN)架构[87],以CNN作为生成器,将输入的1×100的随机噪声向量转换为64×64的OD移动量矩阵。模型训练采用GAN结构,判别器采用CNN对生成和真实的OD群体移动量矩阵做真假判断。该方法使用同一城市不同日期的OD群体移动网络做训练和测试(生成),且所使用DCGAN模型要求OD移动量矩阵必须为64×64,可迁移性较差。表4整理了基于机器学习的群体移动数据生成方法,并列出了模型的主要模块、应用尺度和代码链接。
表4 基于机器学习的群体移动数据生成方法

Tab. 4 Collective flow generation methods based on machine learning

类型 模型名称 年份 主要模块 应用尺度 文献 代码链接
预测两两区域
之间的群体移
动量
ANN
XGBoost
2018 - 郡县/国家 Robinson和Dilkina[77] -
RF
ANN
2019 - 城市内部人口统计区 Pourebrahim等[70] -
DeepGravity 2021 FFNN 国家/州内部人口统计区 Simini等[71] https://github.com/scikit-mobility/DeepGravity
pop2flow 2023 Attention, GCN, MLP 城市内部1km和3km网格 Rong等[78] -
GMEL 2020 GAT, GBRT 城市内部人口统计区 Liu等[79] https://github.com/jackmiemie/GMEL
SI-GCN 2021 GCN 城市内部1km网格 Yao等[82] https://github.com/s3pku/flow-imputation
ConvGCN‑RF 2023 CNN, GCN 城市内部500m网格 Yin等[80] -
R2F-GCN 2023 GCN 城市 Wang等[81] -
生成所有区域
之间的群体移
动量矩阵
ODGN 2023 GNN, GAN, TCN 城市内部人口统计区 Rong等[83] -
DiffODGen 2023 Diffusion model 城市内部人口统计区 Rong等[84] -
GODDAG 2023 GAT, GIN, MLP 城市内部人口统计区 Rong等[85] -
MoGAN 2022 CNN 城市内部网格 Mauro等[86] https://github.com/jonpappalord/GAN-flow
从人类移动数据生成研究现状可以看出,目前机理模型与机器学习两类方法各自具有优缺点。如表5所示,机理模型的主要优势在于能够根据预先设定的个体或群体移动行为机制,基于少量数据和参数输入,显式刻画个体移动过程或群体移动量,且具有较强的外推泛化能力。然而,当前研究对个体及群体移动行为机制的刻画还过于简化,使得生成的人类移动数据(尤其是轨迹数据)与实际差异较大。机器学习模型能够从数据中学习到人类移动行为的复杂和隐含模式,有能力生成近似真实的新数据,但模型对训练数据要求高,且可解释性和外推泛化能力不足。
表5 机理模型与机器学习两类方法对比

Tab. 5 Comparation of mechanistic models and machine learning models for human mobility data generation

机理模型(白箱) 机器学习(黑箱)
可解释性
生成数据真实度
对训练数据要求
外推泛化能力
建模参数

4 人类移动数据生成方法趋势探讨

基于对人类移动数据生成研究现状的系统梳理,本文进一步结合当前地理信息科学、计算机科学、复杂性科学乃至脑与认知科学等多学科理论与技术发展趋势,从机理认知层面、模型设计层面和模型评价层面探讨了人类移动移动数据生成研究所面临的重要挑战,并提出若干前沿发展方向。

4.1 探索人类移动行为的底层机制

人类移动数据生成方法的本质是对人类移动行为过程进行建模;揭示人类移动行为的底层机制,是人类移动行为建模的理论驱动引擎。由于人类行为高度复杂,涉及脑与认知科学、交通行为学、地图学、统计物理学、计算机与数据科学等多个学科,研究难度大且目前研究成果远远不足,未来仍需在以下几个方向上深入开展研究工作,尤其需要多学科研究者深度交叉协作。
首先,研究人类大脑如何编码空间记忆、构建认知地图和实现空间认知[88-91]。其次,研究个体的导航与移动选择行为机制,包括目的地选择行为、交通方式选择行为、出行路径选择行为等,揭示空间认知机制、个体属性特征(如年龄、性别、驾车经验等)和地理环境特征(如路网结构、地标、城市空间结构等)等对移动选择过程的影响[92-95]。在此基础上,研究如何利用所揭示的机理机制构建机理模型,或将其适应性融入机器学习模型,实现人类移动行为合理建模与数据高质量生成。

4.2 关注机理模型与机器学习耦合建模

从前述进展综述可以看出,机理模型与机器学习实际上优势是互补的,但当前两类方法仍然在各自领域独立发展。如何适应性地结合“白箱”机理模型与“黑箱”机器学习,充分发挥二者优势并弥补其缺陷,是推动人类移动数据生成研究实现向前一步跨越的有效思路和有益尝试,这也符合当前地理学者关于“地理过程与大数据机器学习相结合”的多学科交叉研究倡导[96-98]以及机理-数据双驱动的下一代人工智能技术发展趋势(① 国家自然科学基金委员会. 关于发布可解释、可通用的下一代人工智能方法重大研究计划2023年度项目指南的通告. https://www.nsfc.gov.cn/publish/portal0/tab442/info89087.htm)。
当前不同领域的学者也提出或总结了一些机理模型与机器学习耦合方法,如物理引导的机器学习/深度学习/神经网络(Physics-Guided Machine Learning/Deep Learning/Neural Network)等[97-105]。然而,对于不同领域中的具体问题,机理模型的表达形式和领域知识的引导或约束方式千差万别,难以直接将其他领域的耦合思路直接套用至人类移动数据生成问题中。因此,人类移动数据生成研究应针对其机理模型的具体表达形式与人类移动行为机制,顾及地理空间效应,适应性构建机理模型与机器学习耦合方法,发挥其各自优势并弥补其缺陷。

4.3 借助生成式人工智能与大语言模型

轨迹通常表达为带时间戳或等时间间隔的、以经纬度或空间单元ID表示的位置序列,其与以字词序列表达的自然语言文本具有不谋而合的类比关系[106-109]。近年来,以ChatGPT为代表的大语言模型(Large Language Model,LLM)和生成式人工智能得到飞跃式发展。大语言模型采用深度学习技术,通过学习大量的文本语料,能够生成高质量、连贯的自然语言文本。在此机遇下,如何将基于文本的大语言模型相关技术迁移至时空轨迹,适应性构建轨迹数据编码与符号化(tokenization)方法和预训练-微调技术,实现基于大语言模型的人类移动数据生成,是值得探讨的前瞻性研究问题。

4.4 强调模型空间泛化与迁移能力

当前研究主要使用特定地理区域(如某个城市)的数据训练人类移动数据生成模型,且表示轨迹所依赖的空间划分方式多样,如直接采用点坐标,或采用不同大小的格网单元、不同级别的行政区划等。然而,由于地理空间异质性和可变面元问题(Modifiable Areal Unit Problem, MAUP)存在,模型的空间泛化能力和迁移应用的便利性还存在不足。因此,应当设计具备更强空间泛化能力的模型,利用因果不变学习、深度迁移学习与元学习等框架[110], 使其能够在不显著降低模型性能的前提下,以较低成本实现跨尺度、跨区域迁移。此外,构建面向人类移动数据的大模型,或者构建可表达空间几何与语义特征的位置、区域和轨迹表示学习方法也是实现这一目标的可行途径。

4.5 控制模型训练与使用成本

当前基于机器学习的人类移动数据生成方法大多采用深度学习,有些模型架构(例如GAN)对计算机硬件和训练数据要求高、训练时间长,使得模型实际的使用成本较高。此外,基于机理模型的个体轨迹生成方法由于需要在每个生成步进行空间选择,也存在计算耗费大的问题。因此,构建人类移动数据生成模型不能仅仅追求性能指标的提升,在算法设计与评价时还应考虑模型的训练与使用成本,或提出针对人类移动行为建模的高性能计算方法,使得所构建的模型能够可复现和易使用。

4.6 设计多角度模型评价方法

现有文献采用了较为多样的指标描述人类移动数据特征。以轨迹数据为例,研究者采用移动步长、等待时间/停留时间、回旋半径等指标刻画个体轨迹时空特征;在此基础上,采用KL散度或JS散度度量生成数据集与真实数据集的统计分布相似度或差异度。然而,统计分布相似只能在一定程度上说明生成数据的合理性。例如,当前大多机理模型生成的轨迹数据集在统计层面与真实接近,但单条轨迹的时空形态与人类真实轨迹差异较大。除了统计分布视角,还可从以下3个视角对轨迹数据集进行评价。
(1)轨迹时空形态视角。具体地,可通过轨迹聚类,评估生成轨迹数据所呈现的时空形态是否与真实数据集具有相似的模式。
(2)空间分布与交互视角。考虑到传染病、犯罪、应急等实际应用均关注个体在时空间的共现和聚散情况,可通过分时段人口分布、人群来源地分布、空间交互流量等指标,评估生成与真实轨迹数据集的相似性。
(3)应用场景可替代视角。具体地,以生成数据替换真实数据,放入应用场景中,通过应用效果评估生成数据的可替代性。以传染病时空扩散与防控模拟为例,可基于生成和真实的个体轨迹数据分别构建传染病传播模型,用2个模型分别模拟疫情时空扩散过程并对比异同。
考虑到人类移动数据合成的重要驱动力之一是规避原始数据存在的个人隐私问题,还应设计指标评价生成数据集的隐私保护效果,并在算法设计阶段平衡生成数据可用性与隐私保护效力。此外,对人类移动数据生成模型的不确定性和生成结果的鲁棒性进行评价也是有必要的[111]

5 总结

本文将人类移动数据生成研究按照研究目的、研究领域、研究方法等进行了分类,面向个体轨迹数据生成和群体移动数据生成两大主题,对当前人类移动数据生成方法进行了系统综述,并探讨了其未来发展趋势。可以预见,对人类移动行为机制认知的永恒追寻和生成式人工智能等技术的不断突破,会驱动和推动人类移动行为建模与数据生成研究作为前沿热点持续发展。
从本文对人类移动数据生成研究进展的梳理可以看出,基于机理模型的方法主要集中在统计物理学领域,基于机器学习的方法主要集中在计算机科学领域。而实际上,人类在地理空间中的移动过程是典型的人地交互过程,其空间选择行为受到空间依赖、距离衰减、空间异质性等地理空间效应的 影响[112]。地理信息科学应与计算机科学、统计物理学、复杂性科学等多学科理论方法进行深度交叉融合,在人类移动行为建模与数据生成研究领域中发挥本学科特色并占据一席之地。这一过程也有利于反向促进地理信息科学与地理空间人工智能(Geospatial Artificial Intelligence, GeoAI)[113]的发展。
本文图文责任编辑: 蒋树芳 黄光玉
[1]
Liu K, Zhang M, Xi G K, et al. Enhancing fine-grained intra-urban dengue forecasting by integrating spatial interactions of human movements between urban regions[J]. PLoS Neglected Tropical Diseases, 2020, 14(12):e0008924. DOI:10.1371/journal.pntd.0008924

[2]
尹凌, 刘康, 张浩, 等. 耦合人群移动的COVID-19传染病模型研究进展[J]. 地球信息科学学报, 2021, 23(11):1894-1909.

DOI

[ Yin L, Liu K, Zhang H, et al. Integrating human mobility into the epidemiological models of COVID-19: Progress and challenges[J]. Journal of Geo-information Science, 2021, 23(11):1894-1909. ] DOI:10.12082/dqxxkx.2021.210091

[3]
Yuan J, Zheng Y, Xie X, et al. T-drive: Enhancing driving directions with taxi drivers' intelligence[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(1):220-232. DOI:10.1109/TKDE.2011.200

[4]
Ma S, Zheng Y, Wolfson O. T-share: A large-scale dynamic taxi ridesharing service[C]// 2013 IEEE 29th International Conference on Data Engineering (ICDE). IEEE, 2013:410-421. DOI:10.1109/ICDE.2013.6544843

[5]
Zhu H J, Wang F H. An agent-based model for simulating urban crime with improved daily routines[J]. Computers, Environment and Urban Systems, 2021, 89:101680. DOI:10.1016/j.compenvurbsys.2021.101680

[6]
柳林, 杜方叶, 宋广文, 等. 犯罪共生空间的类型识别及其特征分析[J]. 地理科学, 2018, 38(8):1199-1209.

DOI

[ Liu L, Du F Y, Song G W, et al. Detecting and characterizing symbiotic clusters of crime[J]. Scientia Geographica Sinica, 2018, 38(8):1199-1209. ] DOI:10.13249/j.cnki.sgs.2018.08.001

[7]
孙未未, 毛江云. 轨迹预测技术及其应用——从上海外滩踩踏事件说起[J]. 科技导报, 2016, 34(9):48-54.

DOI

[ Sun W W, Mao J Y. Trajectory prediction technology and its application-from the stampede on the Bund in Shanghai[J]. Science & Technology Review, 2016, 34(9):48-54. ] DOI:10.3981/j.issn.1000-7857.2016.09.006

[8]
Laube P. (2009). Progress in movement pattern analysis. In B.Gottfried & H.Aghajan (Eds.), Behaviour Monitoring and Interpretation, BMI, Smart Environments (Vol. 3, pp. 43-71)., Ambient Intelligence and Smart Environments Amsterdam, NL: IOS Press. DOI:10.3233/978-1-60750-048-3-43

[9]
Laube P. Grand challenges in computational movement analysis[M]// SpringerBriefs in Computer Science. Cham: Springer International Publishing, 2014:81-87. DOI:10.1007/978-3-319-10268-9_5

[10]
李德仁, 邵振峰, 于文博, 等. 基于时空位置大数据的公共疫情防控服务让城市更智慧[J]. 武汉大学学报·信息科学版, 2020, 45(4):475-487,556.

[ Li D R, Shao Z F, Yu W B, et al. Public epidemic prevention and control services based on big data of spatiotemporal location make cities more smart[J]. Geomatics and Information Science of Wuhan University, 2020, 45(4):475-487,556. ] DOI:10.13203/j.whugis20200145

[11]
陆锋, 刘康, 陈洁. 大数据时代的人类移动性研究[J]. 地球信息科学学报, 2014, 16(5):665-672.

DOI

[ Lu F, Liu K, Chen J. Research on Human Mobility in Big Data Era[J]. Journal of Geo-information Science, 2014, 16(5):665-672. ] DOI:10.3724/SP.J.1047.2014.00665

[12]
Anastasiou C, Kim S H, Shahabi C. Generation of synthetic urban vehicle trajectories[C]// 2022 IEEE International Conference on Big Data (Big Data). IEEE, 2023:359-366. DOI:10.1109/BigData55660.2022.10020237

[13]
Kamel Boulos M N, Kwan M P, Emam K, et al. Reconciling public health common good and individual privacy: New methods and issues in geoprivacy[J]. International Journal of Health Geographics, 2022, 21(1):1-9. DOI:10.1186/s12942-022-00300-9

PMID

[14]
Savage N. Synthetic data could be better than real data[J]. Nature, 2023. DOI:10.1038/d41586-023-01445-8

[15]
Pappalardo L, Manley E, Sekara V, et al. Future directions in human mobility science[J]. Nature Computational Science, 2023, 3(7):588-600. DOI:10.1038/s43588-023-00469-4

PMID

[16]
Barbosa H, Barthelemy M, Ghoshal G, et al. Human mobility: Models and applications[J]. Physics Reports, 2018, 734:1-74. DOI:10.1016/j.physrep.2018.01.001

[17]
Luca M, Barlacchi G, Lepri B, et al. A survey on deep learning for human mobility[J]. ACM Computing Surveys, 2023, 55(1):1-44. DOI:10.1145/3485125

[18]
Rong C, Ding J T, Li Y. An interdisciplinary survey on origin-destination flows modeling: Theory and techniques[EB/OL]. 2023: arXiv: 2306.10048.

[19]
周涛, 韩筱璞, 闫小勇, 等. 人类行为时空特性的统计力学[J]. 电子科技大学学报, 2013, 42(4):481-540.

[ Zhou T, Han X P, Yan X Y, et al. Statistical mechanics on temporal and spatial activities of human[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(4):481-540. ] DOI:10.3969/j.issn.1001-0548.2013.04.001

[20]
Brockmann D, Hufnagel L, Geisel T. The scaling laws of human travel[J]. Nature, 2006, 439(7075):462-465. DOI:10.1038/nature04292

[21]
González M C, Hidalgo C A, Barabási A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196):779-782. DOI:10.1038/nature06958

[22]
Rhee I, Shin M, Hong S, et al. On the levy-walk nature of human mobility[J]. IEEE/ACM Transactions on Networking, 2011, 19(3):630-643. DOI:10.1109/TNET.2011.2120618

[23]
Liang X, Zheng X D, Lv W F, et al. The scaling of human mobility by taxis is exponential[J]. Physica A: Statistical Mechanics and Its Applications, 2012, 391(5):2135-2144. DOI:10.1016/j.physa.2011.11.035

[24]
Roth C, Kang S M, Batty M, et al. Structure of urban movements: Polycentric activity and entangled hierarchical flows[J]. PLoS One, 2011, 6(1):e15923. DOI:10.1371/journal.pone.0015923

[25]
Song C M, Koren T, Wang P, et al. Modelling the scaling properties of human mobility[J]. Nature Physics, 2010, 6(10):818-823. DOI:10.1038/nphys1760

[26]
Barbosa H, de Lima-Neto F B, Evsukoff A, et al. The effect of recency to human mobility[J]. EPJ Data Science, 2015, 4(1):21. DOI:10.1140/epjds/s13688-015-0059-8

[27]
Alessandretti L, Sapiezynski P, Sekara V, et al. Evidence for a conserved quantity in human mobility[J]. Nature Human Behaviour, 2018, 2(7):485-491. DOI:10.1038/s41562-018-0364-x

PMID

[28]
Schläpfer M, Dong L, O’Keeffe K, et al. The universal visitation law of human mobility[J]. Nature, 2021, 593(7860):522-527. DOI:10.1038/s41586-021-03480-9

[29]
Pappalardo L, Simini F, Rinzivillo S, et al. Returners and explorers dichotomy in human mobility[J]. Nature Communications, 2015, 6:8166. DOI:10.1038/ncomms9166

PMID

[30]
Toole J L, Herrera-Yaqüe C, Schneider C M, et al. Coupling human mobility and social ties[J]. Journal of the Royal Society, Interface, 2015, 12(105):20141128. DOI:10.1098/rsif.2014.1128

[31]
Cornacchia G, Pappalardo L. STS-EPR: Modelling individual mobility considering the spatial, temporal, and social dimensions together[J]. Procedia Computer Science, 2021, 184:258-265. DOI:10.1016/j.procs.2021.03.035

[32]
Xu F L, Li Y, Jin D P, et al. Emergence of urban growth patterns from human mobility behavior[J]. Nature Computational Science, 2021, 1(12):791-800. DOI:10.1038/s43588-021-00160-6

PMID

[33]
Alessandretti L, Aslak U, Lehmann S. The scales of human mobility[J]. Nature, 2020, 587(7834):402-407. DOI:10.1038/s41586-020-2909-1

[34]
Eagle N, Pentland A S. Eigenbehaviors: Identifying structure in routine[J]. Behavioral Ecology and Sociobiology, 2009, 63(7):1057-1066. DOI:10.1007/s00265-009-0739-0

[35]
Jiang S, Ferreira J, González M C. Clustering daily patterns of human activities in the city[J]. Data Mining and Knowledge Discovery, 2012, 25(3):478-510. DOI:10.1007/s10618-012-0264-z

[36]
Yan X Y, Han X P, Zhou T, et al. Exact solution of the gyration radius of an individual’s trajectory for a simplified human regular mobility model[J]. Chinese Physics Letters, 2011, 28(12):120506. DOI:10.1088/0256-307x/28/12/120506

[37]
Jiang S, Yang Y X, Gupta S, et al. The TimeGeo modeling framework for urban mobility without travel surveys[J]. Proceedings of the National Academy of Sciences of the United States of America, 2016, 113(37): E5370-E5378. DOI:10.1073/pnas.1524261113

[38]
Pappalardo L, Simini F. Data-driven generation of spatio-temporal routines in human mobility[J]. Data Mining and Knowledge Discovery, 2018, 32(3):787-829. DOI:10.1007/s10618-017-0548-4

PMID

[39]
Wang J Y, Dong L, Cheng X M, et al. An extended exploration and preferential return model for human mobility simulation at individual and collective levels[J]. Physica A: Statistical Mechanics and Its Applications, 2019, 534:121921. DOI:10.1016/j.physa.2019.121921

[40]
Gambs S, Killijian M O, del Prado Cortez M N. Next place prediction using mobility Markov chains[C]// Proceedings of the First Workshop on Measurement, Privacy, and Mobility. New York: ACM, 2012:1-6. DOI:10.1145/2181196.2181199

[41]
Mathew W, Raposo R, Martins B. Predicting future locations with hidden Markov models[C]// Proceedings of the 2012 ACM Conference on Ubiquitous Computing. New York: ACM, 2012:911-918. DOI:10.1145/2370216.2370421

[42]
Chen M, Liu Y, Yu X H. NLPMM: A next location predictor with Markov modeling[C]// Pacific-Asia Conference on Knowledge Discovery and Data Mining. Cham: Springer, 2014:186-197. DOI:10.1007/978-3-319-06605-9_16

[43]
Qiao S J, Shen D Y, Wang X T, et al. A self-adaptive parameter selection trajectory prediction approach via hidden Markov models[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(1):284-296. DOI:10.1109/TITS.2014.2331758

[44]
Baraglia R, Muntean C I, Nardini F M, et al. LearNext: learning to predict tourists movements[C]// Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. New York: ACM, 2013:751-756. DOI:10.1145/2505515.2505656

[45]
Muntean C I, Nardini F M, Silvestri F, et al. On learning prediction models for tourists paths[J]. ACM Transactions on Intelligent Systems and Technology, 2015, 7(1):1-34. DOI:10.1145/2766459

[46]
Song X, Kanasugi H, Shibasaki R. DeepTransport: prediction and simulation of human mobility and transportation mode at a citywide level[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence, 2016:2618-2624. DOI:10.5555/3060832.3060987

[47]
Li M X, Lu F, Zhang H C, et al. Predicting future locations of moving objects with deep fuzzy-LSTM networks[J]. Transportmetrica A: Transport Science, 2020, 16(1):119-136. DOI:10.1080/23249935.2018.1552334

[48]
Berke A, Doorley R, Larson K, et al. Generating synthetic mobility data for a realistic population with RNNs to improve utility and privacy[C]// Proceedings of the 37th ACM/SIGAPP Symposium on Applied Computing. New York: ACM, 2022:964-967. DOI:10.1145/3477314.35 07230

[49]
Feng J, Li Y, Zhang C, et al. DeepMove: Predicting human mobility with attentional recurrent networks[C]// Proceedings of the 2018 World Wide Web Conference. New York: ACM, 2018:1459-1468. DOI:10.1145/3178876.3186058

[50]
Xia T, Qi Y H, Feng J, et al. AttnMove: History enhanced trajectory recovery via attentional network[C]// Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(5):4494-4502. DOI:10.1609/aaai.v35i5.16577

[51]
Feng J, Yang Z Y, Xu F L, et al. Learning to simulate human mobility[C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2020:3426-3433. DOI:10.1145/3394486.3412862

[52]
Wang Y, Li G L, Li K Y, et al. A deep generative model for trajectory modeling and utilization[J]. Proceedings of the VLDB Endowment, 2022, 16(4):973-985. DOI:10.14778/3574245.3574277

[53]
Ouyang K, Shokri R, Rosenblum D S, et al. A non-parametric generative model for human trajectories[C]// Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. New York: ACM, 2018:3812-3817. DOI:10.24963/ijcai.2018/530

[54]
Rao J M, Gao S, Kang Y H, et al. LSTM-TrajGAN: a deep learning approach to trajectory privacy protection[C]// Proceedings of the 11th International Conference on Geographic Information Science (GIScience 2021) - Part I, 2020, 12:1-17. DOI:10.4230/LIPIcs.GIScience.2021.I.12

[55]
Kulkarni V, Tagasovska N, Vatter T, et al. Generative models for simulating mobility trajectories[EB/OL]. 2018: arXiv: 1811.12801.

[56]
Wang Y, Zheng T Y, Liu S Y, et al. Spatiotemporal-augmented graph neural networks for human mobility simulation[EB/OL]. 2023: arXiv: 2306.09381.

[57]
Wang X R, Liu X Y, Lu Z T, et al. Large scale GPS trajectory generation using map based on two stage GAN[J]. Journal of Data Science, 2021, 19(1):126-141. DOI:10.6339/21-JDS1004

[58]
Jiang W J, Zhao W X, Wang J Y, et al. Continuous trajectory generation based on two-stage GAN[C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(4):4374-4382. DOI:10.1609/aaai.v37i4.25557

[59]
Cao C, Li M. Generating mobility trajectories with retained data utility[C]// Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. New York: ACM, 2021:2610-2620. DOI:10.1145/3447548.3467158

[60]
Yuan Y, Ding J T, Wang H D, et al. Activity trajectory generation via modeling spatiotemporal dynamics[C]// Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2022:4752-4762. DOI:10.1145/3534678.3542671

[61]
Zhang J, Huang Q H, Huang Y R, et al. DP-TrajGAN: A privacy-aware trajectory generation model with differential privacy[J]. Future Generation Computer Systems, 2023, 142:25-40. DOI:10.1016/j.future.2022.12.027

[62]
Rao J M, Gao S, Zhu S J. CATS: Conditional Adversarial Trajectory Synthesis for privacy-preserving trajectory data publication using deep learning approaches[J]. International Journal of Geographical Information Science, 2023:1-37. DOI:10.1080/13658816.2023.2262550

[63]
Huang D, Song X, Fan Z P, et al. A variational autoencoder based generative model of urban human mobility[C]// 2019 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). IEEE, 2019:425-430. DOI:10.1109/MIPR.2019.00086

[64]
Long Q Y, Wang H D, Li T, et al. Practical synthetic human trajectories generation based on variational point processes[C]// Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2023:4561-4571. DOI:10.1145/358030 5.3599888

[65]
Wang H D, Zhang Q Z, Wu Y C, et al. Synthesizing human trajectories based on variational point processes[J]. IEEE Transactions on Knowledge and Data Engineering, 2023:1-15. DOI:10.1109/TKDE.2023.3312209

[66]
Zhu Y S, Ye Y C, Zhao X Y, et al. Diffusion model for GPS trajectory generation[EB/OL]. 2023: arXiv: 2304.11582.

[67]
Zipf G K. The P1 P2/D hypothesis: On the intercity movement of persons[J]. American Sociological Review, 1946, 11(6):677-686. DOI:10.2307/2087063

[68]
Simini F, González M C, Maritan A, et al. A universal model for mobility and migration patterns[J]. Nature, 2012, 484(7392):96-100. DOI:10.1038/nature10856

[69]
Yan X Y, Zhao C, Fan Y, et al. Universal predictability of mobility patterns in cities[J]. Journal of the Royal Society, Interface, 2014, 11(100):20140834. DOI:10.1098/rsif.2014.0834

[70]
Pourebrahim N, Sultana S, Niakanlahiji A, et al. Trip distribution modeling with Twitter data[J]. Computers, Environment and Urban Systems, 2019, 77:101354. DOI:10.1016/j.compenvurbsys.2019.101354

[71]
Simini F, Barlacchi G, Luca M, et al. A Deep Gravity model for mobility flows generation[J]. Nature Communications, 2021, 12:6576. DOI:10.1038/s41467-021-26752-4

PMID

[72]
刘瑜, 姚欣, 龚咏喜, 等. 大数据时代的空间交互分析方法和应用再论[J]. 地理学报, 2020, 75(7):1523-1538.

DOI

[ Liu Y, Yao X, Gong Y X, et al. Analytical methods and applications of spatial interactions in the era of big data[J]. Acta Geographica Sinica, 2020, 75(7):1523-1538. ] DOI:10.11821/dlxb202007014

[73]
刘二见, 闫小勇. 预测人类移动行为的介入机会类模型研究进展[J]. 物理学报, 2020, 69(24):60-67.

[ Liu E J, Yan X Y. Research advances in intervening opportunity class models for predicting human mobility[J]. Acta Physica Sinica, 2020, 69(24):60-67. ] DOI:10.7498/aps.69.20201119

[74]
Stouffer S A. Intervening opportunities: A theory relating mobility and distance[J]. American Sociological Review, 1940, 5(6):845. DOI:10.2307/2084520

[75]
Liu E J, Yan X Y. New parameter-free mobility model: Opportunity priority selection model[J]. Physica A: Statistical Mechanics and Its Applications, 2019, 526:121023. DOI:10.1016/j.physa.2019.04.259

[76]
Liu E J, Yan X Y. A universal opportunity model for human mobility[J]. Scientific Reports, 2020, 10:4657. DOI:10.1038/s41598-020-61613-y

[77]
Robinson C, Dilkina B. A machine learning approach to modeling human migration[C]// Proceedings of the 1st ACM SIGCAS Conference on Computing and Sustainable Societies. New York: ACM, 2018:1-8. DOI:10.1145/3209811.3209868

[78]
Rong C, Li T, Feng J, et al. Inferring origin-destination flows from population distribution[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(1):603-613. DOI:10.1109/TKDE.2021.3075928

[79]
Liu Z C, Miranda F, Xiong W T, et al. Learning geo-contextual embeddings for commuting flow prediction[C]// Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(1):808-816. DOI:10.1609/aaai.v34i01.5425

[80]
Yin G M, Huang Z, Bao Y, et al. ConvGCN-RF: A hybrid learning model for commuting flow prediction considering geographical semantics and neighborhood effects[J]. GeoInformatica, 2023, 27(2):137-157. DOI:10.1007/s10707-022-00467-0

[81]
Wang Y X, Yao X, Liu Y, et al. Generating population migration flow data from inter-regional relations using graph convolutional network[J]. International Journal of Applied Earth Observation and Geoinformation, 2023, 118:103238. DOI:10.1016/j.jag.2023.103238

[82]
Yao X, Gao Y, Zhu D, et al. Spatial origin-destination flow imputation using graph convolutional networks[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(12):7474-7484. DOI:10.1109/TITS.2020.3003310

[83]
Rong C, Wang H D, Li Y. Origin-destination network generation via gravity-guided GAN[EB/OL]. 2023: arXiv: 2306.03390.

[84]
Rong C, Ding J T, Liu Z C, et al. Complexity-aware large scale origin-destination network generation via diffusion model[EB/OL]. 2023: arXiv: 2306.04873.

[85]
Rong C, Feng J, Ding J T. GODDAG: Generating origin-destination flow for new cities via domain adversarial training[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(10):10048-10057. DOI:10.1109/TKDE.2023.3268409

[86]
Mauro G, Luca M, Longa A, et al. Generating mobility networks with generative adversarial networks[J]. EPJ Data Science, 2022, 11:58. DOI:10.1140/epjds/s13688-022-00372-4

PMID

[87]
Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. 2015: arXiv: 1511.06434.

[88]
董卫华, 廖华, 詹智成, 等. 2008年以来地图学眼动与视觉认知研究新进展[J]. 地理学报, 2019, 74(3):599-614.

DOI

[ Dong W H, Liao H, Zhan Z C, et al. New research progress of eye tracking-based map cognition in cartography since 2008[J]. Acta Geographica Sinica, 2019, 74(3):599-614. ] DOI:10.11821/dlxb201903015

[89]
钟耳顺. 深度地图——论地图学与神经科学的结合[J]. 武汉大学学报(信息科学版), 2022, 47(12):1988-2002.

[ Zhong E S. Deep mapping—a critical engagement of cartography with neuroscience[J]. Geomatics and Information Science of Wuhan University, 2022, 47(12):1988-2002. ] DOI:10.13203/j.whugis20220382

[90]
Lynch K. Reconsidering the image of the city[M]// Cities of the Mind. Boston, MA: Springer US, 1984:151-161. DOI:10.1007/978-1-4757-9697-1_9

[91]
Filomena G, Verstegen J A, Manley E. A computational approach to ‘The Image of the City’[J]. Cities, 2019, 89:14-25. DOI:10.1016/j.cities.2019.01.006

[92]
Coutrot A, Manley E, Goodroe S, et al. Entropy of city street networks linked to future spatial navigation ability[J]. Nature, 2022, 604(7904):104-110. DOI:10.1038/s41586-022-04486-7

[93]
Bongiorno C, Zhou Y L, Kryven M, et al. Vector-based pedestrian navigation in cities[J]. Nature Computational Science, 2021, 1(10):678-685. DOI:10.1038/s43588-021-00130-y

PMID

[94]
Manley E J, Addison J D, Cheng T. Shortest path or anchor-based route choice: a large-scale empirical analysis of minicab routing in London[J]. Journal of Transport Geography, 2015, 43:123-139. DOI:10.1016/j.jtrangeo.2015.01.006

[95]
李大韦, 冯思齐, 曹奇, 等. 大数据背景下的路径选择行为建模[J]. 中国公路学报, 2021, 34(12):161-174.

DOI

[ Li D W, Feng S Q, Cao Q, et al. Modeling route choice behavior in the era of big data[J]. China Journal of Highway and Transport, 2021, 34(12):161-174. ] DOI:10.19721/j.cnki.1001-7372.2021.12.013

[96]
程昌秀, 沈石, 李强坤. 黄河流域人地系统研究的大数据支撑与方法探索[J]. 中国科学基金, 2021, 35(4):529-536.

[ Cheng C X, Shen S, Li Q K. Big data support and method exploration about natural and human systems research in the Yellow River Basin[J]. Bulletin of National Natural Science Foundation of China, 2021, 35(4):529-536. ] DOI:10.16262/j.cnki.1000-8217.2021.04.005

[97]
Reichstein M, Camps-Valls G, Stevens B, et al. Deep learning and process understanding for data-driven Earth system science[J]. Nature, 2019, 566(7743):195-204. DOI:10.1038/s41586-019-0912-1

[98]
张彤, 刘仁宇, 王培晓, 等. 感知物理先验的机器学习及其在地理空间智能中的研究前景[J]. 地球信息科学学报, 2023, 25(7):1297-1311.

DOI

[ Zhang T, Liu R Y, Wang P X, et al. Physics-informed machine learning and its research prospects in GeoAI[J]. Journal of Geo-Information Science, 2023, 25(7):1297-1311. ] DOI:10.12082/dqxxkx.2023.220795

[99]
李峰, 王琦, 胡健雄, 等. 数据与知识联合驱动方法研究进展及其在电力系统中应用展望[J]. 中国电机工程学报, 2021, 41(13):4377-4390.

[ Li F, Wang Q, Hu J X, et al. Combined data-driven and knowledge-driven methodology research advances and its applied prospect in power systems[J]. Proceedings of the CSEE, 2021, 41(13):4377-4390. ] DOI:10.13334/j.0258-8013.pcsee.202468

[100]
肖立志. 机器学习数据驱动与机理模型融合及可解释性问题[J]. 石油物探, 2022, 61(2):205-212.

DOI

[ Xiao L Z. The fusion of data-driven machine learning with mechanism models and interpretability issues[J]. Geophysical Prospecting for Petroleum, 2022, 61(2):205-212. ] DOI:10.3969/j.issn.1000-1441.2022.02.002

[101]
Shen H F, Zhang L P. Mechanism-learning coupling paradigms for parameter inversion and simulation in earth surface systems[J]. Science China Earth Sciences, 2023, 66(3):568-582. DOI:10.1007/s11430-022-9999-9

[102]
Willard J, Jia X W, Xu S M, et al. Integrating scientific knowledge with machine learning for engineering and environmental systems[EB/OL]. 2020: arXiv: 2003. 04919.

[103]
Du Z H, Wang Z Y, Wu S S, et al. Geographically neural network weighted regression for the accurate estimation of spatial non-stationarity[J]. International Journal of Geographical Information Science, 2020, 34(7):1353-1377. DOI:10.1080/13658816.2019.1707834

[104]
Wu S S, Wang Z Y, Du Z H, et al. Geographically and temporally neural network weighted regression for modeling spatiotemporal non-stationary relationships[J]. International Journal of Geographical Information Science, 2021, 35(3):582-608. DOI:10.1080/13658816.2020.1775836

[105]
Hagenauer J, Helbich M. A geographically weighted artificial neural network[J]. International Journal of Geographical Information Science, 2022, 36(2):215-235. DOI:10.1080/13658816.2021.1871618

[106]
Liu K, Gao S, Qiu P Y, et al. Road2Vec: Measuring traffic interactions in urban road system from massive travel routes[J]. ISPRS International Journal of Geo-Information, 2017, 6(11):321. DOI:10.3390/ijgi6110321

[107]
Liu K, Gao S, Lu F. Identifying spatial interaction patterns of vehicle movements on urban road networks by topic modelling[J]. Computers, Environment and Urban Systems, 2019, 74:50-61. DOI:10.1016/j.compenvurbsys.2018.12.001

[108]
Mizuno T, Fujimoto S, Ishikawa A. Generation of individual daily trajectories by GPT-2[J]. Frontiers in Physics, 2022, 10:1021176. DOI:10.3389/fphy.2022.1021176

[109]
Ma J W, Yang C, Mao S W, et al. Human trajectory completion with transformers[C]// ICC 2022 - IEEE International Conference on Communications. IEEE, 2022:3346-3351. DOI:10.1109/ICC45855.2022.9838743

[110]
Zhou Z Y, Huang Q H, Yang K, et al. Maintaining the status quo: Capturing invariant relations for OOD spatiotemporal learning[C]// Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM, 2023:3603-3614. DOI:10.1145/3580305.3599421

[111]
Zhou Z Y, Wang Y, Xie X K, et al. STUaNet: Understanding uncertainty in spatiotemporal collective human mobility[C]// Proceedings of the Web Conference 2021. New York: ACM, 2021:1868-1879. DOI:10.1145/3442381.3449817

[112]
刘瑜, 汪珂丽, 邢潇月, 等. 地理分析中的空间效应[J]. 地理学报, 2023, 78(3):517-531.

DOI

[ Liu Y, Wang K L, Xing X Y, et al. On spatial effects in geographical analysis[J]. Acta Geographica Sinica, 2023, 78(3):517-531. ] DOI:10.11821/d1xb202303001

[113]
高松. 地理空间人工智能的近期研究总结与思考[J]. 武汉大学学报·信息科学版, 2020, 45(12):1865-1874.

[ Gao S. A review of recent researches and reflections on geospatial artificial intelligence[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12):1865-1874. ] DOI:10.13203/j.whugis20200597

Outlines

/