Attention-based Multi-step Short-term Passenger Flow Spatial-temporal Integrated Prediction Model in URT Systems

ZHANG Jinlei; CHEN Yijie; Panchamy Krishnakumari; JIN Guangyin; WANG Chengcheng; YANG Lixing

doi:10.12082/dqxxkx.2023.220817

Journal of Geo-information Science >

2023 , Vol. 25 >Issue 4: 698 - 713

DOI: https://doi.org/10.12082/dqxxkx.2023.220817

Attention-based Multi-step Short-term Passenger Flow Spatial-temporal Integrated Prediction Model in URT Systems

ZHANG Jinlei ^,¹ ,
CHEN Yijie ¹ ,
Panchamy Krishnakumari ² ,
JIN Guangyin ^,³^,^* ,
WANG Chengcheng ⁴ ,
YANG Lixing ¹

Expand

1. State Key Laboratory of Rail Traffic Control and Safety, Beijing Jiaotong University, Beijing 100044, China
2. Department of Transport and Planning, Delft University of Technology, Delft, 2623 CN, Netherlands
3. College of System Engineering, National University of Defense Technology, Changsha 410005, China
4. Research and Development Center, Shandong Provincial Communications Planning and Design Institute Group Co., Ltd., Jinan 250000, China

^*JIN Guangyin, E-mail: jinguangyin96@foxmail.com

Received date: 2022-10-24

Revised date: 2023-02-03

Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(72201029)

National Natural Science Foundation of China(71825004)

National Natural Science Foundation of China(72288101)

China Postdoctoral Science Foundation(2022M720392)

Fold

Abstract

Accurate and reliable short-term passenger flow prediction can support operations and decision-making of the URT system from multiple perspectives. In this paper, we propose a URT multi-step short-term passenger flow prediction model at the network level based on a Transformer-based LSTM network, Depth-wise Attention Block, and CNN network, named as Spatial-Temporal Integrated Prediction Model (STIPM). The STIPM comprises three branches. The first branch takes time-series inflow data as input, and a Transformer-based LSTM network is selected to extract the temporal correlations. The second one takes timestep-based OD data as input, and many spatial and temporal features are captured using Depth-wise Attention Blocks. Meanwhile, timestep-based OD data can better include inter-station relations and global information. The third branch takes Point of Interest data (POI) as input and CNN network is utilized for spatiotemporal features extraction, which can also become the bridge between spatial and temporal features. Moreover, the “Multi-input-multi-output Strategy” for multi-step prediction is used to obtain a longer prediction period and more detailed information under a relatively high forecasting accuracy. The STIPM is applied to two large-scale real-world datasets from the URT system, and the obtained prediction results are compared with ten baselines and four variants from itself, in which STIPM model achieves highest prediction accuracy indicated by RMSE, MAE, and WMAPE evaluations, which demonstrates the superiority and robustness of the STIPM.

Key words： urban Rail Transit; short-term passenger forecasting; multi-step forecasting; deep learning; traffic big-data; spatiotemporal features mining; features fusion

Cite this article

ZHANG Jinlei , CHEN Yijie , Panchamy Krishnakumari , JIN Guangyin , WANG Chengcheng , YANG Lixing . Attention-based Multi-step Short-term Passenger Flow Spatial-temporal Integrated Prediction Model in URT Systems[J]. Journal of Geo-information Science, 2023 , 25(4) : 698 -713 . DOI: 10.12082/dqxxkx.2023.220817

1 引言

城市轨道交通凭借其容量大、准点率高、速度快等特点，成为了大型城市中的重要交通工具。准确、可靠的短时客流预测可以从多个方面为城市轨道交通的运营提供支持，例如缓解站内拥堵、降低事故的发生概率、优化列车时刻表、提高运营组织和资源配置的效率等。但由于受到多种外部因素例如POI信息等的影响，以及网络中时间、空间特征复杂，短时客流预测具有较强的挑战性。人工智能技术具备的高度拟合复杂非线性关系的能力，能够很大程度上解决交通网络中存在的不确定性和复杂性问题，为解决短时客流预测问题提供了有效的解决方法，因此近年来在交通运输领域相关研究中取得了良好的效果并展现出巨大的潜力。

随着智能交通系统在城市轨道交通中的应用，基于人工智能的短时客流预测早已经成为国内外学者和城市轨道交通运营者们重点关注和研究的问题，并取得了一些研究成果。短时客流预测按照预测模型的发展历程，主要可划分为：基于数理统计的传统预测模型、基于机器学习的预测模型和基于深度学习的预测模型3个阶段。

在第1个阶段中，张春辉等^[1]通过对短时客流的特性分析，建立了基于卡尔曼滤波的公交车站短时客流预测模型。此后，改进的SARIMA模型（季节时间序列模型）被王莹等^[2]应用于北京地铁网络中进行客流预测，得到的结果具有良好的准确性、可解释性和模型复杂性。然而该类方法具有固定的模型结构与参数，对充满不确定性和复杂性的交通客流特征刻画能力较弱，并且单纯的数理统计模型已经无法满足当下短时客流预测的实时性和预测精度要求。随着机器学习的兴起，预测进入第2个阶段，如Roos等^[3]提出动态贝叶斯方法来进行短时客流预测，并加入高斯混合模型来捕捉变量之间的非线性关系；针对单一模型存在的不足，Sun等^[4]提出了一个小波-支持向量机混合模型用于不同序列频段的地铁系统客流预测。研究证明2种及以上模型的结合不仅克服了其各自的缺陷，还保留了各自的模型优势，提高了模型预测精度。上述方法和模型，总体上均取得了比传统数理统计方法更好的预测结果。但是在该阶段中，多数模型无法考虑到站点之间的空间相关性^[5]，并且该类结构深度较浅的模型在处理高维问题以及复杂的时空属性数据时能力有限。

在第3个阶段中，深度学习得到快速发展，相较于传统的数理统计模型和基础的机器学习理论，深度学习网络可以捕捉到更加丰富、更有价值的数据特征^[6]。Ma等^[7]第一次将LSTM模型应用于交通预测领域，构建车流速度预测模型；随后Tang等^[8]提出一种基于LSTM网络的时空特征融合预测模型（ST-LSTM），并在模型中利用时间成本矩阵来获取空间相关性，不过车站之间的空间特征仍然很难准确获取。Zhang等^[9]提出一种端到端的多任务时间卷积神经网络（MTL-TCNN），其中单一的CNN网络只适用于欧式数据，一些原始交通数据在被转换为欧式数据的过程中容易出现信息丢失、错乱等情况。因此在CNN基础上，一种可以更有效地提取交通运输网络内部空间相关性、且交通数据兼容性更强的图卷积神经网络（GCN）^[10-11]被提出，GCN网络存在的问题在于对城市轨道交通而言，其邻接矩阵并不能很好地展现车站间的联系紧密程度。在交通客流预测领域，为了突显出网络图中不同连接的不同重要程度，带有注意力机制的图注意力网络（GAT）得以应用。Zhang等^[12]提出基于时空图注意力网络来捕捉动态交通路网中的空间相关性。但由于单一的图卷积网络一般不超过四层，也无法利用ResNet残差连接来构建深度学习网络，在处理高维度问题时能力依然有限^[13]。为了克服单一网络的局限性，Zhao等^[14]提出一种结合图卷积网络（GCN）和门控递归单元（GRU）的客流预测模型，前者用于学习网络中复杂的拓扑结构以提取空间相关性，后者用于提取时间序列数据中的时间相关性。王海洋^[15]在模型中嵌入了注意力机制，构建了一种GAT和LSTM网络相结合的时空注意力网络模型（STAN）。Zhang等^[16]则基于ResNet、GCN和LSTM网络，提出ResLSTM深度学习架构来进行城市轨道交通系统中网络层面的客流量短时预测。然而这些结构复杂的预测模型，相较于简单模型得到的结果在预测精度方面并没有显著性地提升，因此深度学习预测模型也并非越复杂效果越好。同时，大部分模型仅考虑单步预测，导致当时间粒度较细时预测总时间跨度较小，或者当时间粒度过大时一些细节信息会丢失。而多步短时预测^[17-18]则能够将长时间跨度进一步划分，得到更加细致、完整的预测信息。

综上所述，本文提出了一个多步预测模型，用以解决城市轨道交通系统中的短时客流预测问题，并将其命名为时空综合预测模型（Spatial-Temporal-Integrated-Prediction-Model，STIPM）。该网络级的模型针对城市轨道交通线网中全部车站进行协同建模，并综合考虑时间依赖关系、空间依赖关系、网络拓扑依赖关系等多种因素。将该模型应用于某城市轨道交通系统的真实数据集中，并将预测结果与所提出的10个基准模型与4个消融实验模型进行对比，STIPM模型在任何条件情况下均表现出最高的预测精度，证明该模型具有一定的优越性与鲁棒性。本文的创新点总结如下：

（1）本文使用基于时间步的OD数据来完成城市轨道交通网络中空间特征的捕捉和提取，相较于一般使用的基于图卷积神经网络的邻接矩阵，OD数据更能够反映车站间的联系紧密程度和网络的全局信息。同时，基于时间步的OD数据也携带有一定的时间相关性。

（2）本文构建了基于Transformer机制的LSTM网络，以及由通道注意力单元与深度分离卷积单元组成的深度注意力模块，对相关数据进行挖掘，更利于捕捉数据中所携带的主要特征、减少参数的使用量并提高预测精度。

（3）本文采用“多输入-多输出”的多步预测策略，在拓宽预测时间跨度的同时，可以得到更详细的预测信息。即使随着预测时间步数量的增加预测精度有所降低，但仍处于较高的水准。

2 问题描述与建模

2.1 问题描述

本研究中的目标为基于历史AFC（Automatic Fare Collection）数据和POI数据，预测未来若干个时间步内的城市轨道交通系统客流量；核心问题为计算出二者之间的非线性关系。利用AFC数据，选取10 min作为时间粒度，从中提取出基于时间序列的进站客流和OD数据。为了方便问题描述，首先定义3个关键参数。

定义1（进站客流时间序列矩阵）：原始AFC数据中包含乘客ID、进站时间、进站站点、出站时间、出站站点的信息，利用前3类信息，选取10 min作为时间粒度，可以提取出进站客流时间序列。假设

p i, t

表示车站

i

在第

t

个时间间隔内的进站客流量观测值，则进站客流时间序列可以被表示为表达式（1）。

（1）

P 0 = p 1, n p 1, n - 1 ⋯ p 1,1 p 2, n p 2, n - 1 ⋯ p 2,1 ⋮ ⋮ ⋮ ⋮ p m, n p m, n - 1 ⋯ p m, 1

式中：

P 0 ∈ R m × n

表示整个时段内的进站客流时间序列；

m

表示城市轨道交通系统中的车站数量；

n

代表整个时段内总时间步数量。为了更有效地利用客流量的周期性，本研究中共使用3种时间模式以预测未来

k

个时间步内的状态，分别为实时模式、日模式和周模式，分别对应着预测时间步前的状态数据、前一天同时段内以及前一周同时段内的状态数据。若每一种模式均包含10个时间步，则进站客流时间序列矩阵可以被定义为表达式（2）。

（2）

P (t) = p 1, t ⋯ p 1, t - 9 p 2, t ⋯ p 2, t - 9 ⋮ ⋮ ⋮ p m, t ⋯ p m, t - 9 p 1, t - d l ⋯ p 1, t - d l - 9 p 2, t - d l ⋯ p 2, t - d l - 9 ⋮ ⋮ ⋮ p m, t - d l ⋯ p m, t - d l - 9 p 1, t - w l ⋯ p 1, t - w l - 9 p 2, t - w l ⋯ p 2, t - w l - 9 ⋮ ⋮ ⋮ p m, t - w l ⋯ p m, t - w l - 9

式中：

d l

表示一天内的时间步数量；

w l

表示一周内的时间步数量。

定义2（基于时间步的OD矩阵）：基于AFC原始数据中的进出站信息，可以提取OD数据。结合进出站时间信息，选取与进站客流时间序列相同的时间粒度，则可以提取每一个时间步对应的OD矩阵。与全天集计的OD数据相比，基于时间步的OD矩阵携带有更详细的空间特征以及一定的时间相关性。假设

o d i j t

表示在第

t

个时间间隔内从车站

i

到车站

j

的OD数量，则在该时间步下的OD矩阵

O D 0 t ∈ R m × m

可以表示为式（3）。

（3）

O D 0 t = o d 11 t o d 12 t ⋯ o d 1 m t o d 21 t o d 22 t ⋯ o d 2 m t ⋮ ⋮ ⋮ ⋮ o d m 1 t o d m 2 t ⋯ o d m m t

式中

m

表示网络中车站的数量。同理，本研究中同样使用3种时间模式，且每种模式均包含10个时间步。因此，基于时间步的OD矩阵

O D t ∈ R 30 × m × m

如式（4）所示，同样

d l

表示一天内的时间步数量，

w l

表示一周内的时间步数量。

（4）

O D (t) = O D 0 t ⋯ O D 0 t - 9, O D 0 t - d l ⋯ O D 0 t - d l - 9, O D 0 t - w l ⋯ O D 0 t - w l - 9

定义3（POI矩阵）：POI （Point of Interests）在地理信息系统中表示兴趣点数据，每一条POI数据中包含了其名称、代码、位置以及所属类别信息。由于不同车站的客流量或者同一车站在不同时段内的客流量会受到其周边POI类型和数量的影响，因此本文统计各个车站半径1000 m范围内不同类别兴趣点的个数。若

p o i i, c

表示车站

i

附近第c类POI的数量，则POI矩阵

P O I ∈ R m × C

如式（5）所示。其中C为本次研究中POI类别的数量，其数值为23。

（5）

P O I = p o i 1, C p o i 1, C - 1 ⋯ p o i 1,1 p o i 2, C p o i 2, C - 1 ⋯ p o i 2,1 ⋮ ⋮ ⋮ ⋮ p o i m, C p o i m, C - 1 ⋯ p o i m, 1

目标方程：在第

t

个时间步，所有的AFC数据和POI数据均已知，在通过一定的数据处理过程之后，提取出进站客流时间序列矩阵

P t

，基于时间步的OD矩阵

O D t

，以及POI矩阵

P O I

。利用提取出的数据作为输入，完成从

Y t + 1

到

Y t + k

共

k

个时间步的短时客流预测，则该问题可以被定义为式（6）。其中

f

即为本文需要构建的网络级多步短时客流预测模型，表示输入数据与预测值之间的非线性关系，

Y t

则为时间步t下的预测结果。

（6）

Y t + 1 ⋯ Y t + k = f P t, O D t, P O I

2.2 模型构建

本文构建的时空综合预测模型（STIPM）结构如图1所示。该模型共包含3个分支，分别为Inflow分支、OD分支和POI分支。Inflow分支用于处理进站客流时间序列数据，捕捉其中的时间维度特征；OD分支中用于提取出基于时间步的OD数据中所携带的时间和空间相关性；POI分支利用POI数据支持空间特征的捕捉，并用于增强空间特征与时间特征之间的联系。

显示原图|下载原图ZIP|生成PPT

图1 时空综合预测模型(STIPM)结构

Fig. 1 Deep learning architecture of STIPM

（1）Inflow分支

该分支以10 min时间粒度下提取出的进站客流时间序列为基础，为了预测未来

k

个时间步的进站客流量，基于实时模式、日模式和周模式3种时间模式构建进站客流时间序列矩阵

P t

，并作为该分支的输入。该输入数据中携带大量时间相关性，具体体现为客流的变化趋势、规律性和周期性，因此该分支主要用以提取客流时间序列中隐藏的时间特征。同时，既有研究证明LSTM神经网络在处理进站客流时间序列时，能够有效提取其中的时间特征并提升预测精度，以及Transformer模型中的多头注意力机制可以使模型更好地聚焦于主要特征并提升预测效率。因此本文构建基于Transformer机制的LSTM网络层以提取该数据中的时间特征，该分支具体网络结构如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 Inflow分支中基于Transformer的LSTM网络结构

Fig. 2 The structure of transformer-based LSTM in inflow branch

在该分支中，进站客流时间序列矩阵

P t

通过位置编码、Transformer-based LSTM网络层处理，在展平后输入全连接层，最终输出一定数量的携带有时间特征的神经元并传入特征融合层。为了加快训练速度、提高网络稳定性，在网络中加入层标准化；为了防止深度神经网络在模型训练的过程中出现梯度消失或梯度爆炸等，在网络中对应位置使用残差连接操作。同时，本文使用LSTM网络替换原Transformer模型中的前馈网络，更深层次地获取数据中的中长期依赖和时间相关性，最终利用非线性激活函数ReLu将特征矩阵中数据进一步处理。下面对Transformer模型进行详细介绍。

Transformer模型中数据并非天然有序的，而在进行并行计算时，并未考虑到时间序列数据之间的顺序所造成的影响，因此位置编码层能够刻画不同时间步以及不同时间模式下的时间特征，并记录下其时序信息。同时，由于单头的自注意力网络难以在复杂的数据中捕获到充足、准确的全局时空特征，本文使用多头注意力网络实现相应效果，该网络旨在基于自注意力机制并行计算

n

次后将得到的

n

个结果拼接，并经过全连接层得到最终特征矩阵，其原理如图3所示。在每一注意力头中，经过位置编码后的时序向量通过3个可学习的权值矩阵

W Q, W K, W V

分别映射得到查询向量

Q

、键向量

K

以及值向量

V

，如式（7）—式（9）所述，其中

b Q, b K, b V

为相应偏置超参数。得到3个不同向量后实现自注意力机制，完成非线性仿射变换，其函数表达式如（10）所示。

显示原图|下载原图ZIP|生成PPT

图3 多头自注意力机制架构

Fig. 3 The structure of multi-head attention mechanisms

（7）

Q = P t W Q + b Q

（8）

K = P t W K + b K

（9）

V = P t W V + b V

（10）

Z = f (Q, K, V) = S o f t m a x Q K T d k V

式中：

d k

为缩放系数；

S o f t m a x (·)

表示激活函数。

（2）OD分支

在获取城市轨道交通网络中的空间相关性以及拓扑结构信息时，本文并未使用考虑邻接矩阵和拉普拉斯变换的GCN模型，而是利用OD数据表达网络中的空间特征。在道路交通网络中，相邻路段由于通过车道相连往往具有较强的空间相关性与连贯性。如图4所示，在该图中相邻各个路段间的流入量与流出量符合式（11）；同时根据交通流理论，路段中的各个参数之间具有固定关系式（12）。而城市轨道交通网络不同于道路交通网络，其每个车站的进出站客流相互影响较小，因此相较于车站间在空间上的邻接性质，乘客的进-出站点数据（OD数据）更利于反映出2个车站之间的连接紧密程度，以及全局的空间相关性，见图5。同时，以天或周为单位的集计OD数据仅能够体现出车站之间的静态空间相关性，而基于时间步的OD数据在获取动态空间相关性的同时，还携带动态时间依赖性，例如早晚高峰以及周末客流现象均能在OD数据中有所体现，因此，本分支选取基于时间步的OD数据

O D 0 t

作为输入。

显示原图|下载原图ZIP|生成PPT

图4 道路交通网络示意图

Fig. 4 Example for road traffic network

显示原图|下载原图ZIP|生成PPT

图5 城市轨道交通网络示意图

Fig. 5 Example for urban rail transit network

（11）

q 1 o u t = q 2 i n + q 3 i n

（12）

q = ρ · v

式中：

q

为车流量；

ρ

为车流密度；

v

为车流速度。

在该分支中，本文针对不同的深度注意力模块层数进行相关的实验，当层数过多时会导致模型参数过于庞大复杂，而层数较少时易出现特征提取不充分的情况，综合考虑实验结果与模型训练时间后，选择双层注意力模块。基于时间步的OD矩阵

O D 0 t

经过两层深度注意力模块处理，得到的结果展平后输入全连接层，得到一定数量的同时携带有时间、空间特征的神经元并传入特征融合层。该分支具体网络结构见图1。

细节上，本文构建由通道注意力单元与深度分离卷积单元共同组成的深度注意力模块，其具体结构示意图如图6所示，假设输入数据大小为

(3, w, h)

，3为通道数，w和h代表OD矩阵的维度。其中，通道注意力单元通过池化操作将输入数据进行空间维度的特征压缩，将每个二维特征矩阵池化为一个实数

a c

，达到全局池化的效果，其表达式如式（13）所示；随后利用激励加权操作生成每个特征通道对应的权值，具体利用两层全连接层与 Sigmoid函数实现，其表达式如式（14）所示；在得到权重向量

W

后经过相应线性运算完成对不同通道之间的重要性程度建模，其表达如式（15）所示，其中

" ∘ "

表示哈达玛积。

O D 0 t

数据在深度维度方面对应着不同的时间步，为其嵌入注意力机制则能够捕捉不同时间步下的时空信息，并聚焦于数据的主要特征的提取。

显示原图|下载原图ZIP|生成PPT

图6 Time-based OD分支中深度注意力模块结构

Fig. 6 The structure of depth-wise attention block in time-based OD branch

（13）

a c = F s q O D 0 t = 1 w × h ∑ i = 1 w ∑ j = 1 h O D 0 t c i, j

（14）

W = S i g m o i d F u l l C o n n e c t e d a c

（15）

C h a n n e l A t t e n t i o n M a p = W ∘ O D 0 t

深度分离卷积单元则能够与前者完成良好的衔接，其核心思想为将完整的卷积运算分解为逐深度卷积与逐点卷积两步进行。该单元以前者所得的嵌入通道注意力的特征图作为输入，数据大小仍为

(3, w, h)

；在进行逐深度卷积时，每个输入通道均对应一个滤波器，则滤波器数量与通道数量相同为3，并在卷积运算后得到相同数量的中间特征矩阵；后续进行逐点卷积操作，每个通道的特征矩阵均对应一个尺寸为

(3,1, 1)

的卷积核，并在卷积操作后于深度维度进行加权得到最终结果。该分支的输入数据同时携带时间、空间特征，复杂性较高，而卷积神经网络则具备良好的并行处理能力、运行速度快，有利于处理复杂的特征信息。该深度注意力模块更大程度地提取出了各通道中的时空特征，并且基于注意力机制聚焦于其主要特征；同时相较于传统的卷积网络，深度分离卷积可以较大程度地减少模型中参数的数量。以图6为例，若使用常规卷积，所需要的参数数量为54，而深度分离卷积所需参数数量为33，其参数数量仅为常规卷积的约60%。

（3）POI分支

POI的类型和数量一定程度上可体现车站与客流量之间的空间相关性，例如大型小区或者大型商场会吸引更大的客流量；同时也可以在一定程度上体现与客流量的时间依赖性，例如大型小区附近的车站会呈现更显著的早晚高峰情况，如图7（a）所示；而大型商业区域附近的车站则会出现周末客流量骤增的情况，如图7（b）所示。因此本文选取兴趣点矩阵

P O I

作为第三分支的输入，用于地铁网络客流空间特征的提取，以及作为时间特征和空间特征之间联系的纽带，同时也加强了对客流数据的可解释性。

显示原图|下载原图ZIP|生成PPT

图7 不同类型区域附近车站V-t曲线

Fig. 7 V-t images of different stations in different kinds of areas

由于该输入数据结构相对简单，仅采用CNN网络进行处理，初步得到地铁网络车站周边POI分布特征。将

P O I

矩阵在深度维度依据Batch Size数量进行堆叠，然后通过CNN卷积网络进行特征提取，将得到的结果展平并输入全连接层，得到一定数量携带空间特征的神经元，卷积操作所提取出的特征最终被传入特征融合层。

（4）特征融合

在进行多模态数据融合时，其融合方法主要可划分为数据层面融合、特征层面融合和决策层面融合^[19]。数据层面融合可直接对底层信息进行处理，但会减慢预测进程且产生较高的算力需求。决策层面融合运行速度快、算力需求低，但所融合的信息已丢失大量细节。而特征层面融合相较于前者计算速度更快，所需算力低，相较于后者所处理的信息相对全面，因此综合考虑该方法更适用于本文场景。

本文特征融合层的作用为将3个分支中提取到的时间、空间特征进行整合，并进行最终的进站客流预测。在上述描述中，输入数据经过3个分支处理后得到的输出维度一致，因此本文采用加权特征融合，其表达式如式（16）所示。

（16）

F u s i o n F e a t u r e s = W 1 ∘ B 1 + W 2 ∘ B 2 + W 3 ∘ B 3

式中：

B 1 、 B 2 、 B 3

分别表示3个分支的输出；

W 1 、 W 2 、 W 3

表示相应的权重向量，用于确定不同分支在模型中的重要性程度；

" ∘ "

表示哈达玛积。权重向量

W

的值初始化为1，并将其设定为可训练模型参数，在训练的过程中不断更新迭代。在特征融合层后，数据输入全连接层进行计算与维度变换并得到最终的预测结果。

3 实验数据与模型配置

3.1 数据集描述

本论文采用2020-11-02—2020-12-06与2021-05-31—2021-07-04共2个时段内某城市轨道交通系统的AFC 刷卡数据集。第1个数据集内考虑 64个轨道交通站点，由于2个时间段内存在新增站点，为了数据的完整性，第2个数据集内考虑85个轨道交通站点。每个数据集均包含五周的数据，每条数据中均记录乘客ID、进站时间、进站站点、出站时间、出站站点信息。由于记录工具或者数据收集时引入的随机误差，需要按照一定的判定条件进行数据清洗，主要包括“无意义数据”，例如进站时间远早于轨道交通运营开始时间；“空白数据”，例如进站时间或者进站站点数据丢失；以及“错误数据”，例如进站时间晚于出站时间。数据清洗后第1个数据集共计17 790 319条有效数据，第2个数据集共计18 232 887条有效数据。根据问题描述2.1节所述，利用AFC数据，选取10 min作为时间粒度，从中提取出基于时间序列的进站客流和OD数据。

对于POI（Point of Interest）数据，同样使用2个数据集，分别对应2个AFC数据集所处时段。每一条POI数据主要包括兴趣点名称、编码、位置和类别信息，在本文中主要考虑其一级分类与坐标，最终得到一级类别23个，包括“餐饮服务”、“生活服务”、“医疗保健服务”、“购物服务”、“科教文化服务”、“公司企业”等。

3.2 模型配置

提出的STIPM模型基于Pytorch实现，每个数据集包含5周的数据，本研究中选取85%的数据作为训练集以训练模型，其中10%作为训练过程中的验证集；另外15%的数据作为模型的测试集。

Inflow分支中，输入数据为进站客流数据，由基于Transformer机制的LSTM网络完成时间特征的提取。该分支包含3种时间模式，每种模式包含10个时间步；基于Transformer机制的LSTM网络中设置5层隐藏层，数据经过该网络后通过两层全连接层，输出512个神经元保存数据特征。

OD分支中，输入数据为基于时间步的OD数据，由深度注意力模块完成时空特征的提取。该分支输入时间步的数量为30，OD数据的格式则表现为（30, Number of Stations, Number of Stations）。共设置两层深度注意力模块对该数据进行时空特征建模，第1个模块中，逐深度卷积层输入通道数为30，输出通道数为30，卷积核大小为3×3，填充参数为1，分组数量为30；逐点卷积层输入通道数为30，输出通道数为6，卷积核大小为1。第2个模块中，逐深度卷积层输入通道数为6，输出通道数为6，卷积核大小为3×3，填充参数为1，分组数量为6；逐点卷积层输入通道数为6，输出通道数为2，卷积核大小为1。在经过两层深度注意力模块后同样输出512个携带时空特征的神经元。

POI分支中，输入数据为提取并按照Batch size大小堆叠后的POI数据，由CNN网络完成空间特征的提取。CNN网络输入通道数为1，输出通道数为2，卷积核大小为3×3，填充参数为1，CNN网络后设置大小为（2, 2）的最大池化层，得到结果经全连接层后输出512个带有空间特征的神经元。

3个分支中得到的神经元在特征融合层完成特征融合，此处的权重设置为可学习参数。融合后的特征通过全连接层与维度变更后，得到最终预测结果。为权衡学习速度和预测精度，通过多次试验后选择批量batch size大小为32，学习率为0.0005，优化器为Adam。为降低随机初始化参数的影响，本文对该模型进行了若干次重复训练。训练的过程中，选取均方误差（MSE）作为损失函数并保存，见式（17）；同时加入Model Checkpoint技术以保存训练过程中的优化模型，加入Early Stopping技术以及时结束训练任务、避免出现过拟合现象。

（17）

L o s s = M S E = 1 n ∑ i = 1 n y i - y ˆ i 2

本文选取均方根误差（RMSE），平均绝对误差（MAE）以及加权平均绝对百分比误差（WMAPE）作为预测效果评估指标，各指标计算公式如式（18）—式（20）所示。

（18）

R M S E = M S E = 1 n ∑ i = 1 n y i - y ˆ i 2

（19）

M A E = 1 n ∑ i = 1 n | y i - y ˆ i |

（20）

W M A P E = ∑ i = 1 n y i ∑ j = 1 n y j y i - y ˆ i y i

式中：

y i

表示真实值；

y ˆ i

表示预测值；

n

表示样本数量。

3.3 基准模型设置

在实验中共设置10个基准模型与本文所提出STIPM模型进行对比，各个基准模型的特点以及模型细节如下。

（1） SVR（Support Vector Regression）支持向量回归模型较早被应用于交通预测领域^[20]，其利用支持向量机类似技术进行数据的回归分析。使用内核“rbf”，设置参数

e p s i l o n = 0.005

，正则化参数

C = 3

。

（2） CNN（Convolutional Neural Network）卷积神经网络在人工智能领域已得到广泛关注，根据其内部原理，卷积核在进行卷积运算时能够同时提取时间序列特征和车站之间的空间特征关系。设置大小为2×2的卷积核，设置3层全连接层，且前两层采用ReLU函数激活。

（3） GCN（Graph Convolutional Network）图卷积神经网络可以看作是卷积神经网络在拓扑图

G = (V, E, A)

上的一种拓展形式，用于刻画在拓扑网络中顶点之间的拓扑特征。因此该方法能够在获取时间序列特征的同时进一步捕获交通网络中的空间特征。其卷积层的卷积核大小为3×3，全连接层层数为3层，前两层采用ReLU函数激活。

（4） LSTM（Long Short-Term Memory）长短时记忆网络主要为了解决传统的RNN循环神经网络中长时期依赖（long-term dependency）的问题，能够在长时间序列中提取出相应的时间特征。该模型设置一层LSTM层，其隐藏层层数为4；全连接层层数为3，前两层采用ReLU函数激活

（5）Conv-LSTM（Convolutional LSTM Network）卷积长短时记忆网络是传统LSTM网络的延伸。传统的LSTM网络在时间序列数据的处理上具有较强优越性，然而在多个车站，且形成拓扑网络的城市轨道交通系统中，无法有效地获取其空间依赖性^[21]，因此在Conv-LSTM层中，利用卷积操作代替传统LSTM网络的前馈计算，其中Conv-LSTM隐藏层层数为3；最后全连接层数量为3，前两层采用ReLU函数激活。

（6） ST-ResNet（Spatial Temporal Residual Network）深度时空残差网络采用基于卷积的ResNet网络对空间相关性进行建模，降低了模型在反向更新浅层网络参数的过程中容易产生梯度消失或者网络退化等问题。该模型设置有两层卷积层，卷积核大小为3×3，在通过tanh激活函数映射后得到ST-ResNet层的输出；最终经3层全连接层得到预测值，仅第一层使用ReLU函数激活

（7） T-GCN时间图卷积模型是传统GCN模型的延伸，是图卷积网络（GCN）和门控递归单元（GRU）的结合。前者用于学习网络中复杂的拓扑结构以提取空间相关性，后者则用于提取时间序列数据中的时间相关性^[14]。模型GCN层中卷积核大小设置为3×3，层数为1；GRU也仅设置1层，其中隐藏层层数为4；该模型中共设置3层全连接层，前两层采用ReLU函数激活。

（8） ST-GCN时空图卷积模型也是传统GCN模型的延伸，在利用更少模型参数的基础上通过卷积的方法对路网中的流量进行时间序列数据预测且考虑其空间相关性。该模型采用2个时间门控卷积和1个中间图卷积结构；最后再经过3层全连接层得到所需预测值，前两层采用ReLU函数进行激活。

（9） DCRNN扩散卷积递归神经网络使用图中双向随机游走捕获网络空间相关性，并使用编码-解码架构对时间依赖性进行建模，该模型中设置2层RNN网络层，隐藏神经元个数为64，设置2层全连接层，第一层采用ReLU函数激活。

（10） Graph WaveNet模型采用基于自适应邻接矩阵的GCN网络捕获网络中的空间相关性，并使用扩张卷积的方式获取其时间依赖性。该模型中CNN网络层卷积核大小为2×2，残差通道数为32，空洞通道数为3。

其中，除SVR模型在进行多步预测时采取“直接多步预测”策略外，其余模型均采用“神经网络多输出”策略。前者的本质仍为单步预测，每个预测时间步均对应一个模型，当预测时间步较长时会因为时间序列的不连贯表现出滞后性，导致预测效果变差。而后者则能够直接输出所需预测时间步数量的结果，更加灵活，且受预测时间步数量的影响较小，总体预测精度更高。

4 预测结果及分析

本节将从模型的网络级综合预测效果、不同时间步下的预测效果、车站级不同车站类型下的预测效果以及消融实验4个方面对本文提出的模型进行全面分析，包括模型的预测精度与模型鲁棒性等。

4.1 综合预测效果分析

基于前文所述轨道交通2个数据集，STIPM模型以及所有基准模型的预测效果如表1和表2所示。由表格可知，基于深度学习的预测模型（例如ConvLSTM模型）得到的预测结果整体上优于传统的机器学习模型（例如SVR模型）。整体上，SVR模型的预测效果相对更差，分析其原因为传统的机器学习模型在处理复杂时空数据时能力有限。而在所有深度学习模型中，使用LSTM神经网络的模型会取得相对较好的预测结果，例如LSTM模型和ConvLSTM模型，该结果体现出LSTM网络在处理中长期时间序列数据时所具备的优越性。CNN模型由于无法通过卷积操作直接捕捉到足够的时空特征，因此预测效果并不优秀。ST-ResNet与DCRNN模型虽然获取空间相关性的能力强，但对时间依赖性的捕获能力相对较弱，同样在本次预测中效果不够优秀。而GCN、T-GCN、ST-GCN、GWN模型底层逻辑为图卷积网络，如2.2小节中所述，该类模型更适用于道路交通，因此在与之网络结构有差异的城市轨道交通网络预测中效果并不显著。

表1 各模型预测结果精度 (Dataset 1)

Tab. 1 Prediction result evaluation for Dataset 1

模型	单步预测（10 min）			双步预测（20 min）			三步预测（30 min）
模型	RMSE	MAE	WMAPE/%	RMSE	MAE	WMAPE/%	RMSE	MAE	WMAPE/%
SVR	24.27	13.92	17.79	28.16	15.66	20.09	31.51	17.37	22.37
DCRNN	29.97	16.45	20.28	31.42	16.63	20.51	32.26	16.85	20.82
CNN	28.66	15.57	17.13	29.18	15.87	17.48	29.29	16.06	17.72
GCN	27.85	15.54	17.15	28.99	15.88	17.45	29.90	16.39	17.97
ST-ResNet	27.83	15.65	17.17	30.86	16.73	18.09	31.54	17.34	18.63
T- GCN	29.25	15.90	17.52	30.54	16.15	17.74	30.56	17.11	18.68
ST-GCN	29.36	15.93	17.45	30.05	16.90	18.36	31.57	16.91	18.44
LSTM	24.50	12.90	15.93	25.81	13.08	16.19	26.45	13.36	16.53
ConvLSTM	27.35	14.66	15.97	28.03	14.70	16.19	28.61	14.92	16.40
GWN	23.17	12.68	15.70	23.19	12.97	15.98	23.58	13.19	16.31
STIPM	21.67	11.91	14.65	22.45	12.19	14.96	22.60	12.34	15.23

表2 各模型预测结果精度 (Dataset 2)

Tab. 2 Prediction result evaluation for Dataset 2

模型	单步预测（10 min）			双步预测（20 min）			三步预测（30 min）
模型	RMSE	MAE	WMAPE/%	RMSE	MAE	WMAPE/%	RMSE	MAE	WMAPE/%
SVR	23.65	12.16	19.58	27.91	13.81	22.22	30.85	15.20	24.42
DCRNN	26.04	13.43	22.36	26.52	13.76	22.73	27.64	14.20	23.14
CNN	21.55	11.72	18.65	22.01	12.08	19.14	23.89	12.53	19.83
GCN	21.17	11.37	18.04	22.06	11.69	18.47	23.40	12.17	19.43
ST-ResNet	25.24	13.13	20.76	25.66	13.24	21.04	25.93	13.65	21.26
T- GCN	21.87	11.73	18.74	22.60	11.95	19.02	23.24	12.28	19.50
ST-GCN	20.90	11.52	18.27	22.20	11.93	18.86	22.70	12.03	18.76
LSTM	22.11	11.67	18.56	22.13	11.71	18.65	22.82	11.83	18.81
ConvLSTM	20.96	11.22	17.91	21.89	11.43	18.20	21.93	11.61	18.45
GWN	20.11	10.63	17.79	20.18	10.97	18.35	20.56	11.05	18.51
STIPM	18.10	10.26	16.80	18.67	10.37	17.21	19.48	10.79	17.88

同时，本研究所提出的STIPM模型在所有评估指标以及任意预测时间步下均具备更高的精度，因为其考虑了进站客流时间序列量、地铁网络拓扑结构以及车站周边兴趣点等多种因素，并使用适当的神经网络模型提取到了足够多的时间、空间特征。并且在不同的数据集中，该模型均展现出最高的预测精度，体现了该模型在面对不同的数据集时具备一定的鲁棒性，也进一步表明所提出预测模型的优越性和可行性。

4.2 基于不同预测时间步数量的预测效果分析

在所有预测模型中，仅SVR模型采用“直接多步预测”的方式，因此在预测第一个时间步时得到较高的预测精度，而在预测第二、第三个时间步时由于输入与输出的时间序列的不连贯导致误差较大；而其余模型均采用“神经网络多输出”策略。当预测时间步数量达到3时，预测时间将长达30 min；与单纯地以30 min为时间间隔进行中长期预测相比，多步短时预测可以将预测时间进一步划分，得到更加细致、完整的预测信息。以此为轨道交通运营和决策提供更可靠、更有效的支持。

为了探究多步预测产生的效果以及预测时间步数量与预测精度之间的关系，以第一个数据集中RMSE指标为例，对比在不同时间步数量下各个预测模型的精度。整体上看，随着预测时间步数量的增加，各个模型的预测精度均有所降低，例如LSTM模型随时间步数量上升，其RMSE指标分别为24.50、25.81与26.45。该现象符合实际，因为随预测时间步的增加，预测总时间逐渐延长，预测值的数量逐渐增加，预测难度也随之上升。但是误差变化均在可接受范围内，表明多步预测与短时客流预测相结合具有一定的可行性；同时，STIPM模型预测误差随时间步数量变化幅度相对较小，且即使预测精度随时间步数量上升而有所下降，其仍处于较高的水准，表明多步预测在所提出STIPM模型结构中的适用性。

4.3 基于单车站的预测效果分析

为验证模型在单个车站层面的具体预测效果，本文选取5个典型地铁车站进行不同预测时间步数量下预测客流量与真实客流量的对比分析，预测结果包含从周三至周日约5 d的数据，对比曲线图中时间步刻度与真实时间对应关系如表3所示。

表3 时间步刻度与真实时间对应关系

Tab. 3 Relations between timestep-axis and real time

时间步刻度	真实对应时间	时间步刻度	真实对应时间	时间步刻度	真实对应时间
28~136	周三 (5:50—24:00)	137~245	周四 (5:50—24:00)	246~354	周五 (5:50—24:00)
355~463	周六 (5:50—24:00)	464~572	周日 (5:50—24:00)

第1个地铁站A为通勤类型地铁车站，参考卫星地图及POI数据，该地铁站附近主要以中大型居民小区为主，辅以少量商业办公区域，因此在工作日呈现出显著的早、晚进站高峰情况，而非工作日则不显著。如图8所示，该站进站客流具有较强规律性，并在所有预测时间步数量下，无论工作日与非工作日，预测值曲线均与真实值大致重合，预测效果较好。在工作日内每天出现2次进站高峰期，早高峰峰值约350 人/10 min，晚高峰峰值约250 人/10 min，在周末时段该特征不明显。

显示原图|下载原图ZIP|生成PPT

图8 不同预测时间步数量下地铁站A客流预测值-真实值对比曲线

Fig. 8 Prediction-Actual value comparison curves at Station A with multi-step

第2个地铁站B为办公类地铁车站，通过卫星地图和POI数据显示，该车站地处该市政治、文化、经济中心地段，周边主要为商业办公区域和少量的居住、教育区域，因此呈现出显著的晚高峰期以及周末与工作日之间客流差异大的情况。如图9所示，其呈现出较强规律性，并在任何预测时间步数量下，预测值曲线均与真实值大致重合。在工作日内出现进站客流晚高峰，虽然早、午高峰也有所体现但是峰值相对较低，晚高峰峰值高达400 人/10 min，周末时段仅出现一个明显高峰期且峰值约为200 人/10 min

显示原图|下载原图ZIP|生成PPT

图9 不同预测时间步数量下地铁站B客流预测值-真实值对比曲线

Fig. 9 Prediction-Actual value comparison curves at Station B with multi-step

第3个地铁站C为大型城际和市内交通枢纽类地铁车站，铁路、城市轨道交通、地面公共交通汇聚于此。如图10所示，与前两个地铁站点不同，该车站客流量并未体现出较强的规律性，并且客流量随时间变化的波动显著、剧烈。但是所提出的STIPM模型仍然能捕获到客流的大致变化趋势并及时做出响应，表明该模型具有较强的鲁棒性和适应性。

显示原图|下载原图ZIP|生成PPT

图10 不同预测时间步数量下地铁站C客流预测值-真实值对比曲线

Fig. 10 Prediction-Actual value comparison curves at Station C with multi-step

第4个地铁站D为大型商业区地铁站，位于某大型商业区中心。如图11所示，该站在工作日无早高峰，仅出现显著的晚进站高峰情况，且呈现为双峰；在非工作日同样呈现双峰进站晚高峰，而相较于工作日，其客流量显著升高。同时，相较于网络中其他车站，该车站总客流量大，工作日晚高峰峰值约1000 人/10 min，非工作日晚高峰峰值约1600人/10 min。在该车站中，本模型同样获得了较好的预测效果。

显示原图|下载原图ZIP|生成PPT

图11 不同预测时间步数量下地铁站D客流预测值-真实值对比曲线

Fig. 11 Prediction-Actual value comparison curves at Station D with multi-step

第5个地铁站E为旅游景点地铁站，地处某旅游景点，周边建有一定规模的居民区与学校。如图12所示，该站在工作日呈现早晚高峰情况，同时由于该站位置的特殊性，其客流在非工作日会出现骤增，且仅晚高峰现象显著。即使游客客流规律性与周期性相对较弱，STIPM模型仍能够捕捉客流变化规律，并取得不错的预测效果

显示原图|下载原图ZIP|生成PPT

图12 不同预测时间步数量下地铁站E客流预测值-真实值对比曲线

Fig. 12 Prediction-Actual value comparison curves at Station E with multi-step

综上所述，本研究中提出的STIPM模型在不同场景下的真实数据应用中均取得了较好的预测效果，体现出模型的有效性和实际应用价值，足以满足城市轨道交通网络级短时客流多步预测的需求。

4.4 消融实验

为了进一步验证所提出的STIPM模型中各个深度学习模块的有效性与优越性，本文基于所提出的STIPM模型建立一系列消融实验，通过更改模型结构、修改模型参数、更改输入数据等方法建立对比模型，如下所示，并以第一个数据集为例分析其最终预测结果，如表4所示。

表4 消融实验预测结果精度(Dataset 1)

Tab. 4 Prediction result evaluation of variants for Dataset 1

模型	单步预测（10 min）			双步预测（20 min）			三步预测（30 min）
模型	RMSE	MAE	WMAPE/%	RMSE	MAE	WMAPE/%	RMSE	MAE	WMAPE/%
STIPM	21.67	11.91	14.65	22.45	12.19	14.96	22.60	12.34	15.23
STIPM-No OD	22.86	12.53	15.38	23.04	12.69	15.68	24.05	12.89	15.88
STIPM-No POI	22.84	12.41	15.28	23.72	12.47	15.42	23.91	12.72	15.59
STIPM-LSTM	22.51	12.41	15.25	23.34	12.95	15.86	24.22	0.65	16.10
STIPM-Acc OD	23.28	12.33	15.16	23.78	12.88	15.87	24.11	12.98	16.02

（1）STIPM-No OD：在所提出模型的基础上移除OD分支，其余配置基本不变。

（2）STIPM-No POI：在所提出模型的基础上移除POI分支，其余配置基本不变。

（3）STIPM-LSTM：在所提出模型的Inflow分支中，利用基础的LSTM网络替换原本基于Transformer机制的LSTM网络以完成时间特征的提取。

（4）STIPM-Accumulated OD：在所提出模型的OD分支中，数据的输入使用整个时段内的集计OD数据。

基于STIPM-No OD的预测结果分析可知，模型的预测精度出现较为明显的下降，表明OD分支在整个STIPM模型中的正向作用以及OD数据中所携带的时间、空间相关性得到了有效提取。同时，在STIPM-No POI模型中，POI分支的移除也造成了预测精度的下降，证明其在整个模型中提供了一定量的时空特征，或作为时间特征和空间特征之间联系的纽带。而STIPM-No OD中下降的幅度更大，则表明OD分支携带着更多的时空特征，并在预测进程中发挥着比POI分支更显著的作用。

基于STIPM-LSTM的预测结果分析可知，模型的预测精度出现小幅度下降，表明基于Transformer的LSTM网络相较于其传统LSTM网络在该类型数据的特征提取过程中使模型更好地聚焦于主要特征，提高了预测的精度。

基于STIPM-Accumulated OD的预测结果分析可知，模型的预测精度同样有所下降。当预测时间步数量为1时，下降幅度相对较小；而当预测时间步数量为2和3时，下降较为显著。因此，基于时间步的OD数据中所携带的时空特征在模型中得到了良好地提取，并大幅提高了模型的预测效果，在进行多步预测时效果提升尤为显著。

同时，与表1对比可以看出，STIPM的消融实验模型即使预测精度有所下降，仍高于本文中所使用的大部分基准模型，表明了STIPM在模型结构层面的鲁棒性。

5 结论与展望

本研究提出了一种基于深度学习的网络级城市轨道交通多步短时客流预测模型，该模型以进站流时间序列数据、基于时间步的OD数据和POI数据作为输入，有机融合了基于Transformer机制的LSTM网络、深度注意力模块以及CNN网络，构建了三分支式的深度学习框架进行特征提取，充分挖掘多源输入数据中的时间、空间特征以完成预测任务。本文以某城市轨道交通2个大规模真实数据作为案例，得到了较好的预测效果并在分析和讨论后总结出以下结论：

（1）提出的STIPM模型利用基于Transformer机制的LSTM网络、深度注意力模块以及CNN网络，能够分别从进站客流时间序列、基于时间步的OD数据以及POI数据等多源异构数据中有效提取出大量的客流时间、空间特征，从而提升多步短时客流预测的精度。

（2）提出的STIPM模型以三分支的形式呈现，并在消融实验中展现出了较强的结构鲁棒性，同时在大规模真实数据上的预测结果有效证明了该模型在网络级城市轨道交通多步短时客流预测任务上的可行性。

（3）提出的STIPM模型以基于时间步的OD数据完成拓扑网络信息提取，取得了更好的预测效果，表明在城市轨道交通中，OD数据能够更好地展现站间联系紧密程度和全局信息。

（4）采用多步预测的方法，可以利用细粒度下的客流时间序列，将短时客流预测拓展到中长期预测的时间跨度，同时得到更详细的预测信息。随着预测时间步数量的上升，预测精度仍处于较高的水准。

在所设计的实验中，训练集、验证集以及测试集的选择与划分，模型训练的初始化参数等会对最终的预测结果造成不确定性影响，但是在模型的构建、训练以及预测的过程中，我们并未针对使用数据集进行任何特殊的处理，因此初步认为该模型具有一定普遍适用性，但是其具体泛化能力有待在未来工作中进一步验证。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]

张春辉, 宋瑞, 孙杨. 基于卡尔曼滤波的公交站点短时客流预测[J]. 交通运输系统工程与信息, 2011, 11(4):154-159.

[Zhang

C H

, Song

, Sun

. Kalman Filter-Based short-term passenger flow forecasting on bus stop[J]. Journal of Transportation Systems Engineering and Information Technology, 2011, 11(4):154-159.] DOI:10.16097/j.cnki.1009-6744.2011.04.019.

DOI

[2]

王莹, 韩宝明, 张琦, 等. 基于SARIMA 模型的北京地铁进站客流量预测[J]. 交通运输系统工程与信息, 2015, 15(6):205-211.

[Wang

, Han

B M

, Zhang

, et al. Forecasting of entering passenger flow volume in Beijing Subway based on SARIMA model[J]. Journal of Transportation Systems Engineering and Information Technology, 2015, 15(6):205-211.] DOI:10.16097/j.cnki.1009-6744.2015.06.031

[3]	Roos J, Bonnevay S, Gavin G. Dynamic Bayesian networks with Gaussian mixture models for short-term passenger flow forecasting[C]// 2017 12th International Conference on Intelligent Systems and Knowledge Engineering (ISKE). IEEE, 2018:1-8. DOI:10.1109/ISKE.2017.8258756 DOI

[4]	Sun Y X, Leng B, Guan W. A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system[J]. Neurocomputing, 2015, 166:109-121. DOI:10.1016/j.neucom.2015.03.085 DOI

[5]	张金雷. 城市轨道交通线网短时客流预测方法研究[D]. 北京: 北京交通大学, 2021. [Zhang J L. Study of the short-term passenger flow prediction in urban rail transit networks[D]. Beijing: Beijing Jiaotong University, 2021.]

[6]	Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:1-9. DOI:10.1109/CVPR.2015.7298594 DOI

[7]	Ma X L, Tao Z M, Wang Y H, et al. Long short-term memory neural network for traffic speed prediction using remote microwave sensor data[J]. Transportation Research Part C: Emerging Technologies, 2015, 54:187-197. DOI:10.1016/j.trc.2015.03.014 DOI

[8]	Tang Q C, Yang M N, Yang Y. ST-LSTM: A deep learning approach combined spatio-temporal features for short-term forecast in rail transit[J]. Journal of Advanced Transportation, 2019, 2019:1-8. DOI:10.1155/2019/8392592 DOI

[9]	Zhang K P, Liu Z J, Zheng L. Short-term prediction of passenger demand in multi-zone level: temporal convolutional neural network with multi-task learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(4):1480-1490. DOI:10.1109/TITS.2019.2909571 DOI

[10]	Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[EB/OL]. 2016: arXiv:160 9.02907. https://arxiv.org/abs/1609.02907.

[11]	陈深进, 薛洋. 基于改进卷积神经网络的短时公交客流预测[J]. 计算机科学, 2019, 46(5):175-184. DOI [Chen S J, Xue Y. Short-term bus passenger flow prediction based on improved convolutional neural network[J]. Computer Science, 2019, 46(5):175-184.] DOI:10.11896/j.issn.1002-137X.2019.05.027 DOI

[12]	Zhang C H, Yu J J Q, Liu Y. Spatial-temporal graph attention networks: A deep learning approach for traffic forecasting[J]. IEEE Access, 2019, 7:166246-166256. DOI:10.1109/ACCESS.2019.2953888 DOI

[13]	Li G H, Müller M, Thabet A, et al. DeepGCNs: can GCNs go As deep As CNNs?[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020: 9266-9275. DOI:10.1109/ICCV.2019.00936 DOI

[14]	Zhao L, Song Y J, Zhang C, et al. T-GCN: A temporal graph convolutional network for traffic prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(9):3848-3858. DOI:10.1109/TITS.2019.2935152 DOI

[15]	王海洋. 城市轨道交通系统突发客流的分析与预测预警研究[D]. 上海: 上海交通大学, 2019. [Wang H Y. Analysis, prediction and early warning of burst passenger flow in urban rail transit system[D]. Shanghai: Shanghai Jiaotong University, 2019.]

[16]	Zhang J L, Chen F, Cui Z Y, et al. Deep learning architecture for short-term passenger flow forecasting in urban rail transit[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(11):7004-7014. DOI:10.1109/TI TS.2020.3000761 DOI

[17]	Zhan X B, Zhang S C, Szeto W Y, et al. Multi-step-ahead traffic speed forecasting using multi-output gradient boosting regression tree[J]. Journal of Intelligent Transportation Systems, 2020, 24(2):125-141. DOI:10.1080/15472450.2019.1582950 DOI

[18]	Bai L, Yao L N, Wang X Z, et al. Deep spatial-temporal sequence modeling for multi-step passenger demand prediction[J]. Future Generation Computer Systems, 2021, 121:25-34. DOI:10.1016/j.future.2021.03.003 DOI

[19]	Zheng X H, Li Y R, Duan D L, et al. Multi-Vehicle Multi-Sensor Occupancy Grid Maps (MVMS-OGM) for autonomous driving[J]. IEEE Internet of Things Journal, 2022, 9(22):22944-22957. DOI:10.1109/JIOT.2022.3187827 DOI

[20]	Xie G, Wang S Y, Lai K K. Short-term forecasting of air passenger by using hybrid seasonal decomposition and least squares support vector regression approaches[J]. Journal of Air Transport Management, 2014, 37:20-26. DOI:10.1016/j.jairtraman.2014.01.009 DOI

[21]	Chen W, Li Z P, Liu C, et al. A deep learning model with Conv-LSTM networks for subway passenger congestion delay prediction[J]. Journal of Advanced Transportation, 2021, 2021:1-10. DOI:10.1155/2021/6645214 DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 问题描述与建模

2.1 问题描述

2.2 模型构建

图1 时空综合预测模型(STIPM)结构

图2 Inflow分支中基于Transformer的LSTM网络结构

图3 多头自注意力机制架构

图4 道路交通网络示意图

图5 城市轨道交通网络示意图

图6 Time-based OD分支中深度注意力模块结构

图7 不同类型区域附近车站V-t曲线

3 实验数据与模型配置

3.1 数据集描述

3.2 模型配置

3.3 基准模型设置

4 预测结果及分析

4.1 综合预测效果分析

表1 各模型预测结果精度 (Dataset 1)

表2 各模型预测结果精度 (Dataset 2)

4.2 基于不同预测时间步数量的预测效果分析

4.3 基于单车站的预测效果分析

表3 时间步刻度与真实时间对应关系

图8 不同预测时间步数量下地铁站A客流预测值-真实值对比曲线

图9 不同预测时间步数量下地铁站B客流预测值-真实值对比曲线

图10 不同预测时间步数量下地铁站C客流预测值-真实值对比曲线

图11 不同预测时间步数量下地铁站D客流预测值-真实值对比曲线

图12 不同预测时间步数量下地铁站E客流预测值-真实值对比曲线

4.4 消融实验

表4 消融实验预测结果精度(Dataset 1)

5 结论与展望

References