A Stacking-based Model for Urban Traffic Time-series Prediction

In general, the prediction of urban traffic time-series data often lacks priori knowledge and encounters lots of problems in parameter settings due to the dynamics of traffic. It’s still hard to get a satisfying result just from one model when facing the complexity of traffic phenomena. In view of the limitations of traditional approaches, in this paper we propose a pervasive, scalable ensemble learning framework for urban traffic time-series prediction from the floating car data based on stacked generalization (also known as stacking). Firstly, we analyzed the optimal linear combination of different models and redesigned the learning strategy in setting the Level-1 modeling of the stacking framework. In order to prove the effectiveness of the proposed stacking ensemble learning method, we implemented a mathematical justification based on the error-ambiguity decomposition technology. Secondly, we integrated six classical approaches into this stacking framework, including linear least squares regression (LLSR), autoregressive moving average (ARMA), historical mean (HM), artificial neural network (ANN), radical basis function neural network (RBF-NN), and support vector machine (SVM). We also conducted experiments with an actual urban traffic time-series dataset obtained from 400 main intersections in Beijing’s road networks. We further compared our results of the proposed model with other four traditional combination models, including equal weights method (EW), optimal weights method (OW), minimum error method (ME) and minimum variance method (MV). According to the variance and bias values of different models, the final results reveal that the proposed stacking ensemble approach behaves more robustly than any other single models. Moreover, the stacking ensemble learning approach shows its superior performance comparing to other traditional model combination strategies. These findings demonstrate the competitive properties of the stacking model in the prediction of urban traffic time-series data. We also present the possible explanations with mathematical analysis and plan our future research directions.

1 引言

当前,随着ICT(Information Communication Technology,ICT)技术的发展,越来越多的传感器被布置与应用到城市交通状态的数据搜集过程中,如浮动车、手机信令、红外探测仪、公交车辆及可穿戴设备,极大地丰富了智能交通系统(Intelligent Transport System,ITS)与城市GIS研究的数据来源。通过各种传感器所获得的城市交通数据均可以转化为带有时间标签的交通时序数据,用以表征城市路网的运行状态参数,如交通流量、路段行程时间、交叉口通行耗时等。在对城市交通时序数据进行预测的过程中,如何顾及交通现象特有的动态随机性,解决当前建模过程中普遍存在的先验知识缺乏与模型参数设置问题,建立能针对不同交通状态进行自适应学习的通用性模型,成为当前智能交通研究、城市计算与时空智能挖掘领域内的当务之急。
为了克服上述城市交通时序数据预测建模过程中的不足,本文提出一个普适性的集成学习框架,设计了基于异态集成学习的层叠泛化模型(Stacked Generalization, Stacking),按照组合模型最大化减小原始预测误差原则,重新设计了迭代方法,改进了原始层叠泛化算法平均输出的混合策略,并对模型的有效性进行了数学证明,在此基础上利用北京市路网主要交叉口转向通行耗时数据对模型的有效性进行了实验分析,实验结果表明本文提出的层叠泛化模型,相对于单一模型与基于数理统计的混合模型,在城市交通时序数据的预测效果上均有明显的提升。

2 层叠泛化模型

Fig. 1 The ensemble learning hierarchy

图1 集成学习分类


2.1 层叠泛化模型学习框架

给定Rn空间上的数据集 D = { ( x i , y i ) , i = 1,2 , ... , m } 作为Level-0层的输入,其中, x i 表示第in维输入向量, y i 表示相应的特征标签。对原始的D数据进行K次重采样处理,每次的重采样过程将原始数据集分成训练集( D k )及对应的测试集( D - k = D - D k )2部分( k = 1,2 , ... , K )。在Level-0阶段建立N个不 同的学习模型 L = L 1 , ... , L N 并分别采用 D k D - k 进行训练和验证。在每一次的重采样过程中得到对 应于 D - k 的测试结果 T k = { ( x j k , y j k ) , j = 1,2 , .. , | D - k } , k = 1,2 , ... , K 。这样每次重采样的测试结果 T k 与原始的对应标签集 D - k 组成新的训练实例 M k = D - k + T k ,在K次重采样结束后得到适用于下一层(Level-1层)的数据集 M = M k , k = 1,2 , ... , K 。此后,在Level-1阶段设计相应的Level-1层的学习规则继续对 M 进行学习,并将Level-1层的测试结果作为最 后的输出。整个层叠泛化模型的逻辑构成如图2 所示。
Fig. 2 The logic structure of stacking

图2 层叠泛化模型逻辑图

2.2 层叠泛化模型Level-1层学习规则

L = L 1 , ... , L N 为Level-0层中的学习模型, M = M k 为适用于Level-1层的输入数据集。首先从N个学习器中选取平均绝对误差(MAE)最小的模型作为Level-1层元学习模型的第一个集成器(式(1))。
L 1 c = argminE ( L ) (1)
L 2 c = p 2 L 1 c + ( 1 - p 2 ) argminE ( p 1 L 1 c + ( 1 - p 1 ) l ) (2)
L N c = p N L N - 1 c + ( 1 - p N ) argminE ( p N - 1 L N - 1 c + ( 1 - p N - 1 ) l ) (3)
式中, l L , p i [ 0,1 ] , i = 1 , ... , N 。每个系数 p i 的计算按照式(4)的规则进行[16]
p i = E i + 1 - E i 2 Δ + 0.5 (4)
式中, E i + 1 E i 分别表示 L i + 1 c L i c 的归一化误差; Δ 表示前后2个学习模型之间的预测方差(式(5))。
Δ = E ( L i + 1 c - L i c ) 2 ) (5)

2.3 基于error-ambiguity decomposition层叠泛化模型有效性证明

Error-ambiguity decomposition技术是机器学习与人工智能领域较成熟的分析算法性能差异的工具[11],在诸多领域得到了广泛应用。本文采用error-ambiguity decomposition技术,对提出的层叠泛化模型的有效性进行分析。
对于 d 维上的一个映射 R d R ,寻找层叠泛化模型中的一个映射关系 f : y = f ( x ) 。其中,训练数据为 ( x i , y i ) } | i = 1,2 , ... , n ,令 α 作为层叠泛化模型的一个基础输入模型,在给定输入向量 x 时, α 的学习器为 V α ( x ) 。令 V ̅ ( x ) 为给定输入向量 x 条件下层叠泛化模型的输出(式(6)):
式中,w为各个基础学习器的权重向量, 。式(6)说明,层叠泛化模型的输出结果是对原始基础学习模型的加权平均。定义α学习器对于原始问题的解释度(Ambiguity)为式(7)。
A α ( x ) = ( V α ( x ) - V ̅ ( x ) ) 2 (7)
对于给定的输入向量 x ,定义层叠泛化的单一学习器对原始问题的误差(Error)平方为式(9)。
E α ( x ) = ( f ( x ) - V α ( x ) ) 2 (9)
E ( x ) = ( f ( x ) - V ̅ ( x ) ) 2 (10)
A ̅ ( x ) 进行如下分解(式(11)):


A ̅ ( x ) = w α E α ( x ) - E ( x ) (13)
E ̅ ( x ) = w α E α ( x ) ,式(13)即转化为式(14)。
E ( x ) = E ̅ ( x ) - A ̅ ( x ) (14)
将上述结论推广到整个训练集 S i = { ( x i , y i ) } | i = 1,2 , ... , N ,训练数据集上对应分布 P ,有式(15):
Ε α = P ( x ) E α ( x ) dx = i = 1 N P ( x i ) E α ( x i ) Α α = P ( x ) A α ( x ) dx = i = 1 N P ( x i ) A α ( x i ) Ε = P ( x ) E ( x ) dx = i = 1 N P ( x i ) E ( x i ) (15)
式中, Ε α 为单个学习器的泛化误差(Error)。 Α α 表示层叠泛化模型各基础学习器之间的差异性,反映了对于整个模型的解释度(Ambiguity)。 Ε 代表层叠泛化模型的整体泛化误差。根据式(15), Ε α Α α Ε 之间的关系可简写为式(16)。
Ε = Ε α - Α α (16)
式(16)证明了层叠泛化模型的有效性,即层叠泛化模型的整体泛化误差 Ε 要小于或者等于单个学习器的泛化误差 Ε α 。同时,从式(16)还可看出,增大学习器之间的差异性 Α α 将减小层叠泛化模型的整体泛化误差 Ε ,这从另一方面证明了对于底层基础学习器之间差异性的要求,即学习器之间的差异性应该越大越好,因此,基于异态集成学习的层叠泛化模型对于城市交通时序数据的预测在理论上更有效。

3 实验分析与比较

3.1 研究区域与实验数据

为测试层叠泛化模型对于城市交通时序数据的预测效果,本文选取北京市城市路网交叉口通行耗时数据进行分析。路网数据以北京市五环以内的路网范围作为研究区域,包括18 857个路网节点和26 621条路段,其中各种交叉口总数为14 614个。为了不失一般性,本文选取其中400个主要交叉口(指路网中高速路、主干路以及次干路之间形成的交叉口)对原始路网进行概括(图3)。
Fig. 3 Illustration of the study area

图3 研究区域示意图

北京市城市路网交叉口通行耗时数据来源 于文献[17],是一种典型的城市交通时序数据。交叉口通行耗时数据的时间跨度为2011年3月1日 到2011年6月30日,针对某一特定交叉口,按照 不同的周天(周一到周日)、不同的转向类型(左转、右转、直行)及不同的时段编号进行存储。当前的时间窗口大小为15 min,一天的时段数目共有96个。表1给出了部分数据,表中ID表示交叉口编号,范围1-400;FID代表上游路段编号;TID代表下游路段编号;TTP表示转向类型,“1”表示左转,“2”表示右转,“3”表示直行;TIID表示当前时段编号,范围1-96;TD表示具体交叉口通行耗时数值(s)。
Tab. 1 Turn delay dataset in Beijing (part of the original data)

表1 北京市城市路网交叉口通行耗时数据(部分)

174 704 705 1 2 95 43.59
174 704 705 1 2 96 50.65
174 704 706 2 3 1 66.41
174 704 706 2 3 2 54.28
174 704 706 2 3 3 58.83
174 704 706 2 3 4 62.10
174 704 706 2 3 5 72.60
174 704 706 2 3 6 56.20
174 704 706 2 3 7 59.45
174 704 706 2 3 8 65.54

3.2 对比模型选择与参数设置

3.2.1 单一模型
其次,为了简化模型的参数设置流程,降低建模的难度,本文对需要参数设置的4种模型(自回归移动平均法ARMA、人工神经网络ANN、径向基神经网络RBF-NN和支持向量机SVM)进行必要的参数设置,并按照训练过程中满足90%以上交叉口通行耗时记录并且预测误差在20 s以内的判定标准作为参数设置的条件,对于历史均值法和线性最小回归法,则直接采用输入数据对输出值进行线性推测。
对于自回归移动平均法ARMA(p,q),需对其中的参数(p,q)进行判定,本文以贝叶斯信息准则(Bayes Information Criterion,BIC)作为评判标准,采用单一模型的训练数据对自回归移动平均法ARMA(p,q)进行训练,给定p,q的搜索范围均为[1, 10],通过格网搜索法,最后判定p=1,q=1条件下即可满足判定标准。
对于ANN模型,常用的参数设置包括ANN网络拓扑结构选择、学习速率设置等[18]。ANN网络拓扑结构设置是建立ANN必不可少的步骤。本文选取具有单隐层的多层感知机(Multilayer Perceptron,MLP)作为人工神经网络模型,采用格网搜索策略确定隐层神经元个数,隐层神经元的搜索范围设定为[1, 10]。各层初始权重、学习速率均随机给定。按照误差反传(Back Propagation,BP)规则,采用单一模型的训练数据训练ANN模型,最后确定满足判定标准的网络拓扑结构为3-5-1,如图4所示。
Fig. 4 The topology of ANN network

图4 ANN网络拓扑结构图

3.2.2 数理统计混合模型
为进一步验证层叠泛化模型效果,本文采用4种常见的数理统计混合模型对原始的交叉口通行耗时数据进行建模,分别是均权法(Equal Weights method,EW)[19]、最佳权重法(Optimal Weights Method,OW)[20]、最小误差法(Minimum Error Method,ME)[21]和最小方差法(Minimum Variance Method,MV)[22]。数理统计混合模型的训练数据与测试数据与单一模型保持一致。
Y = { Y i } | i = 1,2 , .. , M 代表原始 M 个基础模型的输出结果;以 w = { w i } 代表各模型在数理统计混权模型下各自的权重,均权法EW的权重可表示为式(17)。
w i = 1 / M , i = 1 , , M (17)
w = M v - 1 I m ( I m ' M v - 1 I m ) - 1 (18)
式中, I 代表单位矩阵(Identity Matrix)。
min f = i = 1 M w i | y i - y i | i = 1 M w i ( y i - y i ) = i = 1 M ( y i - y i ) i = 1 M w i = 1 0 w i (19)
min f = w i M v w i T i = 1 M w i = 1 0 w i (20)

3.3 层叠泛化模型整体流程

本文实验平台基于Matlab 2011a,其中MEAN、LLSR模型采用手工编写。ARMA、ANN、RBF-NN采用Matlab自带工具包,SVM采用开源的libSVM工具包[23]
在层叠泛化模型训练阶段,实验中Level-0层的数据重采样采用留一正交验证方法(Leave-One-Out Cross Validation,LOO-CV),这种方法的优点在于每一回合中几乎所有的样本皆用于训练模型,因此最接近原始样本的分布,这样评估所得的结果比较可靠。整个层叠泛化学习模型实验过程的流程如图5所示。
Fig. 5 The flow chart of stacking

图5 层叠泛化模型流程图

3.4 模型效果评判标准

本文以所有模型的最终验证集的均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)作为各种模型效果的评判标准。计算公式如式(21)-(22)。
RMSE = i = 1 N ( EstimateValu e i - RealValu e i ) 2 N (21)
MAE = i = 1 N | EstimateValu e i - RealValu e i | N (22)

3.5 实验结果与分析

3.5.1 单一模型与层叠泛化模型效果对比
Fig. 6 The effect comparison between single models and stacking (RMSE)

图6 单一模型与层叠泛化模型效果对比图(RMSE)

3.5.2 数理统计混合模型与层叠泛化模型效果对比
Fig. 7 The effect comparison between statistic-based models and stacking (RMSE)

图7 数理统计混合模型与层叠泛化模型效果对比图(RMSE)

3.5.3 所有模型效果对比
Fig. 8 The effect comparison between all models

图8 所有模型效果对比图


4 讨论

本文分析了城市交通时序数据建模中单一模型与基于数理统计的混合模型各自的优缺点,以当前人工智能与机器学习领域内比较成熟的集成学习理论为指导,提出层叠泛化集成学习模型,按照组合模型最大化减小原始预测误差原则重新设计了迭代融合的计算策略,并基于error-ambiguity decomposition技术,对提出的层叠泛化模型的有效性进行了数学证明。本文以北京市路网主要交叉口转向通行耗时预测,测试提出的层叠泛化模型性能。测试结果(图6-8)证明了本文提出的层叠泛化模型在时序空间数据预测方面的优越性。
此外,除了径向基神经网络RBF-NN模型和线性最小回归法LLSR模型外,所有模型的预测效果在2:00-5:00内均达到最佳(图6-7)。这是因为在此时间段,城市路网中的交通流量最小,因此,城市交叉口的通行耗时在给定的时间窗(15 min)之内各自的变化均很小,使得原始的城市路网交叉口通行耗时数据集在此时间段内基本上没有什么变化。通过本文的实验证明一些文献中的方法(如径向基神经网络RBF-NN、线性最小回归法LLSR、最小误差法ME)并不适用于城市交通时序数据预测。
(2)在模型选择方面,虽然本文仅仅采用6种单一模型与4种基于数理统计的混合模型进行实验,但这并不妨碍未来其他模型的加入。本文提出的层叠泛化模型是一个开放性的异态集成学习框架,能自适应调整各模型在不同交通状态下的权重,便于未来其他模型的融入。同时,基于error-ambiguity decomposition对层叠泛化模型有效性的证明,在理论上也保证了层叠泛化模型在城市交通时序数据预测方面的优越性。

5 结论与展望

本文针对地理过程时序空间数据预测中普遍存在的先验知识缺乏与模型参数设置问题,提出了一个普适性的集成学习框架,设计了基于异态集成学习模型的层叠泛化模型。在层叠泛化模型的Level-1层,按照组合模型最大化减小原始预测误差原则重新设计了迭代融合的计算策略,避免了层叠泛化模型的过拟合现象,并基于error-ambiguity decomposition技术,对提出的层叠泛化模型的有效性进行了数学证明。研究结果表明,层叠泛化学习模型的均方根误差与平均绝对误差均小于单一基础模型。相对于其他模型混合的线性加权模型,虽然在平均绝对误差方面最佳权重法同本文提出的层叠泛化模型不相上下,但层叠泛化模型的平均绝对误差的方差更小,充分证明了层叠泛化模型在地理系统时序数据建模中的有效性。同时,层叠泛化模型不但简化了模型选择与参数设置的过程,而且提供了一个开放的学习框架,易于其他模型的融入,为进一步的研究工作提供了基础。

