High-temporal-frequency Forecast of Tourist Flow for Tourist Attraction based on LBS and Deep Learning

  • XIE Qian , 1 ,
  • LU Ming , 1, * ,
  • XIE Chunshan 2
Expand
  • 1. School of Architecture, Harbin Institute of Technology, Key Laboratory of Cold Region Urban and Rural Human Settlement Environment Science and Technology, Ministry of Industry and Information Technology, Harbin 150006, China
  • 2. School of History, Culture and Tourism, Liaoning Normal University, Dalian 116081, China
* LU Ming, E-mail:

Received date: 2022-04-27

  Revised date: 2022-06-08

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(52078160)

Abstract

In order to achieve accurate high-frequency forecasts of tourist flow for tourist attractions, this study proposes a forecasting method based on LBS and deep learning techniques. This method generates spatial-temporally controllable forecasts by converting the LBS data and using the core model — Deep Bidirectional Gated Recurrent Unit (DBi-GRU) model — built based on Bidirectional Recurrent Neural Network and GRU algorithms. To test the performance of our proposed method, we take the Shenzhen Dameisha Waterfront Park as an example, and three analysis methods including fitting curves, error criteria, and DM tests are used to test the forecasting performance of our DBi-GRU model. Additionally, five other deep learning models are set as reference models to compare with our model. The experimental results show that, first, DBi-GRU model proposed in this study has ideal forecasting performance in high-frequency forecast of tourist flow for tourist attractions and yields highly accurate forecasts in peak periods of tourist flow, and its performance is much better than the other deep learning models. Second, Bidirectional Recurrent Neural Network based models, particularly the Bidirectional LSTM based model, generally provide better performance than conventional Recurrent Neural Network based models. Though the forecast accuracy of the Bidirectional LSTM based model is not as high as DBi-GRU model, there is no significant difference between their model capability. Third, using the same network parameters, GRU algorithm has higher forecast accuracy than LSTM and RNN algorithms which are used by previous researchers. This study develops a new method for high-frequency tourist flow forecasting, and the high-frequency information forecasted in this study provides information support for management tasks of tourist attraction such as crowd control, service arrangement, etc..

Cite this article

XIE Qian , LU Ming , XIE Chunshan . High-temporal-frequency Forecast of Tourist Flow for Tourist Attraction based on LBS and Deep Learning[J]. Journal of Geo-information Science, 2023 , 25(2) : 298 -310 . DOI: 10.12082/dqxxkx.2023.220231

1 序言

旅游需求预测是旅游管理研究的重要课题之一,而客流量预测则是旅游需求预测的核心任务。准确的客流量预测可为旅游景区的相关决策提供重要的信息支持[1-4]。具体而言,长期的客流量预测信息有助于预估景区的营收状况,指导及时地票价调整和设施增建;短期预测信息也有助于指导工作人员的安排及景区开放时间的调整等事宜。
随着大数据与人工智能技术的发展,客流量预测的准确度大大提升,为该领域的进步提供了更多的可能性。国家“十四五”规划中的“强化智慧景区建设”指导要求,鼓励以AI技术为支撑进行景区智能化改造,建设“智慧景区”与“数字景区”,而基于AI技术的景区客流量预测是其中的重要一环。
纵观现有的客流量预测研究,其局限性主要体现在预测的时频与技术手段2个方面。首先,已有研究主要集中于长期的、低时频的预测,预测的时间跨度多为一年以上[5-6],而预测的时频也集中于每月[7-8]、每周[9-13]、每日[14-18]。此类预测虽然能反映出未来长期的客流趋势,但对诸如客流管控等短期的景区管理工作来说,则需要更高时频的客流量预测信息,以反映未来一日或几日以内的短期客流变化情况。联合国教科文组织颁布的世界遗产可持续旅游工作手册(UNESCO World Heritage Sustainable Tourism Toolkit)中也提到理解一日内的客流量变化信息的必要性,其在提高游客的体验质量、缓解压力等方面都尤为重要。本研究将能反映一日内客流量变化的预测称为客流量的高时频预测,如客流量的逐时预测。
在客流量预测的技术现状方面,现有的客流预测模型分为3类:时间序列模型,经济学模型和AI模型[19],其中AI模型还可以进一步分为浅层机器学习模型和深度学习模型。根据Li等[20]2021年的统计,已有的客流量预测的技术方法依然以较为传统的时间序列模型和经济学模型为主。虽然许多研究已证明SVR、LSTM等AI模型在客流量预测方面优于传统方法 [21],但是基于此类技术的研究数量和成果尚有待丰富。其中,基于深度学习的研究尤为缺乏。深度学习技术不断迭代的当下,客流量预测领域需要更广泛地利用相关的技术成果,构建更新、更有效的客流量预测模型,使客流量预测更为精准。与此同时,也需要更多基于不同算法的深度学习模型在客流量预测方面的比较研究,以补充更多关于深度学习算法和模型差异的实证性证据。
在数据的使用方面,当前基于深度学习方法的客流量预测研究依然主要使用景区客流的官方统计数据[22-23],此类数据的时间精度较为有限,仅能实现逐月、逐周、逐日的预测。在实现更高时频的客流量预测方面,还需要依赖更高时间精度的数据源,如具有高时间精度的时空大数据。
本文认为将深度学习与前沿时空大数据技术成果相结合有助于实现精准的客流量高时频预测。因此,本研究结合时空大数据技术(LBS位置服务)和深度神经网络技术,旨在实现旅游景区客流量的高时频预测。研究的目的主要有2个方面,首先,研究将提出一套基于LBS位置服务数据与深度神经网络模型的景区客流量高时频预测的研究方法,实现能反映单日以内客流量变化的高时频客流量预测。其次,通过实验检验的方式对方法中的核心预测模型的预测准确性及模型性能进行评估。在此过程中,研究还将使用多种深度学习模型作为对照用的基线模型,以客观比较基于不同算法的深度学习模型的预测效果差异,为基于AI技术的客流量预测的相关研究提供更多的实证性证据。

2 研究方法

2.1 客流量预测的深度学习算法基础

从原理上讲,景区客流量的高时频预测通过挖掘高时频的历史客流量及影响客流的相关变量的信息,对未来客流量的变化趋势进行预测,其实质是一种时间序列预测。在深度学习算法中,循环神经网络(RNN)及其变种网络是适用于此预测的一类算法,此算法主要包括神经元和神经网络2个层次的运算。
在神经元层次的运算方面,研究选择由Cho等人提出的门控循环单元(Gated Recurrent Unit, GRU)算法[24]。此算法具有较好的长期记忆能力,善于处理高时频客流量的长序列数据。GRU本质上是RNN的一个变种,其神经元结构中增加了2个门控机制:重置门(Reset gate)和更新门(Update gate),用于控制信息在神经元中的流动,缓解常规RNN的梯度爆炸和梯度消失问题。GRU神经元结构见图1,算法的数学表达式为式(1)—式(4)。
r t = σ ( W r ·   h t - 1 ,   x t + b r )
h ˜ t = t a n h W h ·   r t h t - 1 ,   x t + b h
u t = σ ( W u ·   h t - 1 ,   x t + b u )
h t = 1 - u t h t - 1 + u t h ˜ t
式中: r t u t分别表示重置门和更新门的输出; h t - 1 h t分别为上一时间戳和当前的神经元细胞隐层状态, h ˜ t x t h t - 1的汇总; W r W h W u为权重矩阵; b r b h b u为偏置向量; σ t a n h分别表示sigmoid和tanh函数; 表示哈达玛积。
图1 双向循环神经网络与GRU神经元结构

Fig. 1 Bidirectional Recurrent neural network and neural structure of GRU

在网络结构层次的运算方面,研究采用由Schuster和Paliwal提出的双向循环神经网络[25],相较于只能从单个方向获取数据的常规循环神经网络,双向循环神经网络可以实现从前、后2个方向学习客流量的时序数据,以进一步提升预测效果。此网络的结构见图1,算法的数学表达式为式(5)—式(7)。
h t = f ( W x h · x t + W h h · h t - 1 + b h )
h t = f ( W x h · x t + W h h · h t + 1 + b h )
y t = W y h · h t + W y h · h t + b y
式中: h t h t分别为前向和后向传播的隐层状态, f ·)表示非线性激活函数, W x h W h h W x h W h h W y h W y h 表示权重矩阵, b h b h b y表示偏置向量。

2.2 客流量预测的深度神经网络模型

本研究所设计的深度神经网络模型基于GRU和双向循环神经网络算法,故称其为深度双向GRU模型,或DBi-GRU (Deep Bidirectional Gated Recurrent Unit)模型(以下统称为DBi-GRU模型),其深度网络的结构框架如图2所示。
图2 高频客流量预测的深度神经网络(DBi-GRU)的结构框架

Fig. 2 Structural framework of the deep neural network (DBi-GRU) for high-temporal-frequency forecast of tourist flow

DBi-GRU模型融合了GRU善于处理高时频客流的长序列以及双向循环网络结构善于从双向捕捉客流时序信息的特点,再加之其是由多层神经网络堆叠而成的深度网络,使此模型能有效地挖掘高时频客流量数据中的深层次信息。此外,DBi-GRU模型属于多对一模型(Many-to-one model),可以通过同时挖掘多个特征序列信息,从而输出预测的特征序列。在本研究中,模型的输出特征序列为预测的客流量序列,输入特征序列包括历史客流量序列,以及已被验证能影响景区客流量的相关变量序列(如天气、休假日等[26-27])。在客流量预测时,在输入特征中加入相关变量序列可以有效提高预测的准确性[14,28]。需要指出的是,对于不同类型的旅游景区,影响客流的相关因素存在差异,所以输入特征需要根据特定的景区类型及其外部环境进行有针对性地调整。
从网络结构上来说,DBi-GRU网络包含了5层神经网络,前4层为双向循环网络层,最后1层 为全连接神经网络层。其中,双向循环网络层由2.1节提到的GRU和双向循环神经网络组成,而全连接神经网络层则将双向循环网络层的输出转换为最终预测的客流量序列。此外,为避免预测模型出现过拟合的情况,每层双向循环网络层后还设置了随机失活层(Dropout)。Dropout通过随机使一定比例的神经元失活,减少模型训练时的每层参与计算的神经元数,以达到简化网络结构,防止模型过拟合的目的[29]

2.3 客流量预测的时频与空间范围控制

位置服务,又称基于位置服务(Location-Based Service, LBS),是一种通过手机无线网络和移动定位传感器获取手机终端用户的地理位置信息的技术。此技术可在同一时间节点获取大规模手机用户的位置数据。在中国移动互联网用户已超过1.3亿,移动互联网已基本普及的时代背景下,LBS的应用价值也愈加凸显。目前,LBS已广泛地应用于多个行业与领域。在客流量预测方面,LBS数据的时空精度高,数据规模大,且具有时序性的数据特征,也使其可作为景区客流量高时频预测的一种新数据。
为实现对客流量预测的时频和空间范围的控制,以及LBS数据与深度学习模型的有效对接,需要在数据处理时按确定时频和空间范围对原始LBS数据进行有效转换。本研究设计了一套将LBS数据转换为景区高时频客流量数据的智能转换方法,如图3所示。图左侧为转换过程的示意图,此过程主要包括确定时频、确定景区范围以及数据转换3个主要步骤。确定时频需要明确预测所需时频并对LBS数据进行固定时间间隔的数据筛选,而确定景区范围则需要明确预测对应的景区的地理空间范围。图中的蓝线表示示例的景区的空间范围,内部的栅格是由LBS数据可视化生成的客流分布信息;图3右侧部分为每个时间节点将LSB数据转为景区范围内客流量值的操作流程图,其过程为通过遍历并判断LBS数据中每个游客的坐标位置与景区范围的坐标位置之间的空间矢量关系,确定游客在当前时刻是否位于景区的空间范围内,以统计出每个时间节点景区内的人数,并最终而生成图左下部分的高时频客流量数据。
图3 LBS数据转换为景区时序客流量数据的示意图

Fig. 3 Diagram of converting LBS data to time-series tourist-flow data of tourist attraction

2.4 客流量高时频预测的技术路线

本研究的技术路线如图4所示,主要包括预测范围与时频控制、数据准备、模型构建与预测以及预测效果与模型性能评估4个部分。
图4 客流量高时频预测的技术路线

Fig. 4 Technical roadmap of the high-temporal-frequency forecast of tourist flow

(1) 预测范围与时频控制
预测范围与时频控制是根据预测的需要,在确定预测景区空间范围和时频的情况下,通过2.3节所述方法完成LBS数据对景区客流量的高频时序数据的转换控制。
(2) 数据准备
此环节将转换得到的景区客流量高时频数据划分为训练集和预测集,并对数据进行归一化。其中,训练集用于训练模型的参数,而测试集则用于检验预测效果和模型性能;数据归一化处理的作用是消除不同维度数据的纲量。
(3) 模型构建与预测
模型构建与预测部分包括构建深度学习模型(DBi-GRU)与其他基线模型,模型的超参数调试,模型训练和模型预测4个步骤。深度学习模型所基于的深度神经网络如2.2节所述,模型所涉及的超参数需要在模型的反复训练与预测中进行调试以达到模型预测效果的最优化。
(4) 预测效果与模型性能评估
预测效果与模型性能评估环节用于检验 DBi-GRU与其他深度学习模型在景区客流量的高时频预测方面的效果。此部分包括基于拟合曲线评估和误差指标(R2RMSEMAEMAPE)的预测效果评估,以及基于DM检验的模型性能检验。

3 实验设置

3.1 实验概述

本实验的预测范围为深圳市大梅沙海滨公园景区,其位于深圳市区东部,拥有优质的山海景观资源,且免费面向公众开放,景区内的旅游活动主要产生于室外。此景区常年客流量巨大,极易产生拥挤情况,不但影响游客的游玩体验且具有一定的安全隐患。所以对于此类景区的客流量高时频预测信息,对客流的管控工作具有十分重要的意义。
实验的预测时频为1 h,时间跨度为3 d,即预测大梅沙海滨公园未来3 d、精确到小时的客流量变化信息。本文认为未来72 h的逐时客流预测信息可为短期的景区管理工作提供较为充足的客流变化信息。
本实验的主要目的包括:① 实践检验DBi-GRU模型在景区客流量的高时频预测方面的预测效果与模型性能;② 评估与比较在景区客流量的高时频预测中,基于不同深度学习算法的模型预测效果。具体包括评估在相同神经元算法下双向网络是否较常规网络更具优越性,以及在相同网络参数下GRU算法是否优于其他算法。

3.2 数据来源及数据准备

本实验中用于预测的数据集包含历史客流量、天气和休假日3个维度的数据。其中,大梅沙海滨公园景区游客的LBS数据采集自腾讯公司的位置大数据平台[30],该平台提供了具有高时空分辨率的位置大数据服务,其数据由于具有较高的研究价值,已被诸多研究广泛使用[31-35]。本研究采集了其中的区域热力图数据,该数据记录了一定区域内的所有手机终端设备所在位置的实时经纬坐标信息。研究通过2.3节所述的方法将数据转换为大梅沙海滨公园的时序客流量数据,以进行预测。
深圳市的天气数据采集自Worldweatheron line[36],该平台提供了全球各大城市的高时频天气数据。为使深度学习模型能识别天气数据,研究通过哑变量赋值法对天气类型这一定类数据(Nominal data)进行赋值。具体的天气类型划分与赋值方式参照了其他自然景观类景区客流量预测的相关研究[14,22,37]。由于本研究为短期的高时频预测,数据所涉时间段内深圳市没有较为极端的天气类型,所以只将天气类型划分为2类进行赋值。其中,将晴天、多云和阴天等较为温和的天气类型赋值为0,将暴雨、中雨等较为极端的天气类型赋值为1;在休假日数据的处理方面,同样参照上述研究[22,37]中的哑变量赋值法进行赋值,其中,将工作日时段赋值为0,将休假日时段赋值为1。值得一提的是,本研究的休假日为广义上的休息日,包括法定节假日与双休日。经过赋值后的休假日和天气变量将以由0和1所组成的序列的形式与客流量序列共同组成输入特征,并以数字矩阵的形式导入模型。
在数据准备过程中,研究将数据划分为训练集和测试集。本研究所使用的数据的时间跨度为2020年10月7日0时—11月8日23时,时长共计33 d(792 h),3个维度数据的总样本量为2232。实验将数据中的前30 d的数据(共计720 h)划分为训练集,用于进行模型训练与数据挖掘;将后3 d的数据(共计72 h)划分为测试集,用于检验预测效果。需要说明的是,本研究所涉时间段深圳市的疫情处于低风险状态,研究区域的大梅沙海滨公园在此时间段内正常开放。
由于输入数据中的客流量、天气和休假日数据三者之间的数据纲量存在差异。所以,将数据导入深度学习模型前需要将数据进行归一化处理,本研究使用最大值最小值方法(Min-max Normalization)进行归一化,该方法将3组数据特征统一映射到 [01]的区间范围内,以消除数据纲量、避免因数据之间的纲量量级差异过大对模型的收敛速度和计算精度产生不良影响。

3.3 预测模型的超参数调试

深度学习模型需要对超参数进行反复调试以达到预测效果的最优化。超参数的调试是一个组合优化的过程,经过一系列的参数调试工作最终确定的模型参数设置如表1所示。深度学习模型的超参数分为网络参数、优化参数,以及正则化与训练参数。其中,网络参数表示有关深度神经网络结构的各项参数。本文的深度双向循环神经网络共有5层网络,包括4层双向循环网络层和1层全连接网络层;网络选用ReLU函数作为激活函数,此函数有助于减少梯度消失的几率,其产生的稀疏网络可以缓解模型可能出现的过拟合现象[38]
表1 深度学习模型的超参数与操作环境

Tab. 1 The hyperparameter and operating environment of the deep learning model

参数类型 超参数 超参数设置
网络参数 网络层数(Layers) 5
神经元数(Neurons) 120,72,72,60
激活函数(Activation) ReLU
优化参数 优化器(Optimizer) Adam
学习率(Learning rate) 0.001
批量大小(Batch size) 8
正规化与训练参数 随机失活(Dropout) 0.1
训练代数(Epochs) 100
操作环境 TensorFlow 2.3, Python 3.8, Anaconda 2.1
在网络的优化参数中,学习率、批量大小参数分别被设置为0.001和8,所选的优化器基于Adam算法,其兼顾了AdaGrad和RMSProp两种优化算法的优势且计算更为高效,被广泛应用于诸多其他的人流量预测研究中[39-41]
模型的正则化使用Dropout随机失活法,其参数设置为0.1。这表示在模型训练过程中,每层双向循环网络层中有10%的神经元被强制失活,以提高模型的泛化能力。在模型的训练操作过程中,训练代数设置为100以确保收敛的完成。此外,实现模型构建与预测的操作环境为TensorFlow 2.3, Python 3.8和Anaconda 2.1。

3.4 客流量预测的基线模型

测试与验证基于不同算法的深度学习模型在景区客流量的高时频预测方面的效果也是本研究的目标之一。本研究在使用DBi-GRU模型进行预测的同时,还设置了对照用的基线模型,用于比 较不同深度学习算法之间的优劣性。具体而言,实验一共包括6个模型:DBi-GRU、DBi-LSTM、 DBi-RNN、D-GRU、D-LSTM和D-RNN,具体如 表2所示。表2中,除DBi-GRU模型之外,DBi-LSTM和DBi-RNN分别是由时序预测常被使用的LSTM算法[42]以及经典的RNN算法所构建的模型。这2个模型与DBi-GRU共用一套网络参数,从而客观地比较基于这3种不同算法的双向循环神经网络模型的预测效果。此外,实验还基于常规循环神经网络构建了D-GRU、D-LSTM和D-RNN基线模型,分别对应DBi-GRU、DBi-LSTM和DBi-RNN模型,从而评估双向循环神经网络(以下称为“双向网络”)与常规循环神经网络(以下称为“常规网络”)在客流量的高时频预测方面的性能优劣。
表2 本实验所使用的6种深度学习模型

Tab. 2 Six deep learning models used by this experiment

神经元算法类型
GRU算法 LSTM算法 RNN算法
双向循环神经网络 DBi-GRU DBi-LSTM DBi-RNN
常规循环神经网络 D-GRU D-LSTM D-RNN

3.5 预测效果的评估方法

本研究采用拟合曲线评估、误差指标检验,以及DM检验3种方式评估深度学习模型的预测效果和模型性能。拟合曲线评估通过绘制出模型预测曲线与真实客流量曲线,比较预测曲线较真实值曲线的偏离情况,从而评估模型预测的准确性,其优势在于便于进行各个不同时段的预测评估。预测曲线与真实值曲线的拟合程度越好,说明模型的预测效果越好。误差指标评估采用R2RMSEMAEMAPE 来评估模型的预测效果,其数学表达式如式(8)—式(11)所示。
R 2 = i = 1 N ( y ^ i - y i ) 2 i = 1 N ( y - - y i ) 2
R M S E = 1 N × i = 1 N ( y i - y ^ i ) 2
M A E = 1 N × i = 1 N | y i - y ^ i |
M A P E = 1 N × i = 1 N | y i - y ^ i y i | × 100 %
式中: y i y ^ i分别表示景区客流量的真实值和预测值; y -表示是 y i的均值;N表示样本量。
R2指标得到的评估值越大,表示预测的效果越好;RMSEMAEMAPE这3种指标得到的评估值越小,表示预测的效果越好。此外,本文还将使用DM检验法两两比较不同模型之间的性能差异是否显著。

4 结果及分析

4.1 客流量预测效果的评估结果

曲线拟合评估结果如图5所示,曲线的时间跨度为3 d(72 h),时频为1 h。整体来看,6种深度学习模型的客流量预测曲线的走势都较为贴合真实客流曲线,说明深度学习模型在景区客流量的高时频预测方面具备令人满意的效果。其中,DBi-GRU的DBi-LSTM的预测曲线与真实客流曲线的重叠度最高,反映出这2个模型的预测效果最为优异。此外,在相同神经元算法下,双向网络模型的预测曲线与真实客流曲线的重叠度要普遍高于常规网络模型。尤其在每日的客流峰值时段,D-GRU、D-LSTM与D-RNN这3种常规网络模型的预测曲线较真实客流曲线都产生了一定程度的偏离,而基于双向网络的DBi-GRU和DBi-LSTM模型在峰值时段的预测效果则相对理想,这反映出双向网络模型整体较常规网络模型能更精准地预测的景区客流量。
图5 6种深度学习模型的拟合曲线

Fig. 5 Fitting effects of the six deep learning models

在误差指标评估方面,4种误差指标R2RMSEMAEMAPE的评估结果见表3。如表3所示,在未来3日客流量预测的结果中,RMSEMAEMAPE误差指标都表明本研究提出的DBi-GRU模型的预测值序列与真实值序列之间的误差最小(分别为218.986、131.914和0.340)。与此同时,其R2值也最为接近1(达到了0.948)。这表明DBi-GRU模型在景区客流量的高时频预测方面的效果十分优越,相对于基于其他深度学习算法的5种模型的预测准确度更高。此外,误差指标评估的结果还表明DBi-LSTM和D-GRU模型的预测结果也较为理想,其二者的R2值都超过0.9。与此同时,结合其他误差指标的结果可以发现,DBi-LSTM和D-GRU的预测准确性虽逊色于DBi-GRU,但明显高于其他模型。
表3 4种误差指标(R2、RMSE、MAE和MAPE)的评估结果

Tab. 3 Evaluation results of the four error criteria (R2、RMSE、MAE and MAPE)

测跨度 评估指标 深度学习模型
双向循环网络模型 常规循环网络模型
DBi-GRU DBi-LSTM DBi-RNN D-GRU D-LSTM D-RNN
未来3日
客流量预测
R2 0.948 0.928 0.860 0.927 0.869 0.799
RMSE 218.986 259.703 361.092 260.642 349.179 432.325
MAE 131.914 148.097 199.625 155.404 211.489 259.284
MAPE 0.340 0.362 0.652 0.368 0.469 0.549
高峰时段
客流量预测
R2 0.918 0.898 0.679 0.824 0.723 0.466
RMSE 290.761 323.151 574.414 425.663 533.749 740.998
MAE 208.730 233.964 391.663 282.890 396.007 593.208
MAPE 0.112 0.125 0.241 0.158 0.250 0.452
在对比双向网络模型与常规网络模型时,发现3种双向网络模型DBi-GRU、DBi-LSTM和DBi-RNN的预测误差普遍要小于对应的常规网络模型(D-GRU、D-LSTM和D-RNN)的误差,这一定程度上体现了双向网络模型较常规网络模型在景区客流量高时频预测方面的相对优越性。
高峰时段的预测是景区客流量预测的重要任务之一。由于高峰时段的客流量浮动较大,所以准确的预测也较为困难。本研究根据大梅沙海滨公园每日的实际客流量变化信息,选取预测时段中每日的12—18时为客流高峰时段进行预测,并通过误差指标对预测的准确性进行评估。在表3的误差指标评估结果中,所有深度学习模型的预测准确度都有一定程度的下降,但是DBi-GRU模型的预测准确度依然维持在一个较高的水平,R2的值依然超过0.9,其他3个误差指标的值也均低于其他5个模型。这表明此模型可以很好地胜任高峰时段的客流量预测,且预测效果相比于其他模型有着较为明显的优势;DBi-LSTM模型的预测误差虽相对于前者而言较大,但是其R2值也接近0.9,其他3个指标的值也明显小于除DBi-GRU以外的模型。这表明DBi-LSTM模型也可以较好地完成高峰时段的景区客流量预测。除此之外,误差指标的结果还反映出其他4种模型在高峰时段的客流量预测方面的准确性并不是非常理想。值得一提的是,在相同神经元算法下,基于双向网络的模型依然较常规网络的模型有着更高的预测准确度,说明双向网络模型在高峰时段客流量预测中具备更好的预测效果。

4.2 模型性能的检验结果

拟合曲线和误差指标评估可以用作评价预测效果的重要方法,但是在判定模型性能的优劣方面,需要进一步验证模型之间预测能力的差异是否显著。所以,在模型性能检验方面,研究采用DM检验法两两比较模型之间预测结果的差异的显著性,从而判断模型在客流量预测方面的性能差异。
DM检验的结果见表4。在差异显著的情况下,若DM的值为负,表示模型1较模型2的性能更优,DM的值为正则反之。如表4所示,在景区客流量的高时频预测方面,本文所提出的DBi-GRU模型的性能显著优于除DBi-LSTM以外的所有深度学习模型,包括同为双向网络的DBi-RNN模型以及所有常规网络模型(D-GRU,D-LSTM和D-RNN)。由于DBi-LSTM模型与DBi-GRU模型的性能差异并不显著,暗示了DBi-LSTM模型也有着相似出众的性能,在以一定程度上可成为景区客流量预测中DBi-GRU的替代模型。
表4 DM检验结果

Tab. 4 Results of DM test

评估的类型 评估的模型 DM指标
模型1 模型2 DM p
DBi-GRU模型的性能评估 DBi-GRU DBi-LSTM -1.499 0.138
DBi-RNN -1.682* 0.097
D-GRU -1.671* 0.099
D-LSTM -2.008** 0.005
D-RNN -1.719* 0.090
双向网络模型与常规网络模型的
性能对比评估
DBi-GRU D-GRU -1.671* 0.099
DBi-LSTM D-LSTM -1.772* 0.081
DBi-RNN D-RNN -1.298 0.198
常规网络模型的性能评估 D-GRU D-LSTM -1.709* 0.092
D-RNN -1.738* 0.086

注:“*”和“**”分别代表2个模型的性能差异在10%和5%的水平上显著。

在双向网络模型与常规网络模型的性能对比评估结果中,基于双向网络的DBi-GRU与DBi-LSTM模型都显著优于基于常规网络的D-GRU和D-LSTM模型,而同样基于双向网络的DBi-RNN模型与基于常规网络的D-RNN模型的差异则并不显著。这反映出在景区客流量预测中双向网络模型在很多情况下都显著优于常规网络模型,但这并不一定适用于所有神经元算法。在RNN算法下,双向网络模型的性能较常规网络模型而言并未出现显著提升;在常规网络模型的性能评估结果中,D-GRU模型在性能上显著优于D-LSTM和D-RNN模型。这表明在基于常规网络时GRU算法相比于LSTM和RNN算法更适用于景区客流量的高时频预测。

5 讨论

近年来,深度学习模型被越来越多地应用于客流量预测研究,其中LSTM是最常被使用的深度学习方法。在Bi[14]、Zhang[15]等的研究中,LSTM模型都取得了十分理想的预测效果,优于ARIMAX等线性时间序列方法,以及ANN、BPNN、SVR等浅层机器学习方法。随着AI技术的发展,深度学习算法也逐渐丰富。本研究基于更新的深度学习算法成果构建了DBi-GRU模型,并对比测试了此模型与前人使用的LSTM模型的预测效果。结果显示,4种误差指标(R2RMSEMAEMAPE)都表明DBi-GRU的客流量预测效果优于LSTM,这一优势在高峰时段的客流量预测中更为明显。DM检验也表明DBi-GRU模型性能在5%的水平上显著优于基于LSTM算法的模型。
此外,基于双向循环神经网络的模型也在近年被应用于客流量预测,但目前只有Kulshrestha等[43]的基于双向LSTM模型的研究。其研究虽表明在客流量预测中双向LSTM要优于常规LSTM,但有关双向网络模型在客流量预测方面的优越性的证据较为有限。本研究较其的提升之处在于:① 提出了预测效果更优的DBi-GRU;② 更全面地对比了双向网络模型与常规网络模型在客流量预测中的预测效果,将双向网络模型(DBi-GRU、DBi-LSTM,DBi-RNN)与常规网络模型(D-GRU、D-LSTM、 D-RNN)进行了逐一比较测试,得到的双向网络模型优越性的证据更为充足。
在数据的使用方面,过往研究主要使用时频较低的景区或政府官方的客流量统计数据[22-23]。相比之下,LBS等有更高时空精度的时空大数据在高时频客流量预测中具有更为显著的价值。本研究首次将此数据应用于景区的客流量预测,并取得了2个方面的突破:① 将客流量预测的时频大幅提升;② 增加了预测时频和空间范围的控制手段。对预测的控制是目前注重预测模型更替与升级的其他相关研究经常忽视的方面,但对预测控制的优化与预测模型的提升同样具有十分重要的意义。为弥补这一空白,本研究在提升预测模型的同时,也提出了一种对预测时频和空间范围的控制手段,使客流量预测便于配合景区的实际预测需求进行调整,以大幅提高预测的灵活性与可控性。
本研究主要存在2个方面的局限性。
(1) 由于本研究是短期的高时频预测,所涉数据的时间跨度相对较短,所以在休假日时段的预测方面仅能挖掘周期性较短的双休日的客流量变化信息。对于法定节假日等周期性更长的特殊时段的客流量预测,则需要依靠更长期的、大规模的高时频客流数据,以及更多影响客流的相关变量的数据进一步测试方法的预测效果。
(2)本研究仅以城市公园景区为例对所提出的方法进行测试,在有限的实验场景下方法的普适性结论还存在一定不足。旅游景区在类型上较为多元,对于不同类型的景区而言,影响客流量变化的因素以及因素的影响程度都存在差异。所以,针对其他类型景区的客流量预测,如何调整此方法中预测模型的输入特征变量及参数以达到预测效果的最优化,还需要更多、更广泛的实验予以检验。

6 结论与展望

为实现旅游景区客流量的高时频预测,本研究构建了一套基于LBS和深度学习模型的预测方法。此方法可在确定预测的空间范围和时频的情况下,将LBS数据转换成客流量的高频时间序列数据,并结合研究构建的深度学习模型(DBi-GRU),实现对景区范围内客流量的高时频预测。为验证此方法的有效性,研究以深圳市大梅沙海滨公园为例设置了预测实验。实验通过拟合曲线评估、误差指标检验以及DM检验3种方式,对DBi-GRU方法的预测效果和模型性能进行了评估。此外,实验还设置了对照用的5种深度学习模型,以客观比较基于不同算法的深度学习模型之间的预测效果。
(1)从实验结果来看,首先,本文提出的DBi-GRU模型不论在预测效果还是模型性能上都十分优异,相比于基于其他算法的深度学习模型,其预测的优越性也较为明显。即使在客流量变化幅度很大的高峰时段也有着较高的预测准确性,可以成为景区客流量预测的一种新方法。其次,双向网络模型的预测准确性普遍优于常规网络模型(在相同神经元算法下)。尤其是DBi-LSTM模型,在客流量的高时频预测方面也有着十分理想的效果,从模型性能上看可以成为DBi-GRU的一种替代模型。再次,在相同的神经网络结构和模型参数下,GRU算法较之前人们常使用的LSTM和RNN算法,在客流量的高时频预测中有着更高的准确性。
(2)在学术价值方面,研究开创性地提升了对旅游景区的预测时频。相比于已有的逐月、逐周、逐日时频的预测,本研究基于具有更高时空精度的LBS数据,实现了能反映一日内的客流量变化信息的高时频预测。此外,研究通过对LBS数据的智能化筛选与转换使其能和深度学习技术有效对接,实现了对预测的空间范围与时频的控制,这为时空大数据与深度学习技术相融合的客流量预测研究提供了研究样板和技术样板。与此同时,研究还对基于不同深度学习算法的模型的预测效果进行了对比验证,为客流量预测和旅游需求预测领域的研究提供了更多的实证性证据。
(3)在实践意义方面,本研究提出的方法能预测出更高时频(如精确到小时)的景区客流量变化信息,这可以为景区管理人员的短期客流管控和服务供给等工作提供必要的信息支持,如支持景区工作人员的提前安排与调配,景区开放时间的灵活控制,以及客流高峰期应急预案的制定等。在高时频预测信息的辅助下,景区的各类管控工作将更具前瞻性与灵活性。此外,本预测技术基于大数据与人工智能方法,具有预测方式智能化、预测对象信息化的特征,可以作为旅游景区的智能化与信息化发展所涉及的相关技术成果之一,有助于响应国家对智慧景区和数字景区建设的倡导。
现阶段,景区客流量的高时频预测研究,以及人工智能与时空大数据结合的客流量预测技术研究都尚处于发展的初期。本研究虽在这2个方面进行了一次探索性尝试,但是此领域的发展依然需要更多、更具针对性的研究,包括针对特殊时段的客流量预测研究,不同景区场景下的客流量预测研究,预测技术的创新性研究,以及基于其他高时频客流数据的应用研究,包括基于高时频的检票数据、视频监控数据、新型传感器数据的研究。这些研究将有助于拓宽客流预测和旅游需求预测等科研领域,也会对今后智慧旅游的高质量发展提供重要的理论支撑与技术支撑。
[1]
Law R, Li G, Fong D, et al. Tourism demand forecasting: a deep learning approach[J]. Annals of Tourism Research, 2019, 75:410-423. DOI:10.1016/j.annals.2019.01.014

DOI

[2]
Li S, Chen T, Wang L, et al. Effective tourist volume forecasting supported by PCA and improved BPNN using Baidu index[J]. Tourism Management, 2018, 68:116-126. DOI:10.1016/j.tourman.2018.03.006

DOI

[3]
Jiao E, Chen J. Tourism forecasting: A review of methodological developments over the last decade[J]. Tourism Economics, 2019, 25(3):469-492. DOI:10.1177/1354816618812588

DOI

[4]
Divino J, McAleer M. Modelling and forecasting daily international mass tourism to Peru[J]. Tourism Management, 2010, 31(6):846-854. DOI:10.1016/j.tourman.2009.09.002

DOI

[5]
Wen L, Liu C, Song H. Forecasting tourism demand using search query data: a hybrid modelling approach[J]. Tourism Economics, 2019, 25(3):309-329. DOI:10.1177/1354816618768317

DOI

[6]
Li X, Pan B, Law R, et al. Forecasting tourism demand with composite search index[J]. Tourism Management, 2017, 59:57-66. DOI:10.1016/j.tourman.2016.07.005

DOI

[7]
Sun S, Wei Y, Tsui K, et al. Forecasting tourist arrivals with machine learning and internet search index[J]. Tourism Management, 2019, 70:1-10. DOI:10.1016/j.tourma n.2018.07.010

DOI

[8]
余向洋, 胡善风, 朱国兴, 等. 基于LS-SVM方法的景区客流中期预测研究[J]. 旅游学刊, 2013, 28(4):75-82.

[ Yu X, Hu S, Zhu G, et al. Research on medium-term prediction of tourist arrivals in scenic areas based on least squares support vector machines[J]. Tourism Tribune, 2013, 28(4):75-82.] DOI:10.3969/j.issn.1002-5006.2013.04.008

DOI

[9]
Pan B, Wu D, Song H. Forecasting hotel room demand using search engine data[J]. Journal of Hospitality and Tourism Technology, 2012, 3(3):196-210. DOI:10.1108/17579881211264486

DOI

[10]
Pan B, Yang Y. Forecasting destination weekly hotel occupancy with big data[J]. Journal of Travel Research, 2017, 56(7):957-970. DOI:10.1177/0047287516669050

DOI

[11]
Yang Y, Pan B, Song H. Predicting hotel demand using destination marketing organization's network traffic data[J]. Journal of Travel Research, 2014, 53(4):433-447. DOI:10.1177/0047287513500391

DOI

[12]
Bangwayo-Skeete P, Skeete R. Can Google data improve the forecasting performance of tourist arrivals? mixed-data sampling approach[J]. Tourism Management, 2015, 46:454-464. DOI:10.1016/j.tourman.2014.07.014

DOI

[13]
段莉琼, 宫辉力, 刘少俊, 等. 基于客源地的聚类-ARIMA模型的短期旅游需求预测——以天津欢乐谷主题公园为例[J]. 地域研究与开发, 2017, 36(3):108-112.

[ Duan L, Gong H, Liu S, et al. Short-term forecasting tourism demand based on origin's hierarchical clustering ARMA model: A case study of Tianjin Happy Valley theme park[J]. Areal Research and Development, 2017, 36(3):108-112. ]

[14]
Bi J, Liu Y, Li H. Daily tourism volume forecasting for tourist attractions[J]. Annals of Tourism Research, 2020, 83:102923. DOI:10.1016/j.annals.2020.102923

DOI

[15]
Zhang B, Li N, Shi F, et al. A deep learning approach for daily tourist flow forecasting with consumer search data[J]. Asia Pacific Journal of Tourism Research, 2020, 25(3):323-339. DOI:10.1080/10941665.2019.1709876

DOI

[16]
Huang X, Zhang L, Ding Y. The Baidu Index: Uses in predicting tourism flows: A case study of the Forbidden City[J]. Tourism Management, 2017, 58:301-306. DOI:10.101 6/j.tourman.2016.03.015

DOI

[17]
黄先开, 张丽峰, 丁于思. 百度指数与旅游景区游客量的关系及预测研究——以北京故宫为例[J]. 旅游学刊, 2013, 28(11):93-100.

[ Huang X, Zhang L, Ding Y. Study on the predictive and relationship between tourist attractions and the Baidu Index: A case study of the Forbidden City[J]. Tourism Tribune, 2013, 28(11):93-100.] DOI:10.3 969/j.issn.1002-5006.2013.011.011

DOI

[18]
梁昌勇, 马银超, 陈荣, 等. 基于SVR-ARMA组合模型的日旅游需求预测[J]. 管理工程学报, 2015, 29(1):122-127.

[ Liang C, Ma Y, Chen R, et al. The daily forecasting tourism demand based on SVR-ARMA combination model[J]. Journal of Industrial Engineering and Engineering Mangement, 2015, 29(1):122-127. ] DOI:10.3969/j.issn.1004-60 62.2015.01.016

DOI

[19]
Song H, Li G. Tourism demand modelling and forecasting: A review of recent research[J]. Tourism Management, 2008, 29(2):203-220. DOI:10.1016/j.tourman.2007.07.016

DOI

[20]
Li X, Law R, Xie G, et al. Review of tourism forecasting research with internet data[J]. Tourism Management, 2021, 83:104245. DOI:10.1016/j.tourman.2020.104245

DOI

[21]
Song H, Qiu R, Park J. A review of research on tourism demand forecasting[J]. Annals of Tourism Research, 2019, 75:338-362. DOI:10.1016/j.annals.2018.12.001

DOI

[22]
Li K, Liang C, Lu W, et al. Forecasting of short-term daily tourist flow based on seasonal clustering method and PSO-LSSVM[J]. ISPRS International Journal of Geo-information, 2020, 9(11):676. DOI:10.3390/ijgi9110676

DOI

[23]
Li K, Lu W, Liang C, et al. Intelligence in tourism management: A hybrid FOA-BP method on daily tourism demand forecasting with web search data[J]. Mathematics, 2019, 7:531. DOI:10.3390/math7060531

DOI

[24]
Cho K, van Merrienboer B, Gulcehre C, et al. Learning phrase representations using RNN Encoder-Decoder for statistical machine translation[EB/OL].[2022-04-23]. https://arxiv.org/pdf/1406.1078.pdf.

[25]
Schuster M, Paliwal K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45:2673-2681. DOI:10.1177/0047287512461569

DOI

[26]
Becken S. Measuring the effect of weather on tourism: a destination-and activity-based analysis[J]. Journal of Travel Research, 2013, 52(2):156-167.DOI:10.1109/78.650093

DOI

[27]
Gössling S, Scott D, Hall C M, et al. Consumer behavior and demand response of tourists to climate change[J]. Annals of Tourism Research, 2012, 39:36-58. DOI:10.1016/j.annals.2011.11.002

DOI

[28]
Chen R, Liang C, Hong W, et al. Forecasting holiday daily tourist flow based on seasonal support vector regression with adaptive genetic algorithm[J]. Applied Soft Computing, 2015, 26:435-443. DOI:10.1016/j.asoc.2014.10.022

DOI

[29]
Wielgosz M, Skoczeń A, Mertik M. Using lstm recurrent neural networks for monitoring the LHC superconducting magnets[J]. Nuclear Instruments and Methods in Physics Research Section A Accelerators Spectrometers Detectors and Associated Equipment, 2017, 867:40-50. DOI:10.101 6/j.nima.2017.06.020

DOI

[30]
腾讯公司. 腾讯位置大数据[EB/OL].[2021-03-23]. https://heat.qq.com/bigdata/index.html.

[ Tencent company. Tencent location big data[EB/OL].[2021-03-23]. https://heat.qq.com/bigdata/index.html.

[31]
于丙辰, 陈刚. 基于腾讯区域热力图的庐山核心景区客流研究[J]. 国土与自然资源研究, 2017(2):83-89.

[ Yu B, Chen G. Research on visitor flows of Lushan core scenicarea using Tencent regional heatmap[J]. Territory and Natural Resources Study, 2017(2):83-89. ] DOI:10.3969/j.issn.1003-7853.2017.02.022

DOI

[32]
Lai J, Pan J. China's city network structural characteristics based on population flow during Spring Festival travel rush: empirical analysis of “Tencent Migration” big data[J]. Journal of Urban Planning and Development, 2020, 146(2):1-14. DOI:10.1061/(ASCE)UP.1943-5444.0000581

DOI

[33]
Pan J, Lai J. Spatial pattern of population mobility among cities in China: Case study of the National Day plus Mid-Autumn Festival based on Tencent migration data[J]. Cities, 2019, 94:55-69. DOI:10.1016/j.cities.2019.05.022

DOI

[34]
Zhao D, Chen M, Zhang H, et al. Evaluation of ghost cities based on spatial clustering: A case study of Chongqing, China[J]. Arabian Journal of Geosciences, 2021, 14:1-17. DOI:10.1007/s12517-021-06448-1

DOI

[35]
Yang Z, Gao W, Zhao X, et al. Spatiotemporal patterns of population mobility and its determinants in Chinese cities based on travel big data[J]. Sustainability, 2020,12,1-25. DOI:10.3390/su12104012

DOI

[36]
Worldweatheronline. Shenzhen weather[EB/OL]. [ 2022- 01-20]. https://www.worldweatheronline.com

[37]
Lu W, Jin J, Wang B, et al. Intelligence in tourist destinations management: Improved attention-based Gated Recurrent Unit model for accurate tourist flow forecasting[J]. Sustainability, 2020, 12:1-20. DOI:10.3390/su12041390

DOI

[38]
Singh U, Determe J, Horlin F, Doncker P. Crowd forecasting based on WiFi sensors and LSTM neural networks[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69:6121-6131. DOI:10.1109/TIM.2020.2969588

DOI

[39]
Ali A, Zhu Y, Zakarya M. A data aggregation based approach to exploit dynamic spatio-temporal correlations for citywide crowd flows prediction in fog computing[J]. Multimedia Tools and Applications, 2021, 80(20):31401-31433. DOI:10.1007/s11042-020-10486-4

DOI

[40]
Li H, Wang Y, Xu X, et al. Short-term passenger flow prediction under passenger flow control using a dynamic radial basis function network[J]. Applied Soft Computing Journal, 2019, 83:1-13. DOI:10.1016/j.asoc.2019.105620

DOI

[41]
Wu Y, Yuan M, Dong S, et al. Remaining useful life estimation of engineered systems using vanilla LSTM neural networks[J]. Neurocomputing, 2018, 275:167-179. DOI:10.1016/j.neucom.2017.05.063

DOI

[42]
Hochreiter S, Schmidhuber J. Long short- term memory[J]. Neural Computation, 1997, 9(8):1735-1780. DOI:10.1162/neco.1997.9.8.1735

DOI PMID

[43]
Kulshrestha A, Krishnaswamy V, Sharma M. Bayesian BILSTM approach for tourism demand forecasting[J]. Annals of Tourism Research, 2020, 83:1-19. DOI:10.1016/j.annals.2020.102925

DOI

Outlines

/