轨迹与交通

一种识别共享单车潮汐点的时空模型和基于KNN-LightGBM的租还需求预测方法

  • 柯日宏 ,
  • 吴升 , * ,
  • 柯玮文
展开
  • 福州大学 数字中国研究院(福建),福州 350003
*吴升(1972—),男,福建松溪人,博士,教授,主要研究方向为时空数据分析与可视化、数字化规划等。 E-mail:

柯日宏(1998—),男,福建三明人,硕士生,主要从事地理信息服务与时空数据挖掘研究。E-mail:

收稿日期: 2022-09-08

  修回日期: 2022-12-06

  网络出版日期: 2023-04-19

基金资助

中国科学院战略性先导科技专项(A类)(XDA23100502)

福建省高校数字经济学科联盟建设(闽教高〔2022〕15号)

A Spatial-temporal Model for Identifying Tidal Shared-bicycle Stops and Bicycle Sharing Demand Prediction based on KNN-LightGBM

  • KE Rihong ,
  • WU Sheng , * ,
  • KE Weiwen
Expand
  • The Academy of Digital China (Fujian), Fuzhou University, Fuzhou 350003, China
*WU Sheng, E-mail:

Received date: 2022-09-08

  Revised date: 2022-12-06

  Online published: 2023-04-19

Supported by

Strategic Priority Research Program of the Chinese Academic of Science, No.XDA23100502

Construction of University Discipline Alliance of Digital Economy of Fujian Province, No.Min Jiao Gao(2022)15.

摘要

随着互联网租赁自行车(共享单车)的兴起,“共享单车+地铁”“共享单车+公交”已成为城市通勤的主要接驳方式,但共享单车的“潮汐效应”也成为共享单车管理和资源调配的“痛点”和“难点”。因此,发现共享单车的“潮汐规律”,准确预测共享单车停车区(电子围栏)的租还需求,对于共享单车的有序规范发展,优化用车体验和环境等具有重要意义。本文首先基于共享单车订单数据和“电子围栏”空间数据,提出一种识别共享单车潮汐点的时空模型并分析其潮汐性时空特征。该模型将潮汐点定义为短时间内因大量共享单车租或还从而导致无车可租或无车位可停的电子围栏,然后根据电子围栏在某时间段的状态进行分类,并赋予不同的缺车/缺停指数。结果显示该模型能够精准识别特定时段出现的潮汐点。随后,基于共享单车订单、城市信息点(POI)、道路、人口、土地利用、气温、风速等时空数据,并考虑局部范围内的电子围栏相关性,构建KNN-LightGBM模型来预测共享单车租还需求:① 利用主成分分析(Principal Component Analysis,PCA)进行特征提取;② 利用KNN(K Nearest Neighbors)算法计算局部范围内电子围栏之间相关信息;③ 整合PCA提取的特征向量和电子围栏相关信息作为输入特征,利用LightGBM方法进行租还需求预测;④ 评估影响租还需求预测的特征重要性。结果表明:与常用的4种机器学习方法进行对比,KNN-LightGBM在不同时间尺度下的预测实验中RMSEMAE的平均值均最小,R2r平均值均最大,预测效果较好;利用KNN计算局部范围内的电子围栏相关性,能够有效的提高预测精度,与LightGBM相比,KNN-LightGBM的RMSE和MAE分别降低了10%和11%,R2r分别提高了3%和4%;共享单车的历史订单数据对租还需求预测最为重要,与最近公共交通接驳站距离的重要性次之。

本文引用格式

柯日宏 , 吴升 , 柯玮文 . 一种识别共享单车潮汐点的时空模型和基于KNN-LightGBM的租还需求预测方法[J]. 地球信息科学学报, 2023 , 25(4) : 741 -753 . DOI: 10.12082/dqxxkx.2023.220673

Abstract

With the rise of bicycle sharing network, "shared-bicycle + subway" and "shared-bicycle + bus" have become the main mode of urban commuting, but the "tidal effect" of shared-bicycle makes it difficult to manage and deploy resources. Therefore, exploring the "tidal law" of shared-bicycle and accurately predicting the demand for borrowing and returning bicycles at parking areas (electronic fences) are important for the orderly and standardized development of shared-bicycle and the optimization of the riding experience and environment. Based on the spatial data of shared-bicycle orders and electronic fences, our research proposes a spatial-temporal model for identifying tidal shared-bicycle stops and analyzing their tidal spatial-temporal characteristics. Our model defines the tidal shared-bicycle stops as electric fences with lacking-bike/lacking-parking due to a large number of shared-bicycles borrowed/returned for a short time. The electric fences are then classified according to their status at a certain period and assigned different lacking-bike/lacking-parking indexes. The results show that our spatial-temporal model can accurately identify the tidal shared-bicycle stops at a specific period. Moreover, based on the spatial-temporal data such as shared bicycle orders, city information points (POI), road, population, land-use type, temperature, and wind speed, and considering the correlation of electronic fences at the local area, we propose a K Nearest Neighbors (KNN)-LightGBM model to predict the sharing demand of shared bicycles, which includes: (1) Principal Component Analysis (PCA) is used to extract characteristics; (2) The KNN algorithm is used to calculate the correlation information of electronic fences at the local area; (3) We integrate the characteristic vectors extracted by PCA and the correlation information of electronic fences as input, and use the LightGBM model to predict the sharing demand of bicycles; (4) We evaluate the importance of the characteristics that affect the sharing demand. The results show that the proposed KNN-LightGBM is better than the common machine learning methods in demand prediction at different time scales. The mean values of RMSE and MAE using our proposed model are the smallest and the mean values of R2 and r are the largest. We use the KNN algorithm to calculate the correlation of electronic fences, which can effectively improve the prediction accuracy. Compared with LightGBM, the RMSE and MAE of KNN-LightGBM are reduced by 10% and 11%, respectively, and R2 and r are improved by 3% and 4%, respectively. Based on the importance assessment of characteristics, the historical data of shared-bicycle orders are the most important for the demand prediction, followed by the distance to the nearest public transportation stations. Our study demonstrates the potential of model.

1 引言

互联网租赁自行车(俗称“共享单车”)是移动互联网和租赁自行车融合发展的新型服务模式。近年来,我国共享单车快速发展,在更好地满足公众出行需求、有效解决城市交通出行“最后一公里”问题、缓解城市交通拥堵、构建绿色出行体系等方面发挥了积极作用,推动了分享经济发展。但同时也存在车辆乱停乱放、运营维护不到位等问题[1]。特别是,作为城市短距离出行和公共交通接驳的重要交通方式,共享单车的“潮汐现象”已成为共享单车管理和资源调配的“痛点”和“难点”。早高峰共享单车潮水般涌入学校、办公园区、医院、公交站、地铁站等,随意侵占人行道、机动车道和绿地,不但影响了市民出行、交通秩序和城市环境,更存在一定程度的安全隐患;晚高峰共享单车又潮水般退去,想找辆车都不容易。因此,在分析共享单车潮汐特征的基础上,准确预测租还需求,对于共享单车的有序规范持续发展,优化城市居民用车体验等具有重要意义。
目前共享单车潮汐现象研究主要聚焦于时空特征挖掘。研究发现,共享单车潮汐现象出现的时间多发于早、晚高峰,且工作日更为明显[2-5]。出现的区域主要位于地铁站、办公楼、公园、医院、商场和居民区[5]等POI附近,现有研究大多从热点区域的角度来研究共享单车的潮汐现象[5-7],识别热点区域大多采用时空聚类方法[5-6],如姜晓等[5]综合考虑了空间因素(地理位置、地理环境特征)和时间因素(历史订单),通过网络图聚类划分社区,进而识别和定位共享单车使用的热点地区。Hui等[7]将热点区域定义为短时间内大量共享单车流入或流出的区域,采用DBSCAN方法识别热点区域。在共享单车需求预测方面,通常会考虑气象、人口、土地使用、建筑环境等因素的影响[8-9],研究方法一般采用ARIMA等统计模型[10-11],但随着数据可访问性和计算能力提高,开始转向机器学习方法[12],如支持向量回归[13]、回归树[14]、随机森林[15]、神经网络[5,16-17]等。如E S V等[18]利用线性回归、支持向量回归、GBDT(Gradient Boosting Decision Tree)、Xgboost(eXtreme Gradt Boosting)、LightGBM(Light Gradient Boosting Machine)等方法预测韩国首尔地区公共自行车需求,结果显示LightGBM效果最优;Lin 等[19]提出了一种新的图卷积神经网络模型,充分考虑站点之间的相关性,预测大规模共享单车网络中各站点小时尺度的需求。
上述时空聚类方法大多只能获得宏观尺度的共享单车热点区域,而且聚类参数的设置对结果影响较大,因此难以识别出微观尺度具有显著潮汐特征的“电子围栏”。此外,现有的共享单车需求预测研究大多未考虑单个电子围栏的容量、租/还需求差异及时空特征。基于此,本文首先利用时空模型识别潮汐点并分析其潮汐性时空特征,然后结合KNN和LightGBM建立租还需求预测模型:① 利用PCA进行特征提取;② 利用KNN算法计算局部范围内电子围栏之间相关信息;③ 整合PCA提取的特征向量和电子围栏相关信息作为输入特征,利用LightGBM方法进行租还需求预测;④ 与现有的机器学习方法进行对比,并分析特征相对重要性。

2 研究方法

本文技术框架如图1所示。首先将原始共享单车订单数据进行清洗,识别有效的订单,并利用HNSW算法将订单OD点匹配到最近的电子围栏上,获取每个电子围栏的租还情况;其次,基于共享单车订单数据和“电子围栏”空间数据,利用时空模型识别出共享单车潮汐点,并分析其潮汐性时空特征;最后,基于时空特征,并考虑电子围栏的空间相关性,构建KNN-LightGBM模型来预测共享单车租还需求,与现有的机器学习方法进行对比,并分析特征相对重要性。
图1 共享单车潮汐点识别与租还需求预测研究的技术框架

Fig. 1 The technical Framework for identification of tidal shared-bicycle stops and demand prediction of borrow-return

2.1 基于时空模型识别潮汐点

(1)定义共享单车潮汐点为:短时间内因大量共享单车租或还,导致无车可租或无车位可停的电子围栏。
(2)将电子围栏在某时间段的状态分为以下6类:
① 没有共享单车:a(i, j, k)=0
② 只有少量共享单车:0<a(i, j, k)≤0.2×p(i)
③ 有充足共享单车和停车位:p(i)×0.2<a(i, j, k)≤p(i)×0.8
④ 只有少量停车位:p(i)×0.8<a(i, j, k)≤p(i)
⑤ 轻度堆积:0<b(i, j, k)≤p(i)×0.2
⑥ 重度堆积:p(i)×0.2<b(i, j, k)
其中,a(i, j, k)是第i个电子围栏第j天第k时间段可租用的共享单车数量;b(i, j, k)是第i个电子围栏第j天第k时间段缺少停车位的数量;p(i)是第i个电子围栏的停车位总数。i=1, ,nj=1, ,dk=1, ,t
(3)根据电子围栏的状态,将第i个电子围栏第j天第k时间段的缺车指数c(i, j, k)和缺停指数 d(i, j, k)定义如表1所示。
表1 电子围栏状态与缺车/缺停指数

Tab. 1 Electronic fence status and lacking-bike / lacking-parking index

电子围栏状态 缺车指数 缺停指数
没有共享单车 2 0
只有少量共享单车 1 0
有充足共享单车和停车位 0 0
只有少量停车位 0 1
轻度堆积 0 2
重度堆积 0 3
(4)基于步骤(3)定义,使用不同的缺车/停指数识别共享单车潮汐点,如式(1)—式(4)所示。
C ( i ) = j = 1 d k = 1 t c ( i , j , k )
D ( i ) = j = 1 d k = 1 t d ( i , j , k )
C ( k ) = i = 1 d c ( i , j , k )
D ( k ) = i = 1 d d ( i , j , k )
式中: C ( i )表示第i个电子围栏的总缺车指数; D ( i )表示第i个电子围栏的总缺停指数; C ( k )表示共享单车系统在第j天第k时间段的缺车指数; D ( k )表示共享单车系统在第j天第k时间段的缺停指数。i=1, , nj=1, , dk=1, , t

2.2 基于KNN-LightGBM模型预测共享单车租还需求

本文提出基于时空特征的KNN-LightGBM模型来预测共享单车租还需求,模型主要分为3个部分:① 利用PCA进行特征提取;② 利用KNN计算局部范围内电子围栏的相关性;③ 利用LightGBM预测租还需求。具体步骤如下。

2.2.1 利用PCA从时空特征提取主要成分

通过共享单车潮汐性时空特征分析发现潮汐点大多位于地铁站、空中自行车道出入口、商业中心、医院、集中办公区(如软件园)等POI附近,且天气情况对共享单车潮汐现象影响较大。进一步参考相关文献[4-7]确定本文租还需求预测的特征,利用PCA[20]从时空特征提取主要成分,提高模型性能。

2.2.2 利用KNN算法计算局部范围内电子围栏的

相关性
本文采用KNN[21]算法计算目标电子围栏与周围电子围栏在历史租还需求的相关程度,将局部范围内相关的电子围栏信息作为输入特征,以预测精度作为评价标准,确定参数k的最优值。具体步骤为:
(1)考虑电子围栏之间的空间距离,用 D m , n表示电子围栏之间的相关权重,如式(5)所示。
D m , n = 1 d i s t ( x m , x n ) R 0 d i s t ( x m , x n ) > R
式中: d i s t ( x m , x n )表示电子围栏mn之间的欧式距离;R为距离阈值。当2个电子围栏的距离小于等于阈值R的大小,则2个电子围栏的相关权重系数为1,否则为0。
(2)通过电子围栏的历史租还数据建立时间序列矩阵X,如式(6)所示,xij表示电子围栏ij时段租或还的数量。
X = x 11 x 12 x 1 j x 1 m x 21 x 22 x 2 j x 2 m x i 1 x i 2 x i j x i m x n 1 x n 2 x n j x n m
(3)利用KNN算法,计算不同参数k得到的电子围栏相关性。

2.2.3 利用LightGBM算法预测租还需求

LightGBM[18]是微软亚洲研究院提出的一种梯度增强框架和梯度增强决策树(GBDT)模型的改进算法,LightGBM解决了传统boosting算法在扩展性和运行速度上的不足,模型支持并行学习,可以大大减少训练时间和计算成本[18]。本文基于上述PCA提取的特征向量和KNN计算得到的邻近电子围栏的相关信息作为输入特征,利用LightGBM算法预测租还需求。

2.3 评价指标

使用均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)、决定系数(R2)、相关系数(r)、ROC(Receiver Operating Characteristic)曲线下方的面积大小(Area Under Curve,AUC)来评估预测效果,分别如式(7)—式(10)所示。
R M S E = 1 n i = 1 n ( y ( i ) - y ˆ ( i ) ) 2
M A E = 1 n i = 1 n ( y ( i ) - y ˆ ( i ) )
R 2 = 1 - i = 1 n ( y ( i ) - y ˆ ( i ) ) 2 i = 1 n ( y ( i ) - y - ) 2
r = 1 - C o v ( y ( i ) - y ˆ ( i ) ) V a r [ y ( i ) ] V a r [ y ˆ ( i ) ]
式中: y ( i ) y ˆ ( i )分别是第i个测试值和预测值; y ˆ是平均值;n是测试集的大小; C o v ( y ( i ) - y ˆ ( i ) ) y ( i ) y ˆ ( i )的协方差; V a r [ y ( i ) ] y ˆ ( i )的方差。

3 实验区概况、数据来源及预处理

3.1 实验区概况

研究实验区选择厦门岛内,即思明区和湖里区,如图2所示。
图2 厦门岛研究区概况

Fig.2 Description of Xiamen Island

3.2 实验数据

采用的主要数据及来源如表2所示。
表2 数据及来源

Tab. 2 Data and sources

数据 时间 来源
共享单车订单 2020年12月21—25日6:00—10:00 2021数字中国创新大赛赛题数据
电子围栏 2020年12月 2021数字中国创新大赛赛题数据
路网 2021年6月 OpenStreetMap(openstreetmap.org)
POI 2021年6月 高德地图API数据开放接口(lbs.amap.com)
人口 2021年5月 红黑人口库(hongheiku.com)
土地利用 2020年 地理科学数据网(csdn.store)
天气 2020年12月 美国国家海洋和大气管理局开放数据(www1.ncdc.noaa.gov/pub/data/noaa)

3.3 数据预处理

(1)订单数据清洗。剔除以下订单数据:起点或终点在研究区外;行程距离大于5 km或小于100 m;行程时长大于1 h或小于30 s。清洗后得到291 288条订单数据,单个订单轨迹数据示例如表3所示。
表3 单个订单轨迹数据示例

Tab. 3 Example of order data

订单_ID 定位时间 纬度/°N 经度/°E
sbo000001 2020/12/21 6:00:12 24.521 046 82 118.161 503 7
sbo000001 2020/12/21 6:00:27 24.518 092 38 118.163 777 4
... ... ... ...
sbo000001 2020/12/21 6:26:08 24.479 891 29 118.186 703 0
(2)电子围栏中心点和停车位估算。根据电子围栏4个角点的经纬度坐标,计算每个电子围栏的面积和中心点经纬度坐标。按照每辆共享单车占地面积1.5 m2估算,得到每个电子围栏的停车位数量。研究区共14 710个电子围栏,76 733个停车位。数据示例如表4所示。
表4 电子围栏数据示例

Tab. 4 Example of electronic fence data

电子围栏ID 中心点坐标 面积/m2 停车位/个
纬度/°N 经度/°E
故宫路0_R_2 24.462 412 61 118.079 007 88 5.9 4
观日路(望海路至会展路段 )_R_1 24.488 102 32 118.181 194 59 8.0 5
... ... ... ... ...
安岭路_L_9_B 24.534 229 23 118.151 338 23 9.1 6
(3)电子围栏净流量估算。将订单数据的OD点通过HNSW[22](Hierarchical Navigable Small World)模型匹配到电子围栏(图3),从而得到每个电子围栏各时间段(按每小时分段)的净流量(流入量-流出量)。示例数据如表5所示。
图3 早6:00—10:00时段订单OD点匹配

Fig. 3 Matching orders OD points from 6:00am to 10:00am

表5 电子围栏各时间段的净流量

Tab. 5 Net flow of electronic fence in each time period

电子围栏ID 2020-12-21
6:00:00—7:00:00
2020-12-21
7:00:00—8:00:00
... 2020-12-25
9:00:00—10:00:00
双浦0_R_A20001 6 -2 ... -2
枋湖北二路0_L_A21001 5 -1 ... -1
... ... ... ... ...
云顶中路0_L_A03003 8 1 ... -2

4 结果与分析

4.1 共享单车潮汐性时空特征分析

4.1.1 共享单车潮汐点识别

基于时空模型(式(1)和式(2)),使用2020年12月21—25日6:00—10:00各时间段的净流量数据,计算得到总缺车指数C(i)和总缺停指数D(i)最大的各20个潮汐点,其缺车指数c(i, j, k)和缺停指数d(i, j, k)的时间分布如图4所示,空间分布如图5所示。
图4 厦门岛共享单车潮汐点缺车/缺停指数的时间分布

Fig. 4 Temporal distribution of lacking-bike/lacking-parking index of tidal shared-bicycle stops in Xiamen island

图5 厦门岛共享单车潮汐点的空间分布

Fig. 5 Spatial distribution of tidal shared-bicycle stops in Xiamen island

4.1.2 潮汐性时空特征分析

(1) 时间特征分析
基于时空模型(式(3)和式(4)),使用2020年12月21—25日6:00—10:00各时间段的净流量数据,计算得到各时段共享单车系统的缺车指数C(k)和缺停指数D(k),其变化趋势如图6所示。其中,在6:00—7:00时段,共享单车的租还次数较少,几乎不存在缺车和缺停现象;在7:00—9:00通勤高峰时段,缺车指数和缺停指数同步快速上升,在9:00—10:00时段,缺车指数和缺停指数同步快速下降。其中23日缺车/缺停指数骤降可能是由于天气因素(中雨—小雨)不适合选择共享单车出行。
图6 厦门岛共享单车系统各时段缺车和缺停指数的变化趋势

Fig. 6 Change trend of lacking-bike/lacking-parking index of shared bicycle system by time period in Xiamen island

(2) 空间特征分析
通过潮汐点的空间分布,如图5所示,发现潮汐点大多位于地铁站、空中自行车道出入口、商业中心、医院、集中办公区(如软件园)等POI附近。利用皮尔逊相关系数[23](Pearson correlation coefficient)计算得到潮汐点之间的相关性矩阵图,如图7所示,发现缺车点之间及缺停点之间均存在较强的正相关,而缺车点和缺停点之间存在负相关。进一步研究发现,当潮汐点之间的距离在2 km以内,潮汐点之间存在较强的空间相关性,距离越近,相关系数越大。如缺车点6、8相关系数为0.95(图7中A处),缺停点21、24相关系数为0.85(图7中B处);缺车点6和缺停点26相关系数-0.85(图7中C处)。
图7 厦门岛共享单车潮汐点相关系数矩阵

Fig. 7 Correlation matrix of tidal shared-bicycle stops in Xiamen island

使用ArcGIS分组分析工具,分别对所有缺车潮汐点和缺停潮汐点进行聚类,得到17个缺车区和11个缺停区,如图8(a)所示,统计各潮汐区的共享单车流动情况,绘制成弦图,如图9所示,发现缺车区和缺停区存在邻近伴生现象,即共享单车从缺车区流向邻近缺停区,如东部软件园二期地铁站附近的缺车区8和缺停区24,缺车区6和缺停区24、21等,如图8(b)所示。
图8 厦门岛共享单车潮汐点聚类区域空间分布

Fig. 8 Spatial distribution of tidal shared-bicycle stops clustering regions in Xiamen island

图9 厦门岛共享单车缺车区和缺停区之间的共享单车流动情况

Fig. 9 Flow of shared-bicycles between the lacking-bike regions and the lacking-parking regions in Xiamen island

4.2 基于电子围栏的共享单车租/还需求预测

以2020年12月21—24日的数据作为训练集,25日的数据作为测试集,在1 h(8:00—9:00)和4 h(6:00—10:00) 2个时间尺度下分别预测共享单车租/还需求,并选取以下时间特征、空间特征、天气特征,如表6所示。
表6 特征说明

Tab. 6 Description of input characteristics

特征 描述
时间特征 电子围栏2020年12月21—24日6:00—10:00的租/还车数量/个
空间特征 电子围栏200 m范围各类型POI(政府机构、住宅、企业、餐饮服务、金融服务、生活服务、体育休闲服务)的数量/个
电子围栏与最近风景名胜、医院、学校、商场、公交车站、地铁站、空中自行车道出入口等的距离/m)
电子围栏所在道路等级
电子围栏所在街道(行政单元)的人口密度/(人/m2
电子围栏所在区域的土地利用类型
天气特征 天气情况(晴/多云/阴/雨)
气温/℃
风速/(m/s)
能见度/m

4.2.1 结果对比分析

将KNN-LightGBM与LightGBM[18]、XGBoo- st[17-18]、Random Forests[15]和Linear Regression[18] 4种模型预测的结果进行对比分析,结果如图10所示。与他4种模型相比,KNN-LightGBM在4组实验中得到的RMSEMAE均最小,平均值分别为1.14和0.67,说明KNN-LightGBM模型预测误差最小且精度最高;R2r均最大,平均值均为0.84,说明KNN-LightGBM模型拟合程度最好;与LightGBM相比,KNN-LightGBM考虑局部范围内的电子围栏相关性能够有效的提高预测精度。KNN-LightGBM的RMSEMAE分别降低了10%和11%,R2r分别提高了3%和4%。
图10 不同模型预测结果对比

Fig. 10 Comparison of prediction results with different models

基于KNN-LightGBM模型在1 h和4 h时间尺度下预测租还需求,得到4组实验结果,如图11所示。4组实验的40个潮汐点预测值与真实值基本拟合且迭代次数分别在119、104、40、43时,训练效果达到最佳,不同时间尺度预测实验的AUC都在0.8以上,没有发生过拟合现象,所以预测结果基本有效。
图11 基于KNN-LightGBM模型在1 h和4 h时间尺度下预测租/还需求的结果对比

Fig. 11 Results comparison of demand forecasting of borrow and return based on KNN-LightGBM model at 1 hour and 4 hour time scales

4.2.2 特征重要性评估

以4 h时间尺度为例,进一步评估表6中各特征对预测的重要性,结果如图12所示,具体表现为:① 时间特征重要性最为显著,前四日6:00—10:00的租/还车数量对预测的重要性得分均超过9.5%,其中最近的一天即24日得分最高;② 与最近公共交通接驳站(地铁站、公交车站、空中自行车道出入口)距离的重要性次之,得分均超过3.5%;③ 部分特征在租/还需求预测中的重要性存在明显差异,如200 m范围内住宅数量对租车需求预测的重要性明显大于还车需求预测,而最近商场距离、最近风景名胜距离、200 m范围内企业数量等则相反;④ 其中天气特征的重要性相对较低可能由于所选取的实验样本时间周期较小。
图12 共享单车租/还需求预测特征重要性比较

Fig. 12 Comparison of the importance of shared-bicycle demand forecasting of borrow and return characteristics

5 结论

本文首先基于共享单车订单数据和电子围栏空间数据,提出一种识别共享单车潮汐点的时空模型并分析其潮汐性时空特征。然后,基于时空特征,并考虑局部范围内电子围栏的空间相关性,构建KNN-LightGBM模型来预测共享单车租还需求,最后评估影响租还需求预测的特征重要性。主要结论如下:
基于厦门岛2020年12月21—25日6:00—10:00时的数据,发现:① 早7:00—9:00通勤高峰时段,潮汐现象最严重;潮汐点大多位于地铁站、空中自行车道出入口、商业中心、医院、集中办公区(如软件园)等POI附近;② 天气因素对潮汐现象有较大的影响,其中雨天对潮汐现象有极大的缓解;③ 缺车点之间及缺停点之间均存在较强的正相关,缺车点和缺停点之间存在负相关,且距离越近相关性越强;缺车区和缺停区存在邻近伴生现象。
与常用的4种机器学习方法进行对比,基于时空特征的KNN-LightGBM:① 在不同时间尺度下的预测实验中RMSE、MAE的平均值均最小分别为1.14、0.67,R2和r平均值均最大分别为0.84和0.84,预测效果较好;② 利用KNN计算局部范围内的电子围栏相关性,能够有效的提高预测精度,与LightGBM相比,KNN-LightGBM的RMSEMAE分别降低了10%和11%,R2r分别提高了3%和4%;③ 在特征重要性评估中,共享单车的历史订单数据对租还需求预测最为重要,与最近公共交通接驳站距离的重要性次之,其中天气特征的重要性相对较低可能由于所选取的实验样本时间周期较短。

6 讨论

虽然本文提出了普遍适用的识别潮汐点的时空模型和租还需求预测方法,但由于本文只获取到2020年12月21—25日6:00—10:00有限时间范围的共享单车订单数据,因此本文对厦门岛潮汐特征的分析结果,以及评估得出的影响租还需求预测的特征重要性等方面,均存在一定的局限性。针对本文的不足,对共享单车管理和资源调配部门提出建议如下:① 选取更长时间周期的数据,利用本文提出的时空模型进一步识别、分析早/晚高峰、工作日/节假日,以及不同季节、不同气象条件的共享单车潮汐现象及时空特征,并采取更有针对性的治理措施和规划设计;② 增加租还需求预测的实验样本,覆盖不同天气特征,并对天气特征的重要性进行充分评估。
[1]
中华人民共和国交通运输部. 关于鼓励和规范互联网租赁自行车发展的指导意见[EB/OL]. (2017-08-03)[2022-11-25]. https://xxgk.mot.gov.cn/2020/jigou/ysfws/202006/t20200623_3315417.html.

[MOT. The guidance on encouraging and regulating the development docklessshared-bicycle[EB/OL]. (2017-08-03)[2022-11-25]. https://xxgk.mot.gov.cn/2020/jigou/ysfws/202006/t20200623_3315417.html.

[2]
于二泽, 周继彪. 基于空间滞后模型的公共自行车出行特征及影响因素分析[J]. 交通信息与安全, 2021, 39(1):103-110.

[Yu E Z, Zhou J B. Travel characteristics and influencing factors of bike sharing based on spatial lag model[J]. Journal of Transport Information and Safety, 2021, 39(1):103-110.] DOI:10.3963/j.jssn.1674-4861.2021.01.0012

DOI

[3]
高楹, 宋辞, 郭思慧, 等. 接驳地铁站的共享单车源汇时空特征及其影响因素[J]. 地球信息科学学报, 2021, 23(1):155-170.

DOI

[Gao Y, Song C, Guo S H, et al. Spatial-temporal characteristics and influencing factors of source and sink of dockless sharing bicycles connected to subway stations[J]. Journal of Geo-Information Science, 2021, 23(1):155-170.] DOI:10.12082/dqxxkx.2021.200351

DOI

[4]
陈红, 陈恒瑞, 史转转, 等. 公共自行车使用时空特性挖掘及租还需求预测[J]. 交通运输系统工程与信息, 2021, 21(2):238-244,250.

[Chen H, Chen H R, Shi Z Z, et al. Spatiotemporal characteristics mining and demand forecasting of shared bicycle borrow and return[J]. Journal of Transportation Systems Engineering and Information Technology, 2021, 21(2):238-244,250.] DOI:10.16097/j.cnki.1009-6744.2021.02.034

[5]
姜晓, 白璐斌, 楼夏寅, 等. 基于多尺度时空聚类的共享单车潮汐特征挖掘与需求预测研究[J]. 地球信息科学学报, 2022, 24(6):1047-1060.

DOI

[Jiang X, Bai L B, Lou X Y, et al. Usage patterns identification and flow prediction of bike-sharing system based on multiscale spatiotemporal clustering[J]. Journal of Geo-information Science, 2022, 24(6):1047-1060.] DOI:10.12082/dqxxkx.2022.210691

DOI

[6]
徐伟. 基于机器学习的共享单车热点区域识别及需求预测[J]. 综合运输, 2019, 41(5):29-34.

[Xu W. Hotspot recognition and demand prediction of bike sharing system based on machine learning[J]. China Transportation Review, 2019, 41(5):29-34.]

[7]
Hui Y, Xie Y K, Yu Q, et al. Hotspots identification and classification of dockless bicycle sharing service under electric fence circumstances[J]. Journal of Advanced Transportation, 2022, 2022:5218254. DOI:10.1155/2022/5218254

DOI

[8]
Faghih-Imani A, et al. How land-use and urban form impact bicycle flows: Evidence from the bicycle-sharing system (BIXI) in Montreal[J]. Journal of Transport Geography, 2014, 41:306-314. DOI:10.1016/j.jtrangeo.2014.01.013

DOI

[9]
Vlahogianni E I, et al. Short-term traffic forecasting: Where we are and where we're going[J]. Transportation Research Part C: Emerging Technologies, 2014, 43:3-19. DOI:10.1016/j.trc.2014.01.005

DOI

[10]
林燕平, 窦万峰. 基于ARIMA模型的城市公共自行车需求量短期预测方法研究[J]. 南京师范大学学报(工程技术版), 2016, 16(3):36-40.

[Lin Y P, Dou W F. Research on short-term prediction method of demand number in urban public bicycle based on the ARIMA model[J]. Journal of Nanjing Normal University (Engineering and Technology Edition), 2016, 16(3):36-40.] DOI:10.3969/j.issn.1672-1292.2016.03.006

DOI

[11]
Kaltenbrunner A, et al. Urban cycles and mobility patterns: Exploring and predicting trends in a bicycle-based public transport system[J]. Pervasive and Mobile Computing, 2010, 6(4):455-466. DOI:10.1016/j.pmcj.2010.07.002

DOI

[12]
Karlaftis M G, et al. Statistical methods versus neural networks in transportation research: Differences, similarities and some insights[J]. Transportation Research Part C: Emerging Technologies, 2011, 19(3):387-399. DOI:10.1 016/j.trc.2010.10.004

DOI

[13]
Tang J J, Xu G N, Wang Y H, et al. Traffic flow prediction based on hybrid model using double exponential smoothing and support vector machine[C]// 16th International IEEE Conference on Intelligent Transportation Systems. IEEE,: 130-135. DOI:10.1109/ITSC.2013.6728222

DOI

[14]
Li Y X, Zheng Y, Zhang H C, et al. Traffic prediction in a bike-sharing system[C]// Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York, NY, USA: ACM, 2015:1-10. DOI:10.1145/2820783.2820837

DOI

[15]
种颖珊, 韩晓明. 基于随机森林与时空聚类的共享单车站点需求量预测[J]. 科学技术与工程, 2018, 18(32):89-94.

[Chong Y S, Han X M. Prediction of shared bicycle site demand based on random forest and spatiotemporal clustering[J]. Science Technology and Engineering, 2018, 18(32):89-94.] DOI:10.3969/j.issn.1671-1815.2018.32.015

DOI

[16]
Xu C C, et al. The Station-free sharing bike demand forecasting with a deep learning approach and large-scale datasets[J]. Transportation Research Part C: Emerging Technologies, 2018, 95:47-60. DOI:10.1016/j.trc.2018.07.013

DOI

[17]
Ke J T, et al. Short-term forecasting of passenger demand under on-demand ride services: A spatio-temporal deep learning approach[J]. Transportation Research Part C: Emerging Technologies, 2017, 85:591-608. DOI:10.1016/j.trc.2017.10.016

DOI

[18]
E S V. Using data mining techniques for bike sharing demand prediction in metropolitan city[J]. Computer Communications, 2020, 153:353-366. DOI:10.1016/j.comcom.2020.02.007

DOI

[19]
Lin L, et al. Predicting Station-level hourly demand in a large-scale bike-sharing network: A graph convolutional neural network approach[J]. Transportation Research Part C: Emerging Technologies, 2018, 97:258-276. DOI:10.1016/j.trc.2018.10.011

DOI

[20]
李靖华, 郭耀煌. 主成分分析用于多指标评价的方法研究——主成分评价[J]. 管理工程学报, 2002, 16(1):39-43,3.

[Li J H, Guo Y H. Principal componnent evaluation: A multivariate evaluate method expanded from principal component analysis[J]. Journal of Industrial Engineering and Engineering Management, 2002, 16(1):39-43,3.] DOI:10.3969/j.issn.1004-6062.2002.01.011

DOI

[21]
Cover T, Hart P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1):21-27. DOI:10.1109/TIT.1967.1053964

DOI

[22]
Malkov Y A, Yashunin D A. Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(4):824-836. DOI:10.1109/TPAMI.2018.2889473

DOI PMID

[23]
Benesty J, Chen J D, Huang Y T, et al. Pearson correlation coefficient[M]//Noise Reduction in Speech Processing. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009:1-4. DOI:10.1007/978-3-642-00296-0_5

DOI

文章导航

/