地球信息科学学报, 2023, 25(4): 741-753 doi:10.12082/dqxxkx.2023.220673

轨迹与交通

一种识别共享单车潮汐点的时空模型和基于KNN-LightGBM的租还需求预测方法

柯日宏,, 吴升,*, 柯玮文

福州大学 数字中国研究院(福建),福州 350003

A Spatial-temporal Model for Identifying Tidal Shared-bicycle Stops and Bicycle Sharing Demand Prediction based on KNN-LightGBM

KE Rihong,, WU Sheng,*, KE Weiwen

The Academy of Digital China (Fujian), Fuzhou University, Fuzhou 350003, China

通讯作者: *吴升(1972—),男,福建松溪人,博士,教授,主要研究方向为时空数据分析与可视化、数字化规划等。 E-mail: ws0110@163.com

收稿日期: 2022-09-8   修回日期: 2022-12-6  

基金资助: 中国科学院战略性先导科技专项(A类)(XDA23100502)
福建省高校数字经济学科联盟建设(闽教高〔2022〕15号)

Corresponding authors: *WU Sheng, E-mail: ws0110@163.com

Received: 2022-09-8   Revised: 2022-12-6  

Fund supported: Strategic Priority Research Program of the Chinese Academic of Science, No.XDA23100502
Construction of University Discipline Alliance of Digital Economy of Fujian Province, No.Min Jiao Gao(2022)15.

作者简介 About authors

柯日宏(1998—),男,福建三明人,硕士生,主要从事地理信息服务与时空数据挖掘研究。E-mail: 820916024@qq.com

摘要

随着互联网租赁自行车(共享单车)的兴起,“共享单车+地铁”“共享单车+公交”已成为城市通勤的主要接驳方式,但共享单车的“潮汐效应”也成为共享单车管理和资源调配的“痛点”和“难点”。因此,发现共享单车的“潮汐规律”,准确预测共享单车停车区(电子围栏)的租还需求,对于共享单车的有序规范发展,优化用车体验和环境等具有重要意义。本文首先基于共享单车订单数据和“电子围栏”空间数据,提出一种识别共享单车潮汐点的时空模型并分析其潮汐性时空特征。该模型将潮汐点定义为短时间内因大量共享单车租或还从而导致无车可租或无车位可停的电子围栏,然后根据电子围栏在某时间段的状态进行分类,并赋予不同的缺车/缺停指数。结果显示该模型能够精准识别特定时段出现的潮汐点。随后,基于共享单车订单、城市信息点(POI)、道路、人口、土地利用、气温、风速等时空数据,并考虑局部范围内的电子围栏相关性,构建KNN-LightGBM模型来预测共享单车租还需求:① 利用主成分分析(Principal Component Analysis,PCA)进行特征提取;② 利用KNN(K Nearest Neighbors)算法计算局部范围内电子围栏之间相关信息;③ 整合PCA提取的特征向量和电子围栏相关信息作为输入特征,利用LightGBM方法进行租还需求预测;④ 评估影响租还需求预测的特征重要性。结果表明:与常用的4种机器学习方法进行对比,KNN-LightGBM在不同时间尺度下的预测实验中RMSEMAE的平均值均最小,R2r平均值均最大,预测效果较好;利用KNN计算局部范围内的电子围栏相关性,能够有效的提高预测精度,与LightGBM相比,KNN-LightGBM的RMSE和MAE分别降低了10%和11%,R2r分别提高了3%和4%;共享单车的历史订单数据对租还需求预测最为重要,与最近公共交通接驳站距离的重要性次之。

关键词: 共享单车; 电子围栏; 时空模型; 潮汐性; 需求预测; 机器学习; 厦门

Abstract

With the rise of bicycle sharing network, "shared-bicycle + subway" and "shared-bicycle + bus" have become the main mode of urban commuting, but the "tidal effect" of shared-bicycle makes it difficult to manage and deploy resources. Therefore, exploring the "tidal law" of shared-bicycle and accurately predicting the demand for borrowing and returning bicycles at parking areas (electronic fences) are important for the orderly and standardized development of shared-bicycle and the optimization of the riding experience and environment. Based on the spatial data of shared-bicycle orders and electronic fences, our research proposes a spatial-temporal model for identifying tidal shared-bicycle stops and analyzing their tidal spatial-temporal characteristics. Our model defines the tidal shared-bicycle stops as electric fences with lacking-bike/lacking-parking due to a large number of shared-bicycles borrowed/returned for a short time. The electric fences are then classified according to their status at a certain period and assigned different lacking-bike/lacking-parking indexes. The results show that our spatial-temporal model can accurately identify the tidal shared-bicycle stops at a specific period. Moreover, based on the spatial-temporal data such as shared bicycle orders, city information points (POI), road, population, land-use type, temperature, and wind speed, and considering the correlation of electronic fences at the local area, we propose a K Nearest Neighbors (KNN)-LightGBM model to predict the sharing demand of shared bicycles, which includes: (1) Principal Component Analysis (PCA) is used to extract characteristics; (2) The KNN algorithm is used to calculate the correlation information of electronic fences at the local area; (3) We integrate the characteristic vectors extracted by PCA and the correlation information of electronic fences as input, and use the LightGBM model to predict the sharing demand of bicycles; (4) We evaluate the importance of the characteristics that affect the sharing demand. The results show that the proposed KNN-LightGBM is better than the common machine learning methods in demand prediction at different time scales. The mean values of RMSE and MAE using our proposed model are the smallest and the mean values of R2 and r are the largest. We use the KNN algorithm to calculate the correlation of electronic fences, which can effectively improve the prediction accuracy. Compared with LightGBM, the RMSE and MAE of KNN-LightGBM are reduced by 10% and 11%, respectively, and R2 and r are improved by 3% and 4%, respectively. Based on the importance assessment of characteristics, the historical data of shared-bicycle orders are the most important for the demand prediction, followed by the distance to the nearest public transportation stations. Our study demonstrates the potential of model.

Keywords: shared-bicycle; electronic fence; spatial-temporal model; tidal characteristic; demand forecasting; machine learning; Xiamen

PDF (15031KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

柯日宏, 吴升, 柯玮文. 一种识别共享单车潮汐点的时空模型和基于KNN-LightGBM的租还需求预测方法[J]. 地球信息科学学报, 2023, 25(4): 741-753 doi:10.12082/dqxxkx.2023.220673

KE Rihong, WU Sheng, KE Weiwen. A Spatial-temporal Model for Identifying Tidal Shared-bicycle Stops and Bicycle Sharing Demand Prediction based on KNN-LightGBM[J]. Geo-Information Science, 2023, 25(4): 741-753 doi:10.12082/dqxxkx.2023.220673

1 引言

互联网租赁自行车(俗称“共享单车”)是移动互联网和租赁自行车融合发展的新型服务模式。近年来,我国共享单车快速发展,在更好地满足公众出行需求、有效解决城市交通出行“最后一公里”问题、缓解城市交通拥堵、构建绿色出行体系等方面发挥了积极作用,推动了分享经济发展。但同时也存在车辆乱停乱放、运营维护不到位等问题[1]。特别是,作为城市短距离出行和公共交通接驳的重要交通方式,共享单车的“潮汐现象”已成为共享单车管理和资源调配的“痛点”和“难点”。早高峰共享单车潮水般涌入学校、办公园区、医院、公交站、地铁站等,随意侵占人行道、机动车道和绿地,不但影响了市民出行、交通秩序和城市环境,更存在一定程度的安全隐患;晚高峰共享单车又潮水般退去,想找辆车都不容易。因此,在分析共享单车潮汐特征的基础上,准确预测租还需求,对于共享单车的有序规范持续发展,优化城市居民用车体验等具有重要意义。

目前共享单车潮汐现象研究主要聚焦于时空特征挖掘。研究发现,共享单车潮汐现象出现的时间多发于早、晚高峰,且工作日更为明显[2-5]。出现的区域主要位于地铁站、办公楼、公园、医院、商场和居民区[5]等POI附近,现有研究大多从热点区域的角度来研究共享单车的潮汐现象[5-7],识别热点区域大多采用时空聚类方法[5-6],如姜晓等[5]综合考虑了空间因素(地理位置、地理环境特征)和时间因素(历史订单),通过网络图聚类划分社区,进而识别和定位共享单车使用的热点地区。Hui等[7]将热点区域定义为短时间内大量共享单车流入或流出的区域,采用DBSCAN方法识别热点区域。在共享单车需求预测方面,通常会考虑气象、人口、土地使用、建筑环境等因素的影响[8-9],研究方法一般采用ARIMA等统计模型[10-11],但随着数据可访问性和计算能力提高,开始转向机器学习方法[12],如支持向量回归[13]、回归树[14]、随机森林[15]、神经网络[5,16-17]等。如E S V等[18]利用线性回归、支持向量回归、GBDT(Gradient Boosting Decision Tree)、Xgboost(eXtreme Gradt Boosting)、LightGBM(Light Gradient Boosting Machine)等方法预测韩国首尔地区公共自行车需求,结果显示LightGBM效果最优;Lin 等[19]提出了一种新的图卷积神经网络模型,充分考虑站点之间的相关性,预测大规模共享单车网络中各站点小时尺度的需求。

上述时空聚类方法大多只能获得宏观尺度的共享单车热点区域,而且聚类参数的设置对结果影响较大,因此难以识别出微观尺度具有显著潮汐特征的“电子围栏”。此外,现有的共享单车需求预测研究大多未考虑单个电子围栏的容量、租/还需求差异及时空特征。基于此,本文首先利用时空模型识别潮汐点并分析其潮汐性时空特征,然后结合KNN和LightGBM建立租还需求预测模型:① 利用PCA进行特征提取;② 利用KNN算法计算局部范围内电子围栏之间相关信息;③ 整合PCA提取的特征向量和电子围栏相关信息作为输入特征,利用LightGBM方法进行租还需求预测;④ 与现有的机器学习方法进行对比,并分析特征相对重要性。

2 研究方法

本文技术框架如图1所示。首先将原始共享单车订单数据进行清洗,识别有效的订单,并利用HNSW算法将订单OD点匹配到最近的电子围栏上,获取每个电子围栏的租还情况;其次,基于共享单车订单数据和“电子围栏”空间数据,利用时空模型识别出共享单车潮汐点,并分析其潮汐性时空特征;最后,基于时空特征,并考虑电子围栏的空间相关性,构建KNN-LightGBM模型来预测共享单车租还需求,与现有的机器学习方法进行对比,并分析特征相对重要性。

图1

图1   共享单车潮汐点识别与租还需求预测研究的技术框架

Fig. 1   The technical Framework for identification of tidal shared-bicycle stops and demand prediction of borrow-return


2.1 基于时空模型识别潮汐点

(1)定义共享单车潮汐点为:短时间内因大量共享单车租或还,导致无车可租或无车位可停的电子围栏。

(2)将电子围栏在某时间段的状态分为以下6类:

① 没有共享单车:a(i, j, k)=0

② 只有少量共享单车:0<a(i, j, k)≤0.2×p(i)

③ 有充足共享单车和停车位:p(i)×0.2<a(i, j, k)≤p(i)×0.8

④ 只有少量停车位:p(i)×0.8<a(i, j, k)≤p(i)

⑤ 轻度堆积:0<b(i, j, k)≤p(i)×0.2

⑥ 重度堆积:p(i)×0.2<b(i, j, k)

其中,a(i, j, k)是第i个电子围栏第j天第k时间段可租用的共享单车数量;b(i, j, k)是第i个电子围栏第j天第k时间段缺少停车位的数量;p(i)是第i个电子围栏的停车位总数。i=1,,nj=1,,dk=1,,t

(3)根据电子围栏的状态,将第i个电子围栏第j天第k时间段的缺车指数c(i, j, k)和缺停指数 d(i, j, k)定义如表1所示。

表1   电子围栏状态与缺车/缺停指数

Tab. 1  Electronic fence status and lacking-bike / lacking-parking index

电子围栏状态缺车指数缺停指数
没有共享单车20
只有少量共享单车10
有充足共享单车和停车位00
只有少量停车位01
轻度堆积02
重度堆积03

新窗口打开| 下载CSV


(4)基于步骤(3)定义,使用不同的缺车/停指数识别共享单车潮汐点,如式(1)—式(4)所示。

C(i)=j=1dk=1tc(i,j,k)
D(i)=j=1dk=1td(i,j,k)
C(k)=i=1dc(i,j,k)
D(k)=i=1dd(i,j,k)

式中:C(i)表示第i个电子围栏的总缺车指数;D(i)表示第i个电子围栏的总缺停指数;C(k)表示共享单车系统在第j天第k时间段的缺车指数;D(k)表示共享单车系统在第j天第k时间段的缺停指数。i=1,, nj=1,, dk=1,, t

2.2 基于KNN-LightGBM模型预测共享单车租还需求

本文提出基于时空特征的KNN-LightGBM模型来预测共享单车租还需求,模型主要分为3个部分:① 利用PCA进行特征提取;② 利用KNN计算局部范围内电子围栏的相关性;③ 利用LightGBM预测租还需求。具体步骤如下。

2.2.1 利用PCA从时空特征提取主要成分

通过共享单车潮汐性时空特征分析发现潮汐点大多位于地铁站、空中自行车道出入口、商业中心、医院、集中办公区(如软件园)等POI附近,且天气情况对共享单车潮汐现象影响较大。进一步参考相关文献[4-7]确定本文租还需求预测的特征,利用PCA[20]从时空特征提取主要成分,提高模型性能。

2.2.2 利用KNN算法计算局部范围内电子围栏的

相关性

本文采用KNN[21]算法计算目标电子围栏与周围电子围栏在历史租还需求的相关程度,将局部范围内相关的电子围栏信息作为输入特征,以预测精度作为评价标准,确定参数k的最优值。具体步骤为:

(1)考虑电子围栏之间的空间距离,用Dm,n表示电子围栏之间的相关权重,如式(5)所示。

Dm,n=1dist(xm,xn)R0dist(xm,xn)>R

式中:dist(xm,xn)表示电子围栏mn之间的欧式距离;R为距离阈值。当2个电子围栏的距离小于等于阈值R的大小,则2个电子围栏的相关权重系数为1,否则为0。

(2)通过电子围栏的历史租还数据建立时间序列矩阵X,如式(6)所示,xij表示电子围栏ij时段租或还的数量。

X=x11x12x1jx1mx21x22x2jx2mxi1xi2xijximxn1xn2xnjxnm

(3)利用KNN算法,计算不同参数k得到的电子围栏相关性。

2.2.3 利用LightGBM算法预测租还需求

LightGBM[18]是微软亚洲研究院提出的一种梯度增强框架和梯度增强决策树(GBDT)模型的改进算法,LightGBM解决了传统boosting算法在扩展性和运行速度上的不足,模型支持并行学习,可以大大减少训练时间和计算成本[18]。本文基于上述PCA提取的特征向量和KNN计算得到的邻近电子围栏的相关信息作为输入特征,利用LightGBM算法预测租还需求。

2.3 评价指标

使用均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)、决定系数(R2)、相关系数(r)、ROC(Receiver Operating Characteristic)曲线下方的面积大小(Area Under Curve,AUC)来评估预测效果,分别如式(7)—式(10)所示。

RMSE=1ni=1n(y(i)-yˆ(i))2
MAE=1ni=1n(y(i)-yˆ(i))
R2=1-i=1n(y(i)-yˆ(i))2i=1n(y(i)-y-)2
r=1-Cov(y(i)-yˆ(i))Var[y(i)]Var[yˆ(i)]

式中:y(i)yˆ(i)分别是第i个测试值和预测值;yˆ是平均值;n是测试集的大小;Cov(y(i)-yˆ(i))y(i)yˆ(i)的协方差;Var[y(i)]yˆ(i)的方差。

3 实验区概况、数据来源及预处理

3.1 实验区概况

研究实验区选择厦门岛内,即思明区和湖里区,如图2所示。

图2

图2   厦门岛研究区概况

Fig.2   Description of Xiamen Island


3.2 实验数据

采用的主要数据及来源如表2所示。

表2   数据及来源

Tab. 2  Data and sources

数据时间来源
共享单车订单2020年12月21—25日6:00—10:002021数字中国创新大赛赛题数据
电子围栏2020年12月2021数字中国创新大赛赛题数据
路网2021年6月OpenStreetMap(openstreetmap.org)
POI2021年6月高德地图API数据开放接口(lbs.amap.com)
人口2021年5月红黑人口库(hongheiku.com)
土地利用2020年地理科学数据网(csdn.store)
天气2020年12月美国国家海洋和大气管理局开放数据(www1.ncdc.noaa.gov/pub/data/noaa)

新窗口打开| 下载CSV


3.3 数据预处理

(1)订单数据清洗。剔除以下订单数据:起点或终点在研究区外;行程距离大于5 km或小于100 m;行程时长大于1 h或小于30 s。清洗后得到291 288条订单数据,单个订单轨迹数据示例如表3所示。

表3   单个订单轨迹数据示例

Tab. 3  Example of order data

订单_ID定位时间纬度/°N经度/°E
sbo0000012020/12/21 6:00:1224.521 046 82118.161 503 7
sbo0000012020/12/21 6:00:2724.518 092 38118.163 777 4
............
sbo0000012020/12/21 6:26:0824.479 891 29118.186 703 0

新窗口打开| 下载CSV


(2)电子围栏中心点和停车位估算。根据电子围栏4个角点的经纬度坐标,计算每个电子围栏的面积和中心点经纬度坐标。按照每辆共享单车占地面积1.5 m2估算,得到每个电子围栏的停车位数量。研究区共14 710个电子围栏,76 733个停车位。数据示例如表4所示。

表4   电子围栏数据示例

Tab. 4  Example of electronic fence data

电子围栏ID中心点坐标面积/m2停车位/个
纬度/°N经度/°E
故宫路0_R_224.462 412 61118.079 007 885.94
观日路(望海路至会展路段 )_R_124.488 102 32118.181 194 598.05
...............
安岭路_L_9_B24.534 229 23118.151 338 239.16

新窗口打开| 下载CSV


(3)电子围栏净流量估算。将订单数据的OD点通过HNSW[22](Hierarchical Navigable Small World)模型匹配到电子围栏(图3),从而得到每个电子围栏各时间段(按每小时分段)的净流量(流入量-流出量)。示例数据如表5所示。

图3

图3   早6:00—10:00时段订单OD点匹配

Fig. 3   Matching orders OD points from 6:00am to 10:00am


表5   电子围栏各时间段的净流量

Tab. 5  Net flow of electronic fence in each time period

电子围栏ID2020-12-21
6:00:00—7:00:00
2020-12-21
7:00:00—8:00:00
...2020-12-25
9:00:00—10:00:00
双浦0_R_A200016-2...-2
枋湖北二路0_L_A210015-1...-1
...............
云顶中路0_L_A0300381...-2

新窗口打开| 下载CSV


4 结果与分析

4.1 共享单车潮汐性时空特征分析

4.1.1 共享单车潮汐点识别

基于时空模型(式(1)和式(2)),使用2020年12月21—25日6:00—10:00各时间段的净流量数据,计算得到总缺车指数C(i)和总缺停指数D(i)最大的各20个潮汐点,其缺车指数c(i, j, k)和缺停指数d(i, j, k)的时间分布如图4所示,空间分布如图5所示。

图4

图4   厦门岛共享单车潮汐点缺车/缺停指数的时间分布

Fig. 4   Temporal distribution of lacking-bike/lacking-parking index of tidal shared-bicycle stops in Xiamen island


图5

图5   厦门岛共享单车潮汐点的空间分布

Fig. 5   Spatial distribution of tidal shared-bicycle stops in Xiamen island


4.1.2 潮汐性时空特征分析

(1) 时间特征分析

基于时空模型(式(3)和式(4)),使用2020年12月21—25日6:00—10:00各时间段的净流量数据,计算得到各时段共享单车系统的缺车指数C(k)和缺停指数D(k),其变化趋势如图6所示。其中,在6:00—7:00时段,共享单车的租还次数较少,几乎不存在缺车和缺停现象;在7:00—9:00通勤高峰时段,缺车指数和缺停指数同步快速上升,在9:00—10:00时段,缺车指数和缺停指数同步快速下降。其中23日缺车/缺停指数骤降可能是由于天气因素(中雨—小雨)不适合选择共享单车出行。

图6

图6   厦门岛共享单车系统各时段缺车和缺停指数的变化趋势

Fig. 6   Change trend of lacking-bike/lacking-parking index of shared bicycle system by time period in Xiamen island


(2) 空间特征分析

通过潮汐点的空间分布,如图5所示,发现潮汐点大多位于地铁站、空中自行车道出入口、商业中心、医院、集中办公区(如软件园)等POI附近。利用皮尔逊相关系数[23](Pearson correlation coefficient)计算得到潮汐点之间的相关性矩阵图,如图7所示,发现缺车点之间及缺停点之间均存在较强的正相关,而缺车点和缺停点之间存在负相关。进一步研究发现,当潮汐点之间的距离在2 km以内,潮汐点之间存在较强的空间相关性,距离越近,相关系数越大。如缺车点6、8相关系数为0.95(图7中A处),缺停点21、24相关系数为0.85(图7中B处);缺车点6和缺停点26相关系数-0.85(图7中C处)。

图7

图7   厦门岛共享单车潮汐点相关系数矩阵

Fig. 7   Correlation matrix of tidal shared-bicycle stops in Xiamen island


使用ArcGIS分组分析工具,分别对所有缺车潮汐点和缺停潮汐点进行聚类,得到17个缺车区和11个缺停区,如图8(a)所示,统计各潮汐区的共享单车流动情况,绘制成弦图,如图9所示,发现缺车区和缺停区存在邻近伴生现象,即共享单车从缺车区流向邻近缺停区,如东部软件园二期地铁站附近的缺车区8和缺停区24,缺车区6和缺停区24、21等,如图8(b)所示。

图8

图8   厦门岛共享单车潮汐点聚类区域空间分布

Fig. 8   Spatial distribution of tidal shared-bicycle stops clustering regions in Xiamen island


图9

图9   厦门岛共享单车缺车区和缺停区之间的共享单车流动情况

Fig. 9   Flow of shared-bicycles between the lacking-bike regions and the lacking-parking regions in Xiamen island


4.2 基于电子围栏的共享单车租/还需求预测

以2020年12月21—24日的数据作为训练集,25日的数据作为测试集,在1 h(8:00—9:00)和4 h(6:00—10:00) 2个时间尺度下分别预测共享单车租/还需求,并选取以下时间特征、空间特征、天气特征,如表6所示。

表6   特征说明

Tab. 6  Description of input characteristics

特征描述
时间特征电子围栏2020年12月21—24日6:00—10:00的租/还车数量/个
空间特征电子围栏200 m范围各类型POI(政府机构、住宅、企业、餐饮服务、金融服务、生活服务、体育休闲服务)的数量/个
电子围栏与最近风景名胜、医院、学校、商场、公交车站、地铁站、空中自行车道出入口等的距离/m)
电子围栏所在道路等级
电子围栏所在街道(行政单元)的人口密度/(人/m2
电子围栏所在区域的土地利用类型
天气特征天气情况(晴/多云/阴/雨)
气温/℃
风速/(m/s)
能见度/m

新窗口打开| 下载CSV


4.2.1 结果对比分析

将KNN-LightGBM与LightGBM[18]、XGBoo- st[17-18]、Random Forests[15]和Linear Regression[18] 4种模型预测的结果进行对比分析,结果如图10所示。与他4种模型相比,KNN-LightGBM在4组实验中得到的RMSEMAE均最小,平均值分别为1.14和0.67,说明KNN-LightGBM模型预测误差最小且精度最高;R2r均最大,平均值均为0.84,说明KNN-LightGBM模型拟合程度最好;与LightGBM相比,KNN-LightGBM考虑局部范围内的电子围栏相关性能够有效的提高预测精度。KNN-LightGBM的RMSEMAE分别降低了10%和11%,R2r分别提高了3%和4%。

图10

图10   不同模型预测结果对比

Fig. 10   Comparison of prediction results with different models


基于KNN-LightGBM模型在1 h和4 h时间尺度下预测租还需求,得到4组实验结果,如图11所示。4组实验的40个潮汐点预测值与真实值基本拟合且迭代次数分别在119、104、40、43时,训练效果达到最佳,不同时间尺度预测实验的AUC都在0.8以上,没有发生过拟合现象,所以预测结果基本有效。

图11

图11   基于KNN-LightGBM模型在1 h和4 h时间尺度下预测租/还需求的结果对比

Fig. 11   Results comparison of demand forecasting of borrow and return based on KNN-LightGBM model at 1 hour and 4 hour time scales


4.2.2 特征重要性评估

以4 h时间尺度为例,进一步评估表6中各特征对预测的重要性,结果如图12所示,具体表现为:① 时间特征重要性最为显著,前四日6:00—10:00的租/还车数量对预测的重要性得分均超过9.5%,其中最近的一天即24日得分最高;② 与最近公共交通接驳站(地铁站、公交车站、空中自行车道出入口)距离的重要性次之,得分均超过3.5%;③ 部分特征在租/还需求预测中的重要性存在明显差异,如200 m范围内住宅数量对租车需求预测的重要性明显大于还车需求预测,而最近商场距离、最近风景名胜距离、200 m范围内企业数量等则相反;④ 其中天气特征的重要性相对较低可能由于所选取的实验样本时间周期较小。

图12

图12   共享单车租/还需求预测特征重要性比较

Fig. 12   Comparison of the importance of shared-bicycle demand forecasting of borrow and return characteristics


5 结论

本文首先基于共享单车订单数据和电子围栏空间数据,提出一种识别共享单车潮汐点的时空模型并分析其潮汐性时空特征。然后,基于时空特征,并考虑局部范围内电子围栏的空间相关性,构建KNN-LightGBM模型来预测共享单车租还需求,最后评估影响租还需求预测的特征重要性。主要结论如下:

基于厦门岛2020年12月21—25日6:00—10:00时的数据,发现:① 早7:00—9:00通勤高峰时段,潮汐现象最严重;潮汐点大多位于地铁站、空中自行车道出入口、商业中心、医院、集中办公区(如软件园)等POI附近;② 天气因素对潮汐现象有较大的影响,其中雨天对潮汐现象有极大的缓解;③ 缺车点之间及缺停点之间均存在较强的正相关,缺车点和缺停点之间存在负相关,且距离越近相关性越强;缺车区和缺停区存在邻近伴生现象。

与常用的4种机器学习方法进行对比,基于时空特征的KNN-LightGBM:① 在不同时间尺度下的预测实验中RMSE、MAE的平均值均最小分别为1.14、0.67,R2和r平均值均最大分别为0.84和0.84,预测效果较好;② 利用KNN计算局部范围内的电子围栏相关性,能够有效的提高预测精度,与LightGBM相比,KNN-LightGBM的RMSEMAE分别降低了10%和11%,R2r分别提高了3%和4%;③ 在特征重要性评估中,共享单车的历史订单数据对租还需求预测最为重要,与最近公共交通接驳站距离的重要性次之,其中天气特征的重要性相对较低可能由于所选取的实验样本时间周期较短。

6 讨论

虽然本文提出了普遍适用的识别潮汐点的时空模型和租还需求预测方法,但由于本文只获取到2020年12月21—25日6:00—10:00有限时间范围的共享单车订单数据,因此本文对厦门岛潮汐特征的分析结果,以及评估得出的影响租还需求预测的特征重要性等方面,均存在一定的局限性。针对本文的不足,对共享单车管理和资源调配部门提出建议如下:① 选取更长时间周期的数据,利用本文提出的时空模型进一步识别、分析早/晚高峰、工作日/节假日,以及不同季节、不同气象条件的共享单车潮汐现象及时空特征,并采取更有针对性的治理措施和规划设计;② 增加租还需求预测的实验样本,覆盖不同天气特征,并对天气特征的重要性进行充分评估。

参考文献

中华人民共和国交通运输部. 关于鼓励和规范互联网租赁自行车发展的指导意见[EB/OL]. (2017-08-03)[2022-11-25]. https://xxgk.mot.gov.cn/2020/jigou/ysfws/202006/t20200623_3315417.html.

URL     [本文引用: 1]

[MOT. The guidance on encouraging and regulating the development docklessshared-bicycle[EB/OL]. (2017-08-03)[2022-11-25]. https://xxgk.mot.gov.cn/2020/jigou/ysfws/202006/t20200623_3315417.html.]

URL     [本文引用: 1]

于二泽, 周继彪.

基于空间滞后模型的公共自行车出行特征及影响因素分析

[J]. 交通信息与安全, 2021, 39(1):103-110.

[本文引用: 1]

[Yu E Z, Zhou J B.

Travel characteristics and influencing factors of bike sharing based on spatial lag model

[J]. Journal of Transport Information and Safety, 2021, 39(1):103-110.] DOI:10.3963/j.jssn.1674-4861.2021.01.0012

[本文引用: 1]

高楹, 宋辞, 郭思慧, .

接驳地铁站的共享单车源汇时空特征及其影响因素

[J]. 地球信息科学学报, 2021, 23(1):155-170.

DOI:10.12082/dqxxkx.2021.200351      [本文引用: 1]

共享单车是解决“最后一公里”出行的有效方法,然而,人们在利用其进行接驳地铁时,常出现无车可用或车辆淤积的现象。因此,探究用于接驳地铁的共享单车的源汇时空分布特征及其影响因素对实现其供需平衡有一定意义,单车运营公司可据此进行更及时、合理的调度。为了解不同区域的共享单车在接驳地铁时使用模式的差异,本文基于不同时间段的客流特征,对用于接驳北京市地铁站的共享单车所产生的源、汇网格进行了K-均值聚类,并进一步利用地理探测器探究了造成这种空间分异的原因。结果表明:① 源、汇网格各被分为5类,分别为高频低流出、高频异常源、中频低流出、低频高流出、低频低流出和高频低流入、中频低流入、低频高流入、低频差异流入、高频异常汇等类型,反映了共享单车源汇的时空分布特征; ② 在不同聚类中,共享单车的日均流量对应的主导因子有所差别,位于市中心的聚类的车辆主要受距离和交通因子的影响,而在其它聚类中则会同时受到多种POI的显著影响,且在不同时段中影响机制不同;③ 对于净流入(出)率而言,各聚类的源、汇网格的主导因子则大致相同,车辆的缺少或过剩主要与距地铁站或市中心的距离有关。④ 从整体源、汇来看,住宅类POI数量与距最近地铁站的距离分别是影响日均流量和净流入(出)率的最强的因子。

[Gao Y, Song C, Guo S H, et al.

Spatial-temporal characteristics and influencing factors of source and sink of dockless sharing bicycles connected to subway stations

[J]. Journal of Geo-Information Science, 2021, 23(1):155-170.] DOI:10.12082/dqxxkx.2021.200351

[本文引用: 1]

陈红, 陈恒瑞, 史转转, .

公共自行车使用时空特性挖掘及租还需求预测

[J]. 交通运输系统工程与信息, 2021, 21(2):238-244,250.

[本文引用: 2]

基于宁波市公共自行车刷卡数据、POI(Point of Interest)数据、气象和空气质量等数据,从数据驱动视角,深入挖掘公共自行车使用的时空特征及站点租还车需求预测。在时间上,采用KMeans算法,将站点聚为5类,探讨各类站点的时变需求规律及影响因素;在空间上,提出基于POI 数据的站点用地类型识别方法,将站点分为居住类、交通设施类、办公类和商业休闲类。构建以 15,30,60 min 为间隔,以租还车需求为目标变量的随机森林预测模型,并与常用的 BP (Back Propagation)神经网络、K最近邻方法进行比较。结果表明,随机森林模型的精度更高,适用性更强。以30 min为间隔的站点租还车需求预测精度最高,考虑站点土地利用类型后能有效提高模型的预测精度。本文结果可作为未来站点平衡调度的依据并推广应用于共享单车系统,为改善服务水平提供技术和理论支撑。

[Chen H, Chen H R, Shi Z Z, et al.

Spatiotemporal characteristics mining and demand forecasting of shared bicycle borrow and return

[J]. Journal of Transportation Systems Engineering and Information Technology, 2021, 21(2):238-244,250.] DOI:10.16097/j.cnki.1009-6744.2021.02.034

[本文引用: 2]

This study collected the shared bicycle usage data, POI (Point of Interest) data, the weather, and air quality data in Ningbo, China. With data mining techniques, this study analyzed the spatiotemporal characteristics of shared bicycle usage and predicted the demand for borrowing and returning the shared bicycles. The K-Means algorithm was used to cluster the study sites into five categories to explore the time-varying demand rules and influencing factors. To analyze the space characteristics, this study proposed a method to identify the land use type of study sites based on POI data, which divides the sites into residential, transportation facilities, office, and business leisure. The study developed a random forest prediction model using the time intervals of 15, 30, and 60 minutes and the demand of borrowing and returning bicycles as the target variable. The method was also compared with the commonly used BP (Back Propagation) neural network and K-nearest neighbor method. The results show that the random forest model has higher accuracy and better applicability. An interval of 30 minutes produced the best accuracy in forecasting the station borrowing and returning bicycle demand. The prediction accuracy of the model was improved because of the consideration of the station's land- use type. The result from this study can be used as the basis for scheduling and balancing of future stations and can also be applied to the shared bicycle system as a theoretical support for the service quality improvement.

姜晓, 白璐斌, 楼夏寅, .

基于多尺度时空聚类的共享单车潮汐特征挖掘与需求预测研究

[J]. 地球信息科学学报, 2022, 24(6):1047-1060.

DOI:10.12082/dqxxkx.2022.210691      [本文引用: 7]

当前,我国政府和单车企业多以划定电子围栏停车点的方式进行共享单车的规范化管理,由于单个电子围栏内部单车流入流出的随机性和不确定性较大,以单个围栏为单位进行单车管理的工作量大且不具现实意义。因此,有必要对电子围栏停车点进行聚类划分,实行区域化的管理与调度。基于此,本文提出一种基于时空约束的网络图聚类算法,该算法综合考虑空间因素(地理位置、地理环境特征)和时间因素(历史订单),只需通过距离阈值设定即可实现电子围栏的多尺度聚类划分,实验分别在3000 m和700 m距离阈值条件下对厦门岛和乌石浦地区电子围栏进行聚类,结果显示该算法不仅能够将具有相似时空特征的电子围栏聚到同一社区簇内,而且能够使得单车流动主要集中在划分后的社区内部;随后,在社区划分基础上进行单车潮汐特征挖掘,能够有效识别和定位单车使用的热点地区;最后,利用长短时记忆神经网络(Long-Short Time Memory network, LSTM)进行单车订单需求预测,结果显示有84%以上社区的预测准确率在85%以上,平均预测准确率为91.301%,预测效果较好,可有效满足单车调度需求。本文研究成果可服务于电子围栏停车点规划与共享单车的区域化管理与调度工作。

[Jiang X, Bai L B, Lou X Y, et al.

Usage patterns identification and flow prediction of bike-sharing system based on multiscale spatiotemporal clustering

[J]. Journal of Geo-information Science, 2022, 24(6):1047-1060.] DOI:10.12082/dqxxkx.2022.210691

[本文引用: 7]

徐伟.

基于机器学习的共享单车热点区域识别及需求预测

[J]. 综合运输, 2019, 41(5):29-34.

[本文引用: 3]

[Xu W.

Hotspot recognition and demand prediction of bike sharing system based on machine learning

[J]. China Transportation Review, 2019, 41(5):29-34.]

[本文引用: 3]

Hui Y, Xie Y K, Yu Q, et al.

Hotspots identification and classification of dockless bicycle sharing service under electric fence circumstances

[J]. Journal of Advanced Transportation, 2022, 2022:5218254. DOI:10.1155/2022/5218254

[本文引用: 3]

Faghih-Imani A, et al.

How land-use and urban form impact bicycle flows: Evidence from the bicycle-sharing system (BIXI) in Montreal

[J]. Journal of Transport Geography, 2014, 41:306-314. DOI:10.1016/j.jtrangeo.2014.01.013

URL     [本文引用: 1]

Vlahogianni E I, et al.

Short-term traffic forecasting: Where we are and where we're going

[J]. Transportation Research Part C: Emerging Technologies, 2014, 43:3-19. DOI:10.1016/j.trc.2014.01.005

URL     [本文引用: 1]

林燕平, 窦万峰.

基于ARIMA模型的城市公共自行车需求量短期预测方法研究

[J]. 南京师范大学学报(工程技术版), 2016, 16(3):36-40.

[本文引用: 1]

[Lin Y P, Dou W F.

Research on short-term prediction method of demand number in urban public bicycle based on the ARIMA model

[J]. Journal of Nanjing Normal University (Engineering and Technology Edition), 2016, 16(3):36-40.] DOI:10.3969/j.issn.1672-1292.2016.03.006

[本文引用: 1]

Kaltenbrunner A, et al.

Urban cycles and mobility patterns: Exploring and predicting trends in a bicycle-based public transport system

[J]. Pervasive and Mobile Computing, 2010, 6(4):455-466. DOI:10.1016/j.pmcj.2010.07.002

URL     [本文引用: 1]

Karlaftis M G, et al.

Statistical methods versus neural networks in transportation research: Differences, similarities and some insights

[J]. Transportation Research Part C: Emerging Technologies, 2011, 19(3):387-399. DOI:10.1 016/j.trc.2010.10.004

URL     [本文引用: 1]

Tang J J, Xu G N, Wang Y H, et al.

Traffic flow prediction based on hybrid model using double exponential smoothing and support vector machine

[C]// 16th International IEEE Conference on Intelligent Transportation Systems. IEEE,: 130-135. DOI:10.1109/ITSC.2013.6728222

[本文引用: 1]

Li Y X, Zheng Y, Zhang H C, et al. Traffic prediction in a bike-sharing system[C]// Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York, NY, USA: ACM, 2015:1-10. DOI:10.1145/2820783.2820837

[本文引用: 1]

种颖珊, 韩晓明.

基于随机森林与时空聚类的共享单车站点需求量预测

[J]. 科学技术与工程, 2018, 18(32):89-94.

[本文引用: 2]

[Chong Y S, Han X M.

Prediction of shared bicycle site demand based on random forest and spatiotemporal clustering

[J]. Science Technology and Engineering, 2018, 18(32):89-94.] DOI:10.3969/j.issn.1671-1815.2018.32.015

[本文引用: 2]

Xu C C, et al.

The Station-free sharing bike demand forecasting with a deep learning approach and large-scale datasets

[J]. Transportation Research Part C: Emerging Technologies, 2018, 95:47-60. DOI:10.1016/j.trc.2018.07.013

URL     [本文引用: 1]

Ke J T, et al.

Short-term forecasting of passenger demand under on-demand ride services: A spatio-temporal deep learning approach

[J]. Transportation Research Part C: Emerging Technologies, 2017, 85:591-608. DOI:10.1016/j.trc.2017.10.016

URL     [本文引用: 2]

E S V.

Using data mining techniques for bike sharing demand prediction in metropolitan city

[J]. Computer Communications, 2020, 153:353-366. DOI:10.1016/j.comcom.2020.02.007

URL     [本文引用: 6]

Lin L, et al.

Predicting Station-level hourly demand in a large-scale bike-sharing network: A graph convolutional neural network approach

[J]. Transportation Research Part C: Emerging Technologies, 2018, 97:258-276. DOI:10.1016/j.trc.2018.10.011

URL     [本文引用: 1]

李靖华, 郭耀煌.

主成分分析用于多指标评价的方法研究——主成分评价

[J]. 管理工程学报, 2002, 16(1):39-43,3.

[本文引用: 1]

[Li J H, Guo Y H.

Principal componnent evaluation: A multivariate evaluate method expanded from principal component analysis

[J]. Journal of Industrial Engineering and Engineering Management, 2002, 16(1):39-43,3.] DOI:10.3969/j.issn.1004-6062.2002.01.011

[本文引用: 1]

Cover T, Hart P.

Nearest neighbor pattern classification

[J]. IEEE Transactions on Information Theory, 1967, 13(1):21-27. DOI:10.1109/TIT.1967.1053964

URL     [本文引用: 1]

Malkov Y A, Yashunin D A.

Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(4):824-836. DOI:10.1109/TPAMI.2018.2889473

PMID:30602420      [本文引用: 1]

We present a new approach for the approximate K-nearest neighbor search based on navigable small world graphs with controllable hierarchy (Hierarchical NSW, HNSW). The proposed solution is fully graph-based, without any need for additional search structures (typically used at the coarse search stage of the most proximity graph techniques). Hierarchical NSW incrementally builds a multi-layer structure consisting of a hierarchical set of proximity graphs (layers) for nested subsets of the stored elements. The maximum layer in which an element is present is selected randomly with an exponentially decaying probability distribution. This allows producing graphs similar to the previously studied Navigable Small World (NSW) structures while additionally having the links separated by their characteristic distance scales. Starting the search from the upper layer together with utilizing the scale separation boosts the performance compared to NSW and allows a logarithmic complexity scaling. Additional employment of a heuristic for selecting proximity graph neighbors significantly increases performance at high recall and in case of highly clustered data. Performance evaluation has demonstrated that the proposed general metric space search index is able to strongly outperform previous opensource state-of-the-art vector-only approaches. Similarity of the algorithm to the skip list structure allows straightforward balanced distributed implementation.

Benesty J, Chen J D, Huang Y T, et al. Pearson correlation coefficient[M]//Noise Reduction in Speech Processing. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009:1-4. DOI:10.1007/978-3-642-00296-0_5

[本文引用: 1]

/