基于多尺度时空聚类的共享单车潮汐特征挖掘与需求预测研究
Usage Patterns Identification and Flow Prediction of Bike-sharing System based on Multiscale Spatiotemporal Clustering
通讯作者:
收稿日期: 2021-10-30 修回日期: 2021-12-25
基金资助: |
|
Corresponding authors:
Received: 2021-10-30 Revised: 2021-12-25
Fund supported: |
|
作者简介 About authors
姜 晓(1992— ),男,江苏徐州人,硕士生,主要从事地学信息可视化与数据挖掘研究。E-mail:
当前,我国政府和单车企业多以划定电子围栏停车点的方式进行共享单车的规范化管理,由于单个电子围栏内部单车流入流出的随机性和不确定性较大,以单个围栏为单位进行单车管理的工作量大且不具现实意义。因此,有必要对电子围栏停车点进行聚类划分,实行区域化的管理与调度。基于此,本文提出一种基于时空约束的网络图聚类算法,该算法综合考虑空间因素(地理位置、地理环境特征)和时间因素(历史订单),只需通过距离阈值设定即可实现电子围栏的多尺度聚类划分,实验分别在3000 m和700 m距离阈值条件下对厦门岛和乌石浦地区电子围栏进行聚类,结果显示该算法不仅能够将具有相似时空特征的电子围栏聚到同一社区簇内,而且能够使得单车流动主要集中在划分后的社区内部;随后,在社区划分基础上进行单车潮汐特征挖掘,能够有效识别和定位单车使用的热点地区;最后,利用长短时记忆神经网络(Long-Short Time Memory network, LSTM)进行单车订单需求预测,结果显示有84%以上社区的预测准确率在85%以上,平均预测准确率为91.301%,预测效果较好,可有效满足单车调度需求。本文研究成果可服务于电子围栏停车点规划与共享单车的区域化管理与调度工作。
关键词:
At present, China government and bike-sharing companies mostly use electronic fence parking stations to manage the shared bicycles normatively. Electric fence parking stations for free-floating bike-sharing are predetermined 'virtual fences' to guide users to park bikes in designated zones and regulate inappropriate parking behaviors. However, due to the randomness and uncertainty of the inflow and outflow of bicycles at a single parking station, the scheduling of bicycles based on an independent parking station is hard to realize. Therefore, it is necessary to group fence stations into clusters and implement regional management. In this paper, we proposed a network clustering algorithm based on spatiotemporal constraints, which comprehensively considered spatial factors (location and geographical environment of the parking stations) and temporal factors (historical bike-sharing system orders) as the clustering partition basis, and this algorithm can realize the multi-scale groups division of parking stations only by setting a distance threshold. We chose Xiamen Island as the research region. Using the distance thresholds of 3000 m and 700 m respectively, we carried out clustering experiments on the electronic fence parking stations in the whole Xiamen Island and its Wushipu block. The results showed that this algorithm can not only gather the parking stations with similar temporal and spatial characteristics into the same group, but also make the shared bike flow mainly concentrated in the streets within each group, which is convenient for regional management. Then, we mined the characteristics of shared bikes among the partitioned groups, which can effectively identify and locate hot areas for shared bikes. The results showed that subway stations, office buildings, parks, hospitals, shopping malls, and residential areas had a greater impact on the usage pattern of shared bikes. In particular, it is necessary to focus on the accumulation of shared bikes near office buildings, shopping malls, hospitals, and subway stations, and the shortage of bicycles near the residential areas, parks, and factories during the morning rush hours. Finally, we used the Long Short Time Memory network (LSTM) to predict the orders of shared bikes. The results showed that 84% of the groups had a prediction accuracy of more than 85%, and the average of the overall prediction accuracy was 91.301%, which can meet the needs of bike-sharing system scheduling. Our research provides scientific suggestions for relevant departments to arrange electronic fence parking stations, and the LSTM model has high accuracy in predicting bicycle flow, which is effective in reducing the scheduling cost of bike-sharing system and improve the management efficiency.
Keywords:
本文引用格式
姜晓, 白璐斌, 楼夏寅, 李梅, 刘晖.
JIANG Xiao, BAI Lubin, LOU Xiayin, LI Mei, LIU Hui.
1 引言
共享单车的迅速普及,方便了市民短途出行,既改善了交通,也为城市环境保护做出贡献。然而,随着单车快速发展,逐渐暴露出诸多问题,其中较为严重的就是乱停乱放问题,影响市容的同时,也影响公共交通安全[1]。
聚类分析在共享单车研究中应用广泛,能够有效解决单车的区域划分问题。聚类是指将研究对象的集合划分为不同的簇,使得同一簇中的对象特征最大程度地相似,不同簇间的对象特征最大程度的不同[4]。传统聚类方法包括划分聚类和层次聚类[5],不同学者采用不同的方法进行共享单车聚类问题的研究。划分聚类方面,高楹等[6]、靳爽等[7]利用基于距离的K-means方法对城市轨道交通接驳共享单车停靠点进行聚类分析,揭示不同区域的共享单车运行规律,但该方法在聚类前需要提前确定聚类类别个数,且只考虑距离因素对聚类的影响;Zhang等[2]、 Yu等[8]、Hua等[9]利用基于密度的 DBSCAN方法进行聚类,通过设置停车点邻域半径和密度阈值,确定共享单车的聚集热点,该方法受点密度影响较大,单车停车点受城市功能区和人流量的影响,其分布密度并不一定均匀,因此该方法聚类结果的精细度不高,随机性较强。层次聚类方面,Jia等[10]提出一种两级高斯混合模型聚类算法,在考虑站点间自行车迁移趋势和地理位置信息的情况下,将自行车站点进行分组;Du等[11]使用层次聚类的方法,研究不同站点在邻近区域的时间使用模式,将具有相似使用频率时间序列的站点分组到相同的集群中。另有文献采用基于网格的方法进行共享单车聚类分析,如刘畅 等[12]采用网格划分方法,描述共享单车空间分布情况,但该方法同样依赖于密度阈值,且在网格边缘处易将聚集的停车点割裂开[13]。
上述方法所考虑的聚类依据各不相同,以空间要素为主,较少的考虑时间要素,类别较为单一。空间要素如停车点地理位置、不同停车点间的流动性、停车点周围地理环境的相似性对单车使用均有较大影响[10],而时间因素如停车点的历史订单情况也是表征停车点相似性的重要特征[14]。因此,应综合考虑上述时空要素,使聚类所依据的特征信息更加丰富,更贴近实际情况。同时,共享单车停车点聚类的最终目的在于方便管理和优化调度,当前研究较少地将聚类、特征发掘与需求预测问题结合起来,而这一过程是相辅相成的,通过聚类分析优化共享单车的区域划分,进而发掘各区域内部单车使用特征,进行单车需求预测,能够更好地指导共享单车管理与调度工作。基于此,本文提出基于时空约束的网络图聚类算法GC2(Geographically-Constrained Graph Clustering)算法,对共享单车电子围栏停车点网络进行聚类划分,基于划分结果,从不同角度分析共享单车的潮汐特征,并进行订单需求的预测,以期帮助政府和相关企业合理规划共享单车电子围栏,提高单车管理与调度效率。
2 研究方法
2.1 技术路线
如图1所示,本研究方法包括数据分析、算法描述和实验分析3个部分。其中数据分析部分包括数据预处理和浅层特征发掘,算法描述部分详细介绍基于时空约束的网络图聚类算法,最后在厦门全岛和乌石浦地区2个尺度下进行聚类划分实验,并在全岛聚类划分的基础上对单车潮汐特征挖掘和订单需求预测进行研究。
图1
2.2 数据源及数据预处理
本研究的实验数据清单如表1所示,其主要来源包括2部分:
表1 实验数据清单
Tab. 1
数据名称 | 数据时间 | 数据规模 | 数据描述 | |
---|---|---|---|---|
字段名称 | 字段含义 | |||
厦门岛共享单车订单数据 | 2020年12月21—25日6:00 am—10:00 am | 58万条左右 | BICYCLE_ID | 加密后的单车ID号 |
LATITDUE | 纬度/° | |||
LONGITUDE | 经度/° | |||
LOCK_STATUS | 锁状态 | |||
UPDATE_TIME | 锁状态更新的时间 | |||
厦门岛共享单车电子围栏数据 | 2020年12月 | 1.4万个左右 | FENCE_ID | 电子围栏唯一编号 |
FENCE_LOC | 电子围栏位置坐标串 | |||
厦门岛POI数据 | 2021年1月 | 8000条左右 | POI_TYPE | POI地物类别 |
LATITDUE | 纬度/° | |||
LONGITUDE | 经度/° | |||
厦门岛路网数据 | 2021年1月 | 8000条道路 | Length | 道路长度/m |
name | 道路名称 |
(1)2021年数字中国大赛公开数据[15]:包括2020年12月21日至2020年12月25日厦门岛早高峰期间共享单车订单脱敏数据和电子围栏脱敏数据。
(2)网络爬虫数据[16]:使用爬虫技术从高德地图API中爬取的厦门岛内各类地物兴趣点(POI, Point of Interest)数据和路网数据。
主要数据预处理过程如下:
(1)订单数据预处理:对于连续状态相同的开关锁状态、相邻两条数据时间过短或距离过近的订单数据进行清洗,方法如图2所示。
图2
(2)电子围栏数据预处理:计算电子围栏中心坐标作为其位置参考,计算其外包矩形和面积估算每个站点可以停放的单车数量,方法如图3所示。
图3
(3)POI数据预处理:由于爬取到的POI坐标点是火星坐标,为了与订单数据保持一致,将其转换为WGS84坐标。
2.3 数据浅层特征发掘
预处理后的基础数据所含信息难以直接应用,需要进行浅层特征发掘,以分析影响单车使用的主要因素及其影响程度。
2.3.1 POI指数计算
为表征停车点周围社会地理环境,本实验选取常见的9类POI地物(公交站点、写字楼、公园、商场、地铁站、居民点、医院、学校、工厂)进行研究,基本涵盖了市民日常活动场所,也是单车流动的主要地点,其位置和属性对停车点的单车使用有较大影响。
图4
图4
各类POI点与共享单车开关锁位置同位关系矩阵
Fig. 4
Matrix diagram of Co-location relationship between POI features and the orders of shared-bikes
图4中第一列表示该9类POI地物附近100 m范围内存在共享单车的概率,可以发现概率值均在0.6以上,其中商场、办公楼、公交站、地铁站等热点地区高达0.9以上,一定程度上说明厦门岛地区共享单车的普及率较高,且与POI地物具有较强的空间相关性。
式中:
式中:
利用上述方法,计算厦门岛所有停车点受该9类POI的影响程度,称其为停车点的POI指数,结果如式(5)所示,式中
实质上POI指数表征的是各个停车点的社会地理环境,距离相近的停车点其POI指数会比较相近,而距离较远的停车点如果周边社会地理环境相似的话,其POI指数也可能相近。因此,此处使用POI指数衡量电子围栏停车点的相似性比单纯使用距离所蕴含的信息更为丰富。
2.3.2 历史订单数据匹配
原始订单数据中只包含该笔订单的开关锁状态和发生位置,具体属于哪个电子围栏停车点没有说明。因此,若以电子围栏停车点为研究对象,需要将各订单数据匹配到具体的停车点上。
最精确的方法是利用电子围栏坐标串轮廓的计算划定每个订单归属,但受用户停车习惯和定位精度影响,实际情况只有很少一部分单车订单落入电子围栏中,大部分单车在围栏附近。因此,采用此方法匹配效率较低且不太贴近实际情况。
式中:
2.4 基于时空约束的网络图聚类算法
在以上研究基础上,本研究提出基于时空约束的网络图聚类算法GC2。该算法计算步骤包括3个部分:停车点相关性网络构建、基于时空约束的网络聚类、社区中心选择。
2.4.1 停车点相关性网络构建
首先将停车点之间的关系建模成一个相关性网络
(1)停车点距离因素
根据地理学第一定律,相近的事物关联更为紧密。因此,考虑距离是限制共享单车区域划分的首要因素。根据停车站点间的空间距离来判断其是否邻接,使用表达式(7)表示邻接情况。
式中
(2)社会地理环境与历史订单因素
使用POI指数
式中:
(3)相关性网络构建
将以上3大影响因素进行综合,得到停车点
最终计算所有停车点两两之间的边权
2.4.2 基于时空约束的网络图聚类
在停车点相关性网络构建基础上,进行停车点网络的聚类划分,将具有相似单车使用特征的电子围栏停车站点聚成同一簇,即网络图结构中经常使用的社区探测问题,所谓社区,即为网络图结构中具有相似属性或者起到相似作用的节点集合[24]。本文中的所提到的社区为在算法聚类划分后,具有相似属性的电子围栏停车点的集合。
如图5所示簇间的交集为空,对于给定结点
图5
图5
GC2算法聚类示意图
注:黑色圆点表示待聚类的电子围栏站点
Fig. 5
Schematic diagram of the GC2 clustering method
聚类的最终目标是使得聚类后的每个停车点簇
同时,考虑到停车点间距离是聚类划分的重要依据,设定簇内任意2个站点的距离不能大于距离阈值
通过迭代运算,
算法1 基于时空约束的网络聚类GC2 |
---|
Require: |
输入:停车点相关性网络矩阵,G; |
节点集合,V |
一次迭代中节点类别交换的最低次数, |
Ensure: 给每个节点初始化一个独一无二的簇标签 |
repeat 初始化交换次数 for 从节点集合V中移除当前节点 |
将节点 |
if |
end if end if until |
2.4.3 社区中心的选择
基于时空约束的网络图聚类划分本质上是一种图的社区划分,并没有进行聚类中心的计算。本研究社区中心的选择主要考虑2个因素:度中心性和接近中心性。
度中心性用于反映节点在整个网络中的重要程度,为节点
式中:
接近中心性用于表达停车点在其所属社区中的中心化程度,计算如式(16)所示。
式中:
最后,将上述2个指标归一化到[0,1]后相加,取社区中计算结果最大的节点作为该社区的中心,该中心综合了社区内部的接近性及其与临近社区的关联性,相较其他节点更具代表性,可作为共享单车区域的中心代表。
2.5 共享单车需求预测与结果分析
聚类划分目的在于更好地服务单车的管理与调度,而调度工作需要掌握社区内未来一段时间内单车订单情况,因此需要进行单车需求的预测。
2.5.1 LSTM模型预测单车订单需求
图6
图6
LSTM网络结构示意图
注:
Fig. 6
Schematic diagram of LSTM network structure
每个神经元中3个门、隐藏层输出
实验模型上,输入层的数据特征维度为27,隐藏层中LSTM单元为3层,每个LSTM单元内神经元的个数为4,输出层为一层全连接层,输出维度为1。
实验数据上,使用厦门岛2020年12月21日到25日每天6—10时的共享单车订单数据,总共有 4×5=20 h,以半个小时为时间窗口对数据进行切片,每次取前2个时间窗口的数据作为输入对第 3个时间窗口进行预测。
2.5.2 预测结果分析
以MAE,RMSE、准确率Accuracy和PEARSON相关系数等评价指标对模型的预测误差和预测效果进行评价。
MAE(Mean Absolute Error)为绝对误差平均值,用于表征预测误差情况,计算方法如式(22)所示。
RMSE(Root Mean Square Error)为均方根误差,用于表征预测模型的精度[31],计算方法如 式(23)所示。
实验定义准确率AcR(Accuracy Rate)如式(24)所示,用于表征预测结果的准确性[32]。
式中:
2个连续变量x,y的皮尔逊相关系数PEARSON用于度量2个变量之间的线性相关程度[33],本实验用其表征预测结果对真实值的拟合效果,计算方法如式(25)所示。
式中:
3 实验与结果分析
3.1 共享单车多尺度聚类分析
全岛尺度上,使用GC2算法,将距离阈值设置为3000 m进行聚类,结果如图7所示,全岛停车点被划分成了25个社区。可以发现,如图中蓝色框中部分,社区中心呈现一定聚集性特征,说明该算法对于社区中心的选择既考虑了社区内部的联系,也综合了周边社区的影响。图中红色框所框的范围为狐尾山公园地区,该公园周边的电子围栏被狐尾山公园在距离上分隔开,但由于公园周边具有相似的社会地理环境特征,并且周边单车在使用时间上也具有相似性,所以被划分到了同一社区内,说明相较传统算法,该方法不仅考虑了距离因素,同时也综合了地理环境和历史订单因素。
图7
图7
全岛尺度下的社区划分结果
注:大的红色点表示社区聚类中心,上面的数字代表社区号;其余彩色小点表示聚类后不同社区内部的电子围栏中心点。
Fig. 7
Community division results of the whole island
图8
图8
全岛尺度下的单车流动情况
注:数字表示GC2聚类后各社区号,区间连线表示单车在社区间流动情况,连线越粗,流动量越大。
Fig. 8
Flow of shared-bikes among communities in Xiamen Island
图9
图9
乌石浦地区聚类划分结果
注:黄色点表示各分区聚类中心,其余彩色点表示聚类后不同分区内部的电子围栏中心点。
Fig. 9
Community division results of Wushipu area
图10
图10
乌石浦地区单车流动情况
注:数字表示GC2聚类后各社区号,区间连线表示单车在社区间流动情况,连线越粗,流动量越大。
Fig. 10
Flow of shared-bikes in Wushipu area
可以发现,局部尺度下,划分后的分区基本沿街道分布,弦图中各分区间的连线错综复杂,说明局部尺度下社区内部的单车流动主要集中在分区间进行,分区间电子围栏停车点联系紧密,具有相似的使用特征。
综上所述,聚类划分的目标在于使划分后的社区内部电子围栏停车点之间的联系紧密,社区之间的联系较小,上述结果正是表明了该聚类算法的有效性。同时,从单车的流动特点来看,应重点关注聚类后社区内部的单车不平衡问题,减少社区间的大规模调度,从而降低调度成本与提高效率。
3.2 社区单车潮汐特征挖掘
社区单车潮汐特征挖掘的目的在于更细粒度地区分单车使用的热点区域,以及分析影响单车使用的主要因素。在厦门全岛的尺度下,为了表征各区域内部单车使用的频繁程度,用每个社区的历史总订单量除以社区内部停车点个数得到该社区内的平均订单量,并以此为标准,将全区25个区域划分为高频、中频、低频3个类别,如图11所示。
图11
图11
全岛共享单车订单频率分布
注:绿色点表示社区聚类中心,上面的数字代表社区号。
Fig. 11
Frequency distribution of shared-bikes orders in Xiamen Island
为研究各类别区域内不同POI地物对单车使用的影响程度,对3个类别区域内所有停车点的POI指数求平均,结果如表2所示。表中最右侧指数和为左边9项指数的和,可以发现高频和中频区域指数和远高于低频地区,说明高频区域和中频区域的社区地理环境更复杂,内部的城市功能区人流量更大,因此单车订单数更高,这一点也与厦门岛实际情况相符,体现出该方法能够有效识别出单车使用的热点区域。同时,地铁站、办公楼、公园、医院、商场和居民区指数相较其他POI地物更高,说明这些地物对单车使用的影响更大,其附近单车的使用更为频繁,需要重点关注供需平衡问题。
表3 厦门岛基于单车使用频率的社区分类与POI指数统计
Tab. 3
类别 | 数目 | 工厂 | 医院 | 公园 | 学校 | 地铁 | 办公楼 | 公交 | 居民区 | 商场 | 指数和 |
---|---|---|---|---|---|---|---|---|---|---|---|
高频 | 8 | 0.262 | 0.333 | 0.480 | 0.214 | 0.544 | 0.656 | 0.078 | 0.318 | 0.323 | 3.209 |
中频 | 9 | 0.212 | 0.505 | 0.544 | 0.302 | 0.544 | 0.497 | 0.201 | 0.197 | 0.280 | 3.281 |
低频 | 8 | 0.204 | 0.153 | 0.247 | 0.105 | 0.178 | 0.300 | 0.054 | 0.275 | 0.098 | 1.613 |
表4 乌石浦地区基于单车流入流出的社区分类与POI指数统计
Tab. 4
类别 | 数目 | 工厂 | 医院 | 公园 | 学校 | 地铁 | 办公楼 | 公交 | 居民区 | 商场 | 指数和 |
---|---|---|---|---|---|---|---|---|---|---|---|
流入 | 26 | 0.210 | 0.526 | 0.385 | 0.365 | 0.654 | 0.467 | 0.567 | 0.208 | 0.441 | 3.822 |
流出 | 34 | 0.221 | 0.382 | 0.407 | 0.355 | 0.548 | 0.323 | 0.548 | 0.222 | 0.298 | 3.302 |
3.3 社区共享单车需求预测
为了更精准解决单车供需平衡的问题,还需要预测一段时间内的单车需求量,即预测单车订单情况。在上文厦门全岛划分的25个社区的基础上,利用前文所述LSTM模型,以社区为单位进行训练和预测,实验中取80%数据为训练集,20%为测试集。
根据预测结果,将25个社区整体预测值和真实值进行比较,绘制折线图(图12)。可以发现预测值与真实值拟合效果较好,整体预测差值线维持在较低水平,预测误差较小。
图12
图12
LSTM模型预测社区单车订单量与实际订单量对比
Fig. 12
Comparison between the predicted results and actual values of shared-bikes orders based on LSTM model
为了更进一步描述LSTM模型预测准确性,分别计算25个社区订单预测值与实际值的MAE、RMSE、PEARSON和准确率AcR,统计各指标数据的分布情况如表4所示。从表4中数据可以发现不同社区的预测效果不同。MAE能够较好地反映出预测误差的实际情况,可以发现绝大多数MAE值在50以下,均值为24.080,说明预测误差较为理想;RMSE指数能够反映预测结果的精确度,正常情况下RMSE值越小,预测的精确度越高,但也易受异常值影响,从表中看出大部分社区RMSE值在50以下,均值为38.548,说明模型预测的精确度能够得到保证;PEARSON系数能够反映预测值与真实值的线性相关性,大部分社区PEARSON系数值为90%以上,均值为91.010%,说明大部分社区的预测结果较好地拟合了实际需求量;对所有社区预测准确率数据进行统计,有84%的社区订单预测准确率在85%以上,均值为91.301%,说明模型预测的准确度较高。综合以上指标,表明基于社区划分的LSTM模型的预测结果较好,能够满足单车调度的需要。
表5 LSTM模型预测社区单车需求结果评价
Tab. 5
社区 | 评价指标 | |||
---|---|---|---|---|
MAE | RMSE | PEARSON/% | AcR/% | |
0 | 12.394 | 26.682 | 84.651 | 86.888 |
1 | 27.065 | 37.996 | 97.572 | 94.228 |
2 | 21.540 | 38.921 | 96.790 | 96.674 |
3 | 60.711 | 96.166 | 92.481 | 86.226 |
4 | 48.237 | 66.411 | 98.163 | 97.235 |
5 | 11.158 | 16.725 | 98.011 | 95.098 |
6 | 6.461 | 8.509 | 97.987 | 95.845 |
7 | 33.671 | 42.844 | 99.099 | 95.559 |
8 | 5.448 | 10.145 | 75.370 | 91.557 |
9 | 44.250 | 64.302 | 97.784 | 97.264 |
10 | 25.329 | 55.762 | 98.099 | 95.295 |
11 | 19.842 | 29.365 | 99.111 | 97.393 |
12 | 35.355 | 50.229 | 99.335 | 95.543 |
13 | 2.250 | 3.806 | 54.333 | 78.498 |
14 | 7.0785 | 9.752 | 95.637 | 93.854 |
15 | 7.211 | 10.692 | 92.511 | 93.463 |
16 | 9.106 | 17.276 | 78.129 | 89.304 |
17 | 9.171 | 19.647 | 87.105 | 92.711 |
18 | 59.250 | 108.202 | 95.537 | 87.758 |
19 | 45.013 | 70.014 | 97.275 | 96.156 |
20 | 15.644 | 29.260 | 98.862 | 97.189 |
21 | 33.316 | 47.215 | 99.282 | 95.957 |
22 | 49.750 | 79.096 | 90.956 | 76.763 |
23 | 11.092 | 22.382 | 68.255 | 83.070 |
24 | 1.671 | 2.315 | 82.898 | 73.008 |
均值 | 24.080 | 38.548 | 91.010 | 91.301 |
最后,为研究单车流量预测结果和真实值的时序特征,对25个社区早高峰期间单车流入和流出订单的预测值和真实值进行统计,以每半小时为时间段绘制曲线(图13)。
图13
图13
全岛尺度下社区单车流入流出时序特征
Fig. 13
Timing characteristics of inflow and outflow of shared-bikes in Xiamen Island
由图分析,首先,从预测差值线上来看,各时段的预测差值线维持在较低水平,预测误差较小;其次,从真实值和预测值曲线的走势上看,单车的流入和流出具有相似的时序特征,6:00—8:00为单车流量的上升期,在8:00左右达到峰值,随后呈下降趋势,说明厦门岛早8:00左右为共享单车使用的高峰时段,需要重点关注8:00前后时段的单车供需平衡问题;最后,从各时段的预测效果上来看,8:00—9:00时段的曲线拟合效果最好,LSTM模型在该时段的预测效果最佳。
4 讨论
共享单车电子围栏技术的应用一定程度上提高了用户的用车规范,但由于城市POI和人流量的动态变动,容易造成单车供需不平衡的现象,因此,需要加强单车的调度和电子围栏的动态优化。本研究通过对电子围栏进行GC2聚类,能够有效探索出不同区域的单车使用情况与流动规律,发现单车使用热点区域,针对热点区域进行单车潮汐特征挖掘和流量预测,有助于有效提升单车调度管理的效率,优化电子围栏停车点的部署。相较以往研究,本文研究特点体现在:
聚类方法上,GC2算法只需通过不同距离阈值的设定即可实现电子围栏停车点的多尺度聚类划分,整个流程不需要预先设置其它参数,算法自适应计算划分的社区类别数量,且在相同数据和阈值条件下,聚类结果一致,不受停车点密度的影响。因此,该算法的适应性较好,易于推广应用。
聚类依据上,本研究提出的GC2算法,既考虑了地理位置、社区地理环境等空间因素,也考虑了历史订单数据这一时间因素,聚类划分的依据更丰富且充分,聚类结果较好地识别了单车的流动性,可充分展现共享单车的实际聚集特征。
研究内容上,本文对于研究区域内共享单车的特征挖掘和订单预测均是在社区聚类划分的基础上进行的,研究内容的针对性强。社区聚类和潮汐特征挖掘的结果能够有效识别和定位单车使用的热点地区,社区订单预测结果误差较小,预测精度和准确度较高,能够满足单车调度需求,对于单车管理和调度工作具有指导意义。
受限于所获取的单车数据规模,本文只对早高峰期间的共享单车潮汐特征进行了研究,未来若能获取到更完整、更大规模数据,则可针对全天的单车使用情况进行分析。此外,共享单车调度问题是解决单车不平衡问题的关键,下步将综合本文成果,进一步研究共享单车区域化调度问题。
5 结论
为有效解决共享单车的区域划分问题,本文提出了基于时空约束的网络图聚类算法GC2,该算法融合了共享单车时空数据,实现了对单车停车点的多尺度社区划分,在社区划分结果的基础上,进行了共享单车潮汐特征发掘和需求预测。本文以厦门岛地区为研究对象,实验结果表明:
(1) GC2聚类通过不同距离阈值的设定实现了不同尺度的社区划分,同时有效识别出了单车的区域流动性。在厦门全岛3000 m尺度下,GC2聚类结果显示,单车的流动主要集中在社区簇内,社区簇间的流动量较少;而在乌石浦地区700 m尺度下,单车流动主要集中在社区内部的各分区簇间,说明社区内部停车点联系紧密,社区间停车点联系较少,体现出GC2聚类算法的有效性与合理性。
(2)基于社区划分的潮汐特征发掘和需求预测能够有效识别和定位单车使用热点区域和重点时段。通过全岛不同社区单车使用频率划分的结果表明,高频和中频地区相较低频区的POI指数更高,地理环境更复杂。早高峰期间,中高频地区的地铁站、办公楼、公园、医院、商场和居民区是影响单车使用的主要因素,其中办公楼、商场、医院和地铁站附近容易发生单车堆积现象,居民区、公园和工厂容易发生单车短缺现象。同时,早8:00前后为厦门岛内单车用车高峰期,8:00前后时段更容易发生单车供需不平衡问题。
(3)基于社区划分的LSTM模型预测误差较小、精确度和准确度较高。各社区需求预测结果的平均MAE值为24.080,平均RMSE值为38.548,平均准确率AcR值为91.301%,平均PEARSON指数为91.010%,预测效果较为理想,能够满足单车调度需要。
参考文献
共享单车绿色使用行为与意愿的影响因素研究
[J].
Research on the factors influencing shared bicycle green use behavior and intention
[J].
Electric fence planning for dockless bike-sharing services
[J].
Incentivizing users for balancing bike sharing systems
[C].
聚类算法综述
[J].
Review of clustering algorithms
[J].
接驳地铁站的共享单车源汇时空特征及其影响因素
[J].
DOI:10.12082/dqxxkx.2021.200351
[本文引用: 1]
共享单车是解决“最后一公里”出行的有效方法,然而,人们在利用其进行接驳地铁时,常出现无车可用或车辆淤积的现象。因此,探究用于接驳地铁的共享单车的源汇时空分布特征及其影响因素对实现其供需平衡有一定意义,单车运营公司可据此进行更及时、合理的调度。为了解不同区域的共享单车在接驳地铁时使用模式的差异,本文基于不同时间段的客流特征,对用于接驳北京市地铁站的共享单车所产生的源、汇网格进行了K-均值聚类,并进一步利用地理探测器探究了造成这种空间分异的原因。结果表明:① 源、汇网格各被分为5类,分别为高频低流出、高频异常源、中频低流出、低频高流出、低频低流出和高频低流入、中频低流入、低频高流入、低频差异流入、高频异常汇等类型,反映了共享单车源汇的时空分布特征; ② 在不同聚类中,共享单车的日均流量对应的主导因子有所差别,位于市中心的聚类的车辆主要受距离和交通因子的影响,而在其它聚类中则会同时受到多种POI的显著影响,且在不同时段中影响机制不同;③ 对于净流入(出)率而言,各聚类的源、汇网格的主导因子则大致相同,车辆的缺少或过剩主要与距地铁站或市中心的距离有关。④ 从整体源、汇来看,住宅类POI数量与距最近地铁站的距离分别是影响日均流量和净流入(出)率的最强的因子。
Spatial-temporal characteristics and influencing factors of source and sink of dockless sharing bicycles connected to subway stations
[J].
基于K-means的城市轨道交通社区接驳共享单车停靠点规划
[J].
Planning of shared bicycle stop for urban rail transit community connection based on K-means
[J].
Estimating model for urban carrying capacity on bike-sharing
[J].
Estimating the parking demand of free-floating bike sharing: A journey-data-based study of Nanjing, China
[J].
Hierarchical prediction based on two-level Gaussian mixture model clustering for bike-sharing system
[J].
A model framework for discovering the spatio-temporal usage patterns of public free-floating bike-sharing system
[J].
Hierarchical prediction based on two-level affinity propagation clustering for bike-sharing system
[J].
Exploring spatio-temporal properties of bike-sharing systems
[C].
POI数据在中国城市研究中的应用
[J].
DOI:10.13249/j.cnki.sgs.2021.01.015
[本文引用: 1]
兴趣点(Point of Interest,POI)数据的兴起带动了城市研究的革新。为梳理中国POI数据在城市研究的应用进展,阶段性总结其应用方向、数据分析方法及尚存不足,并为未来POI数据在中国城市发展中的应用提供思路和借鉴。应用CiteSpace工具对中国知网2010—2019年625篇相关文献进行知识图谱分析,结合分析结果对POI数据应用方向和数据分析方法进行梳理总结。结果表明:时间上,国内应用POI数据进行城市研究的文献在2013年后大量涌现,2017年呈现爆发式增长;应用上,主要用于城市功能区划分、城市中心区和边界识别、查明业态集聚分布以及兴趣点推荐4个方面;方法上,常用的有核密度分析、DBSCAN聚类分析和空间自相关分析3类。研究表明,POI地理大数据是一种研究城市发展的有效数据,有助于研究者深入了解城市的空间结构、分布格局和发展规律,未来可进一步与机器学习等算法结合,为城市外部扩张和内部功能结构调整在更长期的发展上提供一个决策分析手段,但POI数据尚无法代替面数据,研究时也要充分考虑到公众认知度高低对研究的影响。
Urban research using points of interest data in China
[J].
Exploring travel patterns and trip purposes of dockless bike-sharing by analyzing massive bike-sharing data in Shanghai, China
[J].
Effective lossless condensed representation and discovery of spatial co-location patterns
[J].
Bike-sharing station usage and the surrounding built environments in major Texas cities
[J].
核密度估计法支持下的网络空间POI点可视化与分析
[J].
The visualization and analysis of POI features under network space supported by kernel density estimation
[J].
Cost-sensitive KNN classification
[J].
Modeling the competitiveness of a bike-sharing system using bicycle GPS and transit smartcard data
[J].
Community detection in graphs
[J].
Advanced modularity-specialized label propagation algorithm for detecting communities in networks
[J].
Dynamic cluster-based over-demand prediction in bike sharing systems
[C].
Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network
[J].
Short-term prediction of bike-sharing usage considering public transport: a LSTM approach
[C].
基于长短期记忆神经网络模型的共享单车短时需求量预测
[J].
Short-term demand forecasting of shared bicycles based on long short-term memory neural net-work model
[J].
Analysis of the mean absolute error (MAE) and the root mean square error (RMSE) in assessing rounding model
[C].
Quantifying colocalization by correlation: The pearson correlation coefficient is superior to the mander's overlap coefficient
[J].
/
〈 |
|
〉 |
