专栏:“GIS 与未来城市交通”

网约车出行分布时空模式及其时间序列模式识别

  • 陈志举 , 1 ,
  • 刘锴 , 2, * ,
  • 王江波 2
展开
  • 1.郑州大学土木工程学院,郑州 450001
  • 2.大连理工大学经济管理学院,大连 116024
* 刘 锴(1978— ),男,江苏南京人,博士,教授,博士生导师,主要研究方向为先进交通信息系统、城市区域规划、 新能源交通系统等。E-mail:

陈志举(1991— ),男,河南信阳人,博士,助理研究员,主要研究方向为交通大数据挖掘。E-mail:

Copy editor: 蒋树芳 , 黄光玉

收稿日期: 2023-07-16

  修回日期: 2023-10-19

  网络出版日期: 2024-10-09

基金资助

国家自然科学基金项目(71871043)

国家自然科学基金青年项目(52302404)

Time Series Variation Pattern Recognition of Spatiotemporal Distribution Patterns of Ride-hailing

  • CHEN Zhiju , 1 ,
  • LIU Kai , 2, * ,
  • WANG Jiangbo 2
Expand
  • 1. School of Civil Engineering, Zhengzhou University, Zhengzhou 450001, China
  • 2. School of Economics and Management, Dalian University of Technology, Dalian 116024, China
* LIU Kai, E-mail:

Received date: 2023-07-16

  Revised date: 2023-10-19

  Online published: 2024-10-09

Supported by

National Natural Science Foundation of China(71871043)

Youth Fund of the National Natural Science Foundation of China(52302404)

摘要

通信与移动计算技术的快速发展产生了各种出行大数据,为理解和挖掘交通时空出行特征、建设智慧城市提供了新的机会。然而,新兴移动数据规模与复杂性的显著增加也为其结构特征分析带来了挑战。本研究以六边形时空分区为基本聚类单元,提出了一种处理高维网约车出行时空模式的分析框架,通过聚类同质的出行分布群体来识别不同的时空模式。首先,将六边形分区内集计的出行分布时空特征概括为起点的需求量分布、终点的空间分布和终点的需求量分布。进一步,提出了基于时空密度峰值的快速聚类(CFSFSTDP)算法,通过计算时空相似性来识别各分区的网约车出行分布时空模式。最后,采用近邻传播算法来对各分区聚类出的出行分布时空模式的时间变化序列进行聚类分析,捕捉网约车出行分布时空模式的时间序列模式。对成都一个月的滴滴出行订单数据进行实证分析验证了该方法,分析了不同的时空模式在需求大小、位置和时间上的差异,探讨了网约车出行在不同区域的功能类型。其识别出的6类时间序列模式把握了网约车出行分布时空模式的时间连续性,有助于进一步构建网约车出行时空演化数字孪生平台。

本文引用格式

陈志举 , 刘锴 , 王江波 . 网约车出行分布时空模式及其时间序列模式识别[J]. 地球信息科学学报, 2024 , 26(10) : 2229 -2242 . DOI: 10.12082/dqxxkx.2024.230406

Abstract

The rapid development of information and communication technologies and mobile computing has generated a variety of mobility big data, providing new opportunities for understanding and exploring the spatiotemporal distribution and mobility characteristics of resident travel, and further contributing to the construction of smart cities. However, the emerging mobile data have experienced significant growth in both scale and complexity compared to traditional data, posing challenges for its structural characteristic analysis. To address these issues, this paper proposes an analytical framework to deal with the spatiotemporal distribution characteristics of high-dimensional ride-hailing travel pattern. Compared to traditional square partitions, a regular hexagon is closer to a circle, and the six adjacent hexagons connected to its edges are symmetrically equivalent, which can be more advantageous in aggregating demands with similar travel characteristics into the same partition. Therefore, hexagonal partition is selected as the basic clustering unit, and different spatiotemporal patterns are identified by clustering homogeneous travel distribution groups. Firstly, the spatiotemporal characteristics of travel distribution aggregated in the hexagonal partition are summarized into three main components: the departure demand distribution at the origin partition, the spatial distribution at the destination partition, and the arrival demand distribution at the destination partition. The spatiotemporal similarity between two partitions can be expressed as the product of these three types of distribution similarity. Furthermore, a Clustering Algorithm with Fast Search and Find of Spatiotemporal Density Peaks (CFSFSTDP) is proposed to identify the spatiotemporal patterns of ride-hailing travel distribution in each partition. The spatiotemporal distances between different partitions are obtained through the calculation of spatiotemporal similarity. Finally, affinity propagation clustering algorithm is used to perform clustering analysis on the time series variation pattern of spatiotemporal pattern of travel distribution in each partition. The time series similarity of spatiotemporal patterns between different partitions is represented by the sum of Euclidean distances between time series of each interval, and the model converges through continuous updates of attractiveness and affiliation indices. Through the empirical analysis of Didi Chuxing order data in Chengdu for one month, the validity of the method is verified. Based on the identified seven spatiotemporal distribution patterns, the differences of spatiotemporal patterns in the size, location, and time of demand are analyzed, and the functional types of ride-hailing travel in different partitions are discussed. The identified six time series patterns better grasp the time continuity of spatiotemporal patterns of ride-hailing travel distribution and help to better build the corresponding spatiotemporal evolution digital.

1 引言

城市交通系统是城市的支柱,人们可以通过工作、学校、购物、休闲等社会活动进行多种类型的互动。从不同角度理解居民的出行行为,提供以人为本的交通服务,提高空间相互作用的效率,是交通规划的主要目标[1-2]。网约车业务的增长为城市居民多样化、个性化的出行需求提供了更加舒适、便捷的出行选择[3-4],正在颠覆性地改变交通行业,尤其是传统的出租车行业[5-6]。作为建立高效交通系统的一部分,了解和建模网约车出行行为和分布特征为挖掘城市的运作规律提供了参考信息,对于解决城市中如基础设施设计、疫情控制、城市规划和政策制定都至关重要,也一直吸引着交通主管部门的极大兴趣[7]
近年来,随着通信和移动定位技术的快速发展,海量地记录了居民时间和空间活动信息的网约车订单数据,通常包括出行OD点经纬度坐标信息和时间信息(图1),为进一步揭示城市出行分布的时空转移模型提供了可能[8-10]。然而数据的时间、空间、以及个体社会属性等之间存在复杂的依赖关系和高阶交互作用。数据集的维度和复杂性不断增加,使得从它们中检索重要信息和关键特征也变得具有挑战性[11]。因此,开发先进的数据驱动方法和模型,从大量数据中丰富对城市交通系统和居民移动模式的理解至关重要[12]
图1 个体需求的时空转移

Fig. 1 The spatiotemporal transfer of individual travel demand

以个体OD需求为基本研究单元识别订单数据的出行模式实质是对包含OD经纬坐标、时间的六维时空数据进行聚类分析的问题。聚类是一种无监督学习的数据挖掘技术,旨在通过识别出数据之间的相似性特征将数据聚集成不同的类别,被广泛应用于OD交通流数据中[13]。Faroqi等[14]在OD交通流数据中发现了显著的时空趋势。Weijermars等[15]研究了利用Ward层次聚类方法确定历史交通模式的方法。DBSCAND等[16-18]基于密度的聚类算法常用来对GPS轨迹数据进行聚类,以揭示个体轨迹模式,了解人体动力学特征,从而支持轨迹预测、城市规划和交通监测等。Pirra等[19]基于花费在出行上的时间和出行特征,使用K-means算法对不同集群的出行进行聚类分析。龚越[20]研究了基于车牌数据的通勤车辆识别方法,应用K-means++聚类的方法对数据进行挖掘,确定了通勤车的比例。项煜等[21]利用K-means算法对地铁刷卡数据进行预测,分析潜在的乘客出行模式。上述方法虽然一定程度揭示不同类型个体的出行模式,但是通常应用于低维数据的聚类问题,在处理高维数据时通常会面临两个问题:高维数据集中存在大量的无关属性使得所有维中存在簇的可能性极低,大量的数据被识别为噪声点;高维数据相比低维数据分布更加稀疏,数据间的距离几乎相等的情况普遍存在。考虑到网约车出行具有复杂的时空相关性,距离相近的时空单元往往表现出更加相似的出行分布特征。将城市空间进行网格划分,将分区内的集体出行时空分布作为聚类单元进行分析[22-25],为解决交通出行数据模式识别问题提供了新的方向。
非负矩阵分解(NMF)与层次增长分类(HAC)已被广泛用于识别集体出行行为模式[26-27]。Peng等[28]将出租车行程转换为空间时间矩阵并应用于NTF模型来识别居民出行的基本时空模式。Wang等[29]将集体出行建模为一个三维张量(出发地×目的地×时间,大小为651×651×24),其中每个单元(ijk)对应在时间区间k从分区i到分区j的交通量。作为一种基于统计的聚类方法,高斯混合模型也广泛应用于各种模式分析和数据聚合场景。Sun等[30]提出了基于张量分解和概率潜在语义分析概念的多向概率分解模型,通过对四维刷卡数据进行建模来理解城市出行在时空上的转移特征。Lin等[31]提出基于期望最大化算法的高斯混合模型根据乘客出行的频率特征对出行模式进行聚类,以2011—2017年深圳市地铁智能卡数据为基础探讨了城市居民出行模式的时空演化特征。该类方法有效降低了计算的复杂度、解决了数据稀疏性问题,但是在降维的过程中也损失掉了部分出行特征信息。因此,如何通过有限的集计数据表征分区出行分布的关键时空特征,进一步建立合适的模型来度量不同出行分布时空特征间的差异成为了急需解决的关键问题。
基于快速搜索和发现密度峰值的聚类算 法(CFSFDP)[32]是一种简洁高效的聚类算法,解决了K-means算法无法处理非球面形状的簇问题,同时也避免了DBSCAN算法中阈值设置过于麻烦的问题,但该算法无法很好地应用于时空数据聚类研究[33]。近邻传播算法(AP)适用于处理时间序列数据的聚类,Cheng等[34]采用AP聚类对不同路段的历史交通速度序列进行表征,有效地识别了具有相似速度分布模式的路段。因此,本文基于起点的需求量分布、终点的空间分布和终点的需求量分布特征定义出行分布时空特征,在构建时空相似性评价指标的基础上提出基于时空密度峰值的快速聚类(CFSFSTDP)算法来实现网约车出行分布时空模式的识别。进一步采用AP算法来对各分区聚类出的出行分布时空模式的时间变化序列进行聚类分析,探索了网约车出行分布时空模式的时间连续性变化特征,为构建网约车出行时空演化数字孪生平台提供助力。

2 出行分布时空特征定义

相比传统的正方形分区,正六边形与其边连接的6个邻近六边形是对称等效的且更接近于圆形,可以更有利于将具有相似出行特征的需求集计在同一个分区中[35]。因此,将一个城市划分为均匀的六边形分区 L = l 1 , l 2 , , l i , , l n,将一天划分为均匀的时间段 T = T 1 , T 2 , , T t , , T m,来聚合不同时空区域的网约车订单。
将空驶车辆从分区 l j转移到分区 l i能否提升其整体的接单效率进而改善供需平衡,主要受到分区 l i完成订单匹配的难易程度、到达订单目的地分区后完成订单匹配的难易程度,以及有多大几率将乘客送往容易完成订单匹配的分区的影响(图2)。因此,采用起点的需求值分布、终点的空间分布和终点的需求值分布来共同表达分区间出行的时空分布相似性,进而通过聚类分析来识别网约车出行分布的时空转移模式。六边形分区 l i在时间区间 T t处的出行需求为 y i t,出行分布的时空特征可表示为:
P i t = ( y o i t , d i s i t , y d i t )
式中: y o i t为以该时空分区为起点的网约车需求的历史平均值 y ˙ i t,表达了一个时空分区的需求特征; d i s i t为以该时空分区为起点的网约车需求的终点空间分布的历史平均值,表达了需求从一个时空分区转移到其他时空分区的分布特征; y d i t为以该时空分区为起点的网约车需求的终点所在时空分区的历史需求平均值,表达了转移后到达的时空分区的需求特征。
图2 分区需求的时空转移

Fig. 2 The spatiotemporal transfer of partition travel demand

图3所示的7个六边形分区组成的空间为例,带有颜色的箭头表示在时间区间 T t时,从分区 l 1出发前往不同的目标分区的网约车需求分布,括号外为需求值,括号内为到达终点分区需要跨过的时间分区数,假设一共包括2 d的数据。因此,可分别求得:
y o 1 t = 1 2 ( 3 + 5 + 2 + 1 + 6 + 7 ) = 12
y d 1 t = 1 2 ( 3 × y 3 t + 1 + 5 × y 4 t + 2 + 2 × y 6 t + 3 +                         1 × y 3 t + 2 + 6 × y 5 t + 2 + 7 × y 7 t + 1 )
分别计算在时间区间 T t时,从分区 l 1出发前往目标分区 l i的需求平均值 y ˙ 1 i t,如 y ˙ 13 t = 1 2 ( 3 + 1 ) = 2,则 d i s 1 t y ˙ 1 i t的空间分布如图3(c)所示。
图3 分区 l 1在时间区间 T t处出行分布的时空特征

Fig. 3 Spatiotemporal characteristics of travel distribution in partition l 1 at time interval T t

3 时空聚类模型方法

3.1 CFSFSTDP模型结构

CFSFDP算法是密度聚类方法的一种,适用用于处理欧几里得空间中非球形数据的聚类问题,并且能够自动地确定聚类个数。该算法的基础是假设聚类中心被局部密度较低的邻居围绕,并且它们与任何局部密度较高的点之间的距离相对较大。对于任意的数据点 i,分别计算2个参数:局部密度 ρ i和它与更高密度点间的距离 δ i。这2个参数的计算都依赖于数据点之间的距离 d i j。其中,局部密度 ρ i的计算公式如下:
ρ i = j X ( d i j - d c )
式中: x < 0 X ( x ) = 1,否则 X ( x ) = 0 d c表示截断距离。 ρ i实质上表示为在数据点 i周围与其距离小于 d c的点的个数。该算法只对 ρ i在不同点上的相对大小敏感,这意味着,对于大数据集,分析结果对于 d c的选择是稳健的。
δ i是通过计算数据点 i与任何其他密度更高的点之间的最小距离来度量的,计算公式如下:
δ i = m i n j : ρ j > ρ i ( d i j )
式中:对于局部密度最高的点,通常取 δ i = m a x j ( d i j )。以图4(a)所示的二维数据点集为例,分别以 ρ为横轴,以 δ为纵轴作决策图如图4(b)所示,聚类中心通常被识别为 ρ i δ i值较大的离群点。
图4 二维数据聚类决策过程

Fig. 4 The decision process of two dimensional data clustering

王培晓等[33]提出一种时间约束的ST-CFSFDP算法,在CFSFDP算法的基础上加入时间约束,修改了样本属性值的计算策略,将该算法拓展到了有时间顺序的空间点数据聚类任务中。然而,该算法仍难以对集计后的时空分布数据进行处理。对网约车出行分布的时空模式进行聚类分析,需要解决的核心问题是分区间时空相似性的计算,来有效识别各时空分区的特征。因此,本研究提出图5所示基于时空密度峰值的CFSFSTDP模型结构。
图5 CFSFSTDP模型结构

Fig. 5 Architecture of CFSFSTDP

分别选择六边形分区Ii在时间区间Ti处出行分布的时空特征 P i t以及六边形分区 l j在时间区间 T m处出行分布的时空特征 P j m,定义二者间的时空相似性 S s t i j t m如下:
S s t i j t m = S o i j t m × S d i s i j t m × S d i j t m
式中: S o i j t m S d i j t m分别表示起点需求相似性和终点需求相似性,计算公式如下:
S o i j t m = 1 - y o i t - y o j m y o i t + y o j m
S d i j t m = 1 - y d i t - y d j m y d i t + y d j m
时空分区的需求终点分布 d i s i t d i s j m在空间上可视为二维图片矩阵(图6)。作为一种常见的图片搜索手段,均值哈希算法能有效地衡量出不同的二维图片数据之间的差异,因此被用来捕获不同时空分区之间的需求终点分布相似性 S d i s i j t m。首先,将基于六边形的二维图片映射到矩阵空间后分别对行列尺寸进行压缩,提取其主要空间分布特征。其次,比较各位置的需求特征与均值间的大小差异,大于均值的设置为1,否者为0。再次,将修改后的结果展开成长度 n h的一维向量哈希值,作为该时空分区需求终点分布的指纹。最后,统计 d i s i t d i s j m哈希值之间对应位置数值不同的个数,即为两者的汉明距离 H i j t m。计算终点分布相似性 S d i s i j t m如下:
S d i s i j t m = 1 - H i j t m n h
在CFSFSTDP算法中,定义时空分区间的时空距离为 d s t i j t m = 1 - S d i s i j t m,获取各时空分区间的时空距离分布矩阵后,相应的时空密度 ρ i t和它与更高密度点间的距离 δ i t计算公式定义为:
ρ i t = j , m X ( d s t i j t m - d s t c )
δ i t = m i n j , m :   ρ j m > ρ i t ( d s t i j t m )
式中: d s t c为时空截断距离,时空密度 ρ i t表示为在第 T t时间区间的六边形分区 l i周围与其时空距离小于 d s t c的时空分区个数。
图6 终点分布相似性的计算过程

Fig. 6 The calculation process of destination distribution similarity

依据决策图确定聚类中心,将各时空分区依次分配给各聚类中心,即可实现各时空分区出行分布的时空模式识别。

3.2 AP模型结构

六边形分区 l i在不同的时间区间有着不同的出行分布和相应的时空模式。选择AP算法来进一步识别 l i出行分布时空模式的时间序列变化模式 (图7)。AP算法主要包括以下4个步骤:
图7 AP模型结构

Fig. 7 Architecture of AP

(1) 将每个六边形分区 l i的时空模式时间序列映射到 T维空间中的一个数据点。
(2) 传递2种类型的信息,分别为吸引度 r i , j和归属度 a i , j,直到网络的聚类结果稳定下来或者达到指定迭代次数。
(3) 网络收敛后,获得聚类中心集合,并将剩余点分配给各聚类中心。
(4) 将各聚类的数据点还原为出行分布时空模式时间序列并统计其时空模式分布,得到相应的时间序列模式。
C l i t为六边形分区 l i t时间区间的出行分布时空模式,则其在一天中的时间序列为向量 C l i = [ C l i 1 , C l i 2 , , C l i T ]。衡量不同的分区之间相似性是互相信息传递的基础,选择不同时间区间的欧式距离来描述相应时间区间的相似性,则六边形分区 l i l j时空模式的时间序列相似性为各时间区间相似性之和,计算公式如下:
S i , j = - t = 1 T C l i t - C l j t 2
式中: S i , i S j , j分别为 l i l j的偏向参数,默认设置为相同,反映了各分区成为聚类中心的可能性一致。吸引度 r i , j表示在考虑了其他的潜在聚类中心后,分区 l j作为分区 l i聚类中心的适配程度。归属度 a i , j表示在考虑了其他分区对 l j成为聚类中心的支持后,分区 l i选择 l j作为聚类中心的适配程度,初始值为0。计算公式分别如下:
r i , j s i , j - m a x j ' s . t . j ' j { a i , j ' + s i , j ' }
a i , j m i n { 0 , r j , j + i ' s . t . i ' { i , j } m a x { 0 , r i ' , j } } ( i j )
a i , j i ' s . t . i ' j m a x { 0 , r i ' , j } ( i = j )
重复迭代式(13)—式(15),不断更新吸引度 r i , j 和归属度 a i , j值,为保证信息更新的稳定性,设置阻尼因子 λ来部分保留上一时刻的信息,计算公式 如下:
r i , j t = λ r i , j t - 1 + ( 1 - λ ) r i , j t
a i , j t = λ a i , j t - 1 + ( 1 - λ ) a i , j t
式中: r i , j t a i , j t分别表示第 t轮次的吸引度和归属度。
当算法收敛后,将吸引度与归属度相加获得聚类中心,若使 a i , j + r i , j最大的 j值为 j ',则有 i = j '时,分区 l i为聚类中心; i j '时,分区 l i属于聚类中心分区 l j '。将完成聚类中心分配后的各聚类的时间序列向量还原为相应分区出行分布时空模式时间序列并统计其时空模式分布,得到相应的时间序列 模式。

4 实证分析

4.1 数据集介绍

选择由滴滴盖亚开放平台(https://outreach.didichuxing.com/research/opendata/)提供的2016年11月成都市所有网约车订单数据进行分析。如表1所示,订单样本数据包括订单ID、开始和结束时间以及OD点的经纬度坐标,平均每天产生约23万的出行需求订单。
表1 滴滴数据集样本数据

Tab. 1 Sample records from the Didi dataset

订单ID 开始时/s 结束时间 起点经度/E° 起点纬度/N° 终点经度/E° 终点纬度/N°
Oq**ol 1477985585 1 477 987 675 104.076 30.767 104.063 30.589
Uu**re 1478004952 1 478 006 217 104.019 30.689 104.105 30.663
Qx**ji 1477989840 1 477 991 065 104.036 30.622 104.043 30.682
将城市划分为35×46个边长800 m的六边形分区,采用30 min将一天分为48个时间区间。六边形分区 l i在时间区间 T t的出行需求为 y i t,在相应出行分布的时空特征中, y o i t为以该时空分区为起点的网约车需求的在一整个月的平均值 y ˙ i t d i s i t为以该时空分区为起点的网约车需求的终点空间分布在一整个月的平均值; y d i t为以该时空分区为起点的网约车需求的终点所在时空分区的一整个月的需求平均值。

4.2 时空模式分析

根据获得各时空分区出行分布的时空特征结果,计算相应的时空相似性 S s t i j t m。其中,在不同时空分区之间的需求终点分布相似性 S d i s i j t m的计算过程中,将空间大小为35×46的各时空分区的需求终点时空分布 d i s i t压缩为8×8的二维矩阵数据,则有展开后的指纹长度 n h = 64。采用CFSFSTDP模型对六边形分区出行分布的时空模式进行聚类分析,设置时空截断距离 d s t c依次为时空距离 d s t i j t m的2%、5%、8%分位值,分别统计局部密度 ρ i和它与更高密度点间的距离 δ i的分布如图8(a)图8(c)所示。当截断距离选择过大时,决策图确定的聚类中心有限,难以有效地区分不同聚类特征;而当截断距离选择过小时,决策图确定了大量的聚类中心,将类似的时空分布特征聚类成不同的类,造成大量的重复。因此,选择时空距离 d s t i j t m的5%分位值作为本文时空截断距离,确定图8(b)所示用蓝色圆圈标记的7个聚类中心。
图8 网约车出行分布时空模式决策图

Fig. 8 The decision process of spatiotemporal clustering of ride-hailing travel distribution

用不同的颜色表示各种聚类,并统计各六边形分区在3:00—3:30、6:00—6:30、9:00—9:30、12:00—12:30、15:00—15:30、18:00—18:30、21:00—21:30和00:00—00:30时间区间的出行分布聚类出的时空模式(图9),不同的六边形分区之间有着不同的时空模式,同一分区的时空模式也在随着时间不断变化。
图9 出行时空模式在不同时空间上的分布

Fig. 9 The distribution of clustering results in different time and space

将时空模式相同的时空分区所包含的OD需求进行汇总统计,分别用起点需求空间分布终点需求空间空间分布和起点时间分区分布来揭示各聚类的时空转移特征如图10图11所示。
图10 网约车需求空间分布

Fig. 10 Spatial distribution of ride-hailing demand

图11 网约车起点时间区间分布

Fig. 11 Time interval distribution of ride-hailing departure demand

由于公共交通出行配套设施的发展速度往往滞后于城市的对外扩张速度,因此在偏远郊区与中心城区间存在大量通勤出行需要网约车等提供服务。如时空模式1为基本发生在白天、从城郊以外的平均需求值为0~5之间的稀疏需求区域出发,前往主要集中于中心城区的高需求区域;时空模式5与时空模式1类似,起点和终点在空间分布更远离城区;时空模式7在时空模式5的基础上覆盖了部分夜间出行;而时空模式6基本发生在白天、从平均需求值为100以上的高需求中心城区出发,前往平均需求值主要为0附近、覆盖了大量的偏远郊区的稀疏需求区域。
在中心城区与城郊结合的区域通常配套了一定的公共出行基础设施,但是由于该区域交通出行需求量大且覆盖面积广,网约车出行也成为了该区域的重要出行手段。时空模式2在时间上以白天为主,包含部分夜间出行,出行起点在白天时主要集中该区域的平均需求值为5~25之间的中等规模需求、在夜间时主要集中在中心城区,而出行终点平均需求值在0附近的稀疏需求区间占据较大比例,在剩余区间逐渐降低,在空间上既包含了中心城区,也覆盖了大量的城郊区域;时空模式3与时空模式2类似,出行起点平均需求值相对更高,在空间上更靠近中心城区;时空模式4在时间上以夜间为主,出行起点以该区域及以外的平均需求值在0附近的稀疏需求为主,而出行终点平均需求值从0~100显著降低,主要集中于中心城区。不同类型时空模式的具体特征汇总如表2所示。
表2 不同类型时空模式特征汇总

Tab. 2 Characterization of different spatiotemporal distribution pattern

时空模式
类型
起点特征 终点特征 时间特征
主要位置 主要需求类型 主要位置 主要需求类型
1 城郊结合区、偏远郊区 稀疏需求 中心城区 高需求 基本白天
2 城郊结合区、中心城区 中等需求 均有覆盖 均有覆盖 全天
3 中心城区 中、高需求 均有覆盖 均有覆盖 全天
4 城郊结合区、偏远郊区 稀疏需求 中心城区 稀疏需求、中等需求 夜间为主
5 偏远郊区 稀疏需求 中心城区 高需求 基本白天
6 中心城区 高需求 偏远郊区 稀疏需求 基本白天
7 偏远郊区 稀疏需求 中心城区 高需求 全天

4.3 时间序列模式分析

将时空分区出行分布的7个时空模式分别编号为1—7,用AP算法对各时空分区出行分布时空模式在一天内的时间序列变化模式进行聚类。在同一时间区间,当不同时空分区的时空模式相同时,该时间区间相似性为1,否则为0,相应的时间序列相似性为各时间区间相似性之和。AP算法聚类出6个时间序列模式(图12)。
图12 AP聚类结果

Fig. 12 Clustering results of AP

将时间序列模式相同的六边形分区所包含的时空模式在时间上的变化规律进行汇总统计 (图13)。时间序列模式1主要为城郊的稀疏需求分区,在夜间主要为时空模式4,在白天主要为时空模式1。时间序列模式2和时间序列模式4为零星分布在城郊区域外围的稀疏需求,其中时间序列模式2主要为在白天离散分布的时空模式5,时间序列模式4主要为在白天离散分布的时空模式4。时间序列模式6主要为中心城区的高需求分区,在夜间主要从时空模式3转变为时空模式2,在白天主要为时空模式6。可以看出,有大量的网约车往返于偏远郊区与中心城区之间。这可能因为,偏远郊区依靠更加低廉的居住成本,生活着相当比例的城市居民,公共资源和工作岗位却主要集中于中心城区。由于复杂的时空异质性和时空稀疏性,传统的公共交通出行和出租车出行难以有效地满足该部分居民的出行需求,而需求响应式的网约车有效地连通了偏远郊区与中心城区的出行。
图13 AP聚类结果的时间变化规律

Fig. 13 The temporal variation of AP clustering results

时间序列模式3和时间序列模式5为中心城区与城郊结合区的中等需求分区,其中时间序列模式3在夜间主要为时空模式4,在白天主要为时空模式2,时间序列模式5在夜间主要从时空模式2转变为时空模式4,在白天主要为时空模式3。可以看出,剩余的网约车车出行主要起始于城郊结合区域,前往任意的期望目的地。这可能因为,虽然城郊结合区的公共交通出行和出租车出行相对便捷,但是该区域人口众多、出行需求多样,网约车出行成为了传统出行方式的重要补充。

5 结语

针对网约车出行需求在时空上的动态流动性问题,本研究以六边形时空分区为基本对象,从时空模式和时间序列模式两方面建立了处理高维网约车出行数据的分析框架。分别提出和应用了CFSFSTDP及AP聚类算法,从起点的需求量分布、终点的空间分布和终点的需求量分布3个方面来表征不同时空分区出行分布特征,定量化的衡量了不同分布特征间的时空相似性,有效地识别了不同的网约车出行分布时空模式以及各时空模式的时间动态变化特征。
对成都一个月的滴滴出行订单数据进行实证分析,最终聚类出7个时空模式和6个时间序列模式。进一步分析了不同的时空模式在需求起终点位置、需求值类型,以及需求时间上的差异,探讨了网约车出行在不同区域的功能类型。研究发现,网约车主要服务往返于中心城区与偏远郊区的长距离出行,和起始于城郊结合区的自由出行。该分析验证了提出算法的有效性,捕获了不同分区的潜在供需不平衡状态。
本文的研究仍有待进一步完善,一方面提出的聚类算法结果有赖于时空相似性的确定,本文从起点的需求量分布、终点的空间分布和终点的需求量分布定义了时空相似性,出行分区的公交地铁分布、兴趣点分布等其他特征对定义不同时空分区差异的影响有待于进一步的研究;另一方面,不同的六边形分区面积,以及不同的时间区间范围集计出不同的需求分布,相应的时空相似性可能存在不确定性,后续研究有必要进行不同时空颗粒度的敏感性分析。
[1]
金盛, 苏弘扬, 张静. 融合出行拓扑与序列分析的车辆时空出行模式挖掘[J]. 交通运输系统工程与信息, 2023, 23(2):40-53.

[Jin S, Su H Y, Zhang J. Inferring spatial-temporal travel patterns of vehicles combining topology of trips and sequence analysis[J]. Journal of Transportation Systems Engineering and Information Technology, 2023, 23(2):40-53.] DOI:10.16097/j.cnki.1009-6744.2023.02.005

[2]
杨喜平, 方志祥, 赵志远, 等. 城市人群聚集消散时空模式探索分析——以深圳市为例[J]. 地球信息科学学报, 2016, 18(4):486-492.

DOI

[Yang X P, Fang Z X, Zhao Z Y, et al. Exploring urban human spatio-temporal convergence-dispersion patterns: A case study of Shenzhen city[J]. Journal of Geo-Information Science, 2016, 18(4):486-492.] DOI:10.3724/SP.J.1047.2016.00486

[3]
Yu J R, Mo D, Zhu Z, et al. A high-order hidden Markov model for dynamic decision analysis of multi-homing ride-sourcing drivers[J]. Transportation Research Part C: Emerging Technologies, 2023,148:104031. DOI:10.1016/j.trc.2023.104031

[4]
Rayle L, Dai D, Chan N, et al. Just a better taxi? A survey-based comparison of taxis, transit, and ridesourcing services in San Francisco[J]. Transport Policy, 2016, 45:168-178. DOI:10.1016/j.tranpol.2015.10.004

[5]
徐媛, 鞠炜奇, 杨家文, 等. 打车软件对出租汽车运营的影响——以深圳市为例[J]. 城市交通, 2017, 15(6):73-79,84.

[Xu Y, Ju W Q, Yang J W, et al. Impacts of car hailing apps on taxi operation: A case study of Shenzhen[J]. Urban Transport of China, 2017, 15(6):73-79,84.] DOI:10.13813/j.cn11-5141/u.2017.0611

[6]
高永, 安健, 全宇翔. 网络约租车对出行方式选择及交通运行的影响[J]. 城市交通, 2016, 14(5):1-8.

[Gao Y, An J, Quan Y X. The impact of APP-based car sharing on travel mode shift and transportation operation performance[J]. Urban Transport of China, 2016, 14(5):1-8.] DOI: 10.13813/j.cn11-5141/u.2016.0501

[7]
Rashidi T H, Abbasi A, Maghrebi M, et al. Exploring the capacity of social media data for modelling travel behaviour: Opportunities and challenges[J]. Transportation Research Part C: Emerging Technologies, 2017, 75:197-211. DOI:10.1016/j.trc.2016.12.008

[8]
李君轶, 唐佳, 冯娜. 基于社会感知计算的游客时空行为研究[J]. 地理科学, 2015, 35(7):814-821.

DOI

[Li J Y, Tang J, Feng N. Tourists’ spatio-temporal behavior based on socially aware computing[J]. Scientia Geographica Sinica, 2015, 35(7):814-821.] DOI:10.13249/j.cnki.sgs.2015.07.002

[9]
Fang M Y, Tang L L, Yang X, et al. FTPG: A fine-grained traffic prediction method with graph attention network using big trace data[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(6):5163-5175. DOI: 10.1109/TITS.2021.3049264

[10]
郑晓琳, 刘启亮, 刘文凯, 等. 智能卡和出租车轨迹数据中蕴含城市人群活动模式的差异性分析[J]. 地球信息科学学报, 2020, 22(6):1268-1281.

DOI

[Zheng X L, Liu Q L, Liu W K, et al. Discovery of urban human mobility patterns from smart card transactions and taxi GPS trajectories: A comparative study[J]. Journal of Geo-Information Science, 2020, 22(6):1268-1281.] DOI:10.12082/dqxxkx.2020.190312

[11]
刘菊, 许珺, 蔡玲, 等. 基于出租车用户出行的功能区识别[J]. 地球信息科学学报, 2018, 20(11):1550-1561.

DOI

[Liu J, Xu J, Cai L, et al. Identifying functional regions based on the spatio-temporal pattern of taxi trajectories[J]. Journal of Geo-Information Science, 2018, 20(11):1550-1561.] DOI: 10.12085/dqxxkx.2018.180164

[12]
刘瑜, 郭浩, 李海峰, 等. 从地理规律到地理空间人工智能[J]. 测绘学报, 2022, 51(6):1062-1069.

DOI

[Liu Y, Guo H, Li H F, et al. A note on GeoAI from the perspective of geographical laws[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(6):1062-1069.] DOI:10.11947/j.AGCS.2022.20220125

[13]
王鹏洲, 赵志远, 姚伟, 等. 基于地理流空间的巡游车与网约车人群出行模式研究[J]. 地球信息科学学报, 2023, 25(4):726-740.

DOI

[Wang P Z, Zhao Z Y, Yao W, et al. Human travel patterns by E-hailing cars and traditional taxis based on geographic flow space[J]. Journal of Geo-Information Science, 2023, 25(4):726-740.] DOI:10.12082/dqxxkx.2023.210769

[14]
Faroqi H, Mesbah M, Kim J. Spatial-temporal similarity correlation between public transit passengers using smart card data[J]. Journal of Advanced Transportation, 2017,2017:1-14. DOI:10.1155/2017/1318945

[15]
Weijermars W, Analyzing highway flow patterns using cluster analysis[C]// Proceedings of 2005 IEEE Intelligent Transportation Systems. IEEE, 2005:308-313. DOI:10.1109/ITSC.2005.1520157

[16]
Gong L, Sato H, Yamamoto T, et al. Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines[J]. Journal of Modern Transportation, 2015, 23(3):202-213. DOI:10.1007/s40534-015-0079-x

[17]
冯琦森. 基于出租车轨迹的居民出行热点路径和区域挖掘[D]. 重庆: 重庆大学, 2016.

[Feng Q S. Research on residents' trip hot routes and attractive areas based on taxi trajectory data[D]. Chongqing: Chongqing University, 2016.]

[18]
刘爽. 基于时空轨迹的交通数据分析与应用[D]. 成都: 电子科技大学, 2017.

[Liu S. Analysis and application of traffic data based on time-space trajectory[D]. Chengdu: University of Electronic Science and Technology of China, 2017.]

[19]
Pirra M, Diana M. Classification of Tours in the U.S. national household travel survey through clustering techniques[J]. Journal of Transportation Engineering, 2016, 142(6):04016021. DOI:10.1061/(asce)te.1943-5436.0000845

[20]
龚越. 基于车牌识别数据的交通出行特征分析[D]. 杭州: 浙江大学, 2018.

[Gong Y. Analysis of urban traffic trip characteristics based on license plate recognition data[D]. Hangzhou: Zhejiang University, 2018.]

[21]
项煜, 陈晓旭, 杨超, 等. 基于地铁售检票系统刷卡数据的乘客出行模式分析[J]. 城市轨道交通研究, 2020, 23(6):63-67.

[Xiang Y, Chen X X, Yang C, et al. Analysis of passengers travel patterns based on subway automatic fase collection system smart card data[J]. Urban Mass Transit, 2020, 23(6):63-67.] DOI:10.16037/j.1007-869x.2020.06.015

[22]
Abel G J, Sander N. Quantifying global international migration flows[J]. Science, 2014, 343(6178):1520-1522. DOI:10.1126/science.1248676

PMID

[23]
Song C, Pei T, Ma T, et al. Detecting arbitrarily shaped clusters in origin-destination flows using ant colony optimization[J]. International Journal of Geographical Information Science, 2019, 33(1):134-154. DOI:10.1080/13658816.2018.1516287

[24]
薛山, 廖一兰, 李春林, 等. 不同人口流动模式下城市传染病时空传播模型适用性研究[J]. 地球信息科学学报, 2023, 25(1):208-222.

DOI

[Xue S, Liao Y L, Li C L, et al. Research on the applicability of urban infectious disease spatiotemporal transmission model under different population flow patterns[J]. Journal of Geo-Information Science, 2023, 25(1):208-222.] DOI:10.12082/dqxxkx.2023.220221

[25]
Xu Y, Shaw S L, Zhao Z L, et al. Another tale of two cities: Understanding human activity space using actively tracked cellphone location data[J]. Annals of the American Association of Geographers, 2016, 106(2):489-502. DOI:10.1080/00045608.2015.1120147

[26]
Han Y F, Moutarde F. Analysis of large-scale traffic dynamics in an urban transportation network using non-negative tensor factorization[J]. International Journal of Intelligent Transportation Systems Research, 2016, 14(1):36-49. DOI:10.1007/s13177-014-0099-7

[27]
Lathia N, Smith C, Froehlich J, et al. Individuals among commuters: Building personalised transport information services from fare collection systems[J]. Pervasive and Mobile Computing, 2013, 9(5):643-664. DOI:10.1016/j.pmcj.2012.10.007

[28]
Peng C B, Jin X G, Wong K C, et al. Collective human mobility pattern from taxi trips in urban area[J]. PLoS One, 2012, 7(4):e34487. DOI:10.1371/journal.pone.0034487

[29]
Wang J Y, Gao F, Cui P, et al. Discovering urban spatio-temporal structure from time-evolving traffic networks[J]. Web Technologies and Applications, 2014,8709:93-104. DOI:10.1007/978-3-319-11116-2_9

[30]
Sun L J, Axhausen K W. Understanding urban mobility patterns with a probabilistic tensor factorization framework[J]. Transportation Research Part B: Methodological, 2016, 91:511-524. DOI:10.1016/j.trb.2016.06.011

[31]
Lin M, Huang Z D, Zhao T H, et al. Spatiotemporal evolution of travel pattern using smart card data[J]. Sustainability, 2022, 14(15):9564. DOI:10.3390/su14159564

[32]
Rodriguez A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344:1492-1496. DOI: 10.1126/science.1242072

PMID

[33]
王培晓, 张恒才, 王海波, 等. ST-CFSFDP:快速搜索密度峰值的时空聚类算法[J]. 测绘学报, 2019, 48(11):1380-1390.

DOI

[Wang P X, Zhang H C, Wang H B, et al. Spatial-temporal clustering by fast search and find of density peaks[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(11):1380-1390.] DOI:10.11947/j.AGCS.2019.20180538

[34]
Cheng S F, Lu F, Peng P. Short-term traffic forecasting by mining the non-stationarity of spatiotemporal patterns[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(10):6365-6383. DOI:10.1109/TITS.2020.2991781

[35]
Liu K, Chen Z J, Yamamoto T, et al. Exploring the impact of spatiotemporal granularity on the demand prediction of dynamic ride-hailing[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(1):104-114. DOI:10.1109/TITS.2022.3216016

文章导航

/