“第十三届空间综合人文学与社会科学学术论坛”会议专题论文

基于刷卡数据的公交-地铁换乘模式研究

  • 严敏祖 , 1 ,
  • 董冠鹏 2 ,
  • 卢宾宾 , 1, *
展开
  • 1.武汉大学遥感信息工程学院,武汉 430079
  • 2.河南大学黄河文明与可持续发展研究中心,开封 475001
*卢宾宾(1984— ),男,河南周口人,博士,副教授,主要从事空间统计和数据科学研究。E-mail:

严敏祖(1999— ),女,青海西宁人,硕士生,主要从交通数据挖掘与计算研究。E-mail:

收稿日期: 2023-11-28

  修回日期: 2024-01-12

  网络出版日期: 2024-05-24

基金资助

国家自然科学基金项目(42071368)

中央高校自主科研项目(2042022dx0001)

Bus-Subway Interchange Mode Research with IC Card Data

  • YAN Minzu , 1 ,
  • DONG Guanpeng 2 ,
  • LU Binbin , 1, *
Expand
  • 1. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China
  • 2. Key Research Institute of Yellow River Civilization and Sustainable Development, Henan University, Kaifeng 475001, China
*LU Binbin, E-mail:

Received date: 2023-11-28

  Revised date: 2024-01-12

  Online published: 2024-05-24

Supported by

National Natural Science Foundation of China(42071368)

The Fundamental Research Funds for the Central Universities, China(2042022dx0001)

摘要

随着城市规模的不断扩大,城市居民通勤中混合交通模式普遍出现,即需要借助不同交通工具之间的换乘完成行程。精确提取和分析城市居民换乘行为,对城市交通模式及设施便捷性等研究具有重要意义。目前,换乘行为的提取多采用GPS(Global Positioning System)、GTFS(General Transit Feed Specification)等数据,基于步行速度或经验选取距离阈值或时间阈值,进而实现换乘行为的识别。但这种方式忽略了城市空间内公交或地铁站点密度的差异性特征,识别精度可能受到较大影响。因此,本研究基于公交地铁IC卡数据,提出了一种时间-距离阈值双约束的换乘行为识别算法,即根据公共交通刷卡数据的统计特征,实现时间和距离阈值的自动选择,进而精准提取换乘行为。在此基础上,本文根据前后半程的旅行时间/距离长短将换乘行为分为九类换乘模式:长-长换乘、长-中换乘、长-短换乘、中-长换乘、中-中换乘、中-短换乘、短-长换乘、短-中换乘、短-短换乘,并分别对其出行特征进行分析。结果表明,所有类型的换乘行为的早高峰均早于公交和地铁的出行早高峰,短-长换乘的早高峰时间甚至比一般出行的早高峰时间提前了30 min,充分说明了以换乘模式通勤的乘客需要付出更大的努力。相比之下,晚高峰出行时间则各有早晚,如长-长、长-短换乘模式晚高峰明显滞后于一般出行的晚高峰时间,更凸显了换乘群体的通勤成本负担之重。从出行距离上来说,九种换乘行为的通勤距离峰值远大于一般出行的峰值,甚至多分布于20~40 km之间。总之,本文所提出的换乘行为提取算法能够实现城市换乘行为的精确提取,结合对不同换乘行为模式的有效分析,为城市交通、城市活力、公共交通设施和城市规划等方面的研究提供有效的模型算法支撑。

本文引用格式

严敏祖 , 董冠鹏 , 卢宾宾 . 基于刷卡数据的公交-地铁换乘模式研究[J]. 地球信息科学学报, 2024 , 26(6) : 1351 -1362 . DOI: 10.12082/dqxxkx.2024.230709

Abstract

With the expansion of urban areas, a mix of transportation modes has become prevalent during the daily commutes of city dwellers. That is, commuters often need to transfer between various modes to reach their destinations. Accurate identification and analysis of these transfer behaviors are crucial for advancing urban transportation research. Current research tends to focus on distance or time thresholds, typically derived from walking speeds or anecdotal experience. However, these approaches often overlook the distinct station densities within cities. Other studies, while utilizing GPS, GTFS, and similar datasets, construct intricate transfer identification methods that lack generalizability. Against this backdrop, we introduce a time-distance dual-constraint transfer recognition algorithm. Firstly, leveraging extensive traffic IC card data, based on the statistical characteristics of the proximity distance sequences between bus or subway stations and their M neighboring stations, distance thresholds for bus-bus, bus-subway, and subway-bus transfer are detected individually. Subsequently, a filtering algorithm based on these distance thresholds is applied to daily data to produce a candidate transfer data set. Based on this, four time thresholds for each day are determined by analyzing the statistical characteristics of the transit time differences within the datasets. Finally, these dual thresholds facilitate the precise extraction of transfer behaviors. Furthermore, we establish a classification framework for these behaviors, classifying them into nine distinct transfer modes. These modes are defined based on the duration of travel time in the first and second journeys, encompassing variations including long-long, long-medium, long-short, middle-long, middle-middle, middle-short, short-long, short-middle, and short-short. We analyze these models individually for their travel characteristics. Results reveal that the morning peak for all transfer trips precedes that of buses and subways, with short-long transfers leading by up to 30 minutes. This underscores the added effort required by commuters who rely on transfers. In contrast, evening peak times vary, with certain transfer modes like long-long and long-short lagging notably behind the general evening peak. This further emphasizes the increased commuting burden associated with transfers. In terms of travel distances, the peak of regular subway travel distances is around 10 km, while that of the bus travel distances is around 1 km. The peak commuting distances for all nine transfer behaviors are greater than those of typical trips and are distributed within a range of 20~40 km. In summary, our method for extracting and analyzing transfer behaviors offers a robust and effective tool for urban transportation research, urban vitality assessment, public transportation planning, and urban planning.

1 引言

随着大城市规模不断扩大,城市人口越来越密集,其往往伴随着较严重的职住分离现象,即城市人群表现出工作聚集和居住聚集现象[1],很多研究已经对此做了详细阐述[2-4]。在职住分离的情况下,混合交通换乘出行模式非常普遍,且对应的模式情形也较为复杂,但其背后蕴含的规律挖掘对深刻理解城市交通与规划布局具有重要意义。
由于各国公交系统刷卡数据的差异性,国内外学者从多种角度对换乘行为的提取开展了研究,Hofmann等[5]利用前后两次刷卡记录的时间差对换乘站点进行了判断,并对其结果的有效性进行了分析[6]。Seaborn等[7]基于伦敦市公交数据,以交易时间差为依据,确定了伦敦市识别换乘的时间阈值:地铁到公交为20 min、公交到地铁为35 min、公交到公交为45 min。Huang等[8]用前后交易的时间差进行换乘数据的提取,进而构建完整的出行链。Gordon 等[9]使用了750 m(欧氏距离)作为距离阈值;而Yan等[10]使用了1 km作为距离阈值。蒋敏等[11]基于交易时间差进行了公交和地铁的换乘判断,并分析优化换乘时间,最后以南京市IC卡数据为例进行了分析。彭晗等[12]用刷卡时间和线路间的空间系数2个参数来进行换乘判断。董晓晶[13]等以时间和空间为双重准则对公交不同线路间的换乘进行了研究与分析。此外,Chu等[14]结合GPS数据对公交车的实际运行情况进行分析,依据乘客在换乘时是否在他们的既定路径或方向上乘坐了可供乘坐的第一辆公交车来识别连续出行行为;Kumar等[15]结合General Transit Feed Specification(GTFS数据)使用相同逻辑进行了换乘识别。Nassir等[16]以最优路径(用时最短)和所有可供选择的备选路线为标准,构建了对应测度进行换乘行为判断。Gordon等[9]假设连续的出行行为为了节约出行时间,会默认选择路线与物理最短路径(即直线距离)接近,由此提出了迂回系数,即出行距离与起终点直线距离的比值,并将1.7设置为换乘判断阈值。Liu等[17]结合GTFS数据使用整数规划和凸二次规划规划优化技术进行了换乘识别。
而根据所使用的数据源,以往研究总体上分为2类:一类为仅使用公共交通刷卡数据进行换乘行为提取[5,7-13];另一类结合车辆轨迹数据、城市居民出行调查数据等多源数据进行换乘行为分析[14-18]。其中,前者多使用固定的时间阈值或距离阈值提取换乘行为,如Yan等[10]所依据的距离阈值和Seaborn 等[7]所采用的经验时间阈值,很大程度上忽略了城市内交通站点分布密度的差异性,进而导致提取精度下降;而后者在换乘行为提取方面具有天然的精度优势,但对多源数据质量要求较高,难以进行大范围推广,如本文仅能获取公共交通的IC卡刷卡数据,且公交IC卡刷卡数据仅有下车时间记录。
总的来说,当前公共交通换乘算法精度存疑,尤其针对缺失上车时间的IC卡数据集并不适用。针对上述难点,结合北京市公交-地铁IC卡刷卡数据,本文提出了一个新的换乘行为提取算法,从海量公共交通IC卡数据的统计特征自动筛选换乘行为距离阈值和时间阈值,以实现时间-距离双约束条件下的换乘行为提取,并在此基础上对换乘行为模式进行分类研究,为深入探索城市换乘行为规律奠定良好的技术基础。

2 研究区概况

本研究以北京市为例,下辖16个区,总面积16 410.54 km2,是我国的政治中心、文化中心和科技创新中心[18]。2021年末,北京市常住人口2 188.6万人[19]。庞大的人口带来了巨大的交通出行量,2021年北京市全年客运量557 707万人次,占全国总客运量的4.4%[20];其中,公共汽电车客运量229 634万人次,轨道交通客运量306 621万人次[21],两者相加占客运总量的96.2%。因此,如何从海量的交通数据中挖掘换乘出行模式对于理解城市交通以及城市活力等具有重要意义。
本研究采用了北京市2015年4月1日—6月 30日的公交和地铁的IC卡刷卡数据,平均每天有800万条公交乘车记录和1 000万条地铁乘车记录。公交刷卡数据包含5个属性,如表1所示。注意其中的交易时间为下车时间,上车时间记录缺失。因此,在之后的研究中公交行程的交易时间差为第二程下车时间减去第一程下车时间,即包括了第二程的行程时间和换乘时间2个部分。
表1 公交刷卡数据属性

Tab. 1 Bus IC card data attribute table

序号 属性 数据类型 含义
1 GRANT_CARD_CODE int 一卡通卡号
2 DEAL_TIME int64 交易时间
3 LINE_CODE int 线路编号
4 ON_STATION int 上车站编号
5 OFF_STATION int 下车站编号
地铁刷卡数据包含8个属性,如表2所示。在此数据中记录了地铁的站内换乘情况,如果END_OF_JOURNEY属性记录为1,则该条记录为完整行程;如果为0,表示该条记录出站信息记录缺失,则删除该条记录。
表2 地铁刷卡数据属性

Tab. 2 Subway IC card data attribute table

序号 属性 数据类型 含义
1 GRANT_CARD_CODE int 一卡通卡号
2 ENTRY_TIME int64 进站时间
3 DEAL_TIME int64 交易时间
4 ENTRY_LINE_NUM int 进站线路编号
5 ENTRY_STATION_NUM int 进站站点编号
6 EXIT_LINE_NUM int 出站线路编号
7 EXIT_STATION_NUM int 出站站点编号
8 END_OF_JOURNEY int 旅程是否结束
此外,针对公交和地铁刷卡数据中存在空值的行以及上下车点相同的数据,均将其作为异常数据删除。而公交和地铁之间的换乘行为,通过公交和地铁刷卡数据的一卡通卡号进行匹配识别[22-24]

3 换乘提取与模式分析方法

3.1 时间-距离双约束条件下的换乘行为提取算法

换乘行为一般指乘坐2个及以上不同交通工具的行程,中途的停留以交通换乘为目的。因此,换乘行为一般发生在同一站或者邻近的站点,并且两趟行程之间的时间差相对较短。基于以上认知,本研究提出了时间-距离双约束的换乘行为提取算法,其算法流程图如图1所示。
图1 换乘行为提取算法流程

Fig. 1 Flowchart of transfer behavior extraction algorithm

3.1.1 距离阈值选择

一般情况下,换乘行为多发生在同站或临近站点。因此,本研究重点考虑在本站点或邻近站点之间发生的换乘行为。值得注意的是,由于地铁与地铁换乘在原始的数据记录中已存在,并不需要进行算法识别,因此,本研究仅构建了面向公交-公交换乘、公交-地铁换乘和地铁-公交换乘的识别模型。
首先需要确定不同类型换乘的距离阈值,其过程主要包括:获取公交和地铁所有站点的地理位置,对于每种换乘方式,计算待换乘的所有L个站点到对应换乘类型的最邻近M个站点之间的距离,得到L×M大小的距离序列,最终选出代表距离序列中多数样本(如95%)的值作为距离阈值。
对于公交与公交之间的换乘,其邻近站点的数量并不固定。一般对应其线路上的2个邻近站点,但如果该站点靠近T型路口或者十字路口,临近站点可能达到3个或4个。图2展示了北京市公交地铁站点分布图,在23 925个公交站点中,有3 534个站点在十字路口和交叉路口100 m范围内,仅占总数的15%。按照交叉路口平均3.5个临近站点,而普通站点2个临近站点计算,临近站点平均为2.21个。因此,本研究将最临近公交站点数取为2个,即M为2。
图2 北京市公交地铁站点地图

Fig. 2 Map of Beijing bus and betro stations

图3中展示了站点临近距离的计算过程。红色点为第n个待计算公交站点,计算其与最邻近的 2个公交站点的距离 d n 1 d n 2;依次遍历计算每个站点与最邻近的2个公交站点之间的距离,即可得到距离序列值。绘制其频率分布图,得到图4(a)所示的偏态分布图,对临近距离矩阵取对数,绘制对应的频率分布图,如图4(b)所示,其分布呈“倒钟形”,接近于正态分布,根据统计经验特征,选取累计频率95%的值作为判断公交-公交换乘的距离阈值。值得注意的是,不同城市的站点分布差异可能得到不同的距离阈值。
图3 站点临近距离计算示意

Fig. 3 Distance calculation of adjacent bus stations

图4 公交-公交换乘站点距离分布

Fig. 4 Distance distributions of bus-bus interchange stations

而地铁-公交之间的换乘,由于地铁和公交站点分布密度的差异性,导致二者之间的换乘情况较为复杂:从地铁换乘到公交,附近可选择的车站较多;而从公交换乘地铁,可以选择的地铁站较少,如图2所示。因此,在选择邻近站点M时,无法从经验直接判断,需要进一步根据数据统计特征判断。
本文通过尝试不同的M值,最终选择最邻近的3个公交站点,即M值为3研究地铁换乘公交行为。其站点距离对应的分布如图5(a)所示,选择累计频率95%的点作为距离阈值。
图5 地铁-公交和公交-地铁换乘站点距离分布

Fig. 5 Distance distribution of metro-bus and bus-metro interchange stations

而判断公交换乘地铁时,沿用上述方法对M值进行观察,结果显示临近距离阈值达到了十几公里,很明显这是不合理的。如图2所示,由于地铁站点分布较稀疏并且集中在中心城区,公交站点却分布密集且范围较广,而且大部分公交站点附近没有地铁站点,即几乎不存在换乘地铁的可能。因此,为了计算公交换乘地铁的距离阈值,假设成年人步行的速度大约处于3.6~7.2 km/h之间[25],公交换乘地铁的可接受步行时间为30 min,则一个合理的换乘距离区间为1.8~3.6 km。因此,本研究选取2.7 km作为公交换乘地铁的距离范围最大值,即假设公交站点附近2.7 km内的地铁站点存在换乘的可能。因此,通过筛选公交站点附近2.7 km内的临近地铁站点,对不同的M值观察其数据统计特征,通过不断的迭代优选,最终确定M为2,也即公交换乘地铁时,可选择临近2.7 km内最近的2个地铁站点。基于此绘制临近站点的距离分布图,如图5(b)所示,选取累计频率95%的距离点作为阈值。
通过上述过程,从统计特征中得到了每一种换乘方式的邻近站点距离阈值,最终结果如表3所示。
表3 换乘行为距离阈值

Tab. 3 Interchange behavior distance threshold

换乘种类 距离阈值/km
公交-公交换乘 0.64
地铁-公交换乘 0.80
公交-地铁换乘 2.31

3.1.2 时间阈值选择与换乘识别

仅使用距离阈值识别换乘行为可能存在一定误差,因为同站或临站之间可能存在早-晚返程式或较长时间停留的通勤行为,此时不能视其为换乘行为。因此,需要结合其间隔时间进而判断其是否为连续的换乘出行行为。
换乘行为2次乘车行为之间的间隔时间通常为等车时长加上走路时长,如果间隔时间过长,则表明乘客在中间站点附近进行了乘车以外的活动,则不认为其进行了连续的乘车行为。因此,换乘行为过程中2次或多次乘车行为之间的间隔时间不能过长。另外,由于北京市公交车有行驶专道,公交和地铁的整体行程的行驶时间相对差异不大,因此在基于时间进行换乘行为识别时并不区分其乘坐工具的种类。由于本研究使用的是没有上车时间的数据集,因此,时间阈值的选择更具挑战性,具体来说,时间阈值提取的过程包括:通过距离阈值从每天的数据中筛选出一个换乘行为备选数据集C1,观察其中可能换乘行为的前后两趟行程之间交易时间差的分布。由于间隔时间过长不可能为换乘行为,仅统计间隔时间较小部分的数据统计特征,进而从中提取时间阈值。
工作日或非工作日的交通情况可能存在较大区别,因此本文根据不同日期数据的统计特征动态选择合理的时间阈值。以北京市2015年4月1日星期三数据为例,首先将公交和地铁刷卡数据进行融合,之后按照一卡通卡号进行分组。在每一组内部按照交易时间升序排列,即把同一张卡片在一天内的乘车行为按照时间排列。遍历计算每一条记录下车点与邻近记录上车点之间的距离和交易时间差。基于前述确定的距离阈值筛选出换乘行为备选数据集C1,提取该集合的交易时间差,绘制频率分布,如图6所示。
图6 交易时间差频率分布

Fig. 6 Frequency distribution of deal time lag

图6中,横坐标为同一个IC卡乘车记录之间的时间差,纵坐标为时间差对应的频率/组距。其分布呈明显的双峰特征,第一个高峰位于20 min左右,表示很大一部分人前后2条乘车记录的时间差在20 min左右;而第二个高峰位于10 h左右,表明部分人同一天前后2次乘坐公共交通工具的时间差在10 h左右,很明显而这部分行为不能被认定为换乘。为了更好地选择能够代表换乘行为的时间阈值,本文通过计算换乘时间的频率分布图中前后 2条频率柱的斜率变化率,将斜率的变化率从大到小排列,也即换乘时间分布趋势的变化从大到小排列,将其中突变的极值点作为换乘行为的时间阈值,具体计算排序如表4所示。
表4 交易时间差频率变化斜率

Tab. 4 Frequency change slopes of deal time lag

ID 交易时间差 频率 斜率 斜率的变化率
0 195.43 0.001 392 -6.06E-06 1.76E-08
176 68 990.25 0.000 734 -1.68E-06 1.12E-08
175 68 599.37 0.000 715 -4.80E-08 4.18E-09
9 3 713.36 0.019 109 1.28E-06 2.84E-09
11 4 495.12 0.018 540 2.91E-06 2.31E-09
23 9 185.67 0.009 730 1.86E-06 1.73E-09
14 5 667.75 0.015 861 1.93E-06 1.34E-09
20 8 013.03 0.011 510 1.84E-06 1.21E-09
30 11 921.83 0.006 202 1.03E-06 1.09E-09
69 27 166.13 0.002 445 2.61E-07 8.38E-10
52 20 521.18 0.003 044 2.00E-07 8.26E-10
41 16 221.50 0.003 934 3.12E-07 8.02E-10
26 10 358.31 0.008 021 1.42E-06 7.99E-10
124 48 664.51 0.001 110 1.28E-07 7.16E-10
表4中展示了相邻乘车行为之间的时间差分布的前14个突变点。注意,此处的交易时间差为后一趟行程的下车时间减去前一趟行程的下车时间,因此它包括了换乘时长和第二个行程的乘车时长。考虑到后一段行程时长的不确定性,不能用单一的时间阈值作为划分点来判断换乘行为。同时,表4中有许多数据突变点非常相近,为了保证阈值选取不重复且有实际意义,可划分不同的时间区间,保证一个时间区间内只选取一个值作为阈值点。综合上述内容,本研究暂且设置对应的时间区间以进行时间阈值筛选,如表5所示。超短途换乘的前后2次乘车行为的时间差阈值在0~0.5 h内,短途换乘的前后2次乘车时间的时间差阈值点在0.5~1 h内,其余模式以此类推。
表5 试探性换乘行为时间区间

Tab. 5 Tentative interchange behavior time interval

换乘类型 阈值区间 时间区间 12小时制
超短途换乘 下限区间 0 0
上限区间 (0, 5 000] (0, 30 min]
短途换乘 下限区间 (0, 5 000] (30, 50 min]
上限区间 (5 000, 10 000] (35 min, 60 min]
中途换乘 下限区间 (5 000, 10 000] (35 min, 60 min]
上限区间 (10 000, 15 000] (60 min, 90 min]
长途换乘 下限区间 (10 000, 15 000] (60 min, 90 min]
上限区间 (15 000, 20 000] (90 min, 120 min]
根据上述时间区间,在表4中选择在相应区间内的数据突变点作为该种换乘类型的时间阈值。以短途换乘为例,0.5~1 h内的第一个数据突变点为ID号为23的记录,其12小时制为55 min,即相邻 2条记录之间的交易时间差在1~55 min内的记录为短途换乘。同理可得其他换乘行为的阈值,最终 4种换乘类型各自对应的阈值如表6所示。
表6 试探性换乘行为时间阈值

Tab. 6 Time thresholds for tentative interchange behavior

换乘类型 时间差阈值范围 12小时制 时间间隔/min
超短途 (0, 195] (0, 1 min] 1
短途 (195, 9 185] (1 min, 55 min] 54
中途 (9 185, 11 921] (55 min, 72 min] 17
长途 (9 185,16 221] (72 min, 97 min] 25
在设置时间阈值时,上述换乘模式的区间是人为设置,无法保证其结果的唯一性与客观性。因此,需要对识别出的换乘模式进行校验。由于换乘行为是公共交通出行中的一部分,其出行特征与整体模式特征应当是相符的,以此可作为阈值校验的依据。
依据上述算法流程选取每日的时间阈值进行换乘判断。以2015年4月1日的数据为例,采用表6中的时间差阈值从前述换乘备选集中进行筛选,若同一卡号2条记录的交易时间差在某个时间阈值范围内,则将其认定为对应类型的换乘行为。以此最终提取得到4种模式的换乘行为,通过绘制4种出行模式频率分布曲线,并将其与公交、地铁的出行时间曲线进行对比。
图7(a)所示,超短途换乘虽然呈现了一定的早晚高峰趋势,但存在剧烈的波动,且筛选出的数据较少;短途与中途换乘与总体的公交地铁出行时间趋势较为接近,均在7:00 am—9:00 am出现早高峰,在10:00 am—4:00 pm趋于平缓, 6:00 pm—8:00 pm出现晚高峰。而长途换乘则与一般的通勤规律差异较大,在2:00 pm左右出现了小高峰,这可能由于长途换乘的时间区间过大,进而导致非换乘行为的错误筛选。因此,需要重新调整时间区间,以找到更加符合实际的时间阈值。
图7 各换乘模式与公交地铁出行时间对比

Fig. 7 Comparison of travel time by interchange mode vs. bus and metro

为了避免人为确定时间区间的主观性,并排除过大或过小的时间间隔,本文通过迭代优选方法,通过反复的选择-校验过程,最终确定了较为理想的时间区间,如表7所示。进而结合表4所给出的时间差突变点,最终确定换乘时间阈值,如表8所示。
表7 换乘行为时间区间

Tab. 7 Interchange behavioral time interval

换乘类型 阈值区间 时间区间 12小时制
短途换乘 下限区间 (0, 1 667] (0 min, 10 min]
上限区间 (1 667, 5 883] (10 min, 35 min]
中途换乘 下限区间 (1 667, 5 883] (10 min, 35 min]
上限区间 (5 833, 10 000] (35 min, 60 min]
长途换乘 下限区间 (5 833, 10 000] (35 min, 60 min]
上限区间 (10 000, 14 167] (60 min, 85 min]
表8 换乘行为时间阈值

Tab. 8 Time thresholds for tentative interchange behavior

换乘类型 时间差阈值范围 12小时制 时间间隔/min
短途 (195, 3 713] (1 min, 22 min] 21
中途 (3 713, 9 185] (22 min, 55 min] 33
长途 (9 185, 11 921] (55 min, 72 min] 17
利用最终的时间阈值,筛选换乘行为数据,并绘制其出行时间对比图,如图7(b)所示。结果显示,不同出行模式均展示了与一般的公共交通通勤规律较为契合的规律:存在明显的早晚高峰,中午时段趋于平稳,24:00 pm之后趋于零。其中,长途换乘与其他几种模式差异较大,可能与长途换乘多为随机通勤目的,会在2:00 pm—3:00 pm出现小高峰。
通过上述迭代选择过程,最终面向短途换乘、中途换乘和长途换乘3种换乘类型确定了合理的时间阈值,结合距离阈值最终实现换乘行为的精确提取。值得注意的是,本文仅以某工作日的公共交通刷卡数据为例进行阈值选取,而针对其他日期,如周末、节假日等,需要根据对应数据的统计特征重新选取距离阈值和时间阈值,进而实现换乘行为提取。

3.2 换乘算法验证与对比

本文利用IC卡数据构建了时间-距离阈值双约束条件下的换乘行为提取算法,对比根据经验或者步行速度估计的时间或距离阈值,本文算法的精确性与适用性均得到了大幅提升。本文采用Chen等[26]提出的换乘指数对换乘行为提取结果进行进一步验证,其具体计算公式如下:
= × 10
式中:换乘数据量表示经过换乘提取后的数据条数,总数据量表示出行数据的总量,乘以10是为了增加可读性。一般情况下,换乘指数在大城市不宜超过1.5,在中小城市不宜超过1.3。本文提取出的换乘数据共有1 455 234条,总数据共有10 598 829条,换乘指数为1.38,小于1.5,也侧面说明了本文换乘提取算法的合理性。
同时,出行距离与起终点直线距离的比值,即迂回系数[9,27]也常被用于换乘行为提取,认为小于1.7的情况即被认定为换乘。将该算法应用于本文的数据,漏检率超过34%,表现出了明显的不适用性,尤其在识别公交-地铁和地铁-公交换乘时表现较差,这与北京市公交-地铁线路分布范围较广且密度差异性较大有关。

3.3 换乘模式分类

在前文换乘行为提取时,交易时间差为后半程的行驶时长加换乘时长,因此换乘提取分类时只考虑了后半程行程,为了完整研究换乘人群出行特征,本文根据前半程和后半程的行程距离利用自然分割法将其划分为不同的模式。
以北京市2015年4月1日数据为例,将前半程的行程距离利用自然分割法将其分为短距离、中距离和长距离3类,后半程按照时间间隔分为短间隔TS、中间隔TM和长间隔TL 3类,具体分类标准如表9所示。根据表9所示的划分标准,将换乘模式划分为以下9种模式:长-长换乘、长-中换乘,长-短换乘,中-短换乘,中-中换乘、中-短换乘、短-长换乘、短-中换乘、短-短换乘。
表9 各换乘类型行程距离分类

Tab. 9 Classification of trip distances by interchange type

后半程换乘
类型
前半程行程距离自然分割/km
短距离 中距离 长距离
短间隔 (0, 8.24] (8.24, 19.93] (19.93, 89.38]
中间隔 (0, 8.05] (8.05, 21.11] (21.11, 89.01]
长间隔 (0, 7.75] (7.75, 21.03] (21.03, 89.01]

4 换乘行为模式分析

4.1 出行时间分析

出行时间是衡量各出行模式特征的重要指标,本文针对上述9种出行模式的出发时间绘制频率分布图,如图8(a)所示。但由于换乘模式众多,导致折线之间相互遮盖,难以对比细节,因此本文针对各类模式绘制分别绘制对比图,如图8(b)图8(d)所示。
图8 各模式出行时间折线图

Fig. 8 Line graphs of travel times for different types

图8(b)所示,长-短模式和长-中模式存在明显的早晚高峰,中午时段趋于平缓,而且其早高峰时间明显早于一般的公交和地铁的早高峰。而长-长模式并未呈现明显的峰值,可能由于其相当部分的通勤行为出于临时的通勤需求,因此不存在明显的早晚高峰。图8(c)中,中-短模式和中-中模式与公交地铁基本一致,其早高峰开始间略早于公交地铁早高峰。中-长模式在早上出现了2个小高峰,第一个小高峰均早于其他几种模式的早高峰,说明其通勤目的地更远。第二个小高峰在10:00 am左右,第一个小高峰对应的群体多为职住通勤的需求,第二个小高峰则可能多为临时通勤。3:00 pm左右再次出现小高峰,则也印证了临时通勤目的的返程现象。而晚高峰时间与其余模式的晚高峰一致,则很大程度上对应了规律性的通勤需求。图8(d)中,短-中模式和短-短模式走势与公交地铁基本一致,并且早高峰均早于公交地铁的早高峰时间。而 短-长模式的早高峰时间甚至早于公交地铁早高峰约30 min以上,说明该模式中的通勤上班人群需要付出更多的通勤成本。

4.2 出行距离分析

出行距离是衡量不同出行模式特征的另一个重要指标,本文针对换乘行为出发地和最终目的地之间的距离作为研究对象,观察不同类型换乘对应的出行距离特征。
图9(a)展示了各出行模式以及公交地铁的整体行程出行距离,其中,公交和地铁出行距离的分布峰值差异很明显,公交出行距离峰值在1 km左右,且分布较集中;而地铁的出行距离在10 km左右,且分布较分散,这与公交站点与地铁站点分布的密度差异直接相关。针对不同的换乘出行模式,长-长、长-中、长-短换乘模式的出行距离的峰值较大,平均在27 km左右,中-长、中-中、中-短换成模式的峰值平均在15 km左右,短-长、短-中、短-短换成模式的峰值相对较低,但存在较大差异。
图9 各出行模式出行距离折线

Fig. 9 Line graphs of travel distances for different types

为了更清晰地展示各类出行模式出行距离的差异,本文分别针对9类换乘模式绘制折线图,如图9(b)图9(d) 所示。图9(b)展示了长-长、长-中、长-短3种换乘模式的出行距离分布图,均从 20 km左右才开始有数值,说明绝大部分第一段旅程是长行程的换乘行为整体的出行距离都在 20 km以上,凸显了长-长、长-中、长-短换乘出行人群的成本之高。图9(c)展示了中-长、中-中、中-短3种换乘模式的出行距离分布,中-中换乘和中-短换乘行为均在5 km左右才出现数值,而中-长换乘在零附近却有个小高峰,出现了异常的出行现象,可推测为部分人群快速完成了一个往返式的换乘行程,导致整体行程的起终点重合,出行距离计算为0。这与出行时间对比图8(c)中展示的中-长换乘现象吻合,揭示了这部分人群多出于临时的通勤目的。图9(d)展示了短-长、短-中、短-短3种换乘模式的出行距离分布,短-中和短-长模式在零附近出现了一个峰值,说明了其中也存在往返式换乘的人群。

5 结论与展望

本文基于公共交通IC卡刷卡数据提出了时间-距离双约束下的换乘行为提取算法,并针对不同的换乘行为特征进行分类研究,分析其出行时间和出行距离的统计特征。本文所提出的算法能够根据数据统计特征,自动筛选时间阈值和距离阈值,进而实现换乘行为的精确提取。本文对北京市1 455 234条IC卡刷卡数据进行了提取,并采用换乘指数和迂回系数方法对结果进行了验证,相比于传统方法的34%漏检率,本文方法漏检率低于3.81%,精确性显著提高。本文所提出的方法可以根据不同城市内部站点分布的差异性自动选择距离阈值和时间阈值,以应用于不同的数据集。
值得注意的是,本文仅利用了单日的公交地铁IC卡数据,若采用更长时序的历史数据,并针对工作日、周末、节假日等日期进行分类研究,则能够呈现更加丰富的通勤特征。此外,在计算行程距离时,受限于精细路网数据的可获得性,本文仅采用了站点间的欧式距离进行近似计算,若采用道路网络距离可能进一步改善换乘行为的提取及其特征分析。
本文图文责任编辑: 蒋树芳 黄光玉
[1]
李婧怡. 基于出租房规模的北京市职住分离测度[J]. 测绘与空间地理信息, 2018, 41(5):18-23.

[ Li J Y. Measuring occupational residence separation in Beijing based on rental housing scale[J]. Geomatics & Spatial Information Technology, 2018, 41(5):18-23. ]

[2]
Huang J, Levinson D, Wang J E, et al. Tracking job and housing dynamics with smartcard data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2018, 115(50):12710-12715. DOI:10.1073/pnas.1815928115

PMID

[3]
Wang J, Zhou C J, Rong J, et al. Community-detection-based spatial range identification for assessing bilateral jobs-housing balance: The case of Beijing[J]. Sustainable Cities and Society, 2022,87:104179. DOI:10.1016/j.scs.2022.104179

[4]
Zheng Z, Zhou S H, Deng X D. Exploring both home-based and work-based jobs-housing balance by distance decay effect[J]. Journal of Transport Geography, 2021,93:103043. DOI:10.1016/j.jtrangeo.2021.103043

[5]
Hofmann M, O’Mahony M. Transfer journey identification and analyses from electronic fare collection data[C]. Proceedings of 2005 IEEE Intelligent Transportation Systems. IEEE, 2005:34-39. DOI:10.1109/ITSC.2005.1520156

[6]
Hofmann M, Wilson S P, White P. Automated identification of linked trips at trip level using electronic fare collection data[C]. Transportation Research Board 88th Annual Meeting. 2009(09-2417).

[7]
Seaborn C, Attanucci J, Wilson N H M. Analyzing multimodal public transport journeys in London with smart card fare payment data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2009, 2121(1):55-62. DOI:10.3141/2121-06

[8]
Huang D, Yu J, Shen S Y, et al. A method for bus OD matrix estimation using multisource data[J]. Journal of Advanced Transportation, 2020,2020:5740521. DOI:10.1155/2020/5740521

[9]
Gordon J B, Koutsopoulos H N, Wilson N H M, et al. Automated inference of linked transit journeys in London using fare-transaction and vehicle location data[J]. Transportation Research Record: Journal of the Transportation Research Board, 2013, 2343(1): 17-24. DOI: 10.3141/2343-03

[10]
Yan F F, Yang C, Ukkusuri S V. Alighting stop determination using two-step algorithms in bus transit systems[J]. Transportmetrica A Transport Science, 2019, 15(2):1522-1542. DOI: 10.1080/23249935.2019.1615578

[11]
蒋敏. 基于IC卡数据的地铁与常规公交换乘时间分析[D]. 南京: 东南大学, 2015.

[ Jiang M. Analysis of transfer time between subway and conventional bus based on IC card data[D]. Nanjing: Southeast University, 2015. ]

[12]
彭晗, 韩秀华, 田振中, 等. 公交IC卡数据处理的换乘矩阵构造方法研究[J]. 交通与计算机, 2007, 25(4):32-34.

[Peng H, Han X H, Tian Z Z, et al. Transfer matrix construction method based on bus IC card data processing[J]. Computer and Communications, 2007, 25(4):32-34. ] DOI:10.3963/j.issn.1674-4861.2007.04.009

[13]
董晓晶, 余志伟, 伏伟伟, 等. 基于GIS的公交IC卡数据处理及分析系统[J]. 地理空间信息, 2009, 7(5):124-126.

[Dong X J, Yu Z W, Fu W W, et al. Data processing and analyzing system for bus IC card based on GIS[J]. Geospatial Information, 2009, 7(5):124-126. ] DOI:10.3969/j.issn.1672-4623.2009.05.039

[14]
Chu K K A, Chapleau R. Enriching archived smart card transaction data for transit demand modeling[J]. Transportation Research Record: Journal of the Transportation Research Board, 2008, 2063(1):63-72. DOI: 10.3141/2063-08

[15]
Kumar P, Khani A, He Q. A robust method for estimating transit passenger trajectories using automated data[J]. Transportation Research Part C: Emerging Technologies, 2018, 95:731-747. DOI:10.1016/j.trc.2018.08.006

[16]
Nassir N, Hickman M, Ma Z L. Activity detection and transfer identification for public transit fare card data[J]. Transportation, 2015, 42(4):683-705. DOI:10.1007/s11116-015-9601-6

[17]
Liu X Y, Van Hentenryck P, Zhao X L. Optimization models for estimating transit network origin-destination flows with big transit data[J]. Journal of Big Data Analytics in Transportation, 2021, 3(3):247-262. DOI:10.1007/s42421-021-00050-3

[18]
中共中央国务院. 2017:中共中央国务院关于对《北京城市总体规划(2016年-2035年)》的批复. 中华人民共和国中央人民政府官网, 2023年5月20日访问.

[ CPC Central Committee and State Council. 2017: Reply of the CPC Central Committee and State Council to the Approval of the Beijing Urban Master Plan (2016-2035). Official website of the Central People's Government of the People's Republic of China, Accessed May 20,2023.]

[19]
北京市统计局. 北京市2021年国民经济和社会发展统计公报[R]. 2021.

[ Beijing Municipal Bureau of Statistics. Beijing Municipal Statistical Bulletin on National Economic and Social Development 2021[R]. 2021.

[20]
中华人民共和国统计局. 中国统计年鉴[M]. 北京: 中国统计出版社, 2022.

[ Bureau of Statistics of the People's Republic of China. China Statistical Yearbook[M]. Beijing: China Statistics Press, 2022. ]

[21]
中华人民共和国统计局. 中国交通年鉴[M]. 北京: 中国统计出版社, 2022.

[ Bureau of Statistics of the People's Republic of China. China Communications Yearbook[M]. Beijing: China Statistics Press, 2022. ]

[22]
Kieu L M, Bhaskar A, Chung E. Passenger segmentation using smart card data[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(3):1537-1548. DOI:10.1109/TITS.2014.2368998

[23]
金凤君, 靳海涛. 人文—经济地理学的学科融合和创新[J]. 地理科学进展, 2018, 37(3):309-316.

DOI

[Jin F J, Jin H T. Integration and innovation paths of human geography[J]. Progress in Geography, 2018, 37(3):309-316. ] DOI:10.18306/dlkxjz.2018.03.001

[24]
裴韬, 刘亚溪, 郭思慧, 等. 地理大数据挖掘的本质[J]. 地理学报, 2019, 74(3):586-598.

DOI

[Pei T, Liu Y X, Guo S H, et al. Principle of big geodata mining[J]. Acta Geographica Sinica, 2019, 74(3):586-598. ] DOI:10.11821/dlxb201903014

[25]
Bohannon R W. Comfortable and maximum walking speed of adults aged 20-79 years: Reference values and determinants[J]. Age and Ageing, 1997, 26(1):15-19. DOI:10.1093/ageing/26.1.15

PMID

[26]
Chen F, Zhang J L, Wang Z J, et al. Passenger travel characteristics and bus operational states: A study based on IC card and GPS data in Yinchuan, China[J]. Transportation Planning and Technology, 2019, 42(8):825-847. DOI:10.1080/03081060.2019.1675796

[27]
李莹, 翁小雄. 基于公交IC卡和GPS数据的换乘识别方法[J]. 广西大学学报(自然科学版), 2017, 42(2):579-586.

[Li Y, Weng X X. A method to identify public transportation transfer based on IC and GPS data[J]. Journal of Guangxi University (Natural Science Edition), 2017, 42(2):579-586. ] DOI:10.13624/j.cnki.issn.1001-7445.2017.0579

文章导航

/