Regression Analysis of Taxi Pick-up and Bus Passenger Flow Considering the Spatial Heterogeneity

  • WU Qunyong , 1, 2, * ,
  • ZHANG Liangpan 1, 2 ,
  • WU Zufei 1, 2
  • 1. National & Local Joint Engineering Research Center of satellite-spatial Information Technology, Fuzhou University, Fuzhou 350000, China
  • 2. Key Laboratory of Spatial Data Mining & Information Sharing of MOE, Fuzhou 350000, China
*Corresponding author: WU Qunyong, E-mail:

Received date: 2018-08-16

  Request revised date: 2018-12-19

  Online published: 2019-03-15

Supported by

National Natural Science Foundation of China, No.41471333

The Central Guided Local Development of Science and Technology Project, No.2017L3012.


Taxi traffic has always been regarded as a supplement to public transportation. However, this may be in part due to previous studies focusing on independent research of taxi and bus passenger flow. Research around the relationship between taxi and bus passenger flow has not yet been thoroughly investigated. Taxi passenger hotspots not only provide real-time understanding of urban traffic hotspots, but also guide taxi drivers and enable taxi companies to make effective dispatches. Taxi passenger hotspots tend to occur in areas where demand for transportation is high and in areas of intensive crowding. Bus passengers' IC card data can reflect real-time traffic demand within the city. This study used Xiamen Island taxi GPS trajectory data and public transportation system data, along with the kernel density estimation method and geographic weighted regression (GWR) model to analyze the OD (Origin-Destination) passenger flow in both morning and evening peak travel times. Results showed a significant spatial heterogeneity in the kernel density value of the taxi passenger O. However, within the same area, the impact of bus passenger O and bus passenger D on the taxi passenger O was found to be opposite; in various regions, the negative impact of bus passenger O on the taxi passenger O in areas with complex urban functional types, bus passenger O had a positive impact on the taxi O at a single function area, while the bus passenger D was just the opposite. Compared to the ordinary least squares (OLS) model, GWR provided a much better fit (with the goodness of fit increasing from 0.13 and 0.11 to 0.59 and 0.53 in the morning and evening peak hours, respectively). Results of this study could provide the basis to forecast the number of taxi passengers.

WU Qunyong , ZHANG Liangpan , WU Zufei . Regression Analysis of Taxi Pick-up and Bus Passenger Flow Considering the Spatial Heterogeneity[J]. Journal of Geo-information Science, 2019 , 21(3) : 337 -345 . DOI: 10.12082/dqxxkx.2019.180380

1 引言

以往研究多侧重于公交客流与出租客流的独立研究。大量研究利用IC卡数据和公交车GPS轨迹数据识别乘客的上车站点,并使用出行链方法推算乘客的下车站点[1,2,3]。为提高计算效率,邬群勇等[4]以IC卡数据、车辆GPS数据、线路站点数据和车辆基本信息数据为数据源,基于分布式存储、并行计算技术进行公交乘客OD(Origin-Destination)并行推算。Ma等[5]利用IC卡和公交车GPS数据计算网络运行速度、公交客流量和车辆到站时间间隔等指标来评价公交系统的性能;Wang等[6]构建以最小化乘客候车时间为目标的优化模型,从海量的公交数据中提取基于时间的交通路况和出行需求,基于真实的数据求解优化策略,结果能够有效降低乘客平均候车时间;邹智杰[7]综合利用出租车和公交数据,通过出租载客热区发现不合理公交站点与公交线路,利用遗传算法对公交系统调度优化。 Guo等[8]使用SNN(Shared Nearest Neighbors)距离的K-Means聚类算法从海量出租车GPS轨迹数据中提取显著的热区,从出行轨迹中提取流向类簇,以深圳市的出租车数据为例分析居民移动的时空模式;Shen等[9]利用改进的DBSCANE聚类算法(Density-Based Spatial Clustering of Applications with Noise)从出租车轨迹数据中提取出行热区,根据居民出行的OD点的相似性对出行轨迹进行聚类,理解居民的出行需求和移动规律,尝试为空载出租车推荐寻找客源的最佳路线;孙飞等[10]用出租车空载率来评价出租车运营效率并且得到了出租车优质客源的时空分布;Qi等[11]探讨了出租车OD时空动态与城市社会功能区的关系,借此关系对社会功能区进行识别和提取;Liu等[12]考虑了公民高度重复的活动链和任意两种具体土地利用类型之间的相互作用模式,对研究单元随机分配功能区类别,利用最大期望聚类(Expectation-Maximization,EM)算法对研究单元进行聚类,来理解城市的功能区结构。
在城市中,出租乘客轨迹数据和公交乘客刷卡数据能够实时反映城市的交通需求。吴建生等[13]利用出租车GPS轨迹数据计算了不同时间段OD点全局 Moran's I 指数,证明了上客点与下客点的空间分布呈现显著为正的空间自相关,之后建立了出租车上下客事件的地理加权回归模型,分析并探讨了小城市出租车上下客时空动态与各类城市设施的时空关系和不同城市设施对上下客事件的影响的分布规律及其驱动机制。但是目前对于出租乘客与公交乘客出行的关联关系分析的研究少之又少。

2 研究区概况、数据源与研究方法

2.1 研究区概况

研究区为厦门岛,由湖里区和思明区(不含鼓浪屿)两个行政区,面积约157 km2,2015年常住人口大约200万,约占厦门市总人口的52%。研究区域土地利用图来源于厦门市规划委员会(2015年),如图1所示,岛内主要用地类型有居住用地、商业服务用地和工业用地。岛内用地类型的分布较复杂,居住用地主要分布在思明区北部和湖里区南部,除东部沿岸有较多集中规划的商业服务用地外,其它商业服务用地无规律地分布在居住地聚集区中。
Fig. 1 Land-use in Xiamen City and Xiamen Island in 2015

图1 厦门市及厦门岛2015年土地利用情况

2.2 数据源

研究数据为2015年6月13日至19日厦门市公共交通运输系统运营数据和出租车GPS轨迹数据,来源于厦门卫星定位应用股份有限公司。公共交通运输系统运营数据包括公交IC卡数据、公交车GPS轨迹数据、线路站点数据。公交车GPS轨迹数据包括车辆属性信息(设备编号)、线路属性信息(站点编号、线路编号)、车辆状态属性信息(时间、定位标识、经度、纬度、车次类型、进出站标识),根据进出站标识信息可将轨迹点划分为行驶轨迹点、进站轨迹点和出站轨迹点。出租车GPS轨迹数据的属性分为2类,分别为车辆属性(车辆ID)和车辆状态属性(定位时间、经度、纬度、车速、载客状态),采集间隔30 s。

2.3 研究方法

Fig. 2 The study flow of regression analysis of spatial heterogeneity of Taxi and bus passenger flow

图2 出租载客与公交客流空间异质性回归分析研究流程

2.3.1 乘客出行OD提取
2.3.2 空间异质性与回归分析
分析早晚高峰出租乘客OD的核密度空间分布规律,通过剖面分析空间异质性。结合公交乘客OD和出租载客核密度估计值创建公交站点空间数据表,计算全局Moran's I指数,分析出租载客的空间聚集程度,通过地理加权回归分析公交站点OD数量对出租载客影响空间变异特征。在本研究中将公交站点处出租乘客O点核密度值作为因变量,公交站点处公交乘客O和D点数量作为解释变量进行地理加权回归拟合,模型表示如式(1)所示。
y i , t = β 0 , t u i , v i + k = 1 p α k , t u i , v i x k , i , t + k = 1 p β k , t u i , v i z k , i , t + ε i , t (1)
式中: y i , t 为在 t 时间段公交站点 i 的出租乘客O点核密度值; β 0 , t u i , v i 为截距常量; u i , v i 为公交站点 i 的地理坐标, x k , i , t 为在 t 时间段公交站点 i 处公交乘客O点数量; z k , i , t 为在 t 时间段公交站点 i 处公交乘客D点数量, α k , t u i , v i 为在 t 时间段公交站点 i 处O点的回归系数; β k , t u i , v i 为在 t 时间段公交站点 i 处D点的回归系数。用公交站点 i 邻近数据建立独立的局部最小二乘回归模型,使得接近公交站 i 的公交站具有高的权重。本文的权重由高斯核函数确定,带宽的选择使用AICC准则。

3 结果与分析

3.1 出租与公交客流时间分布差异分析

Fig. 3 Public transportation travel time in Xiamen

图3 厦门公共交通出行时间分布


3.2 出租乘客OD核密度分析

核密度计算结果和搜索半径的大小有很大关系,随着搜索半径的增大核密度会趋于平滑。本文利用厦门岛内早晚高峰出租乘客OD位置点分别选取了不同搜索半径进行实验,最终选择搜索半径为500 m,像元大小为50 m×50 m。一方面在搜索半径为500 m时核密度在光滑的同时能够清晰地发现密度中心从而发现交通热区,另一方面500 m的搜索半径对于乘客候车和寻车都属于可接受范围,最终结果如图4所示。
Fig. 4 OD kernel density map of taxi passengers on Xiamen Island

图4 厦门岛出租乘客出行OD核密度
注:a厦门高崎国际机场;b东渡码头;c厦门火车站;d中山路步行街;e万达广场;f瑞景商业广场;g SM城市广场;h胡里山炮台。

Fig. 5 OD kernel density profile map of taxi passengers on Xiamen Island

图5 厦门岛出租乘客出行OD核密度剖面图


3.3 公交站点OD客流与出租载客客流空间异质特 征分析

为了分析研究区公交站点处出租乘客O点分布集聚特征,计算全局Moran's I指数。在早晚高峰出租乘客O点核密度的Moran's I分别为0.86和0.76,表明早晚高峰出租乘客O点核密度空间分布呈现显著为正的空间自相关。建立地理加权回归模型进一步分析其空间异质性。
Fig. 6 Regression coefficient of bus passenger OD at morning and evening peak travel times

图6 早晚高峰公交乘客OD的回归系数

早高峰,如图6(a)可以看出,公交乘客O的回归系数大部分为正值,对出租乘客O为正的影响,说明早高峰厦门岛大部分区域公交上车乘客多的区域出租上车的核密度值也高;图6(b)显示出早高峰公交乘客D点回归系数大部分区域为负值,对出租乘客O为负的影响。早高峰时刻公交乘客O的回归系数为正值的区域多分布在厦门岛东部和北部,回归系数为负值的区域分布在厦门岛的西南部,然而公交乘客D的回归系数正负值在空间分布上则刚好相反。对比上文出租乘客OD核密度分布,在出租乘客OD核密度密集区域回归系数正负值较为复杂,而核密度值较低的东部和北部回归系数正负值则较为简单,这与城市繁华程度和功能区类型有很大的关系。对于晚高峰,如图6(c)和 图6(d),公交乘客O和公交乘客D的回归系数正负相间分布,对出租乘客上车数量核密度值的影响有很强的地域性特点。同一区域公交乘客O和公交乘客D的回归系数正负值相反。

3.4 模型对比

Tab. 1 Comparison of fitting indicators between GWR model and OLS model

表1 GWR模型和OLS模型拟合指标比较

指标 GWR早高峰 GWR晚高峰 OLS早高峰 OLS晚高峰
R2 0.71 0.68 0.14 0.11
调整R2 0.59 0.53 0.13 0.11

4 结论与讨论


