Classification of Urban Rail Transit Stations based on SAX

  • ZHANG Liying , 1, 2 ,
  • MENG Bin , 3, * ,
  • YIN Qin 4
  • 1. College of Geoscience and Surveying Engineering, China University of Mining& Technology, Beijing 100083;
  • 2. College of Geophysics and Information Engineering, China University of Petroleum, Beijing 102249
  • 3. College of Applied Arts & Sciences of Beijing Union University, Beijing 100191;
  • 4. College of Resource Environment and Tourism, Capital Normal University, Beijing 100048
*Corresponding author: MENG Bin, E-mail:

Received date: 2016-08-04

  Request revised date: 2016-10-18

  Online published: 2016-12-20


:Urban rail transit stations are the key nodes of the basic urban rail transit network system. The scientific classification of the rail transit stations is significant to understand the urban functional zoning and evaluate the construction of the rail transit infrastructure. The time series data of urban rail transit stations objectively records the important information of observed stations at all-time points. The time series data contains different patterns, which reflect different sequence genesis. Therefore, studying cluster of the time series data is an important means to recognize and understand the essence of time series data formation. It is also a major method to mine higher value of principle and knowledge that implied in time series data. In this paper, we use smart card data of urban rail transit stations in Beijing, and divide the big data into four data sets: weekdays boarding data set (WB), weekdays alighting data set (WA), weekends (rest day) boarding data set (RB) and weekends alighting data set (RA) to describe characteristics of each station’s daily passenger volume. Symbolic Aggregate approXimation (SAX) is firstly introduced to analyze four data sets, which effectively reduces the dimensionality of high-dimensional data and realizes similarity measure between stations. Finally, it is more reasonable to classify the 195 rail transit stations into 8 types according to the DB index by hierarchical clustering method. They are residential stations, work stations, partial residential-based residential and work mixed stations, dislocation stations, tourist attractions and commercial stations, partial work-based residential and work mixed stations, integrated stations and other stations. The performance of SAX is compared with Euclidean distance similarity measure. The results indicate that SAX outperforms Euclidean distance in terms of accuracy and efficiency. The paper analyzes characteristics of daily passenger boarding and alighting volume on four data sets and spatial distribution of each type. It is found that residence and dislocation stations are mostly located in the far end of the subway, while the types of work stations, tourist attractions and commercial stations, partial work-based residential and work mixed stations, and integrated stations are concentrated in the urban areas. Partial residential-based residential and work mixed stations scatter around the city center. The results can help to interpret the different functional zoning of the city and the characteristics of residents' travel behavior, which provides a basis for understanding the urban spatial pattern and its evolution process, and also provides some objective reference for planning, design and management services of rail transit stations.

ZHANG Liying , MENG Bin , YIN Qin . Classification of Urban Rail Transit Stations based on SAX[J]. Journal of Geo-information Science, 2016 , 18(12) : 1597 -1607 . DOI: 10.3724/SP.J.1047.2016.01597

1 引言

轨道站点是城市轨道交通基本线网系统中的关键节点,随着国内城市轨道交通建设的全面展开,轨道在城市交通中发挥着越来越重要的作用。2013年北京市交通发展年度报告指出北京轨道交通占公共交通出行的比重由2000年13.6%增至 2012年38.2%[1],对改善北京市交通结构、优化城市空间布局、提高生活环境质量发挥了重要作用。不同类型的站点在城市中的区域特征、交通功能、用地功能等方面均存在差异[2],科学的地铁站点分类,对了解城市功能分区、解读居民出行特征、理解城市格局和演化以及评价轨道交通基础设施建设情况具有重要意义。
公交IC卡的使用为研究轨道交通站点的交通职能积累了具有地理标识和时间标签的大数据,其数据具有连续性好、覆盖面广、信息全面且动态更新等优点[13]。国内外学者利用公交IC卡数据也展开了很多研究: Ali等[14]利用公交智能卡数据作为大型活动的输入数据,基于公共交通仿真分析有关公交出行的用户行为;Gitanjali等[15]对公交智能卡数据使用数据挖掘的聚类方法,实现更好地理解旅行模式和评价旅客的旅行行为属性;Long等[16]使用IC卡数据研究北京通勤的模式;Joh和Hwang [17]利用IC卡数据分析了公交卡持有者的出行轨迹与都市区的土地利用特征;Jang[18]利用IC卡数据对公交出行时间和换乘信息进行估计;Bagchi等[19]使用IC卡数据对公共交通市场进行分析;Roth等[20]基于伦敦实时的Oyster卡数据库,获得地铁乘客移动特征;Ma等[21]使用IC卡数据对公共交通乘客的出行模式进行了研究;尹芹等[22] 使用IC卡地铁刷卡客流量数据,引入客流特征的时间序列聚类方法,对地铁站点进行分类研究;戴霄等[23]研究了数据挖掘技术在公交卡信息处理方面的运用;杨智伟等[24]基于大连的IC卡数据进行客流预测。总体上,这些研究侧重于研究用户的出行行为、通勤模式、公共交通市场分析以及客流预测。使用IC卡数据对轨道站点进行分类研究,尤其是从工作日和休闲日进出站形成的多元时间序列的角度对轨道站点进行分类的研究相对较少。
轨道交通站点时间序列中蕴藏着不同的模式,不同的模式反映了不同的时间序列成因。对轨道交通站点的时间序列进行聚类分析,是认识和理解轨道站点时间序列形成本质的重要手段,也是挖掘轨道交通站点时间序列中隐含的有较高价值规律知识的重要方法[25-26]。由于时间序列具有海量、高维的特性,研究者提出了近似表示的思路,实现对时间序列作降维处理[27]。其基本思想是保留时间序列的主要形态,对时间序列进行压缩表示,用新的表示近似替代原始的时间序列。代表性的时间序列近似表示有离散傅立叶变换(the Discrete Fourier, DWT)[28]、分段累积近似(Piecewise Aggregate Approximation,PAA)[29]、符号集合近似(Symbolic Aggregate approXimation,SAX)[30-32]、可索引符号聚集近似(indexable SAX,iSAX)、分段线性近似(Piecewise Linear Approximation,PLA)、分段线性聚集近似(piecewise linear aggregate approximation,PLAA)[33]等方法。其中,符号集合近似(SAX)是由Keogh E在分段累积近似(PAA)的基础上提出的一种有效的时间序列离散化降维方法,因其计算简单且高效、支持下界函数、算法不依赖于具体试验数据等特点而得到越来越多的关注,一经提出,便成为一种非常受欢迎的时间序列降维表示法[30-31,34-36]。IC卡记录刷卡时间精确到秒,轨道交通站点进站或出站的刷卡数据形成的一日时间序列维数达到上万,引入SAX方法可以有效地对IC卡刷卡时间序列实现降维,且能保留时间序列的主要形态,有助于挖掘轨道站点的时间序列中蕴藏的不同模式。

2 数据与方法

2.1 数据描述

本文使用的轨道交通站点数据为2013年3月北京市1-20日无重大节假日的完整的出行(包含完整进出站刷卡记录)记录数共74 516 278条,轨道站点共208个。为了保证数据的质量,对采集到的数据进行清洗,去掉进出站刷卡记录不完整的站点,包括机场轨道站点T2航站楼、T3航站楼、三元桥j、东直门j、北京西、白碓子、丰台东大街、丰台科技园、丰台南路、科怡路、六里桥、六里桥东、七里庄。最终选择具有完整的进出站刷卡记录的轨道站点共195个作为研究对象,研究日常情况下轨道站点的分类问题。记录包含的基本信息如表1所示。
Tab. 1 Smart card data of some subway stations in Beijing on March 1st, 2013

表1 北京市部分地铁站点2013年3月1日刷卡数据

ID 进站名称 进站刷卡时间 出站名称 出站刷卡时间
10007510*****6142 长椿街 8:03:00 复兴门 8:10:26
10007510*****5723 苹果园 8:12:00 玉泉路 8:29:08
10007510*****2821 通州北苑 8:28:00 军事博物馆 9:25:23
10007510*****6032 和平门 9:36:00 五棵松 10:07:08
10007510*****5779 古城路 11:10:00 王府井 11:58:26

2.2 数据处理

每个轨道站点从每日的早4时到晚24时内进出站客流量数据按时间顺序形成了时间序列,由于IC卡记录刷卡时间精确到秒,因此一日的轨道交通站点进站或出站的刷卡数据形成的时间序列长度为72 000,通常又被称为时间序列的维数[38],大数据带来大样本的同时,也带来了维数灾难,维数膨胀给高维数据中模式识别和规则发现带来极大挑 战[38],如果直接对其进行分析将会带来巨大的计算资源耗费,且不利于发现数据间的内部关系[39]。本文通过PAA[29]方法实现对轨道站点时间序列降维,窗口间隔为3600,把原始时间序列的维数由72000降维到72 000÷3600=20。
Fig. 1 Distribution of daily passenger boarding volume at AN DING MEN on weekdays and weekends

图1 安定门工作日休息日进站日客流量分布

Fig. 2 Distribution of daily passenger boarding and alighting volume at TIAN TONG YUAN on weekdays and weekends

图2 天通苑工作日休息日进出站日客流量分布

2.3 SAX方法

SAX[31,40]是由Keogh E在分段累积近似(PAA)的基础上提出的一种有效的时间序列离散化降维方法,在时间序列相似性度量的研究中作为变换函数有着非常多的优点[30-31,34-36],如具有较高的压缩率,保留了数据的局部信息,有效地实现了数据降维,解决了维数过高引起的问题;对噪声数据有较高的承受能力。分段过程既实现了消除噪声又实现了数据平滑处理,视觉直观简洁,具有多分辨率特性等优点,因此成为一种非常受欢迎的时间序列降维表示法,在时间序列挖掘的诸多领域都有广泛的应用。
2.3.1 符号化表示
SAX把一条任意长度为m的时间序列转换成一个长度为n的(n<<m)符号串,n是分段后子序列的数目。已知时间序列 X = { x 1 , x 2 , , x m } ,SAX的实现过程可分为以下3步:
(1)正规化。把原始时间序列X按式(1)标准化为均值为0方差为1的序列 X = { x 1 , x 2 , , x m } 。此标准化不会改变原始序列X的形状和尺度[41]
x i = x i - u x σ x (1)
式中: x i 是序列X中的某一时刻的观测值; u x 是序列X中所有观测值的平均值; σ x 是序列X所有观测值的标准差。
(2)PAA降维。利用PAA方法,按子序列长度为w把长度为m的时间序列划分为长度为n的序列 X ̅ = { x ̅ 1 , x ̅ 2 , , x ̅ n } ,并根据式(2)计算出每一段子序列的均值。
x ̅ j = n m i = m n ( j - 1 ) + 1 m n j x i (2)
(3)符号化表示。由于序列 X ̅ 近似服从高斯分布,可以将其划分为 α 个等概率的区间,划分区间系列分裂点 β i 是按照表2来取值,位于同一区间的序列值用相同的符号表示,最终得到其符号化表示 X ˜ = { x 1 ˜ , x 2 ˜ , , x n ˜ } 图3是安定门工作日进站客流量时间序列的SAX表示,原始时间序列长度为72 000,窗口间隔为3600,使用PAA方法降维后的时间序列长度为20,将其划分为 α = 6 个等概率区间,划分区间系列分裂点 β i 的值分别为-0.97、-0.43、0、0.43、0.97,最终得其符号化序列表示为AABEFDCCBCCCDFFDBBBA。
Tab. 2 DB index of two clustering methods

表2 2种方法聚类的DB指数表[40]

方法 分类个数
6 7 8 9 10
SAX 1.27 1.30 1.26 1.26 1.29
欧式距离 1.39 1.50 1.38 1.37 1.36
Fig. 3 SAX representation of distribution of passenger boarding volume at AN DING MEN on weekdays

图3 安定门工作日进站客流量时间序列的SAX表示

2.3.2 相似性度量方法
时间序列长度为m的任意2个时间序列Q={ q 1 , q 2 , , q m }和 C = { c 1 , c 2 , , c m } ,使用SAX方法得到长度为n的符号化序列表示分别为 Q ˜ = { q 1 ˜ , q 2 ˜ , , q n ˜ } C ˜ = { c 1 ˜ , c 2 ˜ , , c n ˜ } 。为了对符号化序列进行聚类,首先需要计算各符号化序列之间的相似性,SAX方法里采用式(3)[40]来计算序列 Q ˜ C ˜ 之间的距离值,以此表示它们之间的相似度。其中, dist ( q ˜ i - c ˜ i ) 表示2个符号之间的距离值,其计算方法按照文献[40]表3来计算。
MINDIST ( Q ˜ , C ˜ ) = m n i = 1 n ( dist ( q ˜ i - c ˜ i ) ) 2 (3)
Tab. 3 The time distribution features of eight types of subway stations

表3 8类轨道站点的曲线特征

类别 工作日曲线特征 休息日曲线特征
进站 出站 进站 出站
峰值及时间 峰值个数 峰值及时间 峰值个数 峰值及时间 峰值个数 峰值及时间 峰值个数
1 4.53 7:00 1 3.33 18:00 1 0.74 8:00 1 0.82 18:00 1
2 3.04 18:00 1 5.45 8:00 1 0.26 17:00 1 0.31 8:00 1
3 4.27 7:00
0.96 17:00
2 1.26 8:00
3.20 18:00
2 0.58 8:00
0.13 17:00
2 -0.12 8:00
0.68 18:00
4 3.82 8:00
0.68 18:00
2 0.58 8:00
2.90 18:00
2 0.74 9:00
0.65 16:00
2 0.47 11:00
1.15 17:00
5 1.49 17:00
-0.11 21:00
2 1.93 8:00
0.07 13:00
0.23 18:00
3 2.34 16:00 1 2.05 10:00
1.66 14:00
6 2.27 8:00
2.56 17:00
2 4.43 8:00
2.07 18:00
2 0.14 9:00
0.30 15:00
2 0.22 8:00
0.34 17:00
7 1.42 8:00
2.47 17:00
2 3.60 8:00
1.65 18:00
2 0.08 10:00
0.95 16:00
2 0.80 8:00
0.37 13:00
0.49 17:00
8 0.10 7:00
-0.33 10:00
0.31 12:00
0.50 15:00
4 0.88 8:00
-0.15 11:00
-0.22 13:00
-0.16 15:00
0.41 18:00
5 1.20 9:00
0.78 12:00
1.11 17:00
3 0.68 11:00
2.66 17:00

2.4 层次聚类方法[41]

层次聚类(Hierarchical Clustering)通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上凝聚和自上而下分裂2种方法。凝聚型层次聚类的算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性,距离越小,相似度越高,并将距离最近的2个数据点或类别进行组合,生成聚类树。本文采用的是凝聚型层次聚类,数据点之间的相似性采用式(3)实现,最终的聚类个数根据DB指标[42]确定。

3 结果分析

3.1 聚类结果

Tab. 4 Eight clusters of hierarchical clustering

表4 层次聚类8类结果类

类别 站点数量 站点名称
1 41 八里桥 北宫门 草房 常营 传媒大学 次渠 次渠南 褡裢坡 稻田 俸伯 巩华城 管庄 广阳城 果园 黄村火车站 黄渠 回龙观 回龙观东大街 霍营 旧宫 梨园 良乡大学城西 临河里 龙泽 苹果园 沙河 沙河高教园 生命科学园 石门 天通苑 天通苑北 天通苑南 通州北苑 土桥 西红门 西苑 小红门 新宫 育新 枣园 朱辛庄
2 39 白石桥南 朝阳门 车公庄 车公庄西 磁器口 大望路 大钟寺 灯市口 东大桥 东单 东四十条 阜成门 复兴门 高碑店 国贸 海淀黄庄 呼家楼 惠新西街北口 建国门 金台夕照 亮马桥 灵镜胡同 柳芳 木樨地 南礼士路 荣京东街 三元桥 苏州街 团结湖 万源街 五道口 西二旗 西土城 宣武门 雍和宫 永安里 张自忠路 知春里 中关村
3 34 安和桥北 八宝山 八角游乐园 北苑 慈寿寺 崔各庄 高米店北 公益西桥 古城路 海淀五路居 后沙峪 花梨坎 角门西 劲松 九棵树 立水桥 立水桥南 林萃桥 刘家窑 马家堡 南法信 蒲黄榆 青年路 十里堡 双桥 四惠东 宋家庄 孙河 陶然亭 同济南路 亦庄桥 亦庄文化园 永泰庄 玉泉路
4 14 高米店南 黄村西大街 篱笆房 良乡南关 马泉营 南邵 清源路 顺义 苏庄 天宫院 肖村 义和庄 圆明园 长阳
5 10 奥林匹克公园 奥体中心 北海北 动物园 南锣鼓巷 森林公园南门 天安门东 天安门西 王府井 西单
6 33 安定门 安华桥 安贞门 北土城 北苑路北 菜市口 大葆台 大屯路东 鼓楼大街 光熙门 和平里北街 和平门 和平西桥 花园桥 惠新西街南口 健德门 金台路 经海路 牡丹园 荣昌东街 上地 芍药居 生物医药基地 双井 四惠 太阳宫 万寿路 望京 望京西 五棵松 西小口 长椿街 知春路
7 22 巴沟 北京大学东门 北京南站 北京站 北新桥 崇文门 东四 东直门 郭公庄 国家图书馆 国展 积水潭 军事博物馆 农业展览馆 平安里 前门 人民大学 天坛东门 魏公村 西四 西直门 新街口
8 2 良乡大学城 良乡大学城北
Fig. 4 Time distribution of passenger boarding and alighting volume of eight types of stations on weekdays and weekends

图4 8类典型站点工作日休息日进出站分时段客流量分布

3.2 聚类有效性指标

DB 指标[42]是基于样本的类内散度与各聚类中心间距的测度,进行类数估计时其最小值对应的类数作为最优的聚类个数。表2是采用SAX方法和欧式距离2种方法对时间序列的相似性进行度量,使用层次聚类聚6~10类,计算其各自的聚类有效性DB指标。从表2可以得出,SAX方法的DB值更小,说明使用SAX方法进行相似性度量,其聚类质量更好。结合图4(a)-(h)的曲线特征,也进一步证明了SAX方法的合理性。

3.3 类别特征分析和空间分布分析

首先按照工作日进站、出站和休息日进站、出站对8类聚类结果求平均值,得到每类站点工作日进站、出站和休息日进站、出站对应的4条时间序列;然后分别对每类时间序列求其峰值、对应的时间以及峰值个数。判断峰值的方法为每类聚类结果的平均值序列中某一元素的值比相邻2个元素的值都大且峰值的最小高度大于此类序列的平均值。8类轨道站点的曲线特征描述见表3。结合 图4(a)-(h)和表3,每类站点的类别特征分析描述 如下:
第4类工作日进站客流时间分布呈双峰型,和第3类类似,但休息日高峰客流量整体比第3类大且相对平缓,休息日进站早高峰比第3类延迟1 h、晚高峰提前1 h,休息日出站早高峰推迟3 h,晚高峰提前1 h。此类站点周边既有居住地又有办公地,在此居住的居民,工作地可能在其它地点,也有部分人居住在别处,但在此类站点附近工作,表现出职住错位。命名为错位型站点。
第7类站点工作日进出站客流时间分布呈双峰型,与第6类相似,但出站早高峰时段一直到12:00,推迟了2 h,进站晚高峰时段从中午12:00开始,提前了3 h。休息日进站日客流量呈双峰,但峰值出现在上午10:00和下午16:00,比第5类峰值出现早且高峰开始时段提前了4 h,出站日客流量呈三峰,与第5类工作日出站相似。命名为综合型站点。典型站点如前门、北京站、西直门站点,此类站点周围用地类型具有多样性特点。
Fig. 5 Space distribution of subway stations types

图5 轨道站点类型空间分布图

4 结论与讨论

首先,根据北京IC卡每个站点工作日及休息日进出站客流量分布图的特征不同,提出了描述轨道站点的4个数据集,即工作日进站数据集(WB)、工作日出站数据集(WA)、休息日进站数据集(RB)和休息日出站数据集(RA)。在此基础上,得到的聚类结果表明从这4个角度刻画站点日客流量特征的有 效性。

