

  • 金澄 , 1, 3 ,
  • 陈瑗瑗 2 ,
  • 杨敏 , 4, 5, *
  • 1. 信息工程大学,郑州 450001
  • 2. 北京大学遥感与地理信息系统研究所,北京 100871
  • 3. 西安测绘研究所,西安 710054
  • 4. 国土资源部城市土地资源监测与仿真重点实验室,深圳 518034
  • 5. 武汉大学资源与环境科学学院,武汉 430079
*通讯作者:杨 敏(1985-),男,讲师,研究方向为泛在网络地图制图。E-mail: yangmin2003@whu.edu.cn

作者简介:金 澄(1976-),男,高级工程师,研究方向为地理信息服务。E-mail:

收稿日期: 2017-01-05

  要求修回日期: 2017-05-17

  网络出版日期: 2017-08-20





A Multi-scale Visualization Method for the Trajectory Origin-Destination Data

本研究以北京市出租车GPS轨迹数据为例,建立了一种面向轨迹起止特征点(Origin-Destination, OD)的多比例尺可视化表达方法。首先,依据轨迹点描述信息提取OD特征点,并进行无效点清理与排除;然后,利用分布密度指标和辅助行政区划数据实施聚类分析,对OD数据分布空间进行区域划分;最后,定义参量统计各区域间OD数据隐含的流向特征,并设计专门符号进行可视化。其中,通过调整最小区域面积控制参数建立与街区、商圈、城区等不同层次地理单元相对应的区域划分,从而获得涵盖3种不同级别的OD数据多比例尺表达结果。试验结果表明,本文提出的方法能够对轨迹OD数据进行有效降维,获取不同尺度下区域间的车辆移动关系,对揭示车流人流时空交互模式及辅助决策有参考意义。


金澄 , 陈瑗瑗 , 杨敏 . 面向轨迹起止特征点数据的多比例尺可视化方法[J]. 地球信息科学学报, 2017 , 19(8) : 1011 -1018 . DOI: 10.3724/SP.J.1047.2017.01011


Based on the taxi trajectory data from the city of Beijing, this study proposes a multi-scale visualization approach for trajectory OD (Origin-Destination) data. First, we extract OD points from initial trajectory raw data eliminating invalid points. Then, the distribution space of OD data is subdivided by density analysis and administrative unit aggregation. Finally, we define relevant parameters to summarize inherent OD flow pattern and customize their presentation of multi-scale visualization. In the process above, three regionalization results, which correspond to block level, business district level and district level, are obtained by setting different values of the minimal area of the aggregated region. Therefore, representations at three different scales can be outputted. The experimental results confirmed that our method could effectively achieve the reduction of trajectory big data and reveal mobility pattern, which is helpful for future decision making.

1 引言

OD(Origin-Destination)数据是一种特殊的移动轨迹数据,仅标识移动物体在一定时间范围内运动的起始点和目标点而忽略中间轨迹细节。以出租车轨迹数据为例,起始O点代表乘客上车位置点,目标D点则是乘客下车位置点。一条OD特征点数据描述了特定车辆或乘客一段时间内的出行记录,而一定时间周期内所有车辆的轨迹OD数据则反映了区域车辆与人群流动关系,对于理解交通运行模式、城市规划布局有参考意义[5-8]。此外,描述船舶、飞行器、野生动物、个人日常出行以及历史移民等主题的轨迹数据也蕴含类似OD信息。针对OD数据的分析与可视化表达,通常采用流向地图(Flow Map)这一特殊的可视化形式[9],即利用直线或曲线符号连接O点与D点位置,进而利用视觉认知提取结构化信息。这种流向地图技术在人口迁徙[10-12]、物流运输[13]、公共交通[14]等领域得到广泛应用。但是,常规流向地图技术并不适用于大数据量情形,特别是车辆轨迹OD数据通常包含数万甚至数十万条记录,必然引起表达上的拥挤冲突现象,导致结果认知上的不确定性[15]。为此,相关学者开展了面向OD数据的降维研究,以降低流向地图表达内容的复杂度。采取的方法包括:① 通过空间聚类或剖分技术对OD点分布区域进行分区[16-18],利用剖分区域替代单个OD点作为流向信息统计单元,从而减少待表达的流向关系;② 基于空间相似性原则对OD连接线实施分组[19-20],将同组流向关系进行捆绑抽象表达。在已有研究成果的基础上,本研究以北京市城区出租车轨迹数据为例,探讨轨迹OD数据的多比例尺可视化方法。本研究的贡献主要在于:① 建立了一套完整的面向车辆轨迹OD数据多比例尺可视化表达的技术框架,包括数据的提取与清理、OD数据空间聚类与分布区域划分、区域OD流向特征定义与计算、以及专门的可视化符号设计;② 制定多种措施实现OD数据流向信息在不同比例尺下的清晰表达,包括与街区、商圈、城区等不同层次地理单元相对应的区域划分模型、符号化后面向图形冲突解决的流向特征选取,以及流向特征符号设计上的等级信息表达等。

2 轨迹OD数据定义

一条轨迹数据由一系列带有时间戳的坐标点pi (xi, yi, ti)构成,xiyi表示移动物体在ti时刻的位置坐标,高精度轨迹点还包括速度、方向等信息。对具备完整语义信息的轨迹线段提取起始与终止点,即可获得轨迹OD数据。以图1(a)所示出租车轨迹数据为例,轨迹片段{p2, p3, p4, p5, p6}描述了乘客的一次出行记录,乘客上车点p2定义为起始点(O点),下车点p6定义为终止点(D点)。假设T={Ti}(i∈{1, 2,…,n})表示具有n条OD记录的数据集,其中 Ti= {o, to, d, td},oto表示起始点的位置坐标与时间,dtd表示终止点的位置坐标与时间。OD数据仅保留一段轨迹的起始点和终止点而忽略了过程信息,能够有效提高轨迹数据的存储分析效率,同时也保留了移动出行的时空流向特征。

3 面向轨迹OD数据的多比例尺表达方法

Fig. 1 Samples of trajectory Origin-Destination data

图1 轨迹OD数据示例

3.1 OD数据提取与清理

出租车轨迹点记录信息如表1所示。由于数据采集过程受多种因素干扰,原始轨迹数据可能存在少量无效信息,包括:① GPSState 属性状态为0的轨迹点(GPS信号受大气、障碍物影响);② 轨迹点关联速度值超过合理上限;③ 司机误操作导致载客状态变化过于频繁;④ 车辆移动距离与时间差不匹配。前2类无效数据可通过SQL属性查询实施预删除,后2类情况需在OD点提取配对过程中进行甄别清理。
Tab. 1 The original records of taxi trajectory data

表1 出租车轨迹数据原始记录

字段名称 数据说明 数据示例
V_ID 车辆标识 206400
Longitude GPS经度/° 116.4243011
Latitude GPS纬度/° 40.0727348
Time GPS时间 20121101095636
Event 触发事件(0=变空车,1=变载客,3=其它) 1
SerState 运营状态(0=空车,1=载客,2=驻车,3=停运,4=其他) 1
Speed GPS速度/(km/h) 43
GPSState GPS状态(0=无效,1=有效) 1
OD数据提取过程如下:①将 “Event=1”且“SerState=1”的点标为潜在起始O点,将 “Event=0”且“SerState!=1”的点标为潜在终止D点;② 对提取的OD点按车辆标识V_ID排序,再按时间升序排列;同一个V_ID标识的OD点序列,若出现连续的O点,只保留最后O点;若出现连续的D点,只保留第一个D点;③ 对每一个V_ID, 从第一个O点开始,寻找时间上与之最近的D点,组织为OD匹配对,依次类推直至完成所有轨迹线的搜索;④对得到的OD匹配对,计算O点与D点时间间隔及沿轨迹线距离,剔除时间异常(如间隔≤0.05 h或≥2 h)和距离异常(如≥80 km)的部分。

3.2 OD数据空间聚类与分布区域划分

空间聚类的本质是空间剖分,即将目标分布区域R划分为若干个不相交的子区域Ri,即R=R1R2∪⋯∪Rn(∀ij,1≤i, jn, 且RiRj=∅)。通常包括3类方法:① 实施规则网格划分,操作简单易行,但容易割裂内在的分布特征;② 采用行政区划作为分区标准,能够顾及城市格局的历史成因,但行政因素过强常造成聚类偏见;③ 依据数据本身特征(如分布密度)实施聚类分区,理论上能够获得最佳效果,但操作相对繁琐,复杂情形需要人工干预。因此,本研究采用一种兼顾后2种策略的OD数据聚类分区方法。即以街区级别的行政区划{r1,r2,…,rm}为基本区域单元,计算各自的OD点分布密度为{ρ12,…,ρm}。然后,利用分布密度指标实施邻近区域单元间的聚类合并,并且通过最小区域面积参数Amin控制分区粒度,从而获得不同空间粒度下的分区结果(图2),具体步骤包括:
(3)对树结构T实施迭代剖分,获得满足条件的聚类结构并实施合并,最终获得分区结果{R1, R2,…,Rn}(nm)。
Fig. 2 Steps of regional units classification

图2 区域单元划分原理与步骤

步骤(3)中树结构剖分过程表现为连接边的移除,由2个方面条件决定:① 由目标函数(式(1))决定移除的最佳连接边。其中,HR)表示当前树结构包含的各基本区域单元间的同质性,由密度指标计算得到(\(\overline{\rho}\)是当前树结构各基本区域单元的平均密度值),HRa)和HRb)则表示剖分后两个子树结构各自的同质性。取Score值最大者对应的连接边作为当前树结构的最佳移除对象。② 由尺寸参数Amin控制剖分的粒度,即剖分得到的分区尺寸不小于Amin,以保证流向特征统计区域能够清晰表达。具体地,若当前剖分获得的任一子树结构对应的区域单元面积和小于Amin,判定当前剖分无效,并终止对当前分支方向进一步剖分。上述方法采用由下而上的层次化聚类策略,通过数量上的密度指标和几何上的最小区域面积控制可获得不同粒度的分区单元。但是在OD数据多比例尺表达应用中,采用何种比例尺范围以及各比例尺对应的分区单元粒度需要综合考虑用户需求,应用环境以及数据本身特点等因素。本文在实验分析部分围绕北京市城区出租车OD数据进行具体阐述。
\[\begin{equation}\left\{ \begin{array}{1} Score=H(R)-H(R_a)-H(R_b) \\ H(R)=\sum^k_{i=1}(\rho_i-\overline{\rho})^2 \end{array}\right. \ \ (1)\end{equation} \]

3.3 区域间OD流向特征的参量定义与计算

\[inflow(R_i)=|\{T_k|T_k,O\notin R_i ,T_k,d\in R_i ,1\leq k\leq n\}| \ \ (2)\]
\[outflow(R_i)=|\{T_k|T_k,O\notin R_i ,T_k,d\notin R_i ,1\leq k\leq n\}| \ \ (3)\]
(3)净流入比率(Net Flow Ratio):即某一时间段内区域Ri的净流量与流入、流出量之和的比值。该值为正,表明区域属于车流或人流的输入状态,反之则为输出状态。
\[NetFlowRatio(R_i)=\frac{inflow(R_i)-outflow(R_i)}{inflow(R_i)-outflow(R_i)} \ \ (4)\]
除上述单个区域的流向特征外,还可进一步描述不同区域间的移动车辆流向关系,以分析跨区域移动模式。如某一时间段内定义由区域Ri到区域Rj的流入量Inflow(Ri, Rj)为:
\[inflow(R_i,R_j)=|\{k|T_k,O\in R_i ,T_k,d\in R_i ,1\leq k\leq n\}| \ \ (5)\]
Fig. 3 Statistics of OD flow characteristics

图3 OD流向特征统计参量示意图

3.4 符号设计与图形冲突处理


4 实验分析

本研究在ArcGIS平台下开发了上述功能,包括轨迹数据OD特征点提取、空间聚类与区域划分、以及相关的符号可视化模块。同时,采用真实轨迹数据对提出的方法进行了有效性验证。实验数据为北京市的出租车GPS轨迹数据,数据范围涵盖北京市的五环线内城区区域,时间跨度2012年11月1日(周四)24小时范围,同时将北京市街道级别的行政区划数据作为OD数据分区的辅助数据。出租车原始的轨迹数据包括车辆标识、触发事件、运营状态、采样时刻,以及采样时车辆的位置、速度、方位和GPS状态。依据3.1节方法提取OD数据并进行清理,然后截取早(7:00-9:00)、中(11:00-13:00)、晚(17:00-19:00)、午夜(22:00-24:00)4个代表时段共173 198条有效OD数据记录,作为实验的基础数据。图4(a)和(b)分别是原始的轨迹数据和清理后获得的OD数据。
Fig. 4 The original trajectory data and the extracted Origin-Destination points

图4 原始出租车轨迹数据和提取的OD数据

针对北京市城区出租车OD数据这一具体对象,作者认为用户对OD流向特征的认知通常建立在3个不同层次(或分辨率)的地理单元之上,包括城区级别(如海淀区)、商圈级别(如中关村商圈)和街区级别。在此背景下,通过分析已有地图产品在不同比例尺表达下地理实体的分辨率信息,可以推断与上述3种地理单元表达相适应的比例尺范围。本研究以百度地图比例尺分级为参考依据,选择1:250 000(第12级)、1:125 000(第13级)、1:62 500(第14级)作为与城区级别、商圈级别和街区级别3种不同地理单元相对应的表达比例尺。进一步地,通过上文提出的聚类分区模型与人工监督相结合的方式确定不同比例尺下的分区结果,即通过设置不同的最小区域面积参数获得一系列不同粒度的分区候选结果,然后由制图人员综合考虑地理单元层次、图面可辨析区域尺寸等因素判断每一比例尺下的最佳分区结果。具体实验中,通过调整最小区域面积参数获得近50组不同空间粒度的OD数据聚类分区结果。然后,通过人工判断识别的方式选取其中的三组分区结果作为与上述3种比例尺相适应的分区情形。如图5所示,城区级别(1:250 000)包含10个分区,商圈级别(1:125 000)包含50个分区,街道级别(1:62 500)包含108个分区。在此基础上,分别统计各区域间的OD流向特征,最终获得3种不同比例尺表达空间下区域间的OD流向关系。
Fig. 5 Results of regional units and flow patterns at different scales

图5 不同比例尺下的分区结果及提取的流向关系

Fig. 6 Visualization of OD flow across different sub-regions

图6 OD数据区域间流向关系的符号可视化结果

Fig. 7 Visualization of the flow characteristics at different scales

图7 OD数据流向信息在不同比例尺下的表达效果

图7是采用本文方法获得的不同比例尺级别下OD数据流向特征的可视化表达效果。由图可明显地看到,随着显示比例尺的缩放,即从1:250 000(对应城区级别)到1:125 000(对应商圈级别)再到1:62 500(对应街区级别),可以获得不同详细程度的OD流向信息与分布状况,从而满足不同尺度空间下对OD流向特征的认知。

5 结论


The authors have declared that no competing interests exist.



