A Method for Analyzing Residents' Travel Characteristics Based on OD Flow Semantics and Spatio-temporal Semantic Clustering

KE Weiwen; WU Sheng; KE Rihong

doi:10.12082/dqxxkx.2023.230089

2023 , Vol. 25 >Issue 11: 2150 - 2163

DOI: https://doi.org/10.12082/dqxxkx.2023.230089

A Method for Analyzing Residents' Travel Characteristics Based on OD Flow Semantics and Spatio-temporal Semantic Clustering

KE Weiwen ,
WU Sheng ^,^* ,
KE Rihong

Expand

The Academy of Digital China (Fujian), Fuzhou University, Fuzhou 350003, China

*WU Sheng, E-mail: ws0110@163.com

Received date: 2023-02-25

Revised date: 2023-04-24

Online published: 2023-11-02

Supported by

Strategic Priority Research Program of the Chinese Academic of Science(XDA23100502)

Construction of University Discipline Alliance of Digital Economy of Fujian Province(闽教高〔2022〕15号)

Fold

Abstract

While rapid urbanization endows people with a modern life, it also brings many urban diseases such as traffic congestion and uneven distribution of resources. Taxi is one of the main transportation methods for urban residents. Taxi data effectively record the spatial and temporal information of residents' travel and can be widely used for residents' travel characteristics mining. Analyzing residents' travel characteristics is an important way to solve and alleviate the increasingly prominent urban problems. At present, rich research results have been achieved in mining residents' travel characteristics using taxi OD flow data. Cluster analysis, which is based on taxi OD flow data, represents one of the primary methods for uncovering the travel characteristics of residents. But most of the studies ignore the semantic information of OD flow. Urban POI data is an important data support for semantic extraction of OD flow, and semantic information can be extracted by studying the relationship between OD flow and POI. To address the problem of insufficient consideration of semantic information in spatiotemporal clustering algorithms, a method for extracting semantics of OD flow based on Global Vectors (GloVe) model and density based spatiotemporal semantic clustering algorithm (STS DBSC AN, Spatial Temporal Semantic DBSCAN) is proposed in this paper. Firstly, OD flow semantics are extracted by combining POI visiting probability and GloVe model, the GloVe model not only fully considers the local geographic context information of POIs, but also takes into account its global statistical information in the corpus. Based on this, a spatiotemporal semantic similarity measurement rule for OD flow is proposed, which comprehensively considers temporal, spatial, and semantic information. Then, the DBSCAN clustering algorithm is improved according to the spatiotemporal semantic similarity measurement rule, and the spatiotemporal semantic clustering of OD flow data is realized. Finally, analysis of travel characteristics of residents in Xiamen island based on OD flow semantics and spatiotemporal semantic clustering, and a total of seven types of residents' travel semantics are extracted. Results show that: 1) Residents' travel semantics are influenced by the time factor, and the main residents’ travel semantics are different in different time periods; 2) residents' travel hotspots are mainly distributed in the central developed area of Xiamen Island; 3) seven typical residents' travel patterns are extracted from four main residents' travel semantics through spatiotemporal semantic clustering analysis. The results demonstrate that OD flow semantic and the spatiotemporal semantic clustering method can effectively mine the travel characteristics of urban residents.

Key words： taxi OD flow; semantic information; POI visiting probability; GloVe model; spatiotemporal semantic; OD flow clustering; travel characteristics

Cite this article

KE Weiwen , WU Sheng , KE Rihong . A Method for Analyzing Residents' Travel Characteristics Based on OD Flow Semantics and Spatio-temporal Semantic Clustering[J]. Journal of Geo-information Science, 2023 , 25(11) : 2150 -2163 . DOI: 10.12082/dqxxkx.2023.230089

1 引言

快速城市化赋予人们现代化生活的同时，也带来了交通拥堵、资源分配不均等诸多“城市病”。分析居民的出行特征是解决和缓解这些日益凸显的城市问题的一种重要途径^[1]。

出租车是城市居民出行的主要交通方式之一。出租车数据有效地记录了居民的出行时空信息，可广泛应用于居民出行特征挖掘^[2⇓-4]。目前，基于出租车OD流向数据的聚类分析，是挖掘居民出行特征的主要方法之一。例如，Song等^[5]采用基于蚁群优化的聚类方法分析居民通勤流中的出行模式;李佳蓉^[6]等采用改进的OPTICS聚类方法挖掘居民出行的时空特征;Yao^[7]和Xiang^[8]等分别采用逐步聚类方法和基于最大生成树和最优分割的流聚类方法识别OD流向数据中的活动模式。但这些研究大多基于出租车OD流向数据挖掘居民出行时空特征，而忽略了出行语义特征。

城市POI数据是OD流向语义提取的重要数据支撑^[9]，一些学者通过研究OD流向与POI之间的关系来提取语义信息。例如，Furletti^[10]、Gong^[11]和彭卉^[12]等分别通过设计时空约束条件和高斯核密度估计方法计算POI的访问概率来判断居民的出行语义。上述研究主要通过计算具有最大访问概率的POI来提取居民出行语义，忽略了地理上下文信息，导致出行语义的提取出现偏差。为了充分考虑POI数据中蕴含的地理上下文信息，一些学者引入自然语言处理模型开展研究，如Yao^[17]和Zhai^[18]等分别采用Word2vec及其改进方法（Place2vec）来提取城市功能语义。但上述2种自然语言处理模型忽略了地理空间数据中的全局统计信息，降低了语义提取的准确性，而GloVe模型^[13]充分考虑了全局统计信息和地理上下文信息，能够准确获取POI类别的空间共现信息和语义特征。

基于上述研究学者的思路，并结合自然语言处理模型，本文首先按居民下车访问概率大小对POI排序并构建语料库;然后利用GloVe模型提取居民出行OD流向语义，并设计相似性度量规则进行OD流向的时空语义聚类;最后基于OD流向语义和时空语义聚类分析厦门岛居民的出行特征。其中，GloVe模型既充分考虑了POI的局部地理上下文信息，又兼顾其在语料库中的全局统计信息，相比于LDA主题模型和Word2vce模型，能够更有效提高语义获取的准确性。

2 研究方法

2.1 技术路线

① 基于GloVe模型提取出租车OD流向语义;② 根据设计的OD流向相似性度量规则计算时空语义相似性，在此基础上提出一种基于密度的时空语义聚类算法（STS-DBSCAN）;③ 利用厦门岛出租车订单数据，基于OD流向语义和时空语义聚类对厦门岛居民出行特征进行实例分析。具体技术路线图如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 研究技术路线

Fig. 1 Technical route in this study

2.2 出租车OD流向语义提取

出租车OD流向语义提取主要分为以下3个部分：① 根据下车位置定义居民出行目的地区域; ② 根据POI访问概率构建流向语义语料库;③ 通过GloVe模型对基于POI访问概率排序的语料库进行训练，获取区域的语义特征向量，利用 K-means聚类算法对区域的特征向量进行聚类，再计算各类簇区域的POI密度和富集指数确定流向的语义并进行语义标注，完成出租车OD流向语义提取。

2.2.1 定义出行目的地区域

出租车乘客总是尽可能在靠近目的地的位置下车，但确切的目的地是未知的。由于下车位置附近可能分布着多个POI，需要根据乘客的下车位置定义其出行目的地区域，并通过目的地区域范围内的POI来推断乘客出行的活动语义。本文统计下车位置的POI类别比例与步行距离阈值之间的关系（图2），当步行距离阈值增加到250 m时，相邻POI数量超过20、40、60、80和100个的POI类别比例都达到了很高的水平。因此，设置250 m作为乘客下车后的最大步行距离，定义乘客下车位置250 m范围内的区域则为本文的出行目的地区域。

显示原图|下载原图ZIP|生成PPT

图2 POI类别的比例与步行距离阈值之间的关系

Fig. 2 The relationship between the proportion of POI categories and the walking distance threshold

2.2.2 基于POI访问概率构建语料库

在自然语言处理中，语料库通常是指经过处理的大量有组织的文本集合^[14]。具体来说，语料库由许多文档组成，每个文档包含多个单词，文档和单词的顺序表示上下文关系，类似于自然语言。基于这些概念，本文将研究区域类比为一个语料库，目的地区域内的POI类别集合类比为文档，POI类别类比为单词。由于地理空间的结构与自然语言有很大的不同，如果只考虑下车位置与POI之间的距离，将会导致居民在不同时间到达同一区域的出行语义固定不变。因此，本文综合考虑时间和距离因素，基于动态POI访问概率排序进行POI类别语料库构建。与仅使用基于距离的排序相比，该排序方法中的语料库内容会随时间而变化，能够有效提高语义提取的准确性。

微博签到数据包含了签到时间、POI等信息，其隐含的信息能够描述用户在签到时进行的目的性活动所属类别，即活动语义信息^[15]。本文利用微博签到数据计算POI在不同时间段被访问的概率，POI访问概率计算公式如下：

（1）

P r P i, t = P i (T s - e) ∑ j = 1 n P j (T s - e)

式中：

P r P i, t

表示出租车乘客在t时刻访问

P i

的概率;

P i (T s - e)

表示类型为i的POI在

(T s - e)

时间段被访问的次数总和;

∑ j = 1 n P j (T s - e)

表示所有类型的POI在

T s - e

时间段被访问的次数总和。乘客下车位置与POI的访问概率之间表现出距离衰减效应，POI距离乘客下车位置越近，被访问的概率越高，且下车时间与POI的位置是相互独立的，因此将POI访问概率计算公式进行改进：

（2）

P r P i, x, y, t = d x, y, P i - β * P i (T s - e) ∑ j = 1 n d x, y, P j - β * P j (T s - e)

式中：

P r P i, x, y, t

表示出租车乘客在t时刻、位置

x, y

下车，访问

P i

的概率;

d x, y, P i

表示乘客下车位置到候选POI(

P i

)之间的距离;

β

是距离衰减系数，本文取

β

=-1.5^[11,16]。

P r P i, x, y, t

的取值范围为0~1，所有POI的访问概率之和等于1。

基于动态POI访问概率的语料库构建规则如下：

（1）构建目的地区域内的POI集合A={

P 1

P 2

, …,

P n

};

（2）如果出租车乘客下车时间

T i

不在

P i

的营业时间

T s — T e

范围内，则构建集合B={

P i

, …,

P o

}，集合B中的POI访问概率为0，令集合C=A-B，从集合A中剔除集合B中的POI;

（3）根据式（2）对集合C中的POI进行访问概率计算，并根据POI访问概率由大到小对集合C进行重新排序，集合C即为基于动态POI访问概率的语料库。

2.2.3 基于GloVe模型提取出租车OD流向语义

在上述基于POI访问概率排序的语料库中，虽然考虑了地理空间结构中的时间和距离因素，但是忽略了POI之间的地理上下文信息和空间共现关系，导致出租车OD流向语义的提取出现偏差。例如，出租车乘客在机场区域下车，其出行语义应被标记为“交通出行”。但航站楼内存在一些餐厅，容易将乘客的出行语义标记为“就餐出行”，尤其是在用餐时间段。为此，一些学者^[17-18]用词嵌入模型来解决这一问题。其中，Word2vec及其改进方法（如Place2vec）忽略了地理空间数据中的统计信息（例如POI共现频率），这对于城市计算应用来说并不理想^[19]。而GloVe模型结合了全局矩阵分解方法（LSA）和局部上下文窗口方法（Word2vec）的优点，根据局部POI共现的数量获取语料库中的全局统计信息，并将POI的语义表示为向量，充分考虑了POI之间的地理上下文信息和空间共现关系。因此，本文利用GloVe模型提取出租车OD流向语义。在构建GloVe模型时，将词向量的维数设置为128，共现窗口设置为5，迭代次数设置为10。

本文利用GloVe模型对基于POI访问概率排序的语料库进行训练，获取每个POI类别的特征向量，并对目的地区域内的POI类别特征向量进行加权平均得到整个目的地区域的特征向量

N A v e c_i

。

（3）

N A v e c_i = ∑ k = 1 N t y p e (v i, k) N

式中：

t y p e (v i, k)

表示第i个目的地区域中的第k个POI类别的特征向量;

N

表示目的地区域i的POI数量。为了建立目的地区域的特征向量与出租车OD流向语义之间的关系，本文采用K-means聚类算法对各目的地区域的特征向量进行聚类。在聚类完成后，通过计算每个类簇区域的POI密度

P D i q

和富集指数

E F i q

来进一步确定类簇区域的出租车OD流向语义。

（4）

P D i q = N i q A i

式中：

P D i q

表示类簇区域i中类别为q的POI密度，

N i q

表示类簇区域i中类别为q的POI数量;

A i

表示类簇区域i所属的目的地区域总面积。POI密度不能完全反映每个类簇区域的特征，因为一些POI类别（如“餐饮服务”和“生活服务”）在整个城市范围内的分布密度较高，对确定类簇区域的出租车OD流向语义具有干扰性。因此，还需借助POI类别的富集指数

E F i q

来确定类簇区域的出租车OD流向语义：

（5）

E F i q = N i q N i × N N q

式中：

E F i q

表示类别为q的POI在类簇区域i中的富集指数;

N i q

表示类簇区域i中类别为q的POI数量;

N i

表示类簇区域i中的POI数量;

N q

表示类别为q的POI数量;N是整个研究区中的POI数量。

根据每个类簇区域所计算得到的POI类别密度和富集指数，对类簇区域的出租车OD流向语义进行分析与标注，实现基于GloVe模型的出租车OD流向语义提取。

2.3 出租车OD流向时空语义聚类

2.3.1 OD流向的时空语义相似性度量

每个出租车OD流向可以表示为

f i

O i, O t i, D i, D t i, S i

，其中

O i

=（

o x i

o y i

）、

O t i

为出租车乘客上车点的经纬度坐标和时间，

D i

=（

d x i, d y i

）、

D t i

为出租车乘客下车点的经纬度坐标和时间，

S i

为

f i

的OD流向语义。

在本文中提出的OD流向时空语义相似性度量规则，主要从以下4个方面来衡量OD流向之间的相似性：① OD流向在空间上彼此接近;② OD流向的长度和方向相似;③ OD流向的时间相似;④ OD流向具有相同的语义。

如图3所示，

f 1

与

f 3

在流向的语义和长度上相似，在流向的方向上不相似。

f 1

与

f 4

、

f 5

在流向的长度和方向上相似，而流向的语义不相似。

f 1

与

f 6

则在流向的长度、方向和语义上都不相似，只有

f 2

与

f 1

是相似的。

显示原图|下载原图ZIP|生成PPT

图3 相似流向示例图

Fig. 3 Example diagram of similar flow

（1） OD流向的空间相似性度量

在上述规则中，相似的流向在空间中相接近。因此，本文利用目标流向的中点和k-近邻算法筛选出相邻的流向，然后根据下述公式来量化两个流向之间的空间相似关系。

如图4所示，即使流向在方向上有着明显的不同，但由于参数

d i s l i m i t

的数值为固定值，就会出现图4(b)和图4(c)判断

f i

和

f j

为相似流向的情况。He等^[20]提出流向的长度必须大于

2 d i s l i m i t / s i n 45 °

（≈2.83

d i s l i m i t

）才能保证2条流向之间的夹角小于45°。因此，在本文中将

d i s l i m i t

设置为一个随着流向长度变化而改变的参数，定义如下：

显示原图|下载原图ZIP|生成PPT

图4 相同dislimit数值和不同OD流向长度下的OD流向间相似性

Fig. 4 Similarity between OD flows with the same dislimit value and different lengths of OD flow

（6）

d i s l i m i t = m i n (l e n i, l e n j) k

式中：

m i n (l e n i, l e n j)

表示流向

f i

和流向

f j

中较小的流向长度值，

k

是一个大于等于2.83的参数，通常将

k

设为2.83。通过计算2个流向OD点之间的距离与参数

d i s l i m i t

的比值

R

来衡量OD流向之间的相似性。

（7）

R O = d i s (O i, O j) d i s l i m i t R D = d i s (D i, D j) d i s l i m i t

（8）

s i m O = R O R O ≤ 1 ∞ R O > 1

（9）

s i m D = R D R D ≤ 1 ∞ R D > 1

式中：

d i s ()

表示两点之间的欧几里得距离;

R O

和

R D

分别表示流向

f i

和

f j

的O点和D点之间的空间相异度。

R

的取值范围为0~1，其值越小，

f i

和

f j

之间的空间相似性越高。

s i m O

、

s i m D

表示O点和D点之间的相似性。

（2） OD流向的时间相似性度量

下车点的时间与出租车OD流向语义相关联。本文通过计算2条OD流向的下车点时间间隔来判断两条OD流向在时间上是否相似，并设计以下公式来衡量OD流向之间的时间相似性：

（10）

R t = d i s (D t i, D t j) t i m e l i m i t

（11）

s i m t = R t, R t ≤ 1 ∞, R t > 1

式中：

d i s (D t i, D t j)

表示流向

f i

和

f j

的下车时间间隔，

t i m e l i m i t

是根据现实条件设置的时间阈值参数，如果

d i s (D t i, D t j) ≤ t i m e l i m i t

，则表示流向

f i

和流向

f j

在时间上相似。

s i m t

表示流向

f i

和

f j

的时间相似性。

（3） OD流向的语义相似性度量

根据2.2中获取的OD流向语义判断OD流向语义的相似性，其公式如下所示：

（12）

s i m s = 1 S i = S j ∞ S i ≠ S j

式中：

S i 、 S j

分别为流向

f i

和

f j

的语义;

s i m s

表示2条OD流向之间的语义相似性，如果2条OD流向语义相同，则给

s i m s

赋值为1，便于后面整合时空语义相似性度量公式。

将以上所得的OD流向时空语义相似性度量参数

s i m O

、

s i m D

、

s i m t

、

s i m s

相结合计算OD流向时空语义相似性：

（13）

s i m f i, f j = 1 - s i m O + s i m D + s i m t + s i m s 4

式中：

s i m f i, f j

表示流向

f i

和流向

f j

之间的时空语义相似性，计算得到的OD流向时空语义相似性值的区间为[0,3/4]。若

s i m f i, f j

的值在该区间中，则表示流向

f i

和流向

f j

相似，其值越接近3/4，流向

f i

和流向

f j

的时空语义相似性越高。

2.3.2 基于密度的OD流向时空语义聚类

结合前面设计的OD流向时空语义相似性度量公式改进DBSCAN算法，提出一种基于密度的时空语义聚类算法（STS-DBSCAN），具体流程如下：

（1）输入OD流向数据F={

f 1, f 2, …, f n

}，时间阈值

t i m e l i m i t

，距离参数

k

，密度阈值minpts，半径参数Eps。

（2）计算OD流向的长度，标记所有OD流向为unvisited，通过OD流向的长度和参数k来计算距离阈值dislimit，根据距离阈值来确定其Eps-邻域。

（3）遍历每一条OD流向及其Eps-邻域，寻找相似性参数满足条件的流向

f i

，且Eps-邻域中

f i

的数量要大于minpts，标记

f i

为核心流并加入相似性流向类簇

c i

中，Eps-邻域内的非核心流加入噪声集合

n i

中。遍历完所有OD流向数据，输出时空语义相似的OD流向类簇C和噪声集合N。

算法1实现的伪代码如下所示：

算法1 基于密度的OD流向时空语义聚类

输入：OD流向数据F={

f i

}，时间阈值

t i m e l i m i t

，距离参数

k

，密度阈值minpts，邻域半径Eps

输出：时空语义相似的OD流向类簇C={

c i

}，噪声集合N={

n i

}function STS_DBSCAN(F,

t i m e l i m i t

k

, minpts)//计算每一条流的长度dis

(O i, D i)

，参数dislimit，确定Eps-邻域并标记为unvisitedCalculate dis

(O i, D i)

, dislimitif dislimit < Eps doEps=dislimitend if//寻找每条unvisited流的Eps-区域中满足所有合并条件的类簇并合并for

f i

in F doif

f i

为unvisited标记

f i

为visitedCalculate

s i m f i, f j

//计算Eps-邻域中流之间的相似性参数

s i m f i, f j

0 ≤ s i m f i, f j ≤ 3 / 4

且Eps-邻域中至少minpts个对象满足条件{

f i

}

→ c i

, {

c i

}

→

Celse
{

f i

}

→ n i,

{

n i

}

→

N//标记

f i

为噪声end ifend ifend for输出C,NUntil 所有的流标记为visitedend function

3 实验与分析

3.1 区域概况及数据

为验证本文研究方法的有效性，本文以厦门岛作为研究区域，采用2020年6月18日厦门岛出租车数据和2020年厦门岛高德地图POI数据，基于OD流向时空语义聚类方法，对厦门岛居民出行特征进行分析。出租车数据来源于厦门市大数据安全开放创新应用大赛，数据包括车辆标识、上车位置（WGS_84坐标，下同）、上车时间、下车位置、下车时间，总共179 261条记录。POI数据包括了餐饮、办公等13个一级类别，101个二级类别以及393个三级类别，共62 997条POI数据。

3.2 出租车OD流向语义识别与标注

根据2.2节中的流向语义提取方法，目的地区域的特征向量是通过计算目的地区域中POI类别向量的加权平均值得到的，在使用K-means聚类算法对目的区域的特征向量进行聚类时，计算了K值为2-13的轮廓系数。如图5所示，当K=3和K=7时，轮廓系数值最高，聚类效果最好。因为3种类簇不足以揭示居民出行语义的多样性，所以本文选择K=7作为理想的K值进行进一步的分析和验证。

显示原图|下载原图ZIP|生成PPT

图5 轮廓系数值

Fig. 5 The silhouette coefficient values

在表1中计算了每个聚类区域（F1—F7）的POI密度(POI Density, PD)及其对应的富集指数 (Enrichment Factor, EF)，借助POI密度和富集指数对目的地区域进行语义识别，以下对识别结果进行分析。F1、F2和F7的POI密度明显高于其他聚类区域，是城市中发展比较好的区域。由于POI密度不能全面准确地反映出聚类区域的流向语义，本文结合POI富集指数进一步识别各聚类区域的流向语义。F1中POI类别为商务住宅、购物服务和餐饮服务的EF值较高，因此判断该区域为居民区，其流向语义为“返家通勤”。F2中POI类别为购物服务、餐饮服务以及休闲娱乐的密度较高，这3种类型的POI具有共现特征，而F2中POI类别为休闲娱乐的EF值较高，因此判断该区域的流向语义为“休闲娱乐”。根据每个聚类区域的POI密度、富集指数，可得到F3—F7所对应的流向语义分别为“就医出行”、“交通出行”、“工作通勤”、“教育培训”、“购物就餐”，根据所提取聚类区域的流向语义进行语义标注，获取每条出租车OD流向的语义。

表1 各聚类区域的POI密度和富集指数

Tab. 1 POI density and enrichment factor in each cluster region

POI类别	F1		F2		F3		F4		F5		F6		F7
POI类别	PD	EF	PD	EF	PD	EF	PD	EF	PD	EF	PD	EF	PD	EF
商务住宅	16.20	2.30	7.20	1.32	4.60	1.16	5.78	1.53	6.86	1.03	7.87	1.39	8.56	1.41
购物服务	25.60	1.82	28.50	1.52	19.40	1.37	13.50	1.27	14.30	1.30	11.60	1.12	45.80	1.95
餐饮服务	24.80	1.73	29.30	1.58	25.60	1.50	23.20	1.57	17.50	1.34	15.20	1.24	43.90	1.89
公司企业	6.65	1.26	5.86	0.79	3.78	1.26	4.56	1.35	20.30	2.31	5.79	1.41	4.86	1.28
交通设施	0.76	1.13	0.71	1.03	0.82	1.20	1.28	2.03	0.97	1.57	0.70	1.11	0.68	1.05
医疗保健	3.08	1.33	1.85	0.73	6.65	1.88	1.10	0.77	1.23	0.95	1.04	0.85	0.96	0.71
休闲娱乐	5.03	1.42	17.20	1.83	2.62	1.02	3.87	1.18	2.08	0.98	3.23	1.12	10.10	1.56
科教文化	2.56	0.99	2.56	1.26	2.09	1.19	1.96	0.89	3.26	1.25	5.32	1.78	1.88	1.14

3.3 OD流向语义提取方法比较

本文分别基于GloVe模型（方法1）、Word2vec模型（方法2）和LDA模型（方法3）进行OD流向语义提取，并与同时期厦门岛微博签到数据进行比较，如表2所示。可以看出方法1提取的OD流向语义分布与微博签到数据较为吻合。由于餐饮、购物、住宅、娱乐和交通设施等类别的POI存在共现现象，且Word2vec模型和LDA模型没有利用语料库中的全局统计信息， LDA模型未考虑POI的局部地理上下文信息。

表2 3种不同方法提取的OD流向语义分布与微博签到数据

Tab. 2 Semantics distribution of OD flow extracted by three different methods and weibo check-in data （%）

	返家通勤	休闲娱乐	就医出行	交通出行	工作通勤	教育培训	购物就餐
微博签到数据	31.37	8.99	4.28	2.23	22.23	2.09	28.81
方法1	32.35	7.10	3.58	2.16	24.23	1.50	29.08
方法2	25.38	9.23	2.98	1.51	28.06	1.16	31.68
方法3	20.36	11.51	2.12	0.92	25.50	1.01	38.58

本文利用微博签到数据对3种不同方法所提取的OD流向语义进行精度验证，其精度计算公式如下所示：

（14）

A c c u r a c y = ∑ i = 1 N A i N × 100 %

式中：

N

是微博签到数据的总数;

A i

是OD流向语义精度得分，如果3种方法所提取的OD流向语义与微博签到数据的居民出行语义相同，

A i

=1;反之，

A i

=0。

通过计算3种方法的OD流向语义提取精度发现，基于GloVe模型的OD流向语义提取方法精度最高（72%），其次是Word2vec模型（67%），最后是LDA模型（58%）。因此，基于GloVe模型的方法可以有效提高OD流向语义的准确性。

3.4 居民出行时间特征分析

城市居民的出行具有时间规律性，图6展示了一天中7种居民出行语义的出行量随时间的变化趋势。“返家通勤”在22:00—6:00维持了较高的出行量，是该时间段的主要居民出行语义之一，在其他时间段，该出行语义的出行量维持在一个较低的水平。“休闲娱乐”是夜间的主要居民出行语义之一，在22:00之后的出行量仅次于“返家通勤”的出行量。这2种居民出行语义的出行量从21:00开始呈现上升趋势，“返家通勤”的出行量在23:15达到了峰值。随着午夜的到来， 2种出行语义的出行量开始呈现下降趋势。当时间来到7:00时，“上班族”和“学生党”成为早晨出行的主力军，“工作通勤”和“教育培训”是7:00—11:00的主要居民出行语义，在该时间段2种出行语义的出行量占居民总出行量的80%以上。在11:00—21:00“购物就餐”是该时间段最主要的居民出行语义，占居民总出行量的60%以上，该居民出行语义的出行量峰值分别出现在12:15和20:50这2个时间点。在一天的时间中，“交通出行”和“就医出行”这2种居民出行语义的出行量较少，出行量曲线较为平稳。

显示原图|下载原图ZIP|生成PPT

图6 居民出行语义的时间分布曲线

Fig. 6 The time distribution curve of resident travel semantics

为了进一步展示一天中居民出行语义的时间变化趋势，本文采用基于密度的OD流向时空语义聚类算法（STS-DBSCAN）对一天中的4个时间段（凌晨、早上、下午和晚上）进行聚类分析，并在图7中展示了4个时间段的相似居民出行语义流。聚类结果受密度阈值影响较大，本文设置聚类的密度阈值为10、空间阈值为250 m、时间阈值为0.5 h，流簇的数量以及簇内数量能够较好地反映居民的出行特征。

显示原图|下载原图ZIP|生成PPT

图7 居民出行语义相似流的时间序列分布

Fig. 7 Temporal distribution of resident travel semantics similar flow

在凌晨（00:00—05:59）时间段，出现了大量短距离的“返家通勤”流，其上车点主要集中在明发商业广场，下车点分布在多个住宅小区。而“娱乐出行”流的居民出行目的地为明发商业广场，可见明发商业广场分布着密集的娱乐场所，在交通便利性和配套服务定位上具备优势，能满足多样化的娱乐消费需求，在夜间带来高客流，因此会在凌晨时间段形成明显的“聚集”模式的居民出行语义流。除了以上2种相似的居民出行语义流，该时间段还存在着少量短距离的“交通出行”流，居民的下车地点为高崎机场的T4候机楼，由此可推断乘坐早班航空的居民会在出行前一晚居住在机场附近，以便于第二天的出行。

随着时间的推移，上午（6:00—11:59）时间段的居民出行语义相似流的类型和数量开始增加，相似流的类别达到了6种。其中“工作通勤”流是该时间段的主要相似流，从图中可以看出“工作通勤”相似流的居民大多数是从居民区乘坐出租车前往工作地点（如观音山国际商务营运中心、软件园二期以及厦门财富中心等区域），该相似流的行程距离相对较短。与凌晨时间段不同的是，上午时间段的“交通出行”相似流的行程距离较长，形成多条高崎机场与火车站之间的交互的相似流向。在该时间段形成的其他4种居民出行语义相似流的流簇数量较少，无明显的居民出行特征。

图7(c)展示了下午（12:00—17:59）时间段的居民出行语义相似流簇的分布情况，居民出行语义相似流簇的类别和数量开始减少，“交通出行”相似流由上午时间段的交通设施之间的换乘为主转变为下午时间段的景点与交通设施之间的出行为主，居民主要从中山路、曾厝垵等旅游景点前往厦门高崎机场的T3和T4候机楼以及厦门火车站。“购物就餐”相似流的流簇数量在该时间段呈现出增长的趋势，但并未形成明显的集聚中心，该相似流的居民主要出行目的地为多个商业中心（如sm城市广场、瑞景商业广场等）。在该时间段形成的其他3种居民出行语义相似流的流簇数量较少，无明显的居民出行特征。

如图7(d)所示，晚上（18:00—23:59）时间段的居民出行语义相似流簇的类型数量相较于白天进一步减少，该时间段的居民出行语义相似流主要为“购物就餐”，通过聚类分析获取了多个热门的购物就餐场所（如sm城市广场、中山路、沙坡尾等）。sm城市广场在该时间段存在2个“返家通勤”相似流簇，可见其商业功能主要以“购物就餐”为主，进行“购物就餐”的居民的返家时间会早于进行“娱乐出行”的居民。

以上分析表明，居民的出行语义相似流簇具有较强的时间特征。凌晨时，居民的出行语义以“返家通勤”和“娱乐出行”为主;上午时，居民的出行语义以“工作通勤”为主;下午时，居民的出行语义以“购物就餐”和“交通出行”为主;而在晚上时，居民的出行语义则以“购物就餐”和“返家通勤”为主。此外，居民出行语义相似流簇的类型数量也随时间的变化而有所不同，白天的居民出行语义相较于夜间更为丰富，这与居民日常的生活作息规律相符。

3.5 居民出行空间特征分析

为了更直观展示居民出行语义的高密度区域，本节使用核密度估计方法绘制了4种居民出行语义的空间分布密度图（图8）。从整体的分布密度来看，住宅、购物和就餐等相关场所比办公和休闲娱乐场所分布更广，总体上呈现中部密度高，外围密度低的空间分布特征。从局部的分布密度来看， 4种居民出行语义的高密度区域大多分布在厦门岛的中部区域，沿着嘉禾路从湖里区的sm城市广场到思明区的厦门火车站附近，存在着相同的热点区域（莲坂），该区域为厦门岛上资源配置丰富、人流量大的核心区域。从返家居民的下车点分布密度可以看出，居住在吕厝、江头、莲坂和火车站附近的居民乘坐出租车返家的人次明显多于厦门岛的其他区域，可以推断这些区域的居住人口密度大。“购物就餐”与“返家通勤”具有相似的高密度区域，除上述4个区域外，sm城市广场和中山路也是居民进行“购物就餐”的心仪选择之一。“工作通勤”的密度分布均匀，中密度（黄色）区域较多且分布范围广，其高密度区域主要位于观音山国际商务营运中心、湖里创新园和莲坂等区域。前3种居民出行语义都具有多个高密度区域，而“休闲娱乐”仅有一个高密度区域，该区域位于莲坂的明发商业广场周边。通过上述对出行语义的空间分布特征进行分析，可以看出厦门岛的核心发达区域主要位于资源配置丰富、人流量大的厦门岛中部。

显示原图|下载原图ZIP|生成PPT

图8 居民出行语义的空间密度分布

Fig. 8 Spatial density distribution of resident travel semantics

出行距离分布能够反映居民选择提供相应服务设施的喜好以及城市资源配置的合理性，以下就7种居民出行语义的距离分布（图9）进行讨论分析。“购物就餐”和“休闲娱乐”的短距离（≤3 km）出行比例较高，约占总出行的40%，这表明居民更倾向于选择短距离内能够提供购物、就餐和娱乐等相应服务的场所。在中远距离（6~10 km）的出行中，“返家通勤”、“工作通勤”和“教育培训”这3种具有固定目的地的出行语义占据更高比例，约占总出行的40%，可推断办公场所、学校和住宅区之间的距离大多在这个范围内。除了交通出行以外，其他居民出行语义的出行距离在15 km以内的约占总出行的98%，出行距离在6 km以内的比例达到70%以上，这主要是受厦门岛的区域大小以及各种资源分布等因素影响。“交通出行”的中远距离（6~10 km）和远距离（≥10 km）出行比例明显高于其他出行语义。由于机场和火车站的地理位置固定，居民在进行“交通出行”时需要承担更高的出行成本。因此，政府可以采取措施来优化城市结构和制定合理的交通政策，以降低居民的出行成本。

显示原图|下载原图ZIP|生成PPT

图9 居民出行语义的距离分布

Fig. 9 Distance distribution of resident travel semantics

3.6 居民出行模式分析

为了进一步验证所提出的OD流向时空聚类方法的有效性，本文选择“返家通勤”、“交通出行”、“工作通勤”、“就医出行”4种居民出行语义进行OD流向时空语义聚类分析（图10），以进一步发现典型的居民出行模式。

显示原图|下载原图ZIP|生成PPT

图10 4种居民出行语义的时空聚类结果

Fig. 10 Spatio-temporal clustering results of four types of resident travel semantics

“返家通勤”流和“工作通勤”流在空间上的聚类结果较为分散。其中，“返家通勤”流的居民上车地点大多为工作场所、娱乐场所和商业中心，下车地点为厦门岛上一些主要的居民区，如金山、前埔、后埔、莲坂等地，形成了“工作-家”、“娱乐-家”、“商业-家”的居民出行模式。“返家通勤”流的上车地点类型多，且由于厦门岛的住宅区数量多、分布广，仅出现少量的集聚中心（火车站周边）和发散中心（莲坂）。“工作通勤”流的居民上车地点为居民区，下车地点是商务办公区和产业园区，出现了多个明显的集聚中心（软件园二期和观音山国际商务营运中心等地），形成了“家-工作”的居民出行模式。

与上述2种流向的聚类结果不同的是，“交通出行”流和“就医出行”流在空间上的聚类结果较为集中。其中，“交通出行”流的下车地点较为集中，在空间特征上呈现由四周向3个主要交通设施聚集的现象，出行了3个明显的集聚中心（高崎机场的T3候机楼、T4候机楼和厦门火车站）。从上车地点来看，“交通出行”流主要从旅游景点和交通设施出发，形成了“景点-交通”、“交通-交通”的居民出行模式。“就医出行”流上车地点主要为住宅小区，下车地点出现了3个明显的集聚中心（厦门中医院、中山医院和第一医院），形成了“家-医院”的居民出行模式。从“就医出行”流的流簇数量上可以看出，厦门岛的优质医疗资源主要集中在思明区，而湖里区的优质医疗资源相对较少，出现了优质医疗资源分配不均衡的现象。考虑2种流向出现集聚现象的原因是因为交通设施、医疗资源相对较少且其具有不可替代性的特点。

通过对出租车OD流向进行时空语义聚类，挖掘了“工作-家”、“娱乐-家”、“商业-家”、“家-工作”、“景点-交通”、“交通-交通”、“家-医院”7种典型的居民出行模式。从流向聚类的结果来看，在主要交通设施、热门医院和早高峰期间的产业园区，人流聚集的现象比较明显，对这些场所周围的交通造成了压力。为避免交通拥堵的出现，政府需要进行相应的交通规划和疏导。

4 结论与讨论

本文针对时空聚类算法中语义信息考虑不足的问题，提出了一种基于GloVe模型的OD流向语义提取方法和基于密度的OD流向时空语义聚类方法，并以厦门岛为例，验证了基于OD流向语义和时空语义聚类方法分析居民出行特征的有效性。主要结论如下：

（1）基于POI访问概率排序语料库进行GloVe模型训练，提高了OD流向语义提取的准确性，有效地提取了居民出行语义。相较于LDA模型和Word2vec模型，本文所提出的OD流向语义提取方法的精度最高。

（2）改进了OD流向的时空语义聚类方法，将流向的语义与时间、空间信息相结合，计算了OD流向的时空语义相似性，实现了OD流向的时空语义聚类。

（3）通过OD流向语义提取和时空语义聚类分析了厦门岛居民出行语义的时空分布特征和居民的出行模式，共提取了7种居民出行语义和7种典型的居民出行模式，深入地刻画了居民出行特征和流动性，可为城市管理和交通调度等提供辅助。

需要进一步解决的问题包括：

（1）由于数据获取的有限性，本文仅使用出租车出行数据进行实例分析，无法全面地分析整个城市居民的出行特征，未来将结合多种居民出行数据进行分析。

（2）基于密度的时空语义聚类算法（STS-DBSCAN）的聚类结果受参数设置的影响较大，不同的参数组合会产生不同的聚类结果;且当数据集较大时，聚类收敛时间较长，后续将进一步尝试改进其他时空语义聚类算法来提高聚类分析的效率。

（3）在时间维度的相似性度量上，本文主要考虑以邻近的时间段作为时间维度上的相似性度量来研究短时间内居民出行的特征，未来还需进一步考虑周期性出行活动的影响。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	方志祥. 人群动态的观测理论及其未来发展思考[J]. 地球信息科学学报, 2021, 23(9):1527-1536. DOI Fang Z X. The theory prospect of crowd dynamics-oriented observation[J]. Journal of Geo-Information Science, 2021, 23(9):1527-1536. ] DOI:10.12082/dqxxkx.2021.200787

[2]

郑晓琳, 刘启亮, 刘文凯, 等. 智能卡和出租车轨迹数据中蕴含城市人群活动模式的差异性分析[J]. 地球信息科学学报, 2020, 22(6):1268-1281.

DOI

Zheng

X L

, Liu

Q L

, Liu

W K

, et al. Discovery of urban human mobility patterns from smart card transactions and taxi GPS trajectories: A comparative study[J]. Journal of Geo-Information Science, 2020, 22(6):1268-1281. ] DOI:10.12082.dqxxkx.2020.190312

[3]	Zhang S L, Zhu D, Yao X, et al. The scale effect on spatial interaction patterns: An empirical study using taxi O-D data of Beijing and Shanghai[J]. IEEE Access, 2018, 6:51994-52003. DOI:10.1109/ACCESS.2018.2869378

[4]	Song C, Pei T, Shu H. Identifying flow clusters based on density domain decomposition[J]. IEEE Access, 2019, 8:5236-5243. DOI:10.1109/ACCESS.2019.2963107

[5]	Song C, Pei T, Ma T, et al. Detecting arbitrarily shaped clusters in origin-destination flows using ant colony optimization[J]. International Journal of Geographical Information Science, 2019, 33(1):134-154. DOI:10.1080/136 58816.2018.1516287

[6]	李佳蓉, 夏昊, 张迎, 等. 城市居民出行O/D时空分布特征的轨迹数据提取[J]. 测绘科学, 2020, 45(2):150-158. Li J R, Xia H, Zhang Y, et al. Trajectory data extract of O/D temporal and spatial distribution of urban residents[J]. Science of Surveying and Mapping, 2020, 45(2):150-158. ] DOI:10.16251/j.cnki.1009-2307.2020.02.023

[7]	Xiao X, Zhu D, Gao Y, et al. A stepwise spatio-temporal flow clustering method for discovering mobility trends[J]. IEEE Access, 2018, 6:44666-44675. DOI:10.1109/ACCESS.2018.2864662

[8]	Xiang Q L, Wu Q Y. Tree-Based and Optimum Cut-Based Origin-Destination Flow Clustering[J]. ISPRS International Journal of Geo-information, 2019, 8(11):477. DOI

[9]	张晗, 邬群勇. 基于LDA和优化蚁群的OD流向时空语义聚类算法[J]. 地球信息科学学报, 2022, 24(5):837-850. DOI Zhang H, Wu Q Y. A spatio-temporal semantic clustering algorithm for OD flow direction based on LDA and ant colony optimization[J]. Journal of Geo-Information Science, 2022, 24(5):837-850. ] DOI:10.12082/dqxxkx.20 22.210535

[10]	Furletti B, Cintia P, Renso C, et al. Inferring human activities from GPS tracks[A]. ACM, 2013

[11]

Gong

S H

, Cartlidge

, Bai

R B

, et al. Extracting activity patterns from taxi trajectory data: A two-layer framework using spatio-temporal clustering, Bayesian probability and Monte Carlo simulation[J]. International Journal of Geographical Information Science, 2020, 34:1210-1234. DOI:10.1080/13658816.2019.1641715

[12]	彭卉, 杜云艳, 易嘉伟, 等. 基于手机数据的北京市城市与近郊交互模式挖掘[J]. 地球信息科学学报, 2019, 21(1):97-106. DOI Peng H, Du Y Y, Yi J W, et al. Mining urban-rural spatial interaction pattern from mobile data of Beijing[J]. Journal of Geo-Information Science, 2019, 21(1):97-106. ] DOI:10.12082/dqxxkx.2019.180262

[13]	Pennington J, Socher R, Manning C-D. GloVe: Global Vectors for Word Representation. Doha, Qatar: 2014.

[14]	Ng H T, Zelle J M. Corpus-based approaches to semantic interpretation in NLP[J]. AI Magazine, 1997, 18(4):45-64.

[15]

郭茂祖, 陈加栋, 张彬, 等. 融合空间偏好和语义的个体活动识别方法[J]. 国防科技大学学报, 2022, 44(3):57-66.

Guo

M Z

, Chen

J D

, Zhang

, et al. Method for individual activities recognition incorporating spatial preference and semantics[J]. Journal of National University of Defense Technology, 2022, 44(3):57-66. ] DOI:10.11887/j.cn.202203008

[16]	Gong L, Liu X, Wu L, et al. Inferring trip purposes and uncovering travel patterns from taxi trajectory data[J]. Cartography and Geographic Information Science, 2016, 43(2):103-114. DOI:10.1080/15230406.2015.1014424

[17]	Yao Y, Li X, Liu X P, et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model[J]. International Journal of Geographical Information Science, 2017, 31(4):825-848. DOI: 10.1080/13658816.2016.1244608

[18]	Zhai W, Bai X Y, Shi Y, et al. Beyond Word2Vec: An approach for urban functional region extraction and identification by combining Place2vec and POIs[J]. Computers, Environment and Urban Systems, 2019, 74:1-12. DOI: 10.1016/j.compenvurbsys.2018.11.008

[19]	Zhang C K, Xu L C, Yan Z, et al. A GloVe-based POI type embedding model for extracting and identifying urban functional regions[J]. ISPRS Int J Geo Inf, 2021, 10:372. DOI:10.3390/IJGI10060372

[20]	He B, Zhang Y, Chen Y, et al. A simple line clustering method for spatial analysis with origin-destination data and its application to bike-sharing movement data[J]. ISPRS International Journal of Geo-Information, 2018, 7(6):203. DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究方法

2.1 技术路线

图1 研究技术路线

2.2 出租车OD流向语义提取

2.2.1 定义出行目的地区域

图2 POI类别的比例与步行距离阈值之间的关系

2.2.2 基于POI访问概率构建语料库

2.2.3 基于GloVe模型提取出租车OD流向语义

2.3 出租车OD流向时空语义聚类

2.3.1 OD流向的时空语义相似性度量

图3 相似流向示例图

图4 相同dislimit数值和不同OD流向长度下的OD流向间相似性

2.3.2 基于密度的OD流向时空语义聚类

3 实验与分析

3.1 区域概况及数据

3.2 出租车OD流向语义识别与标注

图5 轮廓系数值

表1 各聚类区域的POI密度和富集指数

3.3 OD流向语义提取方法比较

表2 3种不同方法提取的OD流向语义分布与微博签到数据

3.4 居民出行时间特征分析

图6 居民出行语义的时间分布曲线

图7 居民出行语义相似流的时间序列分布

3.5 居民出行空间特征分析

图8 居民出行语义的空间密度分布

图9 居民出行语义的距离分布

3.6 居民出行模式分析

图10 4种居民出行语义的时空聚类结果

4 结论与讨论

References