Research on User Spatial Access Aggregation Behavior in Network Geographic Information Service

  • CHEN Wenjing , 1 ,
  • LI Rui , 1, * ,
  • DONG Guangsheng 1 ,
  • LI Jiang 2
Expand
  • 1. State Key Laboratory of Information Engneering in Surveying, Mapping and Remote sensing, Wuhan University, Wuhan 430079, China
  • 2. Information Center of Department of Natural Resources of Hubei Province, Wuhan 430071, China
*LI Rui, E-mail:

Received date: 2020-07-31

  Revised date: 2020-09-30

  Online published: 2021-03-25

Supported by

National Key Research and Development Foundation of China(2016YFB0502301)

National Natural Science Foundation of China(41771426)

Copyright

Copyright reserved © 2010.

Abstract

The rapid development of the geographic information industry has promoted the popularization of network geographic information services, providing the public with indispensable and convenient services such as spatial positioning, spatial query, and path planning, which penetrate all aspects of life. At the same time, the number of users is also exploding, how to provide users with on-demand and high-quality geographic information services has become one of the key issues to be solved. So it is meaningful to study the access behavior of users of network geographic information services, which is conducive to understanding users' geographic information interests and realizing on-demand services. Based on the theory of full spatial information system modeling, this paper constructs a user-visited city relationship network and studies the spatial aggregation of user access. Users' behavioral relationship strength generally involves many factors. This paper takes into account that the expression of behavioral relationship strength in relational network needs to consider user access behavior, city association relationship, and city structure at the same time, and there will be bias on a single user accesses behavior data. In order to solve this bias, this paper proposes a data fusion method based on matrix decomposition to integrate user access data, city associated data, and Point of Interest (POI) data in network geographic information services to express the strength of user-city access correlation. In the relational network, the fusion data are used to express the strength of behavioral relationship, and the distance between cities is used to express the strength of spatial relationship. On this basis, the clustering pattern mining of users is realized based on the relational network clustering method. The characteristics of users' preference to different cities will affect the clustering results. Given that clustering methods are usually based on spatial distance to achieve clustering, they cannot take into account the user's preference characteristics of different cities in the relationship network. On the basis of Fuzzy C-means Clustering algorithm (FCM), this paper proposes the PFCM algorithm based on the user's access probability to the city definition of access preference. At the same time, the spatial distance between cities and the strength of access behavior relationship in the relational network are taken into account to reduce the deviation of clustering results. This research expresses the spatial interest preferences of users through the spatial clustering of user visits. It helps to understand the relationship between user access behavior and cities and provides guidance for the performance improvement of network geographic information services in data caching and advance push so as to better serve user access.

Cite this article

CHEN Wenjing , LI Rui , DONG Guangsheng , LI Jiang . Research on User Spatial Access Aggregation Behavior in Network Geographic Information Service[J]. Journal of Geo-information Science, 2021 , 23(1) : 93 -103 . DOI: 10.12082/dqxxkx.2021.200424

1 引言

近年来,地理信息产业的快速发展促进了网络地理信息服务的普及,为公众提供空间定位、空间查询、路径规划等不可或缺的便捷服务,渗透于生活的方方面面。与此同时,用户数量也爆炸式增长,如何为用户提供按需化、优质化的地理信息服务成为亟待解决的关键问题之一。人的兴趣偏好与其行为过程紧密关联,可由用户的行为来表达与判别。为了更好地表达用户访问网络地理信息服务的潜在意图和兴趣偏好,通常采用数据挖掘的方式提取用户的访问特征,并采用按需服务以更好地满足用户要求,提升用户服务体验。用户访问过程记录了人对城市地理信息的需求与服务的交互行为,通过对用户访问行为进行有效的数据挖掘,可以分析出用户与城市之间的关联关系、用户对城市的兴趣偏好以及用户访问聚集特征,并据此为用户提供优化的服务。然而仅用单一的用户访问行为数据无法较为全面的表达用户与城市之间的关系,因此需要使用数据融合方法计算用户与城市之间的行为关联关系及关系强度,以解决数据偏差问题。基于融合数据分析获得的用户与城市的关联关系、访问偏好和空间聚集特征可为网络地理信息服务中数据缓存和提前推送等服务性能提升提供指引。
早期的用户行为研究多以统计分析为主,探究用户的访问偏好和规律。Fisher等[1]通过对用户访问请求的热点分析,探究用户访问的地理意图。Xiao等[2]应用关联规则挖掘和序列模式挖掘技术来研究查询日志,指出用户查询偏好受位置影响。Xiao等[3]研究发现访问的目的地和用户所在地的空间分布遵循幂律分布。随着对用户访问行为研究的深入,不少学者开始探究用户访问行为的时空模式。Nguyen等[4]使用深度学习的方法提取移动轨迹的语义信息,实现用户的移动模式的识别与分类。吴华意等[5]基于时间序列聚类方法发现群体用户访问具有周期性、时序性和聚集性。Li等[6]研究了群体访问热点的时空特征,将其抽象成语义信息。随着互联网时代到来,挖掘用户访问行为模式正成为时下的研究热点。由于聚类分析能够挖掘相似的用户特征,因此聚类算法是挖掘用户访问行为模式使用较为广泛的算法。王末等[7]使用DBSCAN聚类算法挖掘用户访问行为模式,并基于会话聚类模式开发在线搜索和访问预测算法。 冯秋燕[8]基于用户访问兴趣特征,建立用户访问偏好度模型,使用聚类算法获得访问兴趣相似的用户群。张林兵等[9]通过用户访问行为之间的相似性构造网络,对用户访问行为网络进行聚类,帮助管理人员得到更为精确的用户评价信息。互联网时代的到来,用户访问行为模式挖掘理论正在不断趋于成熟,而现有关于用户访问行为的研究主要存在如下2个不足:① 目前对用户访问行为的研究仅仅使用的是单一的用户访问行为数据,并由于脏数据较多,数据需要大力度的清洗,这些都会造成数据偏差和数据稀疏问题;② 目前用户行为聚类算法大多没有考虑用户对每个聚类类别的不确定性描述,忽略了用户与城市之间存在的关联关系,因而所获得的聚类结果偏差较大。
本文通过构建用户-访问城市关系网络,研究用户与城市之间的空间访问偏好。综合考量影响网络地理信息服务中用户访问行为的内在兴趣因素、城市关联性因素和城市结构因素,基于矩阵分解的方法融合用户访问行为数据、城市关联数据和城市结构数据作为用户访问行为关系强度的表达。考虑到只以空间距离实现聚类的方法无法兼顾关系网络中用户对不同城市的访问偏好,造成聚类结果的偏差,本文在FCM的基础上,提出PFCM聚类算法,使用用户对城市的访问概率作为用户行为聚类依据之一,同时兼顾关系网络中城市间的空间距离和访问行为关系强度,实现用户的聚集模式的挖掘。

2 用户-访问城市关系网络模型

在全空间信息系统中[10,11],行为的分类是多样化的,根据行为参与者的数量可将行为分为个体行为与群体行为,也可将行为可以分为物理行为和社会行为,本文的研究属于群体的社会行为,以网络地理信息服务中用户为研究对象(图1),其访问行为受外界因素的影响,如:城市关联和城市结构,这些影响因素最终作用于用户的访问过程和目标。本文依据用户与访问城市之间的空间关系和行为关系建立用户-访问城市关系网络,进一步基于关系网络聚类方法挖掘用户城市访问的聚集模式。
图1 网络地理信息服务用户访问行为

Fig. 1 User access behavior of network geographic information service

根据用户的访问行为及其行为的外界影响因素(城市关联关系和城市结构),可对用户和被访问城市的关系进行具体描述(图2)。用户和被访问城市之间的关系包括空间关系和行为关系。用户本身具有空间属性,用户与被访问城市之间存在真实的地理距离。用户的访问行为与被访问城市产生行为关系;行为关系的强弱受城市关联和城市结构影响,具体体现在用户所在城市和被访问城市之间的相关性影响用户访问倾向,城市空间结构是用户访问的外在驱动。
图2 用户与城市之间的关联关系

Fig. 2 The relationship between users and cities

基于全空间信息系统的建模理论,将网络地理信息服务中用户-访问城市的关系通过网络图模型进行抽象,构建用户与访问城市之间关系网络G
G = ( V , E , W )
式中:V={城市集合}是构成网络的顶点集,包括2种顶点类型:用户所在城市顶点VU={vu1, vu2, …, vui, …, vum},被访问城市顶点VC={vc1, vc2, …, vci, …, vcn};E={EA:行为关系;ED:空间关系},代表城市顶点偶对间的行为关系和空间关系;W={WA:行为关系强度;WD:空间距离},其中WAWD分别表示行为关系和空间关系权重。
图3为用户-访问城市关系网络示例。它由 m 个用户所在城市节点和 n 个被访问城市节点组成。EA表示城市节点之间是否存在行为关系,在图中用实线连线表示,权重WA表示城市节点之间行为关系强度大小,WAij表示用户所在城市 i 与被访问城市 j 之间的关系强度大小;ED表示城市节点之间是否存在空间关系,在图中用虚线连线表示,权重WD表示城市节点之间空间距离大小,WDij表示用户所在城市 i 与被访问城市 j 之间的空间距离大小。如图3所示,城市vu1的用户访问过2个城市vc1vc2,城市vu1与城市vc1、城市vc2之间行为关系强度大小分别为WA11WA12,空间距离大小分别为WD11WD12
图3 用户-访问城市关系网络示意

Fig. 3 User-visited city relationship network diagram

由于行为关系强度的表达需要同时考虑用户访问行为、城市关联关系和城市结构,因此可以采取多源数据融合的方法得到行为关系强度的一致性描述,通过式(2)获得融合后的行为关系矩阵,用于计算关系网络G中连接边的行为关系强度大小。
U ' = L ( F U , F N , F ( P ) )
式中:U'表示行为关系矩阵;U表示用户访问行为;N表示城市之间的关联强度;P表示被访问城市的结构;L为数据融合的方法;F为提取数据中有效信息的方法。

3 多源数据融合方法

用户-访问城市关系网络G中的行为关系反映了用户与城市之间访问关系的强弱,其值越大说明用户的访问概率越大。由图2中用户与城市之间的关联关系可知,行为关系需要同时考虑用户访问行为、城市关联关系和城市结构,仅考虑用户访问行为获取用户-访问城市之间的关联关系强度会导致偏差,本文引入多源数据融合方法,从城市关联数据和城市结构数据中学习到有关用户所在城市和被访问城市的特征,应用到用户访问行为数据中,综合利用多个数据源的特征解决数据偏差问题,从而提高用户访问行为分析的准确性。

3.1 矩阵分解

用户访问行为矩阵U n × n 的矩阵,其中 n 代表城市的个数,Uij代表城市 i 被用户所在城市 j 访问的次数;城市关联矩阵 N n × n 的矩阵,其中 N ij 代表城市 i 对城市 j 的关联强度;城市结构矩阵 P n × m 的矩阵,其中 m 代表POI的种类数, P ij 代表城市 i 中第 j 类POI的占比。
在矩阵分解模型中,假设用户所在城市与其他城市的关系是由用户所在城市的因子向量和被访问城市的因子向量共同作用得到。用户访问行为矩阵 U 的分解模型如图4所示,模型定义用户所在城市的隐因子向量矩阵为 W n × k ,其中第 i 行表示用户所在城市 i 在隐空间中的因子向量, k 为用户所在城市隐因子向量的维度。定义 V n × k 表示被访问城市的隐因子矩阵,其中第 i 行表示被访问城市 i 在隐空间中的因子向量, k 为被访问城市隐因子向量的维度。分解模型可定义成式(3)。
F U = V W T
其他2个矩阵的分解与之类似,城市结构矩阵 P 被分解成 V n × k Q m × k , Q m × k 表示城市结构的隐因子矩阵;城市关联矩阵N被分解成 W n × k W n × k , W n × k 表示城市的隐因子矩阵。
图4 用户访问行为矩阵分解

Fig. 4 User access behavior matrix decomposition

3.2 数据融合

通过对用户访问行为矩阵 U ,城市结构矩阵 P 和城市关联矩阵 N 这3个矩阵进行分解,我们可以得到被访问城市的隐因子向量矩阵 V n * k ,用户所在城市的隐因子向量矩阵为 W n * k 和城市结构的隐因子向量矩阵 Q m * k 。这些实体矩阵同时参与多个关系,所以可以共享这些隐因子向量矩阵,通过对共享隐因子向量矩阵进行非线性的组合以及相关约束(图5),达到对用户访问行为数据补充的目的。
图5 分解矩阵结构

Fig. 5 Decomposition matrix structure

为了使融合值和实际值之间的误差最小化,建立了误差函数方程(4)。
L V , W , Q = 1 2 I ° U - V W T F 2 + λ 1 2 P - V Q T F 2 + λ 2 2 T - W W T F 2 + λ 3 2 V F 2 + W F 2 + Q F 2
式中: · F 2 表示F范数;I是一个0-1矩阵;当 X i , j 有值时; I i , j = 1 ,否则 I i , j = 0 。“°”表示矩阵的对应元素相乘。前3项用来控制矩阵分解产生的损失,后一项控制分解矩阵的正则化,防止过拟合。
对式(4)求解 V W 即可得到融合后的数据 U ' U ' = V W T )。但是一般来说很难得到上述最小化目标函数的最优解,所以一般使用梯度下降的方法来得到局部最优解[12]。每个变量的梯度计算如下所示:
V L = I ° V W T - U W + λ 1 V Q T - P Q + λ 3 V
W L = I ° V W T - U T V + 2 λ 2 ( W W T - T ) W + λ 3 W
Q L = λ 1 ( V Q T - P ) T V + λ 3 Q

4 用户访问行为聚集模式挖掘方法与 评价

用户访问行为模式的挖掘旨在利用各种数据挖掘技术发掘用户访问行为的规律和模式,常用的技术有统计分析、关联规则发掘、聚类和依赖关系的建模等。本文为了兼顾关系网络中城市之间的空间关联性和用户对不同城市的空间访问偏好,使用涉及空间距离和概率的模糊聚类方法探索用户空间访问的聚集行为模式。

4.1 PFCM聚类算法设计

FCM算法是基于对目标函数的优化基础上的一种数据聚类方法,它的思想是用隶属度确定每个数据点属于某个聚类的程度[13,14]。但聚类结果无法兼顾关系网络中用户对不同城市的访问偏好特征,本文在FCM算法的基础上提出了一种顾及用户所在城市属于不同城市群概率的聚类算法,命名为PFCM算法,该算法的主要思想是在目标函数中加入用户所在城市对城市群中城市的访问概率作为聚类的基本依据,使得聚类结果更能表现出用户的空间访问兴趣。
设访问城市集合为A,其中包含 n 个城市,需将城市聚为 c 个城市群,每个城市群都有一个对应的中心C,聚类中心约束条件为 C A 。城市 j 属于城市群 i 的隶属度设为 s ij ,城市 j 访问城市群 i 中所有城市的概率设为 p ij 。由此得目标函数 J 和约束条件,求取目标函数 J 的极值,当目标函数 J 达到极值后,根据 s ij 判断城市j归属的城市群。
J S , c 1 , , c c = i = 1 c J i = i = 1 c j n p ij s ij m d ij 2
式中: s ij 0,1 ; c i 为城市群 i 的聚类中心; p ij 为城市 j 访问城市群 i 的概率; d ij 为城市群 i 的聚类中心与城市 j 之间的距离; m 是一个加权指数。
d ij = d c i , x j + g ( c i , x j )
式中: d c i , x j 表示关系网络G中城市 x j 与城市 c i 空间距离的归一化值; g ( c i , x j ) 表示关系网络G中城市 x j 与城市 c i 的行为关系强度的最短加权路径。
隶属度的约束条件为:
i = 1 c s ij = 1 , j = 1 , , n
根据式(10)构造新的目标函数,来求使得式(8)达到最小值的必要条件:
J ̅ S , c 1 , , c c , λ 1 , , λ n = J S , c 1 , , c c + j = 1 n λ j i = 1 c s ij - 1 = i = 1 c j n p ij s ij m d ij 2 + j = 1 n λ j i = 1 c s ij - 1
令式(11)对变量 s ij 进行求导,得到 s ij 的更新公式:
s ij = 1 k = 1 n p ij p kj 1 / ( m - 1 ) × d ij d kj 2 / ( m - 1 )
由于城市集合A是离散的,不能用求导的方法对聚类中心 c i 进行更新,因此使用穷举法对A中的每个城市进行遍历,找到代价最小的城市作为新的聚类中心。
具体的算法步骤如下:
算法1 PFCM聚类算法
输入:
用户行为矩阵
城市中心位置经纬度
输出:隶属度矩阵S
1.用0,1之间的值随机初始化隶属度矩阵S,
使其满足(2)式的约束
2.选取聚类中心C
3.while(tJ>max_JJt-Jt+1>ϵdo
4. calculateandupdateS
5. calculateandupdateC
6.returnS

4.2 聚类算法评价

聚类问题是将一组对象分成若干个簇或者聚类,使簇内的对象尽可能具有最大的相似性,不同簇之间的对象尽可能有最大的相异性。聚类过程可以看做是一种无监督的学习过程,因此需要一种客观公正的质量评价方法来评判聚类结果。常用的聚类有效性评价方法有外部评价法,内部评价法[15]。本文采用内部评价法,基于“类内尽可能紧密,类间尽可能分离”的原则使用类内距离和类间距离的比值作为评价指标DR,DR值越小说明聚类结果越好。
为了提高评价的准确性,克服噪声影响,类间距函数采用的为:
δ S , T = ( | S | | T | ) - 1 x S , y T d ( x , y )
式中: S , T 表示2个不同的城市群; x y 分别是 S T 中的2个不同的城市; d ( x , y ) 表示城市 x 和城市 y 在关系网络G上的距离。 δ 是2个城市群中所有城市相互距离的平均值,距离计算顾全所有的城市,可以对噪声很好的平均。
类内距离函数采用的为:
ω ( S ) = 1 S - 1 x S d x , c
式中: x 是城市群 S 中的城市; c S 的聚类中心; d ( x , c ) 表示城市 x 和城市 c 在关系网络G上的距离; ω 是城市群中的所有城市到聚类中心的平均距离。
最终将评价指标DR定义为:
DR = 1 k × i = 1 k ω S i 1 k k - 1 i k j , j i k δ S i , S j

5 实验与结果分析

5.1 实验数据及提取方法

5.1.1 基于网络地理信息服务的用户访问行为数据 提取
本研究以天地图服务器端的用户访问日志作为访问行为数据,日志以秒为最小时间粒度,记录下用户访问的详细信息,包含IP、日期与时间、请求方法、访问内容、响应状态、字节数、来源网址等信息。实验使用中国大陆地级以上的284个城市作为用户所在地与访问地点,过滤出近2万条访问记录,对数据预处理提取用户轨迹,将用户所在地与访问地点的关联,构成用户访问行为矩阵U,记作 U n × n , n 代表城市的个数。
5.1.2 基于文本的城市关联数据提取
使用搜狐网的100万余条新闻数据构建城市关联矩阵 N n × n , n 代表城市的个数,矩阵中的值代表对应城市之间的关联强度。度量新闻视角下城市对关联强度和确定作者对合著论文的贡献度存在相似之处,因此参考调和贡献分配法的思想,结合新闻文本的特点对城市对的关联强度进行提取计算公式如下所示[16]
N ab = i = 1 n N iab = i = 1 n F ia · F ib p = 1 , q = p + 1 , q < T i p = T i F ip · F iq
式中: N ab 为新闻集中城市a和城市b的关联强度; N iab 为新闻 i 中城市a和城市b的关联强度; i 为第 i 篇新闻文本; F ia 为第 i 篇新闻中城市a的词频; T i 为第 i 篇新闻中地名个数。
5.1.3 基于被访问城市的POI数据提取
城市兴趣点(Point of Interest, POI)主要指一些与人们生活密切相关的地理实体[17]。POI数据在很大程度上增强对实体位置的描述能力,反映出城市主要的活动类型。用户使用在线地图,主要是对POI的查询,类似于位置推荐中不同地点POI的组成会吸引不同类型的用户。
按照类型统计,POI数据共归为20大类,如购物、教育培训、旅游景点等,每一大类下又包括多级小类。现将这20类POI根据类型归为11类。公众认知度的高低对查询也有着重要影响。因此,仅以原始POI点的个数来标记用户的查询结果不符合实际情况。对此,赵卫锋通过实验提出每类POI的权重值[18],这种方法可以很好地解决关注程度低的 POI 掩盖了关注程度高的POI的情况。
获得目标点周围500 m的所有POI,统计每种POI类型的数量。根据表1中的POI类型权重构建被访问点的POI向量:
po i ki j = n ki × w m
A P k j = po i k 1 j , po i k 2 j , , po i ki j , A P k j cit y j
式中: A P k j 表示属于城市 cit y j 的第 k 个访问点的POI向量; po i ki j 表示属于城市 cit y j 的第 k 个访问点中第 i 种POI类型在向量中的数值; n ki 表示城市 cit y j 中第 k 个访问点的第 i 种POI类型数量; w m 表示第 m 种POI类型对应的权重。
表1 POI类型权重[18]

Tab. 1 POI type weight[18]

POI类型 权重 百度POI一级分类
交通枢纽 1 交通设施
出入口
名胜古迹 0.8245 旅游景点
自然地物
大型商场 0.8146 购物
文化教育 0.6706 教育培训
高级酒店 0.5562 酒店
医院 0.5069 医疗
休闲场馆 0.5010 美食
生活服务
休闲娱乐
运动健身
汽车服务
重要机关 0.3550 文化传媒
政府机构
公司企业
金融
行政地标
大厦 0.3057 房地产
小区 0 内部楼号
将属于同一个城市的POI向量相加构成关于城市的POI向量如式(19)所示, po i i j 表示属于城市 cit y j 的所有访问点的第 i 种POI类型在向量中的数值。令 P ij = po i i j ,构建城市结构矩阵 P n × m , n 表示被访问的城市数量, m 表示POI类型的数量。
po i i j = k = 1 K po i ki j

5.2 关系网络构建

实验从网络地理信息服务的用户访问行为数据中提取出中国大陆地级以上的284个城市,基于节2方法,构建用户-访问城市关系网络G,其中用户所在城市节点VU={vu1, vu2, …,vui, …, vum}={安康,安庆, …, 北京, …, 遵义}且m=284,被访问城市节点VC={vc1, vc2, …, vci, …, vcn}={安康, 安庆, …, 北京, …, 遵义}且n=284。图6中用户行为关系矩阵 U ' 用于表示网络中行为关系连接边的权重,其中WAij= U ' iJ表示用户所在城市 i 和被访问城市 j 之间的行为关系强度大小;城市距离矩阵D用于表示网络中空间关系连接边的权重,其中WDij=Dij表示用户所在城市 i 和被访问城市 j 之间空间距离大小。
图6 行为关系权重矩阵和城市距离权重矩阵

Fig. 6 Behavior relationship weight matrix and city distance weight matrix

根据图2中用户与城市之间关系可知,行为关系涉及到用户访问行为、城市关联和城市结构,因此使用用户访问行为矩阵 U 、城市关联矩阵 N 和城市结构矩阵 P 进行数据融合。 U P N 两两之间存在相同的隐因子向量矩阵:被访问城市的隐因子向量矩阵,用户所在城市的隐因子向量矩阵,使用节3的方法,对数据进行融合得到矩阵 U ' ,计算过程如算法2所示。根据 U ' 计算关系网络G中连接边的行为关系强度大小。关系网络G中的空间关系与城市在真实地理环境的位置有关,本文使用城市间的大圆航线表示节点间空间距离的大小。
算法2 数据融合过程: 用户与城市的行为关系强度计算
输入:
U:用户行为矩阵
N:城市关联矩阵
P:城市结构矩阵
输出:
U'=VWT:用户与城市的行为关系强度
1.随机初始化V,W,Q;梯度下降速率γ;迭代次数T;误差阈值ϵ
2.t=1
3.while(t&lt;TLt-Lt+1&gt;ϵ)do
4. useformula5,6,7tocalculateVt,Wt,Qt
5. γ=1
6. while(L(Vt-γVt,Wt-γWt,Qt-γQt)&gt;L(Vt,Wt,Qt))do
7. γ=γ/2
8. Vt+1=Vt-γVt
9. Wt+1=Wt-γWt
10. Qt+1=Qt-γQt
11. t=t+1
12.returnU'=VWT

5.3 融合数据聚类与分析

为了探究用户访问的空间聚集性,本文对关系网络G使用节4提出的PFCM算法进行聚类,使得聚类的结果能有效的兼顾城市的空间距离和用户对不同城市的访问偏好,实现用户的聚集模式的挖掘。PFCM为无监督的聚类方法,为了验证PFCM的有效性,需要对聚类结果进行对比分析。Kmeans算法和FCM算法同属于划分法,FCM算法在kmeans算法的基础上应用了模糊理论的概念,使得每一输入向量不再仅归属于某一特定的聚类,而以其归属程度来表现属于各聚类的程度。PFCM是在FCM算法的基础上加入概率信息作为聚类的基本依据,因此使用FCM算法和kmeans算法的聚类结果进行对比分析,算法评价使用4.2节所提出的DR指标。对比结果如图7所示。
图7 PFCM算法、FCM算法和kmeans算法对比结果

Fig. 7 PFCM algorithm、FCM algorithm and kmeans algorithm comparison results

聚类评价指标DR的值越低代表聚类的效果越好。图7可以体现出PFCM算法的聚类结果基本上比FCM算法和kmeans算法的聚类结果要平均低出约1.2%,且FCM算法与kmeans算法的聚类效果相似。说明用户访问概率信息的加入,可以更有效地对用户访问概率大的城市群进行识别。
综合考虑用户访问行为、城市关联关系和城市结构的数据相比于单一的用户访问行为数据,从城市关联和城市结构的角度完善行为关系的表达。图8展示了对融合数据构建的关系网络与单一数据构建的关系网络聚类结果的评价,可以看出融合了用户访问行为、城市关联数据和城市结构数据的聚类结果的DR值要比单一的用户访问行为数据聚类结果平均低出3%,说明城市关联信息和城市结构信息的加入可以减小数据偏差,使用户的空间聚集模式更容易识别。
图8 融合数据与单一数据聚类结果评价

Fig. 8 Evaluation of fusion data and single data clustering results

使用PFCM聚类算法时,将用户映射到其所在的城市,k值用于控制用户城市群的个数,随着k值的逐渐增大,原本在相同类别但关系较弱的城市会被分离成新的类别,新类别内部的关联比原先类别的关联性更大。PFCM聚类的结果是使得相互间访问概率较高的用户所在的城市聚成一个城市群。本文选取k值为2、5、7、10、12、15的聚类结果,对用户访问聚集行为形成的用户城市群的分裂趋势进行分析。
图9可以看出,当k=2时,用户城市群基本可以分为南北2类,此时,各自城市群内部的用户与城市的关联强度最大。当k=5时,原先的南北城市群分为以京津冀为首的北部城市群、以长江三角洲为首的东部城市群、以珠江三角洲为首的南部城市群、以成渝城市群为首的西部城市群和以中原城市群为首的中部城市群,用户访问行为的聚类结果与我国东南西北中五大区域划分较为一致,说明用户的访问存在着显著的地域性。当k=7时,北部和东部用户城市群再次被分割,识别出山东半岛城市群和长江中游城市群;k=10时,东部,南部和西部用户城市群被分割,识别出长株潭城市群、黔中城市群和滇中城市群;当k=12时,北部和东部划分得更为精细,识别出辽中南城市群、哈中城市群、安徽和浙江。这些从原先的城市群中被划分出来的城市聚类,说明其内部的用户与城市的关联强度强于没有划分前的整体。当k=15时,用户城市群的划分逐渐向国家城市群接近,如:将包含在长江三角洲城市群内的上海、苏州、无锡、嘉兴、南通等城市划分成一类;将包含在珠江三角洲城市群内的广州、深圳、中山、珠海等城市划分成一类;将包含在京津冀城市群内的北京、廊坊、天津、保定、石家庄等城市划分成一类;将包含在中原城市群内的郑州、洛阳、开封、长治等城市划分成一类。城市群是指在特定地域范围内依托发达的交通通信等基础设施网络所形成的空间组织紧凑、经济联系紧密、并最终实现高度同城化和高度一体化的城市群体。聚类分析以细微的角度研究用户与访问城市的关联,可以识别出城市体系中关系密切的部分城市组成的紧密团体,且随着k值的增大,用户的访问聚类结果逐渐与国家城市群接近,以上实验结果说明,用户更偏向于访问与自己所在城市接近且相关性较高的城市。
图9 不同k值聚类结果

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1827号的标准地图制作,底图无修改;由于数据获取困难,本次研究不包括香港、台湾和澳门。

Fig. 9 Clustering results with different k values

6 结论

大数据时代催生了体量巨大、种类繁多的关系型数据,本文通过构建用户所在城市与访问目标城市之间关系网络,分析用户在网络地理信息服务中的访问聚集行为。但是由于关系网络中的行为关系强度需要同时考虑用户访问行为、城市关联关系和城市结构,本文使用基于矩阵分解的多源数据融合方法,以网络地理信息服务中用户访问数据、城市关联数据以及城市结构数据进行融合,综合考量影响用户访问行为的内在因素、城市关联性因素和城市结构因素,减小数据偏差。通过PFCM聚类实现用户的聚集模式挖掘,且聚类结果同时考虑了关系网络中城市间的空间距离和用户对不同城市的访问偏好。随着聚类当中城市群的个数的增加,用户的访问聚集结果在地图上出现了明显的界限,且逐渐向中国城市群的划分接近。PFCM聚类分析以细微的角度研究用户与访问城市的关联关系,表达了用户访问的空间兴趣偏好,有助于理解用户访问行为与城市之间的相互关系。同时,实验结果识别出城市体系中关系密切的城市群体,可以作为信息化背景下城市关联研究的新尝试。PFCM聚类算法加入了概率条件,从一定程度上客服了噪声敏感问题,然而,由于PFCM算法主要是依靠样本与聚类中心距离的远近进行类别的判决,因而数据集的平衡或非平衡态对算法的分类准确性构成影响,在后续的研究需要针对平衡数据集分类对聚类算法进行改进和修正,使之对不平衡数据集同样有效。
[1]
Fisher D . Hotmap: Looking at geographic attention[J]. IEEE Transactions on Visualization and Computer Graphics, 2007,13(6):1184-1191.

DOI PMID

[2]
Xiao X, Xie X, Luo Q , et al. Density based co-location pattern discovery [C]// ACM, 2008.

[3]
Xiao X, Luo Q, Li Z , et al. A large-scale study on map search logs[J]. ACM Transactions on the Web, 2010,4(3):1-33.

[4]
Nguyen N T, Wang Y, Li H , et al. Extracting typical users' moving patterns using deep learning [C]// Global Communications Conference. IEEE, 2013.

[5]
吴华意, 李锐, 周振 , 等. 公共地图服务的群体用户访问行为时序特征模型及预测[J]. 武汉大学学报·信息科学版, 2015,40(10):1279-1286.

[ Wu H, Li R, Zhou Z , et al. Research and prediction on time-sequence characteristics of group-user access behavior in public map service[J]. Geomatics and Information Science of Wuhan University, 2015,40(10):1279-1286, 1316.]

[6]
李锐, 沈雨奇, 蒋捷 , 等. 公共地图服务中访问热点区域的时空规律挖掘[J]. 武汉大学学报·信息科学版, 2018,43(9):1408-1415.

[ Li R, Shen Y Q, Jiang J , et al. Temporal and spatial characteristics of hotspots in public map service[J]. Geomatics and Information Science of Wuhan University, 2018,43(9):1408-1415.]

[7]
王末, 王卷乐, 赫运涛 . 地学数据共享网用户Web行为预测及数据推荐方法[J]. 地球信息科学学报, 2017,19(5):595-604.

DOI

[ Wang M, Wang J L, He Y T . An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals[J]. Journal of Geo-Information Science, 2017,19(5):595-604.]

[8]
冯秋燕 . 基于Web应用的日志异常检测与用户行为分析研究[D]. 广州:华南理工大学, 2019.

[ Feng Q Y . Research on log anomaly detection and user behavior analysis based on web application[D]. Guangzhou: South China University of Technology, 2019.]

[9]
张林兵, 郭强, 吴行斌 , 等. 基于多维行为分析的用户聚类方法研究[J]. 电子科技大学学报, 2020,49(2):315-320.

[ Zhang L B, Guo Q, Wu X B , et al. User clustering method based on multi-dimensional behavior analysis[J]. Journal of University of Electronic Science and Technology of China, 2020,49(2):315-320.]

[10]
周成虎 . 全空间地理信息系统展望[J]. 地理科学进展, 2015,34(2):129-131.

[ Zhou C H . Prospects on pan-spatial information system[J]. Progress in Geography, 2015,34(2):129-131.]

[11]
华一新, 周成虎 . 面向全空间信息系统的多粒度时空对象数据模型描述框架[J]. 地球信息科学学报, 2017,19(9):1142-1149.

[ Hua Y X, Zhou C H . Description frame of data model of multi-granularity spatio-temporal object for pan-spatial information system[J]. Journal of Geo-information Science, 2017,19(9):1142-1149.]

[12]
Zheng V W, Zheng Y, Xie X , et al. Collaborative location and activity recommendations with GPS history data [C]// International Conference on World Wide Web, 2010.

[13]
Bezdek J C, Ehrlich R, Full W . FCM: The fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984,10(2-3):191-203.

[14]
Cannon R L, Dave J V, Bezdek J C . Efficient implementation of the fuzzy c-means clustering algorithms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(2):248-255.

[15]
谢娟英, 周颖, 王明钊 , 等. 聚类有效性评价新指标[J]. 智能系统学报, 2017,12(6):873-882.

[ Xie J Y, Zhou Y, Wang M Z , et al. New criteria for evaluating the validity of clustering[J]. CAAI Transactions on Intelligent Systems, 2017,12(6):873-882.]

[16]
胡定利, 李锐, 孟瑶 , 等. 新闻地名共现视角下的中国城市网络[J]. 武汉大学学报·信息科学版, 2020,45(2):281-288.

[ Hu D L, Li R, Meng Y , et al. China's urban network from the perspective of toponym co-occurrences in the news[J]. Geomatics and Information Science of Wuhan University, 2020,45(2):281-288.]

[17]
池娇, 焦利民, 董婷 , 等. 基于POI数据的城市功能区定量识别及其可视化[J]. 测绘地理信息, 2016,41(2):68-73.

[ Chi J, Jiao L M, Dong T , et al. Quantitative identification and visualization of urban functional area based on POI data[J]. Journal of Geomatics, 2016,41(2):68-73.]

[18]
赵卫锋, 李清泉, 李必军 . 利用城市POI数据提取分层地标[J]. 遥感学报, 2011,15(5):973-988.

[ Zhao W F, Li Q Q, Li B J . Extracting hierarchical landmarks from urban POI data[J]. Journal of Remote Sensing, 2011,15(5):973-988.]

Outlines

/