Home Location Prediction Method for Social Network Users Integrating Text Topic and Social Relationship

  • GAO Jiayuan , 1 ,
  • XIONG Wei , 1, * ,
  • CHEN Luo 1 ,
  • OUYANG Xue 1 ,
  • YANG Kaijun 2
Expand
  • 1. College of Electronic Science, National University of Defense Technology, Changsha 410073, China
  • 2. The Second Surveying and Mapping Institute of Hunan Province, Changsha 410119, China
*XIONG Wei, E-mail:

Received date: 2023-09-07

  Revised date: 2023-12-05

  Online published: 2024-03-27

Supported by

National Natural Science Foundation of China(U19A2058)

Abstract

Prediction of users' geolocation plays an important role in location-based applications such as natural disaster monitoring, flu trend prediction, and targeted advertising promotion. Integrating multi-source information, mining user behavior characteristics, and analyzing user social attributes can help improve prediction accuracy and reduce distance error. Existing methods primarily rely on textual content and social networks for location prediction without considering the fusion of these two types of information, and have difficulty in predicting the locations of isolated users in social networks. Therefore, this paper proposes a home location prediction method for social network users integrating text topic and social relationship graph neural network. In the method, first, hybrid features are extracted from text content, using TF-IDF to obtain text feature vectors, and an initial social relationship graph is established based on the mentioned information between users. Then, to address the issue of isolated users in the user social relationship graph and difficulty in estimating their locations, a topic model is established to establish connections for isolated users based on topic vector similarity and supplement the social relationship graph. Finally, based on graph convolutional neural network, social relationship graph data are processed, and text features and network structure are jointly modeled to effectively predict users' geolocation. The effect of topic similarity threshold on prediction performance and graph size is explored on a real-world benchmark dataset GeoText. The experimental results show that our method is able to aggregate most of the user nodes belonging to the same class and increase the proportion of locatable users. The network constructed using multiple types of relationships can maintain the diversity of user relationships and can achieve better prediction accuracy of graph neural network. SRGCN outperforms the existing methods in terms of the average distance error, the median distance error, and the prediction accuracy, which indicates that the multi-view feature learning model is superior for geolocation prediction compared to models based on a single source of information. On the GeoText dataset, the Acc@161 of SRGCN is 1% higher than that of GCN method, and the average error distance is reduced by 16km, which indicates that the SRGCN method is more competitive than the existing best-performing method. Our experimental results demonstrate the effectiveness of SRGCN, which can improve the accuracy of home location prediction of users.

Cite this article

GAO Jiayuan , XIONG Wei , CHEN Luo , OUYANG Xue , YANG Kaijun . Home Location Prediction Method for Social Network Users Integrating Text Topic and Social Relationship[J]. Journal of Geo-information Science, 2024 , 26(2) : 488 -498 . DOI: 10.12082/dqxxkx.2024.230536

1 引言

互联网时代在线社交平台空前发展,并产生了大量社交网络数据。在社交平台上,用户可以随时随地分享自己的生活见闻、参与热点话题讨论、在兴趣点定位打卡,同时还能关注社交网络上的其他用户并与其互动交流。用户在社交平台上发布的内容包含显式或隐式的用户位置信息,而作为连接虚拟世界和现实世界的桥梁,社交网络中用户的位置可以支撑基于位置的应用、服务和分析,如自然灾害监测[1]、流感趋势预测[2]、定向广告推广[3]等,同时还有助于更好地理解现实世界中发生的事件,如预测网络舆情并预防危险行为[4],具有极大的应用价值。
位置数据可以来源于用户发文的地理标签,或者用户个人配置文件中自行设置的住址[5],然而大多数用户不会透露他们的位置,导致社交网络中的位置数据十分稀疏。研究表明带有地理标签的网络发文仅占1%,同时由于隐私保护问题,用户一般不会在个人配置中给出自己的位置,即使声明了自身位置,也存在位置虚假、地理精确度低等问题[6]。因此,为解决位置信息缺乏的问题,有很多研究工作都在推测用户住址的地理位置。用户地理位置推测是一个被动的人群感知问题,融合多源信息、挖掘用户行为特征以及分析用户社交属性,都将帮助提高推测结果的准确度、降低距离误差[7]
常用的地理位置推测方法分为3种:基于文本的方法、基于网络的方法和基于信息融合的方法。根据位置表示方法的不同,该任务可视为推测用户所在地理区域的分类问题,或者推测用户准确地理坐标的回归问题[8]。① 基于文本的方法根据语言的地理偏差从位置指示词中推断出用户的地理位置,因此,识别有用的指示词是进行准确的地理定位的首要前提。Middleton等[9]使用结合社交媒体标签和多个地名词典的语言模型来提取位置标签。Nizzoli等[10]则提出一种地理语义解析方法,利用知识图谱丰富、结构化的信息来识别、消除歧义以及标记所提及的位置,并提取相应的地理坐标。Roller等[11]利用KL散度衡量用户文本的相似度。很多文献提出的方法都将TF-IDF作为文本特征[12-14],MLP + k-d tree即为基于文本的多层感知器模型。受这些方法的启发,文献[15]、文献[16]提出了逆位置频率和逆城市频率这2种与地理位置更相关的词频计算方法。单词源于隐藏主题和地理区域,Lozano等[17]采用流式潜在狄利克雷分布主题模型挖掘区域隐含的主题。受到深度学习在自然语言处理领域应用的启发,Mahajan等[18]利用神经网络模型对文本内容进行建模,CNN用于提取局部特征,BiLSTM用于提取全局特征。除了考虑单词特征之外,文献[19]还提取了Doc2Vec特征,挖掘文本信息更深层次的特征。Hamouni等[20]研究发现,相比于Doc2Vec这种文档嵌入方法,传统的基于词频统计的方法TF-IDF在提取位置指示词上表现更好。② 基于网络的方法认为地理位置与社会关系密切相关,用户与用户之间的社交关系也可以用于推断地理位置[21],社交网络的同质性假设[22]表明,用户更倾向经常与住在附近地区的人互动。Rahimi等[14]提出MADCEL-W-LR模型改进标签传播算法进行位置推测。同年,Rahimi等[21]认为双向提及较少,提出一种通过单向提及建立的无向用户关系图。Wang等[23]先建立用户、位置之间的三类异构图,根据嵌入方法将节点投影至低维空间,训练城市级别的地理位置推测模型。③ 基于文本的方法依赖于语言的地理偏差,基于网络的方法很难确定独立于社交网络之外的孤立用户的位置,最近的一些研究方法通过融合文本、网络、元数据(如个人配置、时间戳、时区)进行交互建模[13,24-25]。例如,Rahimi等[12]提出MADCEL-W-MLP模型,结合文本和网络信息并利用MLP进行推测。Zheng等[24]对发文文本和用户交互进行联合建模,混合注意力机制将自动为不同用户确定文本和社交关系的重要性分数。Rahimi等[13]提出一种基于半监督的多视角地理定位模型GCN,在最小监督下仍具有竞争力。Zhong等[25]提出一种基于多头注意力机制的图神经网络,该模型可以过滤文本中的噪声和无用的用户关系,关注最重要的信息。Do等[26]提出的MENET模型利用单词频率、段落语义、时间戳和网络拓扑信息来推测用户位置,该模型可扩展至利用其他类型的信息。乔亚琼等[27]为了深入挖掘数据间的位置关联性,提出一种基于多种提及关系的位置推测方法,综合考虑了用户、地名和位置指示词之间的关系。
尽管现有方法已经取得一定推测效果,但地理位置推测问题仍然存在挑战:如何准确提取并有效融合用户的多源信息,如何为孤立用户建立与其他用户之间的连接,从而提高位置推测的精度和准确度。针对上述挑战,本文综合考虑文本内容和社交网络信息,提出一种基于社交关系图卷积神经网络(Social Relationship Graph Convolutional Network, SRGCN)的用户地理位置推测方法。从网络发文中单词的角度将词频-逆文档频率(TF-IDF)作为用户文本特征,确定用户节点并建立社交关系图(Social Relationship Graph, SRG),对于图中没有连接的孤立用户,计算与其他用户的主题相似度,将相似的关系融入社交关系图中。GCN[28]在处理图数据时有明显优势,本模型可以通过谱域中的卷积运算关注社交关系图中用户节点之间的文本特征关系。
本文的主要贡献在于:① 提出了一个融合文本和网络信息的混合模型,充分挖掘社交网络关系;② 验证了通过计算文本主题相似度,将孤立用户融入社交关系图中,可以丰富社交网络用户关系,并且提高地理位置预测的准确度,减小预测误差;③ 在真实数据集上评估了模型性能,实验结果表明本文模型效果优于现有方法,地理位置预测的准确度得到一定提升。

2 研究方法

2.1 问题描述

本文主要推测用户的住所位置(Home Location),即用户长期所在的位置。本文将用户地理位置推测问题视为一个分类问题,利用从网络发文显式或隐式的信息中提取的社交关系以及网络发文本身来定位社交网络用户。具体来说,对有地理标签的用户进行聚类并得到位置标签,用位置标签表示每位用户的类别,位置标签代表的区域中心点即为用户的推测位置。
给定社交网络数据集 D = ( U L , U * , W , G , Y L ),其中包括有地理标签的用户集 U L,无地理标签的用户集 U *,社交网络用户集 U = U L U *,用户发文集合 W,用户社交关系 G U L对应的位置标签集合 Y L,已知位置集合 L
定义1(社交关系图)用户 u i U ( i [ 1 , N ] )( N为用户总数)的发文集合为 W i,根据 W i中显式的交互信息(@-user)和隐式的用户发文主题相似性构建社交关系图 G = ( U , E ),其中每位用户 u i作为节点,将用户之间的社交关系作为边 E U × U
定义2(基于SRG的用户地理位置推测问题)给定用户发文集合 W、社交关系图 G和有地理标签的用户 U L,假设待推测用户的位置在已知的位置集合 L中,基于SRG的用户地理位置推测问题可以用式(1)描述,即分析文本内容、社交网络和已知位置,推测无标签用户的地理位置。
f :   ( U , W , G , Y L ) Y *
式中: Y *表示推测出的无地理标签用户 u j U *的住所位置标签。具体来说,结合定义1中的社交关系图 G以及每位用户的文本特征,找到与用户 u j最有可能在同一地理区域的有标签用户 u k U L,将该用户的标签 Y k作为 u j的地理位置标签。
本文提出的方法如图1所示。文本内容嘈杂,且受地域特定描述的限制;社交网络允许用户交互,但社交关系无法覆盖全部用户。如何有效融合文本和网络信息,以及构建社交关系图是本文研究的重点,主要包括以下工作:① 从文本内容中获取混合特征,利用TF-IDF获得文本特征向量,根据用户之间的提及信息建立初始社交关系图;② 针对用户社交关系图中存在孤立用户并难以估计其位置的问题,建立主题模型,根据主题向量相似度为孤立用户建立联系,补充社交关系图;③ 基于图卷积神经网络处理SRG数据,融合文本特征和社交网络,以有效推测用户的地理位置。
图1 基于文本主题和社交关系的用户位置推测结构

Fig. 1 The structure of user location prediction based on text topic and social relationship

2.2 混合特征

混合特征包括网络发文的语义特征和用户社交关系特征。
(1) TF-IDF特征:能代表一位用户所处地理区域的词必须是重要且独特的,可以将每位用户的所有网络发文看作一个文档 W i,利用TF-IDF计算用户的文本特征向量 x i X,TF指词汇在该文档出现的频率,IDF则用于惩罚那些在很多文档中都出现的常见词。
(2)用户社交关系特征:利用用户在社交网络上的互动(@-user)建立提及图(无向图),此时图中存在 “名人节点”,这些用户不仅会增大图的规模,还会干扰地理位置推测,根据研究经验[15],需要将其删除。对于目标用户 u i , u j U ( i , j [ 1 , N ] ),如果用户 u i直接提及用户 u j,则两者可以建立联系;如果用户 u i u j均提到目标用户集之外的其他用户,两者同样可以建立联系。

2.3 孤立用户社交关系图补充

由上述提及信息建立的社交关系图有一个缺点,即该图无法覆盖所有用户,当用户在社交网络上未与其他用户互动时,被定义为孤立用户,这些用户不能融合来自邻居的信息(没有邻居),若其本身没有地理标签,则无法推测该用户的位置。
针对这个问题,提出一种基于文本主题相似度的孤立用户社交关系图补充方法,流程如图2所示。
图2 基于文本主题相似度的社交关系图补充方法流程

Fig. 2 Flowchart of SRG supplementation method based on text topic similarity

前文从单词角度挖掘了用户的文本特征,除此之外,用户网络发文来自于其居住的地理区域并且涉及隐含主题,根据地理学第一定律,生活在同一片区域的用户关注的话题更相似,其发布的文本内容也于更倾向拥有相同的主题。潜在的狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是一种主题生成模型,具体来说,是一个包含“文档-主题-词语”的3层贝叶斯概率模型,该模型能在主题空间分析用户文档,根据每个主题对词语进行语义区分,从而将用户文档聚类为k个主题,最后输出用户属于每个主题的概率的k维向量。
利用LDA模型将用户网络发文主题进行概率表示之后,需要在提及图中找出孤立用户,即没有边连接的节点,计算这些孤立用户与其他用户之间的主题相似度,若相似度超过阈值,则为将孤立用户与其他用户连接,以增加位置同质性,构成信息更丰富的社交关系图。由于k个主题维度的量纲相同,因此用余弦相似度就能衡量用户之间的主题相似度。

2.4 SRGCN:社交关系图卷积神经网络

本文模型SRGCN采用三层GCN[28]聚合用户节点的直接邻居、二阶邻居和三阶邻居信息,同时利用高速(Highway)网络结构[29]过滤邻域中的噪声信息,从聚合信息中学习位置指示特征,使用模型最后一层的输出来推测社交网络用户的地理位置,模型结构如图3所示。GCN神经网络模型为 f ( X , A ),其中 X为用户文本特征, A为用户社交关系图。SRGCN的实现依赖于文本属性的嵌入和社交网络的构建,在用户文本视角方面,利用TF-IDF将用户文本向量化,作为文本属性 x i ( i [ 1 , D ] )嵌入用户节点;在社交网络视角方面,先构建提及图,接着利用主题相似度为孤立用户增加社交联系,构建用户社交关系图。
图3 具有高速网络的GCN模型结构

Fig. 3 The structure of GCN model with highway network

层与层之间的特征传播公式为:
A ˜ = A + λ I
A ^ = D ˜ - 1 2 ( A + λ I ) D ˜ - 1 2
H l + 1 = σ ( A ^ H l W l + b l )
式中: A R N × N为社交关系图的邻接矩阵,加上单位矩阵 I则反应了用户对自身的影响; D ˜ R N × N为邻接矩阵 A ˜的度矩阵; H l是第 l层的输出; H 0是用户节点文本特征矩阵 X R N × D W l R d l × d l + 1 b l R d l + 1 × 1是可训练的层参数,其中 d l是第 l层的特征数; σ是非线性函数。
具有 l层GCN的模型可对用户节点的 l阶邻域进行卷积(平滑至3跳邻居),随着GCN模型层数的增加,用于标签传播的邻域节点信息也随之增加,虽然会得到更多用于地理位置推测的信息,但同时也会成倍增加噪声,因此为了限制从邻域传递至节点的信息,在GCN层之间使用Highway结构[29]过滤邻域信息中的噪声,Highway GCN每一层的输出为:
T ( H l ) = σ ( W t l H l + b t l )
H l + 1 = H l + 1 T ( H l ) + H l ( 1 - T ( H l ) )
式中: T ( H l )是GCN中输出层 H l + 1的门权重; H l + 1是第 l + 1层的输入; W t l b t l分别是Highway门控权重和偏置; σ是非线性函数; 表示元素乘法,最终的输出层 H l + 1即为GCN的输出层、输入层的加权和。

3 实验及分析

3.1 实验设置

3.1.1 数据来源

实验选取了一个真实的Twitter数据集GeoText,该数据集由Eisenstein等[30]采集,通过剔除发文不活跃用户和关注者较多的名人等过滤操作之后,最终数据集包括美国地区的9 575位用户、38万条推文。GeoText数据集中每位用户的所有推文合并为一个文档,在GeoText数据集中,假设用户发文的多个位置通常都是邻近的位置,因此,将用户第一条推文的地理标签、或者选择其他推文的标签作为其真实位置,对于实验结果的误差影响并不大。该数据集常用作用户地理位置推测算法性能评估的基准数据集,数据集的详情如表1所示,用户的地理分布如图4所示。
表1 数据集介绍

Tab. 1 Introduction to the dataset

数据集 推文数/条 训练集用户数/个 验证集用户数/个 测试集用户数/个 边数量/条 孤立用户数/个
GeoText 377 504 5 685 1 895 1 895 77 155 424
图4 GeoText数据集中用户的地理分布情况

注:不同颜色的充填表示不同国家。该图基于自然资源部标准地图服务网站下载的审图号为GS(2016)1663-号的标准地图制作,底图无修改。

Fig. 4 Geographical distribution of users in the GeoText dataset

由于地理位置通常用经纬度来描述,因此采用k-d树划分GeoText数据集中的训练集用户,以实现用户分布密集的区域划分更细,用户分布稀疏的区域划分越粗,保证每块区域的用户数大致相同,最后将地理区域的编号作为分类标签。此时用户地理位置推测问题将转化为单标签多分类问题,区域的质心即为用户推测位置的经纬度。本文用最小凸多边形算法绘出了各区域的轮廓,如图5所示。
图5 用户地理区域划分

注:不同颜色的充填表示不同国家,不同颜色的多边形表示用户地理区域划分类别。该图基于自然资源部标准地图服务网站下载的审图号为GS(2016)1663号的标准地图制作,底图无修改。

Fig. 5 Map of user geographic areas

3.1.2 基线模型

将SRGCN与5个基线模型进行比较,包括基于文本、网络、多视角的用户地理位置推测方法: ① MLP + k-d tree[12]构建基于文本的多层感知器模型;② UNIFCENTROID[11]利用KL散度衡量用户文本的相似度;③ MADCEL-W-LR[14]改进标签传播算法进行位置推测;④ MADCEL-W-MLP[12]结合文本和网络信息并利用MLP进行推测;⑤ MENET[26]对用户进行嵌入表示,并融合文本、网络、元数据特征;⑥ GCN[13]是一种基于GCN多视角推测模型。

3.1.3 评价指标

本文用平均距离误差(Mean)、距离误差中位数(Median)、位置推测准确度(Acc@161)评估算法性能,3个指标均用来衡量推测位置和真实位置之间的距离关系。

3.1.4 参数设置

使用scikit-learn库提取TF-IDF特征,最小术语频率和最大术语比例分别设为10.0、0.2,对词条向量进行L2正则化。使用networkx库构建无向提及图,根据前人经验[13],名人节点阈值设为5,k-d树存储桶大小设为50,使得每个簇类中用户数量大致相同。根据主题相似度为孤立用户建立关系图时,使用scikit-learn库训练LDA模型,类别数设为129,相似度阈值为0.9。对GeoText数据集使用3层GCN,隐藏层300个神经元,使用Adam优化器,初始学习率设为2×10-3,激活函数为ReLU,训练采用早停策略防止模型过拟合。

3.2 结果与分析

3.2.1 孤立用户关系图补充

表2给出了在GeoText数据集上,孤立用户补充关系图对模型的贡献,具体来说,探究了主题相似度阈值对推测性能和图规模的影响。
表2 孤立用户补充关系图对推测性能和图规模的影响

Tab. 2 Effect of isolated users relationship graph on prediction performance and graph size

主题相似度阈值 平均距离
误差/km
位置推测
准确度/%
边/条
0.60 533 60.11 94 745
0.65 545 59.53 92 157
0.70 540 60.21 90 374
0.75 542 59.79 88 522
0.80 545 59.79 85 899
0.85 557 59.89 84 782
0.90 530 60.58 81 256
0.95 525 60.05 79 084
通过主题相似度阈值来寻找可能与孤立用户有空间相邻性的用户,随着阈值的增加,两用户成为好友的条件变得更严格,大部分与孤立用户不相似的用户被过滤,相似用户在地理位置分布上更聚集,有利于结合相邻用户的信息来推断孤立用户的位置。从总体上看主题相似度阈值从0.60增加到0.95的过程中, Mean先增大后减小,且当阈值达为0.90时, Acc@161数值最大,社交关系图的规模仍比提及图中的社交关系丰富,便于后续进行标签传播。
若全部用户都采用主题相似性来建立用户社交关系图,Mean、Median、Acc@161分别为1 150 km、770 km和27.34。结合以上实验结果可得:
(1)仅由主题相似性建立用户网络,会降低地理位置推测性能。原因在于用户发文主题可以反映地理位置,但用户共同的发文主题有多个,这些主题可能对应不同的地理区域,全部用户都采用主题相似性建立网络,会使无意义的边增加,引入大量噪声,从而降低用户位置推测的准确度。
(2)利用主题相似性仅将孤立用户补充至社交关系图,能够增加可定位用户的比例,进而提高位置推测准确度。采用主题和提及等多种关系类型构造的网络,可以保持用户关联关系的多样性,对于图神经网络的输出来说,可以获得较好的推测精度。

3.2.2 性能比较

表3给出了SRGCN模型与6个基线模型在地理位置推测问题上的性能表现,可以看出相比于现有模型,SRGCN模型在性能上有一定提升。
表3 地理位置推测算法的性能比较

Tab. 3 Performance comparison of geographic location prediction algorithms

模型 平均距离
误差/km
距离误差
中位数/km
位置推测
准确度/%
MLP + k-d tree[12] 844 389 38.00
UNIFCENTROID[11] 897 432 35.90
MADCEL-W-LR[14] 581 57 59.00
MADCEL-W-MLP[12] 578 61 59.00
MENET[26] 570 58 59.10
GCN[13] 546 45 60.00
SRGCN 530 46 60.58
通过分析表3数据可以发现:
(1)与基于单一信息来源的模型相比,如只用到文本信息的MLP+k-d tree和UNIFCENTROID,以及只用到网络信息的MADCEL-W-LR,SRGCN模型表现更加出色,可以学习到更多重要的文本特征和网络特征。
(2)基于多视角的模型,如MENET、GCN和MADCEL-W-MLP,同时利用了文本、网络等其他信息,深入挖掘特征并有效融合,模型效果相比只基于文本或只基于网络的模型有了较大提升,说明多视角特征学习对于地理位置推测是很重要的。
(3)MENET和MADCEL-W-MLP将网络信息作为特征简单嵌入,而SRGCN将用户看作社交关系图中的节点,通过标签传播的方式获取邻居节点的信息,更好地利用丰富的社交关系。SRGCN在Mean、Median、Acc@161上的效果均优于MENET。
(4)GCN模型中存在孤立用户,导致难以对其进行位置推测,SRGCN通过主题相似性为孤立用户增强位置同质性,有选择地为其增加社交关系,扩大原有社交关系图的覆盖用户范围,实验结果表明,SRGCN模型的效果优于MENET、GCN,Acc@161比MENET、GCN高出2.5%、0.97%,平均误差距离分别降低40 km、16 km。
观察SRGCN模型的推测效果可知,Mean和Median在数值上相差一个数量级,说明用户社交数据之间存在明显差异,现对推测结果偏差较大和推测准确的用户情况进行分析,图6为这些用户的地理分布情况,表4给出了用户的真实位置、发文数、好友数、距离误差等数据。
图6 位置推测效果存在差异的用户地理分布情况

注:不同颜色的充填表示不同国家,红色数字表示推测准确的用户编号,蓝色数字表示推测误差较大的用户编号。该图基于自然资源部标准地图服务网站下载的审图号为GS(2016)1663号的标准地图制作,底图无修改。

Fig. 6 Geographical distribution of users with differences in geolocation prediction performance

表4 位置推测效果存在差异的用户基本信息

Tab. 4 Basic information of users with differences in geolocation prediction performance

用户标识 编号 真实位置(经度,纬度)/(°,°) 发文数/条 社交关系数/条 距离误差/km
USER_542aa1fb 1493 (-74.010, 40.707) 63 22 0.00
USER_7b70c03a 1632 (-83.690, 42.255) 38 33 0.49
USER_af6729de 340 (-90.335, 38.779) 22 5 2.07
USER_49d4be2e 1619 (-117.890, 33.917) 72 35 4.46
USER_f4f9f786 1196 (-75.072, 39.940) 31 14 7.85
USER_1e0d7389 450 (-121.457, 38.487) 23 21 13.39
USER_5a99377b 829 (-77.107, 37.507) 58 41 40.17
USER_ccabb575 1020 (-112.239, 33.624) 21 35 80.84
USER_ecd38bdd 1077 (-89.906, 38.425) 38 16 251.16
USER_16073bdf 744 (-81.036, 34.009) 36 13 361.24
USER_74fb72f0 1187 (-118.277, 34.095) 58 5 801.79
USER_05ed473f 324 (-93.758, 32.421) 26 13 997.28
USER_a868f330 1636 (-92.035, 30.208) 31 22 1 170.69
USER_25fcdff0 1781 (-88.055, 43.098) 22 0 1 919.77
USER_1a6770ba 770 (-97.098, 31.526) 47 39 2 188.55
USER_665890a8 425 (-96.355, 42.4775) 29 0 3 697.02
随机选取16位用户来分析地理位置推测的效果,依据评价指标Acc@161,只要距离误差在 161 km(100 miles)之内,则认为用户的位置推测正确。图6中的蓝色点表示推测准确的用户节点,红色点表示推测误差较大的用户节点。通过观察其地理分布情况可知,蓝色点绝大部分处于用户密集区域,如用户1493、1196和1632等,对应表3中的距离误差也在10 km之内;而红色点一般处于用户稀疏区域且处于地理边缘,如用户324、770和425等,其距离误差远远超过161 km,由此说明用户的地理分布也会影响推测效果。除此之外,从整体上看,推测误差较大用户的社交关系没有推测准确用户的社交关系丰富,说明这些用户平时可能不常与其他人在社交平台上互动,与附近区域用户关注的话题不太相似。

3.2.3 可视化结果

SRGCN希望有相同标签的样本聚集在一起,为了验证模型的学习能力,从GeoText中随机选取5个区域测试模型的性能,分别对应编号为11、34、41、60和101的地理区域,并利用t-SNE对这些区域中用户的嵌入表示降至二维并进行可视化。图7为未经训练的用户嵌入表示,图8为经SRGCN训练后的用户嵌入表示可视化结果,其中具有相同颜色的用户节点来自相同的区域。从图中可以看出经过训练之后,SRGCN可以将大部分属于同一区域的用户节点聚集,模型的分类效果较好,提升了位置推测效果。
图7 用户嵌入表示二维可视化(原始)

Fig. 7 User embedding representation of 2D visualization (original)

图8 用户嵌入表示二维可视化(训练后)

Fig. 8 User embedding representation of 2D visualization (trained)

4 结语

本文提出了一种基于图神经网络的多视角学习模型SRGCN,融合文本主题和社交网络推测社交网络用户的住所位置。采用TF-IDF提取文本特征,为了解决独立用户位置无法推测的问题,在提及图的基础上提出了一种基于文本主题相似度的孤立用户社交关系图补充方法。利用GCN对文本特征和网络结构进行联合建模,在Twitter基准数据集上对比了SRGCN、MENET和GCN等方法。此外,还测试了孤立用户关系图对模型的贡献,对用户特征向量进行了可视化。得出的主要结论如下:
(1)根据主题相似度为孤立用户建立联系,能够增加可定位用户的比例,提升社交关系图丰富度,进而提高位置推测准确度。
(2)结合文本内容和社交网络的SRGCN方法性能优于现有方法,可以深入挖掘文本和网络特征并有效融合。在GeoText数据集上,Acc@161比MENET、GCN高出2.5%、0.97%,平均误差距离分别降低40 km、16 km。
本文提出的SRGCN模型在社交关系图构建、用户住所位置推断上取得了优良的效果,但如何从用户文本中挖掘更丰富、更准确的语义信息仍有待进一步研究。在下一步工作中将采用先进的预训练模型挖掘文本内容更多隐藏的信息;在建立孤立用户与集合用户的联系时,进一步利用丰富的文本类信息;探索其他类型的地图划分方式,进一步提升地理推测准确度。
[1]
Li S Y, Liu Z X, Li Y L. Temporal and spatial evolution of online public sentiment on emergencies[J]. Information Processing & Management, 2020, 57(2):102177. DOI:10.1016/j.ipm.2019.102177

[2]
Pradeepa S, Manjula K R. Epidemic zone of COVID-19 from social media using hypergraph with weighting factor (HWF)[J]. The Journal of Supercomputing, 2021, 77(10):11738-11755. DOI:10.1007/s11227-021-03726-3

[3]
Kawanaka S, Moriwaki D. Uplift modeling for location-based online advertising[C]// Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Location-based Recommendations, Geosocial Networks and Geoadvertising. New York: ACM, 2019:1-4. DOI:10.1145/3356994.3365505

[4]
Mahajan R, Mansotra V. Correlating crime and social media: Using semantic sentiment analysis[J]. International Journal of Advanced Computer Science and Applications, 2021, 12(3):309-316. DOI:10.14569/ijacsa.2021.0120338

[5]
Zheng X, Han J L, Sun A X. A survey of location prediction on twitter[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(9):1652-1671. DOI:10.1109/TKDE.2018.2807840

[6]
Morstatter F, Pfeffer J, Liu H A, et al. Is the sample good enough? comparing data from twitter's streaming API with twitter’s firehose[J]. Proceedings of the International AAAI Conference on Web and Social Media, 2021, 7(1):400-408. DOI:10.1609/icwsm.v7i1.14401

[7]
刘乐源, 代雨柔, 曹亚男, 等. 在线社交网络中用户地理位置预测综述[J/OL]. 计算机研究与发展, 2023:1-29 [2023-11-24.]

[ Liu L Y, Dai Y R, Cao Y N, et al. Social media user geolocalization based on multiple mention relationships[J/OL]. Journal of Computer Research and Development, 2023:1-29 [2023-11-24]. ]

[8]
Luo X Y, Qiao Y Q, Li C L, et al. An overview of microblog user geolocation methods[J]. Information Processing & Management, 2020, 57(6):102375. DOI:10.1016/j.ipm.2020.102375

[9]
Middleton S E, Kordopatis-Zilos G, Papadopoulos S, et al. Location extraction from social media: Geoparsing, location disambiguation, and geotagging[J]. ACM Transactions on Information Systems, 36(4)Article No.40. DOI: 10.1145/3202662

[10]
Nizzoli L, Avvenuti M, Tesconi M, et al. Geo-semantic-parsing: AI-powered geoparsing by traversing semantic knowledge graphs[J]. Decision Support Systems, 2020, 136:113346. DOI:10.1016/j.dss.2020.113346

[11]
Roller S, Speriosu M, Rallapalli S, et al. Supervised text-based geolocation using language models on an adaptive grid[C]// Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. New York: ACM, 2012:1500-1510. DOI:10.5555/2390948.2391120

[12]
Rahimi A, Cohn T, Baldwin T. A neural model for user geolocation and lexical dialectology[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2017: 209-216. DOI:10.18653/v1/p17-2033

[13]
Rahimi A, Cohn T, Baldwin T. Semi-supervised user geolocation via graph convolutional networks[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2018:2009-2019. DOI:10.18653/v1/p18-1187

[14]
Rahimi A, Cohn T, Baldwin T. Twitter user geolocation using a unified text and network prediction model[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2:Short Papers). Stroudsburg, PA, USA: Association for Computational Linguistics, 2015:630-636. DOI:10.3115/v1/p15-2104

[15]
Ren K J, Zhang S W, Lin H F. Where are You settling down: Geo-locating twitter users based on tweets and social networks[C]// Asia Information Retrieval Symposium. Berlin, Heidelberg: Springer, 2012:150-161.10.1007/978-3-642-35341-3_13

[16]
Han B, Cook P, Baldwin T. Geolocation prediction in social media data by finding location indicative words[C]// 24th International Conference on Computational Linguistics - Proceedings of COLING 2012:Technical Papers, 2012:1045-1062

[17]
García Lozano M, Schreiber J, Brynielsson J. Tracking geographical locations using a geo-aware topic model for analyzing social media data[J]. Decision Support Systems, 2017, 99:18-29. DOI:10.1016/j.dss.2017.05.006

[18]
Mahajan R, Mansotra V. Predicting geolocation of tweets: Using combination of CNN and BiLSTM[J]. Data Science and Engineering, 2021, 6(4):402-410. DOI:10.1007/s41019-021-00165-1

[19]
Wang Z Y, Ye C Y, Zhou H. Geolocation using GAT with multiview learning[C]// 2020 IEEE International Conference on Smart Data Services (SMDS). IEEE, 2020:81-88. DOI:10.1109/SMDS49396.2020.00017

[20]
Hamouni P, Khazaei T, Amjadian E. TF-MF: Improving multiview representation for Twitter user geolocation prediction[C]// Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. New York: ACM, 2019:543-545. DOI: 10.1145/3341161.3342961

[21]
Rahimi A, Vu D, Cohn T, et al. Exploiting text and network context for geolocation of social media users[C]// Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015:1362-1367. DOI:10.3115/v1/n15-1153

[22]
Tarbush B, Teytelboym A. Homophily in online social networks[C]// International Workshop on Internet and Network Economics. Berlin, Heidelberg: Springer, 2012:512-518.10.1007/978-3-642-35311-6_40

[23]
Wang F J, Lu C T, Qu Y Z, et al. Collective geographical embedding for geolocating social network users[C]// Pacific-Asia Conference on Knowledge Discovery and Data Mining. Cham: Springer, 2017:599-611.10.1007/978-3-319-57454-7_47

[24]
Zheng C, Jiang J Y, Zhou Y C, et al. Social media user geolocation via hybrid attention[C]// Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020:1641-1644. DOI:10.1145/3397271.3401329

[25]
Zhong T, Wang T L, Wang J H, et al. Multiple-aspect attentional graph neural networks for online social network user localization[J]. IEEE Access, 2020, 8:95223-95234. DOI: 10.1109/ACCESS.2020.2993876

[26]
Do T H, Nguyen D M, Tsiligianni E, et al. Twitter user geolocation using deep multiview learning[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018:6304-6308. DOI: 10.1109/ICASSP.2018.8462191

[27]
乔亚琼, 罗向阳, 马江涛, 等. 基于多种提及关系的社交媒体用户位置推断[J]. 通信学报, 2020, 41(12):72-81.

DOI

[ Qiao Y Q, Luo X Y, Ma J T, et al. Social media user geolocalization based on multiple mention relationships[J]. Journal on Communications, 2020, 41(12):72-81. ] DOI:10.11959/j.issn.1000-436x.2020229

[28]
Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[Z]. arXiv preprint, 2016, arXiv:1609.02907.

[29]
Srivastava R K, Greff K, Schmidhuber J. Highway networks[Z]. arXiv preprint, 2015, arXiv:1505.00387.

[30]
Eisenstein J, O'Connor B, Smith N A, et al. A latent variable model for geographic lexical variation[C]// Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. New York: ACM, 2010:1277-1287. DOI:10.5555/1870658.1870782

Outlines

/