User's Home Location Prediction based on Filtered Text and Social Networks

WANG Haiqi; KONG Haoran; LI Xuewei

doi:10.12082/dqxxkx.2021.210025

Journal of Geo-information Science >

2021 , Vol. 23 >Issue 10: 1778 - 1786

DOI: https://doi.org/10.12082/dqxxkx.2021.210025

User's Home Location Prediction based on Filtered Text and Social Networks

WANG Haiqi ,
KONG Haoran ^,^* ,
LI Xuewei

Expand

College of Oceanography and Space Informatics, China University of Petroleum (East China), Qingdao 266580, China

* KONG Haoran, E-mail: konghr_upc@163.com

Received date: 2021-01-17

Request revised date: 2021-03-19

Online published: 2021-12-25

Supported by

National Natural Science Foundation of China(41471322)

Copyright

Fold

Abstract

The home locations of social media users are essential for a wide range of applications in real-world. The social media text published by users from different regions possesses quite a few differences in expression mode, semantics, and other contents. In general, users with close social relationships live closer to each other. Therefore, both text and social network can be used to infer the home locations of users. The existing user’s home location prediction methods based on social network and text are not sufficient to mine the location indicative features in user text, while the location indicative information such as toponym in text provides the most useful location signals. Therefore, we proposed a location prediction method for social media users based on Geographic Entity Recognition (GER) and Graph Convolutional Network (GCN). Firstly, the user text was filtered by the geographic entity recognition method to highlight the location indicative words. Then, the social networks were extracted based on mentioned relationships and following relationships. After that, we combined social network and user text content that contains location indicative words. The method based on graph convolutional network was used to predict the user's home location. Finally, we compared the GER-GCN method with the GCN method and the latest research results, and explored the small sample learning ability of the model and its influencing factors. Experiment results based on the GeoText dataset and two datasets of microblog show that, firstly, GER text filtering method can significantly improve the accuracy of user location prediction. The improvement effect of this method is more significant for the dataset with more microblogs of users, which indicates that the GER text filtering method is more suitable for the social media dataset with more microblogs of users. Secondly, in the experiments of different datasets, the prediction accuracy of GER-GCN method is invariably the highest among all methods. In the experiment of GeoText benchmark dataset, the prediction accuracy of GER-GCN method is 1.03% and 1.87% higher than that of GCN and MENET methods, respectively, which indicates that the GER-GCN method is more competitive than the latest research results. Thirdly, in a realistic scenario with minimal supervision, we confirm that the GER-GCN model possesses a certain small sample learning ability, and find that the quality of social networks plays a decisive role in its small sample learning ability. The experimental results demonstrate the excellent performance of the GER-GCN method, and the method is in line with the application requirements of social media in the realistic scenarios.

Key words： social users; home location; Toponym; social networks; multi-view; geographic entity recognition; graph convolutional network; small sample learning

Cite this article

WANG Haiqi , KONG Haoran , LI Xuewei . User's Home Location Prediction based on Filtered Text and Social Networks[J]. Journal of Geo-information Science, 2021 , 23(10) : 1778 -1786 . DOI: 10.12082/dqxxkx.2021.210025

1 引言

2017—2020年社交媒体发展迅速,截至2021年1月,全球超过36亿人使用社交媒体^[1]。社交媒体平台上存在大量与现实世界相关的信息,其中就包含显性和隐性的用户位置信息。用户常驻位置对于特征分析^[2]、灾害响应^[3,4,5]、推荐系统^[6,7]、社区分析^[8]等应用具有重要意义,但仅有1%~10%社交媒体数据附带地理位置标记^[9,10],公开位置信息的匮乏促使人们发掘更多有价值内容;而用户文本和用户间交互信息中也隐藏着潜在的位置指示信息,包含地名等位置指示信息的文本对用户位置预测贡献更大^[11],因而聚焦包含位置指示信息的文本至关重要。

社交用户位置预测方法可分为基于文本的方法、基于社交网络的方法和基于多视图的方法^[12]。① 基于文本的研究侧重于用户发布的文本内容,并依赖于社交文本的地理差异性来预测用户位置^[11]。基于文本的用户定位方法可进一步分为2类,即基于地名词典的方法和基于机器学习的方法。基于地名词典的方法通过地名词典匹配来识别文本中提到的地名以推断用户位置^[13],该方法无需训练数据,但对于短而嘈杂的社交文本表现不佳。而基于机器学习的方法采用机器学习策略来训练地理位置分类器或对用户地理标签位置进行聚类,如Chi等^[14]提出一种基于多项式朴素贝叶斯分类器的推特位置预测方法,该方法使用基于频率的特征选择策略选择文本特征子集,最后将特征子集放入分类器模型以预测用户位置。Lin等^[15]采用空间聚类的方法为每个用户聚集带有地理标记的推文,并依据每个簇的时间和空间特征来训练SVM分类器,从而预测用户常驻地区。Lourentzou等^[16]采用神经网络的方法构建用户位置分类器,将每个用户分类到某一地理区域来实现用户位置预测。② 基于社交网络的方法假设社交关系密切的用户之间距离更近^[17],该方法凭借用户之间的交互关系来预测用户位置。McGee等^[18]通过研究社交关系强度与用户间距离的关系,从而确定了影响用户间距离的因素,并利用这些因素训练决策树分类器以求解用户间距离,最后将用户间距离代入最大似然估计器以预测用户位置;Jurgens等^[19]基于用户的社交关系来构建网络,并采用少数已标记节点的标签根据标签传播原理来推断未标记节点的位置;Wang等^[20]提出了一种集体几何嵌入算法,将社交关系异构图的节点投影到低维空间,然后使用嵌入作为输入来训练位置分类器以预测用户城市级位置。③ 文本和社交网络对于用户位置预测同等重要,基于多视图的方法通过使用文本和网络2种视图来联合预测用户位置。Rahimi等^[21]提出一种基于文本和社交网络的混合方法,该方法采用逻辑回归分类模型训练出测试节点位置,然后在提及图上运行标签传播以预测用户位置,实验表明,混合方法要优于单一视图方法; Do等^[22]提出了一种多通道神经网络模型MENET,将用户文本、社交网络和元数据等4种特征向量融合为统一的特征向量,再利用神经网络分类器输出位置预测结果;Rahimi等^[23]将用户文本的词袋特征作为节点属性,基于用户的提及关系来构建社交网络,通过图卷积神经网络（GCN）依据标签传播原理联合文本和社交网络推断用户位置,而在最小监督的现实场景中,GCN方法相比于多视图方法有着强大的小样本学习能力。

上述研究表明,基于多视图方法优于单一视图方法,而在社交媒体现实场景中,基于GCN的方法优于基于多视图的方法;然而,用户文本的地理差异性通常是由位置指示词决定的,过往基于文本和社交网络的用户位置预测研究未能充分聚焦包含位置指示词的文本,因而导致用户文本中存在大量噪声,影响模型的学习效率与准确性。针对用户文本内容中存在的噪声,本文提出了一种地理命名实体识别过滤器（GER filter）的方法以凸显文本中的位置指示特征;随后基于GCN^[23,24]的标签传播优势依据已知节点地理标签进行训练,以预测未知节点地理区域;最后,结合GCN模型的小样本学习特点,探究了GER-GCN模型的小样本学习影响因素。

2 常驻位置预测原理与方法

不同区域用户发布的社交文本在表达方式、语义等内容上存在一定差异^[11,25],并且社交关系密切的用户之间居住位置更近^[17],因而文本内容和社交网络均可用于推断用户常驻位置。常驻位置预测可被定义为分类或回归任务,分类任务是将用户分类到某一地理区域,而回归任务则是预测用户位置坐标。本次常驻位置预测研究可归为分类任务,位置预测尺度为微博用户所在地区、省、市和Twitter用户所在州。首先,基于用户所有文本内容抽取文本视图,其次,基于用户间提及关系,辅以好友关系抽取网络视图,最后,结合文本内容和网络中已有节点位置标签,依据标签传播原理进行训练,从而预测未知节点地理区域。研究框架如图1所示,本研究采用的主要方法为GER文本过滤器、图卷积神经网络（GCN）。

显示原图|下载原图ZIP|生成PPT

图1 基于社交网络和过滤文本的用户位置预测框架

Fig. 1 The framework for user location prediction based on social networks and filtered text

2.1 GER文本过滤器

在用户的社交文本中,地名、机构名等地理实体词是用户对某个地理位置关注的体现,也是高质量的位置指示词;包含地理实体词的社交文本更容易判断地理位置。因此,采用地理命名实体识别（GER）方法对用户分词文本进行过滤,分别产生 2种输出形式：包含地理实体词的过滤文本、地理实体词（图2）。

显示原图|下载原图ZIP|生成PPT

图2 GER过滤流程

Fig. 2 GER filtering process

本次研究采用BERT^[26](Bidirectional Encoder Representation from Transformers)语言模型作为微博数据的GER过滤器;此外,采用NLTK(Natural Language Toolkit)作为Twitter数据的GER过滤器。BERT是基于双向Transformer结构的预训练语言模型,基于BERT模型的NER任务进行迁移学习,以识别用户文本中地名、机构名实体。NLTK是Python自然语言处理工具,基于NLTK的NER功能,以识别用户文本中的地名、机构名和地缘政治实体。

2.2 图卷积神经网络

本次研究采用两层GCN^[23]聚合用户节点的直接邻居和二阶邻居信息（图3）,并从聚合信息中学习位置指示特征,以预测用户地理位置。GCN位置探测函数为f (X, A),其中X表示用户文本属性,A表示社交网络视图。GCN将每层神经网络模型 f (X, A)定义为^[23]：

（1）

H l + 1 = σ A ˆ H l W l + b

（2）

A ˆ = D ˆ - 12 A + λI D ˆ - 12

显示原图|下载原图ZIP|生成PPT

图3 GCN模型结构

Fig. 3 The structure of Graph Convolutional Network

式中：

D ˆ

是

A + λI

的度矩阵,超参数

λ

控制节点与其邻居的权重,

λ

初始化为1,

H 0

=X;权重矩阵

W l

和偏置项

b

均为模型的参数;

σ

是非线性激活函数。第一层的GCN通过拉普拉斯矩阵

A ˆ

与权重矩阵W和偏置

b

的混合运算聚合了每个节点的直接邻居信息,并通过非线性激活;而第二层则聚合了节点的二阶邻居信息。对于一个用户节点

u i

,每层GCN的输出为^[23]：

（3）

h i → l + 1 = σ (∑ jϵn h ood i A ˆ ij h j → l W l + b l)

式中：

W l

和

b l

是可学习的参数;

n h ood i

表示节点

u i

的邻居。

图卷积神经网络的实现依赖于节点属性的嵌入和社交网络的构建。节点的属性由某一类用户文本串联后的长文本向量化表示,而节点间的连接便是用户之间的社交关系网络。

2.2.1 节点属性嵌入

某用户所有社交文本经分词、去除停用词等预处理以及GER文本过滤后,将2种GER输出形式和原始文本分别串联成长文本;然后使用TF-IDF（Term Frequency-Inverse Document Frequency）方法分别将3种长文本中所有词汇向量化,形成3种代表用户文本特征的长文本向量。依据实验模型需求,仅选择一种长文本向量作为文本位置属性

X i

嵌入用户节点。图4以一种长文本为例展示节点属性嵌入过程。

显示原图|下载原图ZIP|生成PPT

图4 用户节点属性嵌入流程

Fig. 4 Process of user node attributes embedding

2.2.2 社交网络抽取

用户之间的社交网络以图结构表示,用户作为图结构的节点,用户间的联系作为边。本文基于用户间提及关系,辅以用户间关注与被关注关系,抽取了社交网络。社交网络的抽取规则如下：① 基于提及关系。如果用户A@了用户B,则在用户A和用户B之间建立联系。为了避免社交网络稀疏,如果用户A和用户C共同@了第三方用户,则在用户A和C之间建立联系。② 基于关注与被关注关系。抽取用户B、C之间单向的关注与被关注关系（图5）。

显示原图|下载原图ZIP|生成PPT

图5 社交网络抽取规则

Fig. 5 Social networks extract rules

3 实验与分析

社交媒体定位是根据地理区域来预测用户位置,而预测地理区域可以归为一个分类问题。本节采用3个数据集评估不同模型、不同方法的地理区域分类精度。并结合现实场景验证GER-GCN模型小样本学习能力及其影响因素。

3.1 数据来源及预处理

3.1.1 数据来源

本次研究采用Twitter数据集GeoText和2个微博数据集Sina2018和SMP2016,数据详情见表1。本文中用户的常驻位置预测归为一个分类任务,Twitter用户地理标签为美国不包括夏威夷州和阿拉斯加州的本土48个州,而微博用户地理标签为我国的地区（7个）、省（34个）、市（340个）3个尺度。

表1 数据详情

Tab. 1 Details of the data

数据集	平台	数据来源	真实地理标签	文本数量/条
GeoText	Twitter	GeoText	签到位置	367 993
Sina2018	新浪微博	网络爬虫	签到位置	1 720 236
SMP2016	新浪微博	SMP竞赛	主页所在地	15 741 075

GeoText^[27]是位置探测基准数据集,是在2010年3月第一周内收集的附带签到位置的推文数据。为保证数据范围与研究区域一致性,仅利用签到位置筛选美国地区的数据,经筛选后的有效数据为367 993条。签到次数最多的位置在一定程度上体现用户实际位置,因而选择最高频率签到位置作为用户真实地理标签。

微博数据集Sina2018是在2018年10月1日—10月6日,采用网络爬虫获取的全网附带签到位置的微博数据,选取最高频率签到位置作为微博用户真实地理标签。微博数据集SMP2016^[28]是由第五届社会媒体处理大会提供,该数据集包含用户的关注与被关注关系,因而SMP2016在社交网络层面更加丰富;针对SMP2016,利用网络爬虫爬取所有用户主页的所在地信息作为用户真实地理标签。

为剔除与研究不相关的数据,对微博数据集 Sina2018、SMP2016筛选后获得的有效数据分别为 1 720 236条和15 741 075条,筛选遵循以下原则： ① 数据有效性。为消除信息缺失以及信息重复影响,剔除重复微博以及小于2个字的微博,并剔除未获得真实地理标签的用户; ② 数据范围与研究区域一致性。为避免国外数据干扰,利用签到位置剔除中国地区之外的微博数据; ③ 社交关系有效性。为避免微博营销号、明星用户影响,仅保留普通用户的微博。

3.1.2 数据预处理

社交文本中掺杂大量网络用语和字符噪声,使用正则表达式剔除3个数据集上的网址、表情、符号等噪声。为使模型更好地学习文本特征,对微博数据集Sina2018和SMP2016进行繁体转换简体、中文分词和去除停用词处理;中文分词采用Python版本的结巴分词精确分词模式,停用词词典采用四川大学机器学习实验室的停用词列表。此外,对GeoText数据集进行大写转换小写、英文分词和去除停用词处理。

3.2 用户文本抽取

使用BERT语言模型对微博数据集Sina2018和SMP2016进行文本过滤;针对GeoText数据集,采用NLTK自然语言处理工具包进行文本过滤;文本过滤结果如表2所示。为验证BERT模型性能,以人工标注的100条微博进行测试,结果表明地名、机构名的识别精度达到85%,说明BERT模型具有可靠性。最后,将用户的原始文本以及用户所有过滤文本分别串联成长文本;此外,将过滤文本中地理实体词也串联成长文本。

表2 文本过滤结果统计

Tab. 2 Statistics of text filtering results

数据集		GER过滤器	GER过滤文本/条	地理实体词/个	唯一实体词/个
Sina2018	1 720 236	BERT	380 553	677 332	178 358
SMP2016	15 741 075	BERT	8 689 359	26 413 734	3 223 556
GeoText	367 993	NLTK	103 240	139 935	48 567

3.3 社交网络抽取

针对Twitter数据集GeoText和微博数据集 Sina2018、SMP2016进行社交网络抽取,社交网络参数见表3;基于用户文本包含的@关系提取用户的社交网络,SMP2016额外添加用户间关注与被关注关系以丰富社交网络结构,基于关注与被关注关系单独提取的社交网络中,节点平均度数为42。最后,为避免营销号、明星影响,分别设置3个数据集的名人节点度数阈值为15、15、5。

表3 社交网络参数统计

Tab. 3 Statistics of social network parameters

数据集	文本数/条	节点数/个	度数阈值/个	边数/条
Sina2018	1 720 236	160 416	15	187 577
SMP2016	15 741 075	30 414	15	332 189
GeoText	367 993	9 326	5	56 564

3.4 模型精度评估

3.4.1 评估指标

用户常驻位置预测研究是根据地理区域来预测用户位置,而预测地理区域可以归为一个分类任务,当预测区域与真实地理标签一致时,则认为预测结果正确;而用户真实标签取自最高频率签到位置或用户所在地信息。对于分类任务,本文在精度方面进行了性能比较,精度定义为测试集中正确分类的用户比例。

3.4.2 评估结果

本次实验选取GER与GCN构成的3种模型：GCN、GER-GCN（过滤文本）、GER-GCN（地理实体词）;其中,3种模型均采用相同的社交网络结构,而在文本抽取方式上,GCN抽取的文本为原始文本,GER-GCN可以使用GER过滤的两种输出形式：过滤文本、地理实体词,因而存在3种模型组合形式;此外,在基准数据集GeoText上引入最新研究成果MENET^[22]作为基线方法。最后,按照60%、20%、20%的比例划分训练、验证、测试集,并将文本视图和社交网络视图引入3种不同模型进行单次用户位置预测实验,实验结果如表4所示。

表4 GCN、GER-GCN和MENET模型用户地理区域精度预测结果

Tab. 4 Accuracy prediction results of user geographic area by GCN, GER-GCN and MENET models

数据集	方法	文本抽取	地区/%	省或州/%	市/%
Sina2018	GCN	原始文本	60.85	48.64	40.36
	GER-GCN	GER过滤文本	64.12	53.28	43.94
	GER-GCN	GER地理实体词	63.06	53.39	41.69
SMP2016	GCN	原始文本	56.55	47.21	36.02
	GER-GCN	GER过滤文本	60.85	48.64	40.36
	GER-GCN	GER地理实体词	61.17	54.36	42.86
GeoText	GCN^[23]	原始文本	-	65.64	-
	GER-GCN	GER过滤文本	-	66.67	-
	GER-GCN	GER地理实体词	-	66.13	-
	MENET^[22]		-	64.80	-

由表4可以看出, GER文本过滤方法显著提升了GCN模型预测性能;但该过滤方法在不同数据集上提升效果不同,在SMP2016上提升效果最为显著,Sina2018次之,在Geotext上提升幅度最小。根据数据集特点可知,SMP2016数据量最多且用户平均微博数超过500条,而Geotext数据量最小且用户平均推文数不到40条,由此可证明GER文本过滤方法较适合于用户微博数较多的社交媒体数据集。

此外,GER-GCN方法在3个数据集上均优于GCN方法;在基准数据集Geotext上,GER-GCN （过滤文本）预测精度比最新研究成果MENET^[22]、GCN^[23]高出1.87%和1.03%,表明该方法既凸显了文本中的位置指示特征,又充分学习了用户间联系,提升了用户位置预测性能。

3.5 小样本学习

3.5.1 小样本学习验证

在社交媒体的现实场景中,仅有1%~10%的用户文本附带真实的地理位置标记。基于少量样本学习整体的能力对于用户位置探测模型至关重要,这决定了其是否具有应用价值;本文模拟实际情况,采用60%、10%、5%、1%共4个监督尺度,并选择每个数据集上表现最好的模型进行单次小样本学习实验,以验证GER-GCN模型的小样本学习能力。

由表5可以看出,GCN模型的用户预测精度在总体趋势上随着监督比例的下降而下降,但不同数据集的下降幅度不同。如图6所示,在省/州尺度上Sina2018下降最为显著,GeoText次之,SMP2016下降幅度最小,由此可以印证GER-GCN模型在SMP2016数据集上具有一定的小样本学习能力;而根据数据特点,SMP2016在社交网络层面上最为丰富,因而推测GER-GCN的小样本学习能力受社交网络质量的影响。

表5 GER-GCN模型不同监督比例的用户地理区域精度预测结果

Tab. 5 Accuracy prediction results of user geographic area at different supervision proportions of GER-GCN model

数据集	模型	Train/Val/Test	地区/%	省或州/%	市/%
Sina2018	GER-GCN（过滤文本）	60%/20%/20%	64.12	53.28	43.94
	GER-GCN（过滤文本）	10%/10%/80%	57.00	43.65	32.15
	GER-GCN（过滤文本）	5% / 5% / 90%	52.84	38.46	26.63
	GER-GCN（过滤文本）	1% / 1% / 98%	41.12	23.21	17.09
SMP2016	GER-GCN（地理实体词）	60%/20%/20%	61.17	54.36	42.86
	GER-GCN（地理实体词）	10%/10%/80%	63.51	55.47	43.97
	GER-GCN（地理实体词）	5% / 5% / 90%	63.02	53.38	43.28
	GER-GCN（地理实体词）	1% / 1% / 98%	57.36	46.51	37.67
GeoText	GER-GCN（过滤文本）	60%/20%/20%	-	66.67	-
	GER-GCN（过滤文本）	10%/10%/80%	-	60.09	-
	GER-GCN（过滤文本）	5% / 5% / 90%	-	56.45	-
	GER-GCN（过滤文本）	1% / 1% / 98%	-	42.85	-

显示原图|下载原图ZIP|生成PPT

图6 GER-GCN模型不同监督比例的省级预测精度趋势

Fig. 6 Provincial prediction accuracy trends at different supervision proportions of GER-GCN model

3.5.2 小样本学习影响因素

为验证上述推理,以探究GER-GCN小样本学习影响因素;选择数据量最大、社交网络质量最好的微博数据集SMP2016,分别保留和消除SMP2016的社交网络,并采用SMP2016上表现最好的GER-GCN（地理实体词）模型进行单次实验。

从表6、图7中可以看出,消除社交网络后,随着监督比例下降,GER-GCN模型预测精度下降较快,小样本学习能力基本丧失。由此可见,社交网络结构对GER-GCN的小样本学习能力起到决定性作用。

表6 保留或消除网络后GER-GCN模型不同监督比例的地区、省和市精度预测结果

Tab. 6 Regional, provincial and municipal prediction accuracy results at different supervisory proportions of GER-GCN model after the network were retained or eliminated

社交网络	模型	Train/Val/Test	地区/%	省/%	市/%
保留	GER-GCN（地理实体词）	60%/20%/20%	61.17	54.36	42.86
保留	GER-GCN（地理实体词）	10%/10%/80%	63.51	55.47	43.97
保留	GER-GCN（地理实体词）	5% / 5% / 90%	63.02	53.38	43.28
保留	GER-GCN（地理实体词）	1% / 1% / 98%	57.36	46.51	37.67
消除	GER-GCN（地理实体词）	60%/20%/20%	60.41	44.99	35.08
消除	GER-GCN（地理实体词）	10%/10%/80%	53.37	37.93	32.52
消除	GER-GCN（地理实体词）	5% / 5% / 90%	49.17	34.45	31.68
消除	GER-GCN（地理实体词）	1% / 1% / 98%	21.61	23.41	22.91

显示原图|下载原图ZIP|生成PPT

图7 保留或消除网络后GER-GCN模型不同监督比例的地区、省和市预测精度趋势

Fig. 7 Regional, provincial, and municipal predicting accuracy trends at different supervisory proportions of GER-GCN model after the network were retained or eliminated

4 结束语

本文提出一种基于地理命名实体识别和图卷积神经网络的用户常驻位置预测方法GER-GCN,通过结合用户文本内容和社交网络来预测用户常驻区域,使用Twitter、微博数据集对比了GER-GCN、GCN以及最新的MENET方法,此外,结合社交媒体位置稀疏的现实场景,采用不同监督比例探究了GER-GCN小样本学习能力及其影响因素。本文的贡献在于：

（1）采用GER文本过滤的方法使得GCN预测精度提升1%~7%,证明了GER过滤方法的有效性;其中,该方法对于用户平均微博数较多的SMP2016提升最为显著,这表明GER过滤方法较适合于用户微博数量较多的社交媒体数据集。

（2）结合用户文本内容和社交网络,采用精度评估了不同模型用户常驻位置预测性能;基于Twitter和微博数据集的实验结果表明,GER-GCN性能均优于GCN方法,且该模型精度在基准数据集GeoText上比最新成果MENET、GCN高出1.87%和1.03%。

（3）印证了GER-GCN模型的小样本学习能力,并发现社交网络质量对GER-GCN小样本学习能力起到决定性作用,这表明GER-GCN符合社交媒体实际应用需求。

地理命名实体识别研究仍面临严峻考验,GER模型无法同时兼顾识别精度和召回率,且细粒度地名识别精度仍有很大提升空间。随着深度学习预训练语言模型的发展以及相关标注语料库的补充,地理命名实体识别领域可以取得长足进步,同时也能推动社交用户位置预测发展。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	H , Tankovska , Number of social network users worldwide from 2017 to 2025[EB/OL]. https://www.statista.com/statistics/278414/number-of-worldwide-social-network-users/ 2021-01-28.

[2]	Gu Y L, Yao Y, Liu W D, et al. We know where You are: Home location identification in location-based social networks[C]// 2016 25^th International Conference on Computer Communication and Networks (ICCCN). IEEE, 2016:1-9.

[3]	De Longueville B, Smith R S, Luraschi G. "OMG, from here, I can see the flames!" a use case of mining location based social networks to acquire spatio-temporal data on forest fires[C]// Proceedings of the 2009 international workshop on location based social networks. 2009:73-80.

[4]	Sakaki T, Okazaki M, Matsuo Y. Earthquake shakes Twitter users: Real-time event detection by social sensors[C]//Proceedings of the 19^th international conference on World wide web - WWW '10. New York: ACM Press, 2010:851-860.

[5]	梁春阳, 林广发, 张明锋, 等. 社交媒体数据对反映台风灾害时空分布的有效性研究[J]. 地球信息科学学报, 2018, 20(6):807-816. DOI [ Liang C Y, Lin G F, Zhang M F, et al. Assessing the effectiveness of social media data in mapping the distribution of typhoon disasters[J]. Journal of Geo-information Science, 2018, 20(6):807-816. ]

[6]	Bao J, Zheng Y, Wilkie D, et al. Recommendations in location-based social networks: A survey[J]. GeoInformatica, 2015, 19(3):525-565. DOI

[7]	Zhao G S, Qian X M, Kang C. Service rating prediction by exploring social mobile users' geographical locations[J]. IEEE Transactions on Big Data, 2017, 3(1):67-78. DOI

[8]	Komorowski M, Huu T D, Deligiannis N. Twitter data analysis for studying communities of practice in the media industry[J]. Telematics and Informatics, 2018, 35(1):195-212. DOI

[9]	Cheng Z Y, Caverlee J, Lee K. You are where You tweet: A content-based approach to geo-locating twitter users[C]//Proceedings of the 19^th ACM international conference on Information and knowledge management - CIKM '10. New York: ACM Press, 2010:759-768.

[10]	Morstatter F, Pfeffer J, Liu H, et al. Is the sample good enough? comparing data from twitter's streaming api with twitter's firehose[C]// Seventh international AAAI conference on weblogs and social media, 2013.

[11]	Priedhorsky R, Culotta A, Del Valle SY. Inferring the origin locations of tweets with quantitative confidence[J]. CSCW: Proceedings of the Conference on Computer-Supported Cooperative Work Conference on Computer-Supported Cooperative Work, 2014:1523-1536.

[12]	Luo X Y, Qiao Y Q, Li C L, et al. An overview of microblog user geolocation methods[J]. Information Processing & Management, 2020, 57(6):102375. DOI

[13]	Alonso-Lorenzo J, Costa-Montenegro E, Fernández-Gavilanes M. Language independent big-data system for the prediction of user location on Twitter[C]// 2016 IEEE International Conference on Big Data (Big Data). IEEE, 2016:2437-2446.

[14]	Chi L, Lim K H, Alam N, et al. Geolocation prediction in twitter using location indicative words and textual features[C]// Proceedings of the 2nd Workshop on Noisy User-generated Text (WNUT), 2016:227-234.

[15]	Lin J, Cromley R G. Inferring the home locations of Twitter users based on the spatiotemporal clustering of Twitter data[J]. Transactions in GIS, 2018, 22(1):82-97. DOI

[16]	Lourentzou I, Morales A, Zhai C X. Text-based geolocation prediction of social media users with neural networks[C]// 2017 IEEE International Conference on Big Data (Big Data). IEEE, 2017:696-705.

[17]	Compton R, Jurgens D, Allen D. Geotagging one hundred million Twitter accounts with total variation minimization[C]// 2014 IEEE International Conference on Big Data (Big Data). IEEE, 2014:393-401.

[18]	McGee J, Caverlee J, Cheng Z Y. Location prediction in social media based on Tie strength[C]//Proceedings of the 22nd ACM international conference on Conference on information & knowledge management - CIKM '13. New York: ACM Press, 2013:459-468.

[19]	Jurgens D. That's what friends are for: Inferring location in online social media platforms based on social relationships[J]. Proceedings of the 7th International Conference on Weblogs and Social Media, ICWSM 2013, 2013:273-282.

[20]	Wang F, Lu C T, Qu Y, et al. Collective geographical embedding for geolocating social network users[C]//Pacific-Asia conference on knowledge discovery and data mining. Springer, Cham, 2017:599-611.

[21]	Rahimi A, Vu D, Cohn T, et al. Exploiting text and network context for geolocation of social media Users[C]// Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2015:1362-1367.

[22]	Do T H, Nguyen D M, Tsiligianni E, et al. Twitter user geolocation using deep multiview learning[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018:6304-6308.

[23]	Rahimi A, Cohn T, Baldwin T. Semi-supervised user geolocation via graph convolutional networks[C]// Proceedings of the 56^th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2018.

[24]	Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[C]// Proceedings of the International Conference on Learning Representations (ICLR), 2017.

[25]	Chong W H, Lim E P. Exploiting contextual information for fine-grained tweet geolocation[C]// Proceedings of the International AAAI Conference on Web and Social Media, 2017.

[26]	Kenton J D M W C, Toutanova L K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]// Proceedings of NAACL-HLT. 2019.

[27]	Eisenstein J O, Connor B, Smith N A, et al. A latent variable model for geographic lexical variation[C]// Proceedings of the 2010 conference on empirical methods in natural language processing, 2010:1277-1287.

[28]	中国中文信息学会社会媒体处理专业委员会. 微博用户画像数据[EB/OL]. http://www.cips-smp.org/smp_data/1 2016-09-20. [ Social Media Processing Professional Committee of Chinese Information Processing Society of China. Microblog user profiling data[EB/OL]. http://www.cips-smp.org/smp_data/1 2016-09-20. ]

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 常驻位置预测原理与方法

图1 基于社交网络和过滤文本的用户位置预测框架

2.1 GER文本过滤器

图2 GER过滤流程

2.2 图卷积神经网络

图3 GCN模型结构

图4 用户节点属性嵌入流程

图5 社交网络抽取规则

3 实验与分析

3.1 数据来源及预处理

表1 数据详情

3.2 用户文本抽取

表2 文本过滤结果统计

3.3 社交网络抽取

表3 社交网络参数统计

3.4 模型精度评估

表4 GCN、GER-GCN和MENET模型用户地理区域精度预测结果

3.5 小样本学习

表5 GER-GCN模型不同监督比例的用户地理区域精度预测结果

图6 GER-GCN模型不同监督比例的省级预测精度趋势

表6 保留或消除网络后GER-GCN模型不同监督比例的地区、省和市精度预测结果

图7 保留或消除网络后GER-GCN模型不同监督比例的地区、省和市预测精度趋势

4 结束语

References