Extracting and Analyzing Latent Semantic Characteristics of Locations Using Social Media Data

  • CHEN Yuanyuan ,
  • GAO Yong , *
  • Institute of Remote Sensing and Geographic Information System, Peking University, Beijing 100871, China
*Corresponding author: GAO Yong, E-mail:

Received date: 2017-07-04

  Request revised date: 2017-09-07

  Online published: 2017-11-10


Social media data are increasingly perceived as an important channel to record people’s perception by virtue of its large volume, availability and timeliness. Especially, some social media data are location-stamped, associating with the space in the city with human cognition. Thus, we can further manifest the sociocultural signature of places in a semantic way. In this paper, geo-tagged text data on Weibo were utilized to explore the hidden semantic characteristics of locations, with focus on semantic similarities among regions. Specifically, Latent Semantic Analysis (LSA) were introduced to transform the unstructured regional and semantic feature in social media into a cognition-friendly and deep-related vector. Then, spatial analysis method, including factor analysis, spatial correlation analysis and clustering analysis were employed to mining the hidden characteristics of locations. In terms of research results, different latent topics and their distribution across the city were uncovered. Similarity index of tested locations were then obtained by measuring their latent semantic features. Baidu-pedia entries were further used as empirical consensus and spatial autocorrelation analysis was employed to investigate urban functional hot-regions. Besides, spatial clusters were acquired by using K-MEANS method in latent semantic space. Its effectiveness was validated by the diversity of POI density among clusters. This study demonstrates how the semantic meaning of a space can be harvested through the analysis of crowd-generated content in social media, which is useful to capture the unique themes that shape a location and support urban planning.

CHEN Yuanyuan , GAO Yong . Extracting and Analyzing Latent Semantic Characteristics of Locations Using Social Media Data[J]. Journal of Geo-information Science, 2017 , 19(11) : 1405 -1414 . DOI: 10.3724/SP.J.1047.2017.01405


1 引言


2 研究方法

本文利用社交媒体对位置潜语义进行提取和分析,首先需要将位置特征与语义特征关联起来,采用潜语义分析(Latent Semantic Analysis, LSA)方法,实现对大数据量的语料库知识自动提取和表 达[21]。在此基础上,再结合空间分析的各类方法对位置潜语义特征进行深入分析。
潜语义分析的数学基础是奇异值分解(Singular Value Decomposition, SVD),基本思想是用文档中词语之间存在的隐含的概念结构取代关键词,对文档进行描述。在LSA的处理过程中,首先需要选定个词,然后将每个文档表示成这些词的集合,因而一个包含个文档的语料库就可以表示为的矩阵 A = [ α ij ] ,其中表示词项i与文档j的共现程度,通常用TF-IDF(Term Frequency- Inverse Document Frequency)模型或对数熵(Log-entropy)模型进行加权处理。对矩阵进行奇异值分解,可 得到:
A = V T (1)
式中:是由词(AAT)的r个特征向量组成的的正交矩阵 U = ( u 1 , u 2 , , u r ) ;是由文档(ATA)的r个特征向量组成的的正交矩阵 V = ( v 1 , v 2 , , v r ) ; Σ = diag ( σ 1 , σ 2 , , σ r ) 是对角矩阵,其中 σ 1 σ 2 σ r ,是A的奇异值;是文档在词的公共主成分上的词项荷载;则相应地对应公共主成分在文档上的荷载。取前k个奇异值,以及矩阵UV的前k列: U k V k ,则可以得到矩阵A的一个降维表达:
A k = U k Σ k V k T (2)
对词项-位置矩阵进行奇异值分解后得到3个部分,表示位置的公共主成分上的词项荷载,即 u ij σ j 表示主成分j与词项i之间的相关系数。一个主成分如果具有显著的主题特征,词项的荷载则会明显区别于均匀分布,而倾向于集中在特定话题的词下,成为主题。因此可通过对主成分j下的 u ij σ j 的计算和排序,找到相关系数最高的关键词,从而对主题进行命名。例如,排序后,某主成分的关键词表现为“门票”、“景点”、“游客”等,则可命名为“旅游主题”。另外,根据SVD的对偶关系,也可通过对 v ij σ j 进行计算排序,得到主题j在研究空间上的显著热区。同时,由于该方法得到的主题是相互正交的,对于消除特征领域存在的语义交叉也有很好的效果。
经过LSA处理后得到位置在潜语义空间上的隐含信息的结构化表达。因为这种表达不仅是对词频和共现关系的体现,更是对于深层信息的挖掘表现,消除了词之间的相关性,故有助于更好地进行位置相似性的度量。具体的,研究区域中已有的位置i,对应LSA降维后的矩阵的第i列,故可以直接计算其与研究范围内任意位置(矩阵的任一列)在潜语义空间上的向量相似度,如余弦相似度。对该相似度进行排序,则可得到与位置i最相近的地区分布。实际上,对于任意一个文本,均可以在分词处理后描述为选定词的向量空间模型(VSM)上的表达Q,进而则通过式(3)将其转换到与研究区域相同的潜语义空间上,标准化后利用 式(4)计算得到其与所有位置的相似性矩阵R
Q ' = Q T U k Σ k - 1 (3)
R = ( Q ' ) T A k (4)
分析R矩阵的实际意义,如果输入文本Q是针对位置的描述,那得到的相似性可以理解成新的地点与研究区域内的位置,在语义空间上的相似性衡量;如果输入文本Q是一种先验知识,得到的相似性则可以理解为一种监督的标注,相似性的大小表示某地区针对该先验的隶属度,如当Q是教育类文本时,则可以用来描述地区对于教育在潜语义空间上的隶属关系。在此基础上,进一步对相似性矩阵R进行局部空间自相关的分析,则可以得到功能区分布的热区。具体来说,常用的Local Moran’s I指数实际上是Gamma指数(式(5))的一种特例,用来描述特定属性在空间分布上的聚集情况,通过定义位置i与邻域范围内的位置j的位置相似性,以及属性相似性来实现。而R矩阵在这里就是一种对潜语义空间上位置间属性相似性的度量。尤其在以先验性的知识文本描述Q为输入得到的情况下,对R矩阵中的属性相似性进行局部空间自相关的分析,高值聚集的结果则对应某一类别下高隶属关系的地区集合,从而可得到功能类别的热区集合[20]
Γ i = i n j n w ij a ij (5)

3 结果与分析


3.1 实验数据与预处理

本文以北京为研究区,通过微博提供的API抓取了北京市五环内2016年1月-2016年9月的微博签到数据共2 361 729条,选用北京市651个交通小区[28]为地理数据组织的基本单元。交通小区是利用城市主要道路网络对城市空间进行地块划分得到的,相对于格网划分单元,其内部具有更高的城市功能和信息交互上的同质性。
微博的签到数据含有噪音,并且因其短文本的特性,存在部分没有可辨识的语义信息的描述,因此需要对其进行预处理。在处理过程中,首先删除签到文本中的#话题#、[表情]、@用户、http超链接等无关信息,然后删除字数小于4的、以及其他的重复文本(如打卡数据、网易云音乐的歌词分享、“分享视频”),并对签到文本进行分词。由于词项的选择对于潜语义空间的构建至关重要,过多会导致较大的计算开销和矩阵描述的稀疏性,因此在分词后只保留了文本中的形容词、副词、名词、动词、地名和团体机构名共个,得到1 547 434条有效数据。接下来通过空间连接对微博文本进行聚合,将同一个交通小区内的所有微博视作同一个文档。经过上述处理后,最终得到的位置文本矩阵作为后续分析的基础。

3.2 维度选择与主题提取

由于LSA中维度k对分析结果具有显著的影响,在实验中采取了多种方式对k值进行探索。分别以Doxas等[22]的研究结论k=8、Profile Likelihood Test[23]的结果k=50,以及大于1的奇异值个数k=150作为备选参数,在此基础上分别进行K-MEANS、WARD层次聚类和谱聚类,并以轮廓系数作为聚类结果的衡量指标,发现在KMEANS和WARD方法中,k=8的聚类效果在聚类数目设置成2-20的过程中始终远高于后二者,而考虑到谱聚类仅在类别数较少时的适用性,k=8的结果也明显优于后二者 (图1)。同时,因为研究的语料库为微博的签到文本,多为字数小于140的短文本,即便按照空间关系进行了聚合,相较于传统的长文档,仍具有较多的干扰信息,因此选择保留较高的维度来解释原始数据中的较多信息意义不大。因此,最终选择k=8为本实验中LSA分析的维度。
Fig. 1 Silhouettes of clustering in different LSA dimensions

图1 不同维度数目下聚类轮廓系数

在此基础上,提取了8个主题中的3个有典型意义的主题(topic 2-4),对各个主题的关键词绘制词云(图2(a)-(c))。由图发现,各主题的关键词有很强的倾向性与区分性:主题2的关键词多为北京市的著名景点,如“南锣鼓巷”,“颐和园”,“故宫”,以及北京的特色小吃和活动,如“豆汁”、“升旗”;主题3的关键词则表现为学校内的设施,如“实验室”,“图书馆”,以及学习生活的相关方面,如“复习”,“答辩”、“毕设”;而主题4的则体现为各种出行活动,包括各类车站,“候车”、“检票”等。因此,可将3个主题分别命名为“旅游”、“学习”、“交通”。不同主题对应的热点区域存在显著差异,且与各主题的语义内容相一致。如“旅游”主题集中在中轴地区的故宫、北海、南锣鼓巷,以及其他的天坛和颐和园地区;“学习”主题集中在海淀区的大学,如北京师范大学,北京交通大学,北京大学和清华大学,其他一些零散的区域包括了首都经贸大学、北京化工大学和北京中医药大学;而在“交通”主题下,则显著地提取出了北京西站、北京南站、北京北站和北京站4个火车站,以及五环内的南苑机场。由此证明,在社交媒体数据上使用LSA的方法,能够高效地 提取出其中的潜在概念结构,并且在位置相关的 语境下,能够充分地从人们的认知中反演出场所的特征。
Fig. 2 Word cloud and hot spots of Topic 2-4

图2 潜语义空间上的主题词云和热点区域分布

3.3 位置的相似性分析

Fig. 3 Similar locations of test regions

图3 局部地区的相似地点分布

实验采用局部空间自相关的方法,来发现特定功能类别的热区。以2类词条作为测试:包括教育(如科学、科普、教育、学习、学校、文化)和交通(交通、出行、客运站、车站、高铁站、飞机站),空间邻接关系用面单元的边角邻接(Queen Contiguity)定义,结果如图4所示。由图4可以看到,教育功能区主要包括海淀区的大学城,以及惠新西街附近的大学聚集区;而在交通主题下,则检测到高铁站、客运站的热点。相较于直接使用单个区域的相似度衡量,首先以词条为输入得到的是一种监督的标注;另外,空间自相关的分析方法进一步考虑了位置的邻域关系,可以得到热区而非热点。同时,局部空间自相关的方法还有利于探测异常的模式,如在教育主题下北三环上存在一个Low-High地点,其为农科院的实验田,与周围的教育用地存在显著的差异,也进而证实了分析的合理性。
Fig. 4 Hot spots distribution of urban functional regions

图4 特定功能类型下的热区分布

3.4 聚类与功能区识别

Fig. 5 K-MEANS clustering results of areas within 5th Ring Road Beijing

图5 五环区域内的全局聚类结果

对各个区域的分布和高频词(对常用词进行了过滤处理)进行分析得到:① Clust1面积较小,没有明显特征,主要表现为在空间上与周边存在明显异质现象的区域,如教育区环绕的颐和园和农科院试验田,以及一些铁路干线附近的居民区。该类别的高频词,主要表现为面积占优的“颐和园”、“昆明湖”和一些日常的居家活动,如“配钥匙”、“睡觉”。② Clust2是面积最小的聚类区域,但签到密度较高,主要分布在北京的交通枢纽上,包括各个高铁站、南苑机场和客运站。③ Clust3分布在北京的一些零散景点,包括奥林匹斯森林公园、动物园、大观园、玉渊潭和欢乐谷等。高频词也体现为一些关键的地名,以及与该区域相关的特征活动,如玉渊潭的“樱花”,鸟巢的“发布会”、“演出”“现场”。 ④ Clust4分布在天安门为中心的北京中轴线上的区域,这个类别的组成较为复杂,高频词不仅包括代表性景点,如“天安门”、“故宫”,还有与“上班”、“使馆”这类工作相关的商区。但这一区域的签到十分密集,也是北京人群集中的区域和代表性区域。⑤ Clust5是在聚类结果上面积最大的区域,但签到频次较低。其主要分布在北京南城的居民区,除住宅外没有明显的场所特征。⑥ Clust6 集中在北京西北的海淀区,朝阳区的北京化工大学和北京中医药大学,以及东四环附近的北京工业大学;高频词关于“学习”、“毕业”、“校园”、“图书馆”的显示也表明了其教育类型的属性。⑦ Clust7 分布在北京东城区的朝阳、望京地区。并且从高频词上可以看到这部分区域的人较为关注“上班”、“下班”、“地铁”等通勤工作事项,以及“电影”、“咖啡”、“美食”、“艺术”等休闲享乐。也反映了这部分地区商业、传媒等第三产业较为发达,市民生活水平较高的特点。⑧ Clust8面积次大,签到数最多,它和Clust5较为类似,可能也是一些主要的居住用地,只是在分布上多在北京中轴线北边。
为了进一步分析每一个类别的功能特征与语义特征的关系,本文引入了北京市POI数据对聚类结果进行识别。该数据集包含北京市内30多种类别的POI共111 751个,实验中选取北京市五环内的18种POI,分别是:银行/ATM 1632个,公司企业6266个,商务大厦1636个,科技馆19个,美术馆129个,度假村14个,垂钓13个,住宅6339个,超市或便利店2082个,餐饮7663个,咖啡馆/茶店845个,电影院98个,KTV 251个,火车站/飞机场19个,图书馆226个,学校1814个,科研机构778个以及培训机构722个。
对每一类地块,计算各种POI点在地块内的分布密度, de n i = N i / S i ,并通过常用的最大最小值的归一化方法: de n i ' = ( de n i - de n min ) ( de n max - de n min ) ,对各区域各类POI的密度作去量纲处理,使之具有可比性。各类POI的密度在8种地块聚簇中呈现一定的规律性,为使结果具有更强的直观性和说明力,根据POI的相似性将其分为4组,分别绘出各组POI在8类用地上的垂直线图,其结果如图6所示。
Fig. 6 The normalized density of POI in each cluster (drop-line chart)

图6 各聚类地块归一化POI密度的垂直箱线图


4 结论与展望


The authors have declared that no competing interests exist.

