

  • 周艳 , 1, 2 ,
  • 李妍羲 , 1, * ,
  • 黄悦莹 1 ,
  • 耿二辉 1
  • 1. 电子科技大学 资源与环境学院,成都 611731
  • 2. 电子科技大学 大数据研究中心,成都 611731

作者简介:周 艳(1976-),女,陕西西安人,博士,副教授,主要从事地理信息系统应用和空间大数据分析。E-mail:

收稿日期: 2017-04-30

  要求修回日期: 2017-07-20

  网络出版日期: 2017-10-09





Analysis of Classification Methods and Activity Characteristics of Urban Population based on Social Media Data

  • ZHOU Yan , 1, 2 ,
  • LI Yanxi , 1, * ,
  • HUANG Yueying 1 ,
  • GENG Erhui 1
  • 1. School of Resources and Environment, University of Electronic Science and Technology of China, Chengdu 611731, China
  • 2. Big Data Research Center, University of Electronic Science and Technology of China, Chengdu 611731, China
*Corresponding author: LI Yanxi, E-mail:

Received date: 2017-04-30

  Request revised date: 2017-07-20

  Online published: 2017-10-09


周艳 , 李妍羲 , 黄悦莹 , 耿二辉 . 基于社交媒体数据的城市人群分类与活动特征分析[J]. 地球信息科学学报, 2017 , 19(9) : 1238 -1244 . DOI: 10.3724/SP.J.1047.2017.01238


With the rapid development of spatial information technology, the concept of Pan-spatial Information System has been proposed. It extends the scope of spatial information system from the traditional mapping space to the space, interior space, microscopic space and other measurable space. Location data is one of the important research objects of Pan-spatial Information System and it has become a way of studying people's social life and urban dynamics. In this paper, we propose a new crowd classification method based on check-in data which is different from the traditional method based on socioeconomic attributes. Firstly, using the time series of check-in data, we build a matrix model. Then, we analyze the temporal characteristics of residents’ check-in activities. The analytical process starts from spatial-temporal profiles, learns the different behaviors, and returns annotated profiles. In the analytical process, we use the K-means clustering algorithm and K-NN algorithm to learn how to annotate profiles with a city user category (resident, dynamic resident, commuter, or visitor). Finally, according to the classification results of the population, we analyze the temporal and spatial behavior of different city user category and find their differences and potential regularity of spatial behavior. Our method can be applied to a new research perspective for characterizing the composition and characteristics of the urban population and studying urban spatiotemporal structure.

1 引言


2 时序矩阵分析与城市人群分类

2.1 位置签到数据的时序矩阵构造

社交媒体数据中的位置签到数据不仅包含了地理信息,还记录了用户的签到时间,可以将时间序列以适当的时间间隔进行划分,构造出便于定量分析的位置签到数据时序矩阵。鉴于位置签到数据自身的稀疏性特点,本文将1年以每2个月为单位进行时间序列划分;其次,考虑到人群签到行为在不同时间具有不同的时空特性,本文将每个月的时间序列划分为休息日和工作日;对于一天而言,考虑到不同时间段对人群签到行为的影响,又可以将其划分为多个具有代表性的时间段,如早高峰时段、工作时段、晚高峰时段和非工作休闲时段等,因此,本文中将一天划分为4个时间段(t1, t2, t3, t4)。根据时间序列的划分,可以构造出如图1所示的时间序列矩阵。以一年时间为例,其时序矩阵为一个4行12列的矩阵,其中4行代表有4个时间段,12列代表有将12个月按每2个月划分为6个组,而每个组又分为休息日与工作日。每个格网所包含的数字代表该用户在该时间窗口的签到次数,0代表无签到记录。
Fig. 1 The construction method of time series matrix

图1 时序矩阵构造方法

2.2 城市人群分类

(1)静态居民:指居住和工作都在城市A的城市人群。他们的时序矩阵表现为大部分格网所包含的数字非0,即在大部分时间窗口都具有签到 记录。

2.3 基于时序矩阵的探索性分析与评价

根据2.2节提出的城市人群分类标准,基于用户签到行为的时间序列位置信息数据对用户 进行分类。本文提出的分类过程主要包括以下2个步骤:
F 1 = 2 PR P + R (1)
式中: P = TP TP + FP 为精确率,即预测正确的正例数据(TP)占预测为正例数据(TP+FP)的比例; R = TP TP + FN 为召回率,即预测正确的正例数据(TP)占实际为正例数据(TP+FN)的比例。

3 实验与分析

本文采用2014年1月至2015年2月深圳和香港2个地区的新浪微博兴趣点(Point of Interest,POI)及签到数据集,该数据集由第二届城市数据大赛的主办方深圳大学空间信息智能感知与服务深圳市重点实验室提供并进行了初步整理。签到数据集包含POI的ID、用户ID、用户所在地、签到时间共4个数据项,POI数据集包含POI的ID、名称、地址、类别、经度、纬度共6个数据项。

3.1 数据预处理


3.2 签到数据集的时序矩阵分析

Fig. 2 Examples of time series matrix of each type of urban population categories

图2 每类城市人口类别的时序矩阵示例

Fig. 3 Individual check-in profiles’ categories and classification quality: the result of the semi-automatic labeling over the reduced time windows of one, two, three and four months, respectively

图3 月份组合数为1、2、3、4的城市人口类别及总体的分类结果质量比较

3.3 城市人群的时空间行为特征分析

Fig. 4 The check-in law of change of different types of people in different time period

图4 不同类型人群在不同时间段签到变化规律

Fig. 5 Community discovery of check-in trajectory networks of different types of people

图5 不同类型人群签到轨迹网络的社区发现结果


4 结论


