Land Use Classification Based on Massive Human-Activity Spatio-temporal Data

  • LU Guozhen , 1, 2 ,
  • CHANG Xiaomeng , 2, * ,
  • LI Qingquan 1, 2 ,
  • ZHAO Qingliang 3
  • 1. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
  • 2. Shenzhen Key Laboratory of Spatial Smart Sensing and Services, Shenzhen University, Shenzhen 518060, China
  • 3. Beijing Institute of Surveying and Mapping, Beijing 100038, China
*Corresponding author: CHANG Xiaomeng

Macroscopically monitoring the status of urbanization and fast acquiring the land covers or land use in urban areas is essential for urban planning, management and scientific policy-making. The rapidly developing remote sensing technologies have been recognized as an essential approach to carry out this work because of their vital ability to capture the physical features of different land use, such as the spectral and textural properties. However, these technologies could not reveal the heterogeneity of urban development and differentiate the vitality in and among cities with the similar physical properties interpreted from remote sensing images. Human-activity based sensing technologies nowadays have been recognized as a promising alternative to resolve these problems. Spatio-temporal distribution of human activities could be derived from mobile phone records and smart card records stored in the public transportation systems, social media or social networking services (SNSs), and etc. They are good indicators for the social function of land use and urban vitality. We proposed types of indices to bridge the relationships between the intensities of human activities and land covers. Similar to the spectral bands of remote sensing images, more than thirty social bands were generated in this paper to describe the social characteristics of ground objects by aggregating and gridding human activities into pixels. According to the spectral profiles of eight land covers, a supervised classification approach was then applied to infer the land covers of the research area. Validation experiments were conducted in Shenzhen, China using a large-scale of people’s historical login information on Tencent QQ, which is the most popular SNS, during 2013. Results showed that the land cover of Shenzhen could be determined with a detection rate of 72% according to an urban planning map of Shenzhen. Compared to the classification results from remote sensing images, the human-activity based sensing technologies can obtain more detailed insight into the urban form, city skeleton, and the heterogeneity of development and vitality in different urban areas.

1 引言

随着信息通信技术(Information Communication Technology,ICT)、基于位置服务(Location Based Services,LBS)等的发展,高精度、高频次的人类时空活动信息的获取成为可能[11-13],人人都是传感器的愿景正在实现[14-15]。海量、多源的人类时空活动数据为城市时空间行为研究提供了新的解决途径[15-17],基于“人”的城市感知成为城市研究的新角度[18]。Ratti最早论述了包含个体位置信息的人类活动数据对于城市分析的巨大潜力[19]。由于手机的广泛使用,人类活动的昼夜节律性通过手机通话记录(Call Detail Record,CDR)可清晰地反映,基于此构建的时间序列被广泛用于城市地类的推断[20-23]。不同于手机数据,GPS浮动车数据能够周期性的记录移动对象的位置信息,获得更加精细化的移动轨迹,不同时间、位置的上下车人数与城市地类间的关系也受到了学者的关注[24-25];公交IC卡所记录的居民出行行为则能在更大的空间尺度上分析城市的空间结构[26];另外,随着人们对于分享和表达诉求愿望的日益强烈,在社交网络上分享、上传包含时间戳与位置标签的文字、照片等也为人类活动研究提供了新的数据源[27-28]。相较于传统基于物理特征的简单地类划分,基于人类时空活动信息的城市地类提取更多的考虑了社会经济等属性。
然而,不同的人类时空活动数据也在不同程度上存在着缺点。首先,部分数据的定位精度不够高。例如,手机通话所记录的时空活动信息由基站记录[14, 29-30],因此,定位精度只能达到基站级别,且取决于基站的密集程度。其次,时空活动信息仅在事件被用户触发时才被动记录,例如,Flickr上收集的带有位置标签的照片需要用户主动上传位置信息[15];再次,时空数据的分布具有明显的稀疏性,例如,签到数据更多的分布于商业区而非住宅区。

2 研究区域概况及数据源

本文选择深圳市为研究区,其地处广东省南部,珠江三角洲东岸,与香港一水之隔,东临大亚湾和大鹏湾,西濒珠江口和伶仃洋,南隔深圳河与香港相连,北部与东莞、惠州接壤。深圳市总面积2020.5 km2,自1980年成为特区以来,由一个人口33万的沿海渔村小镇发展成为中国最大的移民城市,截止2014年常住人口约1077万人[32]。伴随着特区的城市化进程,曾经的山地、海洋等大面积转化为建成区,这种土地类型的变更随着城市人口的扩张仍在进行。
本文采用的人类时空活动数据来自腾讯QQ-中国用户量最大的即时通讯服务提供商。截止到2014年11月,QQ的月活跃用户已经达到8.29亿,同时在线人数超过2亿[33]。实验从8.29亿活跃用户中随机抽取了34 047 101匿名用户(其中深圳市用户4 053 216),并收集了这些用户在2013年共 548 433 983条轨迹点信息。为了保护用户的隐私,对所有用户的ID进行了多次加密,移动轨迹被进行了一定程度的空间扰动。

3 基于人类电子足迹数据的土地利用类型获取方法

Fig. 1 Framework of urban land user classification using human-activity tracking data

图1 基于人类时空活动提取土地利用类型的流程图

3.1 时空活动数据的格网化

实验的原始数据为每个匿名用户在一年内登录的位置信息(经度、纬度值),为了便于从不同角度提取特征,首先将研究区域划分为一定大小的格网。考虑GPS的定位精度,实验将深圳市划分为0.6 s的格网,约为18 m×18 m,每个格网可看做遥感影像中的一个像元,整张影像覆盖深圳地区。每个像元的DN值反映了相应指数描述下人类活动的强度信息。

3.2 “类高光谱影像”合成

3.2.1 人类活动指数的定义
鉴于人们日常活动最频繁的地点一般为住宅或工作地,因此,本文假设用户访问频次最高的位置(Top 2)(一般为住宅或办公用地)对应的格网为该用户的归属地。首先统计研究区域内每个格网中落入的最高频次(Top 2)的用户数量,即为该格网内的本地用户量,并用本地用户量指数NLR(Number of Local Residents)来定量描述本地用户的分布如式(1)。
NL R i = p = 1 P b p , b p = 1 , i { g p } 0 , i { g p } (1)
式中, { g p } 是用户 p 历史登录频次最高的2个位置; P 是研究区域内的本地用户总量;同时,由于NLR与当地的人口密度直接相关,因此定义指数DLR(Density of Local Residents)来反映本地用户的密度(式2)。
式中, A m 是区域 m 的所有格网点; Π m 是区域 m 内本地用户总量。
除了以上2个指数,本文还定义了3类吸引力指数AI(Attractiveness Indicators),分别为访问人数指数NV(Number of Visitors)、访问强度指数TIV(Total Intensity of Visits)和平均访问强度指数AIV(Average Intensity of Visits);并根据地域的不同,对每一类指数分别从全体用户、本地用户、外地用户3个方面进行统计分析。具体的指数描述如表1
Tab. 1 The description of human activity bands

表1 人类活动指数描述

指数 波段 波段全称 公式 统计方式 指数含义
NV NWV Number of Whole Visitors 反映格网被访问的人数,用以提取诸如博物馆、公园、旅游景点等访问人数很高的区域
NLV Number of Local Visitors
NOV Number of Outside Visitors
TIV TDW Total Visit Days of Whole Visitors 用户访问总天数 反映格网被访问的人次,用于提取诸如工作地、住宅地等被频繁访问的区域
TDL Total Visit Days of Local Visitors
TDO Total Visit Days of Outside Visitors
TTW Total Visit Times of Whole Visitors 用户访问总次数
TTL Total Visit Times of Local Visitors
TTO Total Visit Times of Outside Visitors
AIV ADW Average Visit Days of Whole Visitors ADW= TDWNWV 用户访问总天数 访问人次与访问人数的比值
ADL Average Visit Days of Local Visitors ADL= TDLNLV
ADO Average Visit Days of Outside Visitors ADO= TDONOV
ATW Average Visit Times of Whole Visitors ATW= TTWNWV 用户访问总次数
ATL Average Visit Times of Local Visitors ATL= TTLNLV
ATO Average Visit Times of Outside Visitors ATO= TTONOV
ADWPLR Averge Visit Days of Whole Visitors by Per-capita Local Resident ADWPLR= TDWNLR 用户访问总天数 访问人次与本地用户密度的比值
ADLPLR Averge Visit Days of Local Visitors by Per-capita Local Resident ADLPLR= TDLNLR
ADOPLR Averge Visit Days of Outside Visitors by Per-capita Local Resident ADOPLR= TDONLR
ATWPLR Average Visit Times of Whole Visitors by Per-capita Local Resident ATWPLR= TTWNLR 用户访问总次数
ATLPLR Average Visit Times of Local Visitors by Per-capita Local Resident ATLPLR= TTLNLR
ATOPLR Average Visit Times of Outside Visitors by Per-capita Local Resident ATOPLR= TTONLR
3.2.2 合成“类高光谱影像”波段上述人类活动指数定义生成相应的波段,获得基于人类时空活动数据的类高光谱影像,以反映人类时空活动相应于不同指数的特征。类似地,通过任意3个波段的假彩色合成影像也有助于目视解译。如图2所示,城市的街区和主干路已能清晰地分辨出来。
Fig. 2 Example of three bands and their false color composite image derived from human-activity sensing images

图2 “类高光谱影像”的示例波段及合成的假彩色影像

本文通过对波段进行相关性分析,共选取了以上22个波段中的9个波段进行分析,分别是NLR(Band I)、NLV(Band II)、NOV(Band III)、TDL(Band IV)、TDO(Band V)、ADL(Band VI)、ADO(Band VII)、ADLPLR(Band VIII)和ADOPLR(Band IX)。

3.3 “类高光谱影像”地物波谱响应分析

3.3.1 基于人类时空活动数据的土地分类系统
利用影像进行地类推断最早被广泛应用于航空影像[34],然而,由于分类系统不统一,增加了大量的重复性劳动。Anderson于1976年最早对基于遥感影像的分类系统进行了标准化工作,将其划分为9个一级类,37个二级类[35]。这9个一级类分别为:建成区(Urban or Built-up Land)、农业用地(Agricultural Land)、牧草地(Rangeland)、林地(Forest Land)、水体(Water)、湿地(Wetland)、裸地(Barren Land)、冻土地(Tundra)、积雪地(Perennial Snow or Ice)。目前,遥感影像的分类系统大多采用其中的部分或根据实际需求调整而得[36]
由于该分类系统已被广泛认可和应用,本文的分类工作将参考该分类系统进行;加上人类活动在山地、水库、湖泊等人迹罕至区域几乎无数据,因此本文的分类工作重点围绕人类活动相对频繁的建成区展开。首先,将建成区划分为日常工作涉及较多的建筑群区域(Buildings)、交通用地(Transportation Areas),以及更趋于休闲、娱乐的市内绿地(Urban Green Land)、市内水体(Urban Water Surface);其次,由于人类活动在相同地类的频繁程度存在差异,进一步将建筑群(Buildings)划分为活动密集型(Buildings with dense-activity)和活动稀疏型(Buildings with sparse-activity)2类,对于交通用地则根据人流量的大小划分为一级道路(Main Road)和二级道路(Secondary Road)。至于建成区外少量极稀疏的数据点区域,简单划分为市外绿地(Field Vegetation)、市外水体(Field Water Surface)。
3.3.2 波谱响应曲线分析
为了定量分析“类高光谱影像”对于地物的可分离性,实验选取了研究区域内包括活动密集型建筑群(Buildings with dense-activity)、活动稀疏型建筑群(Buildings with sparse-activity)、一级道路(Main Road Surface)、二级道路(Secondary Road Surface)、市内绿地(Urban Green Land)、市外绿地(Field Vegetation)、市内水体(Urban Water Surface)、市外水体(Field Water Surface)8类地物的样本,统计了各类地物在不同波段的均值,获得了地物关于“类高光谱影像”的响应曲线,如图3所示。
Fig. 3 Spectral profiles derived from human sensing images of nine major land cover types in Shenzhen area

图3 深圳地区的“类高光谱影像”的波谱响应曲线

图3可看出,市外水体、市外绿地在各个波段的响应值都极小,而活动密集型建筑群和一级道路在各个波段的响应值都很大,尤其是Band I(NLR)、Band VI(ADL)。对于大部分波段,活动密集型建筑群的响应值都大于一级道路,差异最大的波段为Band IV(TDL)和Band V(TDO);然而,Band VII(ADO)一级道路的响应值比活动密集型建筑群大。活动稀疏型建筑群、二级道路、市内绿地、市内水体的响应值介于一级道路与市外绿地之间;其中,二级道路与市内绿地响应曲线的趋势类似,二级道路的响应值均大于市内绿地。相较于二级道路和市内绿地,活动稀疏型建筑群在Band I(NLR)、Band III(NOV)、 Band VII (ADO)值最大,在Band IV(TDL)、Band VIII(ADLPLR)值则最小。
上述分析可看出,活动密集型建筑群、一级道路具有较高DN值,而市外绿地、市外水体具有较低DN值,二者区分明显;根据Band IV(TDL)(或 Band V)、Band VII(ADO)的特点,活动密集型建筑群与一级道路有可能区分开;尽管市外绿地、市外水体在Band VII(ADO)到Band IX(ADOPLR)的各个波段均有少许差别,但二者依然很难分开。根据Band I(NLR)、Band III(NOV)和Band VII(ADO),首先可区分活动稀疏型建筑群与其他地物,而二级道路在大部分波段都具有较高的响应值,因此可与市内绿地区分开。

4 “类高光谱影像”土地利用及精度 评价

4.1 基于“类高光谱影像”的土地利用图

为了提高分类结果的可靠性,实验共进行了10次,分类结果如图4所示。活动密集型建筑群与活动稀疏型建筑群的主要差异为人类活动的频繁程度不同。图4(c)为深圳的罗湖区、福田区交界区域,属于深圳开发较早的城区,是深圳主要的金融区与商业中心区,因此在活动频次、活动人次上都表现为活动密集型的区域;图4(b)为深圳的宝安区,近几年才开始开发,尽管高楼林立,但活动强度仍明显弱于老城区,属于活动稀疏型建筑群。对于道路的分类,在一些高热点区域,道路和活动密集型建筑群会出现混淆,如图4(c)的最右边部分建筑群被分为一级道路,主要原因在于该地区包含有大剧院、国贸等人流量大、访问频次低的POI(Point of Interest),因此,从人类时空活动的角度出发,这些区域与一级道路的特征更为接近;对于一般的城区,街区内的道路可较为完整、准确地提取(图4(b))。同时,公园、高尔夫球场等市内绿地也能获得,但是与市外道路被混为一类,原因仍在二者均表现为相对较高的人流量和相对较低的访问频次等类似特征,区分这2类区域是下一步的工作之一。
Fig. 4 Result of land use classification in Shenzhen

图4 深圳市的土地利用分类结果图

4.2 精度评价

通过分析混淆矩阵(表2)、生产者精度和用户精度(图5)可看出,绿地具有最高的生产者精度(除去未分类),主要是因为绿地在“类高光谱影像”上的响应值要比建成区、道路低很多,而又明显强于水体等几乎无响应值的未分类区域,因此,更易于与其他地物区分,分类精度较高。另外,道路的用户精度最高(图5),说明基于人类时空活动的“类高光谱影像”对于探测道路具有很大优势;但是道路的生产者精度不到60%,建成区的生产者精度稍高(68%),这主要是建成区与道路在热点区域具有相似特征,即二者在人类时空活动强度方面表现一致,因此无法区分;图4 (c)中的混淆区域即是这一现象的说明。
Fig. 5 Producer’s and user’s accuracies of the classification

图5 分类结果的用户精度、生产者精度

Tab. 2 Confusion matrix of the classification

表2 分类结果的混淆矩阵

建筑群 道路 市内绿地 其他
建筑群 0.6807 0.2037 0.0903 0
道路 0.1171 0.5955 0.0602 0
市内绿地 0.1431 0.1913 0.7398 0.0024
其他 0.0591 0.0095 0.1097 0.9976

5 结论与展望


