Orginal Article

Topic Model Combined with the SVM for Small Scale Land Use Classification

  • WEN Congcong , 1, 2 ,
  • PENG Ling , 2, * ,
  • YANG Lina 2 ,
  • CHI Tianhe 2
  • 1. University of Chinese Academy of Sciences, Beijing 100049, China
  • 2. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China
*Corresponding author: PENG Ling, E-mail:

Received date: 2017-05-23

  Request revised date: 2017-11-12

  Online published: 2018-03-02

Supported by

[ Foundation item: National Science and Technology Support Program, No.2015BAJ02B00


Urban land classification is the foundation of urban planning, whose result is of great significance to the allocation of urban resources and the development of urban construction. Previous researches of urban land classification are mainly focused on the study of macro-scale areas, which is characterized by “sparse road network and large block system”. However, with the development of cities, the planning model featured by macro-scale area has caused problems such as the low efficiency of urban traffic and land development. To solve these problems, the construction of urban blocks with small scales was put forward. To make full use of the potential value of the current big data of traffic in the block planning with small scales, this paper presents a land classification method for blocks with small scales through combining the topic modeling and support vector machine (SVM). The regions near People's Square of Huangpu District in Shanghai was taken as the study area. We firstly divided the study area according to fine road network, and then formed a regional mobility pattern through processing the data on the GPS of taxis in one week. By using the data on points of interest (POI), the model of Latent Dirichlet Allocation (LDA) and SVM model, the land use classes are identified. Accuracy assessment of the proposed method has been made based on classification map visually interpreted, and the obtained result has been approved by the geographic data of Baidu Map. The results indicated that this method enables the possibility of the land classification of small-scaled blocks, and could achieve high classification accuracy by utilizing the big data of traffic.

WEN Congcong , PENG Ling , YANG Lina , CHI Tianhe . Topic Model Combined with the SVM for Small Scale Land Use Classification[J]. Journal of Geo-information Science, 2018 , 20(2) : 167 -175 . DOI: 10.12082/dqxxkx.2018.170233

1 引言

现有研究中,移动通讯(GSM)和全球定位系统(GPS)数据被广泛应用于城市土地利用分类。 Yuan等[3]提出了DZoF(Discovering Zones of different Functions)模型,并基于该模型利用出租车GPS数据和城市兴趣点(POI)数据,推断北京市的用地类型;Pan等[4]利用4000辆出租车数据,提出了一种改进的密度聚类算法(DBSCAN),并比较了SVM、KNN、LAD、BP这4种分类方法,完成了城市土地利用分类;梁军辉等[5]通过对海量出租车GPS数据的时空挖掘,利用支持向量机(SVM)和粒子群优化算法在验证居民活动和出租车上下车活动与城市用地类型之间关系的基础上,对深圳市福田进行城市用地分类。
然而,在进行小尺度城市规划时,一般基于高分辨遥感影像采用人工解译或人工勾选训练样本的方法,完成土地分类,浪费了大量的时间和精力。Akanwa等[9]利用ArcGIS工具通过遥感影像的光谱特征人工勾选样本点,进行监督分类得到区域用地类型以分析露天开采对城市可持续性发展的影响;Rosana等[10]基于遥感和地理信息系统技术,通过人工目视解译得到巴西帕拉州泰兰迪亚镇 的土地利用类型并识别出区域中土地滥用情况;李英利[11,12]等采用人工解译方法实现地理国情普查中的土地分类,并介绍了人工解译的相关技巧;严枫等[13]利用高分辨率影像数据,采用人工目视解译结合人机交互式解译综合判读方法,获取遂宁市船山区新桥镇的土地利用类型。

2 研究区域及数据源

Fig. 1 Location of the study area

图1 研究区域位置

Tab. 1 Data specification

表1 研究数据说明

数据 年份 数量 详细说明
上海市区划图 2015 从区划图中选取黄浦区人民广场附近为研究区域
研究区域路网数据/条 2015 508 从上海市全部路网中提取研究区域内的路网,道路类别有一级道路、二级道路、三级道路等13类
研究区域内POI数据/个 2015 4716 从上海市全部POI数据中提取研究区域内的POI,共有交通设施、体育休闲、公司企业等19个类别
研究区域内出租车轨迹数据/万条 2015 734 从上海市全部出租车轨迹数据中提取研究区域内的轨迹数据

3 研究方法

Fig. 2 The basic framework of the method in this study

图2 本文方法的基本框架

3.1 构建区域移动模式

出发移动模式, M L = ( R o , R d , T l ) (1)
到达移动模式, M A = ( R o , R d , T a ) (2)
式中: R o 表示起始区域; R d 表示目的区域; T l 表示从起始区域出发的时间; T a 表示到达目的区域的时间。例如,一个人于14时从12号区域出发到达 18号区域,则其出发移动模式为(12,18,14)。

3.2 主题模型与SVM组合的用地分类

3.2.1 主题模型
主题模型(Topic Model)是一种统计模型,在自然语言处理和机器学习等领域被用来发现抽象的内在主题。其算法是一种统计方法,通过分析原文本中的词以发现蕴藏于其中的主题、主题间的联系以及主题随时间的演变,而且不需要事前对文档进行标记。Blei等[17]提出的隐含狄利克雷分布简称LDA(Latent Dirichlet Allocation),是一种常用的主题模型,目前在文本挖掘领域(包括文本主题识别、文本分类以及文本相似度计算等方面)应用较广。
3.2.2 区域用地分类体系
为了统一用地类型的分类类别,本文按照2015年城市用地分类与规划建设用地标准,将POI数据分成居住用地公共管理与公共服务设施用地、商业服务业设施用地、工业用地、道路与交通设施、绿地与广场用地6大类。同时,由于有些POI类别(如公共设施,地名地址信息)平均分布于各个区域,对于用地分类所起到的指导不大,因此应予以剔 除[20]。具体分类结果如图3所示。
Fig. 3 POI data classification

图3 POI数据分类图

3.2.3 支持向量机(SVM)
Corinna Cortes等[22]提出支持向量机(Support Vector Machine,SVM)在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。其主要目标为找出间隔最大的超平面来作为分类边界。在SVM中还引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地处理非线性分类问题,对于SVM的核函数,常见的有线性核函数、多项式核、径向基核(RBF)、傅里叶核、样条核等。 奉国和[23]对核函数比较后发现,RBF核函数表现相对稳定,而Polynomial 核函数与Sigmoid 核函数稳定性要差。因此本文选用高斯RBF核函数的支持向量机,其公式为:
K x i , x j = exp ( - γ x - x c 2 ) (3)
式(3)表示空间中任一点 x 到某一中心 x c 之间欧氏距离的单调函数。以RBF为核函数的SVM有 2个参数:惩罚因子C和核参数γ惩罚因子C代表对误差的宽容度,C越高,表示越不能容忍出现误差。核参数γ隐含地决定了数据映射到新的特征空间后的分布,γ越大,支持向量越少。本文基于python语言的scikit-learn机器学习工具包[24],实现Grid Search的方法来确定C和γ取值,完成支持向量机分类。

4 结果及分析

4.1 分类结果

Fig. 4 Regional segmentation

图4 区域分割效果图

Fig. 5 Supervised classification results of SVM by the LDA model

图5 LDA模型SVM监督分类结果

Tab. 2 The confusion matrix of the method proposed in this study

表2 本文方法混淆矩阵

方法结果 解译结果
居住用地 公共管理与公共服务设施用地 商业服务设施用地 工业用地 道路与交通用地 绿地与广场用地 总计
居住用地 822 10 8 9 20 136 1005
公共管理与公共服务设施用地 1 3 0 0 0 3 7
商业服务设施用地 1 3 62 1 2 17 86
工业用地 1 2 6 1 0 0 10
道路与交通用地 0 0 0 0 8 2 10
绿地与广场用地 2 0 0 4 1 32 39
总计 827 18 76 15 31 190 1157

4.2 实验对比

Fig. 6 A general method of the unsupervised classification results

图6 常规方法非监督分类结果

Fig. 7 The unsupervised classification results of K-Means by the LDA model

图7 LDA模型K-Means非监督分类结果

Tab. 3 The accuracy comparison of the experimental results

表3 方法精度对比

方法 总体精度 Kappa系数
常规特征非监督分类方法 0.298185 0.125381
LDA模型非监督分类方法 0.413654 0.251723
本文方法 0.802074 0.462550

4.2 实验对比

Fig. 8 Regional verification of Shanghai Music Hall (A point) and music square (B point)

图8 上海音乐厅(A点)及音乐广场(B点)区域验证

Fig. 9 Regional verification of an industrial company limited (C point) and an industrial technology company limited (D point)

图9 某工业有限公司(C点)及某工业技术有限公司(D点)区域验证

Fig. 10 Regional verification of the Oceanic Building underground parking garage (E point)

图10 海洋大厦地下停车场库(E点)区域验证

Fig. 11 Regional verification of Taiyuan street shops and other commercial shops around the corner (F point) and a residential building (G point)

图11 太原坊三街周围商店等商业店(F点)及居民楼(G点)区域验证

Fig. 12 Regional verification of Duxingli surrounding areas

图12 笃行里小区周边地区区域验证

5 结论


