Orginal Article

Topic Model Combined with the SVM for Small Scale Land Use Classification

  • WEN Congcong , 1, 2 ,
  • PENG Ling , 2, * ,
  • YANG Lina 2 ,
  • CHI Tianhe 2
Expand
  • 1. University of Chinese Academy of Sciences, Beijing 100049, China
  • 2. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China
*Corresponding author: PENG Ling, E-mail:

Received date: 2017-05-23

  Request revised date: 2017-11-12

  Online published: 2018-03-02

Supported by

[ Foundation item: National Science and Technology Support Program, No.2015BAJ02B00

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Urban land classification is the foundation of urban planning, whose result is of great significance to the allocation of urban resources and the development of urban construction. Previous researches of urban land classification are mainly focused on the study of macro-scale areas, which is characterized by “sparse road network and large block system”. However, with the development of cities, the planning model featured by macro-scale area has caused problems such as the low efficiency of urban traffic and land development. To solve these problems, the construction of urban blocks with small scales was put forward. To make full use of the potential value of the current big data of traffic in the block planning with small scales, this paper presents a land classification method for blocks with small scales through combining the topic modeling and support vector machine (SVM). The regions near People's Square of Huangpu District in Shanghai was taken as the study area. We firstly divided the study area according to fine road network, and then formed a regional mobility pattern through processing the data on the GPS of taxis in one week. By using the data on points of interest (POI), the model of Latent Dirichlet Allocation (LDA) and SVM model, the land use classes are identified. Accuracy assessment of the proposed method has been made based on classification map visually interpreted, and the obtained result has been approved by the geographic data of Baidu Map. The results indicated that this method enables the possibility of the land classification of small-scaled blocks, and could achieve high classification accuracy by utilizing the big data of traffic.

Cite this article

WEN Congcong , PENG Ling , YANG Lina , CHI Tianhe . Topic Model Combined with the SVM for Small Scale Land Use Classification[J]. Journal of Geo-information Science, 2018 , 20(2) : 167 -175 . DOI: 10.12082/dqxxkx.2018.170233

1 引言

城市用地分类作为城市规划重要的工作基础和技术依据,对城市建设发展具有重要意义[1]。而城市中的土地利用是人类活动长期作用的结果,人类活动对周围环境的影响是土地利用变化的根本因素[2]。城市交通网络的发展,积累了海量用户行为数据(如出租车乘车、地铁刷卡、公交到站等),使利用人类活动信息进行城市土地分类成为可能。
现有研究中,移动通讯(GSM)和全球定位系统(GPS)数据被广泛应用于城市土地利用分类。 Yuan等[3]提出了DZoF(Discovering Zones of different Functions)模型,并基于该模型利用出租车GPS数据和城市兴趣点(POI)数据,推断北京市的用地类型;Pan等[4]利用4000辆出租车数据,提出了一种改进的密度聚类算法(DBSCAN),并比较了SVM、KNN、LAD、BP这4种分类方法,完成了城市土地利用分类;梁军辉等[5]通过对海量出租车GPS数据的时空挖掘,利用支持向量机(SVM)和粒子群优化算法在验证居民活动和出租车上下车活动与城市用地类型之间关系的基础上,对深圳市福田进行城市用地分类。
上述研究都聚焦于宽路网的大尺度区域。随着城市发展,这种大尺度区域模式降低了土地的高效利用,带来了交通拥堵,街区活力下降,人文精神缺失等问题[6,7,8]。为解决这些问题,适应节约型社会建设的需求,实现可持续发展,国内外专家提出了小尺度街区的发展模式。
然而,在进行小尺度城市规划时,一般基于高分辨遥感影像采用人工解译或人工勾选训练样本的方法,完成土地分类,浪费了大量的时间和精力。Akanwa等[9]利用ArcGIS工具通过遥感影像的光谱特征人工勾选样本点,进行监督分类得到区域用地类型以分析露天开采对城市可持续性发展的影响;Rosana等[10]基于遥感和地理信息系统技术,通过人工目视解译得到巴西帕拉州泰兰迪亚镇 的土地利用类型并识别出区域中土地滥用情况;李英利[11,12]等采用人工解译方法实现地理国情普查中的土地分类,并介绍了人工解译的相关技巧;严枫等[13]利用高分辨率影像数据,采用人工目视解译结合人机交互式解译综合判读方法,获取遂宁市船山区新桥镇的土地利用类型。
为充分挖掘城市交通数据潜在价值,减少劳动成本,本文在综合利用地图数据、GPS数据和POI数据的基础上,构建区域的移动模式,提出一种将隐含狄利克雷分布主题模型(LDA)和支持向量机(SVM)模型结合的分类方法,完成了小尺度街区的用地分类。在充分利用了现有的交通数据、保证较高精度的情况下,高效地完成了小尺度街区的土地分类,节约了较多的人力物力,以便更好地服务于城市规划。

2 研究区域及数据源

本文选取上海市黄浦区人民广场附近为研究区域(图1),该区域是上海市的政治、经济、文化、旅游中心和交通枢纽,也是上海市最重要的地标之一。区域内有瑞福小区、上海市人民政府、世界贸易大厦、兴业证券、停车场、人民广场等不同用地类型的区域,很好地满足了本研究的需要。具体的数据源信息如表1所示。
Fig. 1 Location of the study area

图1 研究区域位置

Tab. 1 Data specification

表1 研究数据说明

数据 年份 数量 详细说明
上海市区划图 2015 从区划图中选取黄浦区人民广场附近为研究区域
研究区域路网数据/条 2015 508 从上海市全部路网中提取研究区域内的路网,道路类别有一级道路、二级道路、三级道路等13类
研究区域内POI数据/个 2015 4716 从上海市全部POI数据中提取研究区域内的POI,共有交通设施、体育休闲、公司企业等19个类别
研究区域内出租车轨迹数据/万条 2015 734 从上海市全部出租车轨迹数据中提取研究区域内的轨迹数据

3 研究方法

本文将主题模型LDA与SVM结合,进行面向精细研究单元的区域用地分类。LDA模型能从大量文档中提取出隐含主题[14],而SVM比神经网络具有更好的泛化预测能力[15]。将2种模型组合,可以根据充分利用其潜在信息进行分类,在一定程度上能够提高精度。本文方法分为2部分(图2):构建区域的移动模式;主题模型与SVM组合的用地分类。将区域的移动模式作为LDA模型的输入,得到区域与用地类型的概率分布作为区域的特征值,同时结合POI数据识别部分区域类别作为区域的标签,用这些区域作为分类器的训练和验证样本,采用K-fold[16]交叉验证的方法进行精度验证。最后对区域进行SVM监督分类,得到最终的用地分类结果。
Fig. 2 The basic framework of the method in this study

图2 本文方法的基本框架

3.1 构建区域移动模式

区域的移动模式是指出租车某个时刻从某个区域出发进入到另一个区域。定义移动模式为一个三元组,用M表示:
出发移动模式, M L = ( R o , R d , T l ) (1)
到达移动模式, M A = ( R o , R d , T a ) (2)
式中: R o 表示起始区域; R d 表示目的区域; T l 表示从起始区域出发的时间; T a 表示到达目的区域的时间。例如,一个人于14时从12号区域出发到达 18号区域,则其出发移动模式为(12,18,14)。
选取研究区域内精细路网,并在ArcGIS工具下对地图进行分割。从原始的出租车数据中筛选出指定范围区域内的出租车,根据其空车状态提取上下车点(O/D)数据,判断所在地图分割后的区域,构建区域移动模式。

3.2 主题模型与SVM组合的用地分类

3.2.1 主题模型
主题模型(Topic Model)是一种统计模型,在自然语言处理和机器学习等领域被用来发现抽象的内在主题。其算法是一种统计方法,通过分析原文本中的词以发现蕴藏于其中的主题、主题间的联系以及主题随时间的演变,而且不需要事前对文档进行标记。Blei等[17]提出的隐含狄利克雷分布简称LDA(Latent Dirichlet Allocation),是一种常用的主题模型,目前在文本挖掘领域(包括文本主题识别、文本分类以及文本相似度计算等方面)应用较广。
LDA是一种三层贝叶斯概率模型,包含词、主题、文档三层结构。它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
对于本文研究而言,使用LDA可以提取出出租车移动模式的潜在信息,比单纯地将出租车上下车特征聚类分析更准确。因此,本文中将一个区域看作一篇文档,区域的用地类型看作一个主题,区域内移动模式看作文档的单词,利用Gibbs采样[18]确定模型的超参数α和β,并基于Mallet平台[19]实现LDA模型,得到区域与用地类型的概率分布。
3.2.2 区域用地分类体系
为了统一用地类型的分类类别,本文按照2015年城市用地分类与规划建设用地标准,将POI数据分成居住用地公共管理与公共服务设施用地、商业服务业设施用地、工业用地、道路与交通设施、绿地与广场用地6大类。同时,由于有些POI类别(如公共设施,地名地址信息)平均分布于各个区域,对于用地分类所起到的指导不大,因此应予以剔 除[20]。具体分类结果如图3所示。
Fig. 3 POI data classification

图3 POI数据分类图

本文根据建筑面积或占地面积,并参考赵卫锋的公众认知度排名顺序[21],对POI点数目较多的区域中各类POI点赋相应权重分值,将权重与数目之积最大的类别作为该区域类别。
3.2.3 支持向量机(SVM)
Corinna Cortes等[22]提出支持向量机(Support Vector Machine,SVM)在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。其主要目标为找出间隔最大的超平面来作为分类边界。在SVM中还引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地处理非线性分类问题,对于SVM的核函数,常见的有线性核函数、多项式核、径向基核(RBF)、傅里叶核、样条核等。 奉国和[23]对核函数比较后发现,RBF核函数表现相对稳定,而Polynomial 核函数与Sigmoid 核函数稳定性要差。因此本文选用高斯RBF核函数的支持向量机,其公式为:
K x i , x j = exp ( - γ x - x c 2 ) (3)
式(3)表示空间中任一点 x 到某一中心 x c 之间欧氏距离的单调函数。以RBF为核函数的SVM有 2个参数:惩罚因子C和核参数γ惩罚因子C代表对误差的宽容度,C越高,表示越不能容忍出现误差。核参数γ隐含地决定了数据映射到新的特征空间后的分布,γ越大,支持向量越少。本文基于python语言的scikit-learn机器学习工具包[24],实现Grid Search的方法来确定C和γ取值,完成支持向量机分类。

4 结果及分析

4.1 分类结果

根据本文提出的方法,利用精细路网对研究区域划分为1157个小区域(图4),同时对2015年4月1日至4月7日一周的出租车的GPS数据处理,构建区域的移动模式。基于Gibbs采样确定LDA模型的超参数,得到α的值为0.2,β的值为0.01。在Mallet平台下将移动模式作为输入,运行LDA模型,得到区域用地类型的概率分布。选取POI数量较多的800个区域,将区域用地类型的概率分布作为训练样本的特征值,用地类别作为训练样本的标签,选定高斯RBF核函数SVM,利用K-fold交叉验证的网格搜寻方法得到C和γ的最优值分别为2和0.5,训练样本的精度平均值为0.8245,标准差为0.0046。模型精度较高。利用该模型进行监督分类,得到用地分类结果(图5),基于人工解译的分类图计算混淆矩阵(表2)得到总体精度为0.802074,Kappa系数为0.46255。Landis和Koch指出Kappa系数在0.4到0.6之间可认为分类结果较好[25],故本文方法具有较好的准确性。
Fig. 4 Regional segmentation

图4 区域分割效果图

Fig. 5 Supervised classification results of SVM by the LDA model

图5 LDA模型SVM监督分类结果

Tab. 2 The confusion matrix of the method proposed in this study

表2 本文方法混淆矩阵

方法结果 解译结果
居住用地 公共管理与公共服务设施用地 商业服务设施用地 工业用地 道路与交通用地 绿地与广场用地 总计
居住用地 822 10 8 9 20 136 1005
公共管理与公共服务设施用地 1 3 0 0 0 3 7
商业服务设施用地 1 3 62 1 2 17 86
工业用地 1 2 6 1 0 0 10
道路与交通用地 0 0 0 0 8 2 10
绿地与广场用地 2 0 0 4 1 32 39
总计 827 18 76 15 31 190 1157

4.2 实验对比

为对比本文方法的分类结果,分别采用常规特征非监督分类方法和LDA模型非监督分类方法处理数据。常规特征非监督分类方法基于提取的各区域上下车点数目作为特征,利用python语言下的scikit-learn工具包根据其数目的相似性实现KMeans非监督分类(图6)。LDA模型非监督分类方法是在Mallet平台下利用LDA主题模型处理区域移动模式后,得到各区域的概率分布,将其当作特征值,采用scikit-learn工具包中的K-Means非监督分类方法分类,得到分类结果(图7)。
Fig. 6 A general method of the unsupervised classification results

图6 常规方法非监督分类结果

Fig. 7 The unsupervised classification results of K-Means by the LDA model

图7 LDA模型K-Means非监督分类结果

基于人工解译的分类图,计算3种方法的总体精度和Kappa系数(表3)。对比发现,本文方法相比常规特征非监督分类和LDA模型非监督分类方法总体精度更高,Kappa系数也更高。常规特征非监督分类方法的分类区域都连成一大片,基本无法区分出各个类别,精度较低。LDA模型非监督分类方法的分类结果分布较为散乱,没有一定的规律性,但其绿地与广场用地分布与人工解译的绿地与广场用地分布较为相似,也说明了LDA模型的优越性。本文方法分类结果图中,居住用地周边大多是商业服务业设施用地,而这正与小区周边通常存在一些小餐馆或小超市的现象相吻合。但是区域内有较多的地下停车场,属于道路与交通用地,3种方法的分类结果均没有很好识别出来,主要原因在于研究侧重于二维平面,识别对象主要聚焦于地表以上的建筑,而停车场大多位于地下,所以没有得到很好的识别。
Tab. 3 The accuracy comparison of the experimental results

表3 方法精度对比

方法 总体精度 Kappa系数
常规特征非监督分类方法 0.298185 0.125381
LDA模型非监督分类方法 0.413654 0.251723
本文方法 0.802074 0.462550

4.2 实验对比

为了更好地对比本文方法结果,将识别结果与百度地图地理数据进行比较。对于这6类区域,分别挑选了相应的区域进行对比分析,如图8-11所示。
Fig. 8 Regional verification of Shanghai Music Hall (A point) and music square (B point)

图8 上海音乐厅(A点)及音乐广场(B点)区域验证

Fig. 9 Regional verification of an industrial company limited (C point) and an industrial technology company limited (D point)

图9 某工业有限公司(C点)及某工业技术有限公司(D点)区域验证

Fig. 10 Regional verification of the Oceanic Building underground parking garage (E point)

图10 海洋大厦地下停车场库(E点)区域验证

Fig. 11 Regional verification of Taiyuan street shops and other commercial shops around the corner (F point) and a residential building (G point)

图11 太原坊三街周围商店等商业店(F点)及居民楼(G点)区域验证

图8中,上海音乐厅(A点)作为科教文化服务用地,被分为公共管理与公共服务设施用地。音乐广场(B点)作为公园广场,被分为绿地与广场用地。图9中,某工业有限公司(C点)及某工业技术有限公司(D点)作为公司企业,被分为工业用地。图10中,海洋大厦地下停车场库(E点)作为交通设施服务,被分为道路与交通设施用地。图11中,太原坊三街周围商店等商业店(F点)作为购物服务用地被分为商业服务业设施用地。而居民楼(G点)作为商务住宅中的住宅区,被分为居住用地。这与实际情况是相符的,在一定程度上验证了本文方法分类结果合理。
然而,不可否认的是由于样本POI点不足导致部分区域的分类结果较差。如图12所示,H点附近为一些建材店、服饰店,I点附近为一些琴行,这些区域本应分为商业服务业设施用地,却最终判断为居住用地。分析原因认为,模型中输入的商业服务业设施用地POI点数目过少导致无法识别该区域。如果各个区域POI数目充足,则可较为准确识别该区域。
Fig. 12 Regional verification of Duxingli surrounding areas

图12 笃行里小区周边地区区域验证

5 结论

城市用地类别对城市规划具有重要的指导意义。随着细路网,小尺度的城市规划模式逐渐成为研究的重点,对用地分类提出了更高的要求。传统基于遥感影像的小尺度用地分类费时费力,为更方便快捷地获取用地分类,充分利用现有的交通大数据,本文提出一种主题模型与SVM组合的面向小尺度区域的用地分类方法。该方法使用精细路网划分城市区域,有效利用出租车数据和POI数据,将LDA模型与SVM紧密结合,在保证一定精度下,有效地完成了区域用地分类。实验表明,本文方法分类结果优于常规特征非监督分类方法和主题模型非监督分类方法,较好地识别了居住用地周边为商业服务业设施用地的情况,对于城市规划更具实际的指导意义,在一定程度上可以替代人工解译。然而,本文方法使用SVM做监督分类时,过于依赖于POI的数目,如果POI数目较少将导致训练样本减少或不准确,从而导致精度降低,可考虑加入更多的样本以提升精度。此外,出租车的数据只是部分居民出行的交通工具,并不能代表全体居民出行方式,即出租车数据是总体数据中的有偏样本[26],可考虑将地铁、公交车数据都加入进来,进行挖掘分析。

The authors have declared that no competing interests exist.

[1]
周杨杨. 基于城乡统筹规划的土地分类统一性的研究[D].广州:华南理工大学,2010.

[ Zhou Y Y.Study on the unity of land use classification based on urban and rural planning[D]. Guangzhou: South China University of Technology, 2010. ]

[2]
张丽琴. 城市地区土地利用变化人类活动驱动机制研究——以武汉地区为例[D].武汉:中国地质大学(武汉),2005.

[ Zhang L Q.Study on driving mechanism of human behavior for urban region land use change: Take Wuhan region as a case[D].Wuhan: China University of Geosciences (Wuhan), 2005. ]

[3]
Yuan J, Zheng Y, Xie X.Discovering regions of different functions in a city using human mobility and POIs[C]. The 18th ACM SigKdd Conference on Knowledge Discovery and Data Mining, Beijing, China: August 12-16, 2012.

[4]
Pan G, Qi G, Zhang D, et al.Land-Use classification using taxi GPS traces[J]. IEEE Transactions on Intelligent Transportation Systems, 2013,14(1):113-123.Detailed land use, which is difficult to obtain, is an integral part of urban planning. Currently, GPS traces of vehicles are becoming readily available. It conveys human mobility and activity information, which can be closely related to the land use of a region. This paper discusses the potential use of taxi traces for urban land-use classification, particularly for recognizing the social function of urban land by using one year's trace data from 4000 taxis. First, we found that pick-up/set-down dynamics, extracted from taxi traces, exhibited clear patterns corresponding to the land-use classes of these regions. Second, with six features designed to characterize the pick-up/set-down pattern, land-use classes of regions could be recognized. Classification results using the best combination of features achieved a recognition accuracy of 95%. Third, the classification results also highlighted regions that changed land-use class from one to another, and such land-use class transition dynamics of regions revealed unusual real-world social events. Moreover, the pick-up/set-down dynamics could further reflect to what extent each region is used as a certain class.

DOI

[5]
梁军辉,林坚,杜洋.大数据条件下城市用地类型辨识研究——基于出租车GPS数据的动态感知[J].上海国土资源,2016,37(1):28-32.

[ Liang J H, Lin J, Du Y.Research on the identification of urban land use under the big data condition: dynamic awareness based on taxi GPS data[J]. Shanghai Land & Resources, 2016,37(1):28-32. ]

[6]
Jacobs J.The Death and Life of Great American Cities[M]. New York: Random House, 1961.

[7]
赵燕菁. 从计划到市场:城市微观道路-用地模式的转变[J].城市规划,2002,26(10):24-30.首先分析了计划经济和市场经济下两种道路—土地利用模式的差异 ,进而指出我国传统的微观道路—土地利用模式在当前所表现的抬高城市投资门槛、土地浪费、城市功能缺失、不利于分期建设、路网缺少弹性等不适应市场经济的需求特征 ,针对这些问题 ,结合近年来大量的规划实践 ,探索新的道路—土地利用模式。从理论和实践两方面探讨从计划经济向市场经济过渡阶段 ,城市微观空间布局原则的改变对其道路—土地利用结构的影响。

DOI

[ Zhao Y J.From planning to marketing: The shift of the road-land use mode of urban micro-roads[J]. Urban Planning, 2002,26(10):24-30. ]

[8]
王轩轩,许险峰.可持续发展的小街区模式优势与规划设计原则探讨[C].中国城市规划年会,2009.

[ Wang X X, Xu X F.Discussion on the sustainable development pattern of small blocks and the principles of planning and design[C]. Annual meeting of urban planning in China, 2009. ]

[9]
Akanwa A O, Okeke F I, Nnodu V C, et al.Quarrying and its effect on vegetation cover for a sustainable development using high-resolution satellite image and GIS[J]. Environmental Earth Sciences, 2017,76(14):505.Huge vegetal losses caused by unsustainable quarrying practices have limited the role played by vegetation cover in mitigating the global impact of climate change. There is a need for a holistic study

DOI

[10]
Gurgel R S, Farias P R S, Oliveira S N D. Land use and land cover mapping and identification of misuse in the permanent preservation areas in the Tailândia Municipality - PA[J]. Semina Ciencias Agrarias, 2017,38(3):1145.react-text: 444 COMMERCIAL PRODUCERS OF INTERESPECIFIC HYBRIDS BETWEEN CAIAU脡 AND OIL PALM INTEGRATED TO DENPASA IN THE NORTHEAST OF THE STATE OF PARA ABSTRACT: Socioeconomic survey conducted among commercial producers of oil palm interspecific hybrids between Elaies oleifera and Elaeis guineensis (HIE OxG) in the northeast of the State Para, who are pioneers in the country. These plantations are located in... /react-text react-text: 445 /react-text [Show full abstract]

DOI

[11]
李英利,闫会杰,张宁丽,等.基于高分遥感影像地表覆盖草地信息人工解译技术方法[J].测绘技术装备,2014(1):67-69.

[ Li Y L, Yan H J, Zhang N L, et al.Artificial interpretation technique of land cover information of the grassland based on high resolution remote sensing images[J]. Geomatics Technology and Equipment, 2014(1):67-69. ]

[12]
李英利,闫会杰,苟卫涛,等.地理国情普查地表覆盖林地信息人工解译技术方法探讨[J].测绘标准化,2014(1): 4-6.高分辨率遥感影像是进行地理国情普查的底图数据,如何在高分辨率影像上准确地解译地理信息数据对测绘技术发展具有重要意义。介绍地理国情普查项目地表覆盖林地分类中乔木林、灌木林、乔灌混合林、疏林、绿化林地、人工幼林、稀疏灌丛等林地信息的人工解译方法和技巧,通过遥感影像纹理特征的判别为以后同类地表分类的解译提供参考。

[ Li Y L, Yan H J, Gou W T, et al.Discussion on artificial interpretation technology of land cover information of forests in national geographic conditions census[J]. Standardization of Surveying and Mapping, 2014(1):4-6. ]

[13]
严枫,刘登忠,汪友明. QuickBird影像目视解译在土地利用类型调查中的应用——以遂宁市船山区新桥镇为例[J].新疆环境保护,2008,30(1):6-10.利用高分辨率的QuiekBird影像数据,对遂宁市船山区新桥镇的土地利用类型进行调查, 参照四川省“金土地工程”农业地质遥感综合调查工作方案,通过对图像进行适当的处理,建立较为准确的解译标志,采用人工目视解译结合人机交互式解译的综合 判读方法,从图像上获取相对准确的土地利用类型信息。

DOI

[ Yan F, Liu D Z, Wang Y M.Application of visual interpretation of QuickBird Images for land-use types investigation: A case study of Xinqiao Town, Chuanshan District in Suining City[J]. Environmental Protection of Xinjiang, 2008,30(1):6-10. ]

[14]
D. Blei.Introduction to probabilistic topic models[C]. Communications of the ACM, 2011.

[15]
彭璐. 支持向量机分类算法研究与应用[D].长沙:湖南大学,2007.

[ Peng L.Research on classification algorithm of support vector machine and its applications[D]. Changsha: Hunan University, 2007. ]

[16]
Bengio Y, Gr Y.No unbiased estimator of the variance of K-Fold cross-kalidation[J]. Journal of Machine Learning Research, 2003,5(22):1089-1105.Summary: Most machine learning researchers perform quantitative experiments to estimate generalization error and compare the performance of different algorithms (in particular, their proposed algorithm). In order to be able to draw statistically convincing conclusions, it is important to estimate the uncertainty of such estimates. This paper studies the very commonly used K-fold cross-validation estimator of generalization performance. The main theorem shows that there exists no universal (valid under all distributions) unbiased estimator of the variance of K-fold cross-validation. The analysis that accompanies this result is based on the eigen-decomposition of the covariance matrix of errors, which has only three different eigenvalues corresponding to three degrees of freedom of the matrix and three components of the total variance. This analysis helps to better understand the nature of the problem and how it can make naive estimators (that don take into account the error correlations due to the overlap between training and test sets) grossly underestimate variance. This is confirmed by numerical experiments in which the three components of the variance are compared when the difficulty of the learning problem and the number of folds are varied.

DOI

[17]
Blei D, Ng A, Jordan M.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research 2003,3:993-1022

[18]
Geman S, Geman D. Stochastic Relaxation, Gibbs Distributions,the Bayesian Restoration of Images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1984,6(6):721-41.

[19]

[20]
池娇,焦利民,董婷,等.基于POI数据的城市功能区定量识别及其可视化[J].测绘地理信息, 2016,41(2):68-73.

[ Chi J,, Jiao L M,, Dong T, et al.Quantitative identification and visualization of urban functional area based on POI data[J].Journal of Geomatics, 2016,41(2):68-73. ]

[21]
赵卫锋,李清泉,李必军.利用城市POIs数据提取分层地标[J].遥感学报,2011,15(5):981-989.为了获取能够用于智能化路径引导的层次性空间知识,提出了一种依据显著度的差异从城市POI数据中提取出分层地标的方法.首先,通过从公众认知、空间分布和个体特征3个方面分析影响POI显著性的因素,构造了包括公众认知度、城市中心度和特征属性值3个指标向量的POI显著性度量模型;然后,分别讨论了利用问卷调查、多密度空间聚类和数据规格化的方法计算POI对象的各项显著性指标值的过程;最后,选择武汉市武昌地区的POI数据进行显著度计算,从中提取显著度较高的对象构成若干层地标,并以各层地标为种子生成加权的Voronoi图,用来反映各地标的空间影响范围并建立了同层和上下层地标之间蕴含的关系.

DOI

[ Zhao W F, Li Q Q, Li B J.Extraction hierarchical landmarks using urban POIs data[J]. Journal Of Remote Sensing, 2011,15(5):981-989. ]

[22]
Cortes C, Vapnik V.Support-vector networks[J]. Machine Learning, 1995,20:273-297.

[23]
奉国和. SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-124.支持向量机(SVM)被证实在分类领域性能良好,但其分类性能受到核函数及参数影响。讨论核函数及参数对SVM分类性能的影响,并运用交叉验证与网格搜索法进行参数优化选择,为SVM分类核函数及参数选择提供借鉴。 <BR>

DOI

[ Feng G H.Parameter optimization for support vector machines classification. Computer Engineering and Applications, 2011,47(3):123-124. ]

[24]

[25]
Landis J R, Koch G G.The measurement of observer agreement for categorical data[J]. Biometrics, 1977,33(1):159-174.

DOI

[26]
王劲峰,葛咏,李连发,等.地理学时空数据分析方法[J].地理学报,2014,69(9):1326-1345.随着地理空间观测数据的多年积累,地球环境、社会和健康数据监测能力的增强,地理信息系统和计算机网络的发展,时空数据集大量生成,时空数据分析实践呈现快速增长。本文对此进行了分析和归纳,总结了时空数据分析的7类主要方法,包括:时空数据可视化,目的是通过视觉启发假设和选择分析模型;空间统计指标的时序分析,反映空间格局随时间变化;时空变化指标,体现时空变化的综合统计量;时空格局和异常探测,揭示时空过程的不变和变化部分;时空插值,以获得未抽样点的数值;时空回归,建立因变量和解释变量之间的统计关系;时空过程建模,建立时空过程的机理数学模型;时空演化树,利用空间数据重建时空演化路径。通过简述这些方法的基本原理、输入输出、适用条件以及软件实现,为时空数据分析提供工具和方法手段。

DOI

[ Wang J F, Ge Y, Li L F.Spatiotemporal data analysis in geography[J]. Acta Geographica Sinica, 2014,69(9):1326-1345. ]

Outlines

/