Orginal Article

Change Detection and Analysis of Landsat-8 Image Based on LDA Model

  • LI Yang , 1 ,
  • JIANG Nan , 1, * ,
  • SHI Hao 2 ,
  • SHAO Hua 3
Expand
  • 1. Key Laboratory of VGE, Ministry of Education, Nanjing Normal University, Nanjing 210023, China
  • 2. Jiangsu Provincial Environmental Monitoring Center, Nanjing 210036, China
  • 3. Department of Geomatics Engineering, Nanjing University of Technology, Nanjing 210009, China
*Corresponding author: JIANG Nan, E-mail:

Received date: 2014-08-25

  Request revised date: 2014-11-28

  Online published: 2015-03-10

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Change detection with remote sensing images plays an important role in land cover mapping. With the development of science and technology, a series of new remote sensing data sources have become available, and have been significantly improved, which also brings a great challenge to the traditional remote sensing change detection methods. Unlike the other traditional methods for change detection, the present work uses Latent Dirichlet Allocation model (LDA) in learning middle-level semantic topics instead of low-level features from remote sensing images. In this paper, we use the pixels of two remote sensing images as the basic unit, while the image segments are used as the documents in the object-based image analysis methods. Firstly, we try to extract some features from these remote sensing images, such as the spectral and textural features. Then, we work on organizing the local features from these two images to obtain visual words and construct the bag of words model (BOWM) representation. Based on this, the LDA model is utilized to reveal the underlying topics, which are used to detect the change of the study area. Every document of remote sensing images has a specific topic distribution, which is related to the reference data of the study area. In this process, the pseudo changes and actual changes of these two remote sensing images can be distinguished by the topic distributions of the documents. Compared with traditional pixel-level change detection methods,the method of LDA-based model is less influenced by the spectral variance of two images, which avoids the “salt and pepper” effect by using object-based analysis method. The effectiveness of LDA-based model change detection approach was verified in experiments with the accuracy to be 85.35%, and it is also compared with techniques using Spectral Angle Mapper and Image differencing. The result shows that our studies provide a good approach to improve the accuracy and reduce the mistake rate of change detection between two images. Our work indicates that LDA model-based approach is superior to the traditional methods and the proposed method is applicable to the analysis of change area detection using Landsat-8 images.

Cite this article

LI Yang , JIANG Nan , SHI Hao , SHAO Hua . Change Detection and Analysis of Landsat-8 Image Based on LDA Model[J]. Journal of Geo-information Science, 2015 , 17(3) : 353 -360 . DOI: 10.3724/SP.J.1047.2015.00353

1 引言

地表覆盖及其变化是环境研究与地理国情监测、可持续发展规划等的重要信息和关键参量[1]。Landsat-8卫星数据延续了Landsat系列卫星数据的使命,其充分考虑了水、土壤、植物等不同地物在反射率敏感度上的差异[2],为监测全球土地覆盖变化提供了重要数据支撑[3]
变化检测研究一直是遥感研究领域的热点,由于遥感数据源的特殊性和应用目标不同,传统的变化检测方法主要有影像直接比较方法,包括图像差值法、图像比值法、回归分析方法等[4-6];图像进行计算后比较,包括对植被指数分析法、变化向量分析(Change Vector Analysis,CVA)、主成分分析法(Principal Components Analysis,PCA)、缨帽变化(Kautlr-Thomas Transformation,KT)分析、纹理分析等[7-8]。此外,机器学习方法、GIS辅助支持等技术也不断被用来进行土地覆被的变化检测[9-10]。随着遥感数据分辨率的不断提高,像元的分析方法已无法满足高分辨率数据信息提取的要求,面向对象的分类技术得到广泛的认可[11],同时,对象的变化检测方法也在不断发展[12-13]。但随着多平台、多传感器,多源数据的不断发展,中高分辨率遥感数据不断涌现,影像中地物信息的复杂程度增加,噪声、光照等因素的干扰,如何准确挖掘不同时相影像的地物的特征进行变化检测仍值得进一步探讨。
Blei等[14]提出的隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)以词袋模型为基础,有效挖掘隐含主题,实现文本信息的降维、主题发现和无监督聚类等,用以解决从图像的底层视觉特征中学习隐含语义问题。Li等[15]利用改进的LDA模型来解决自然场景的分类问题。Lienou等[16]引入主题模型进一步分析遥感影像视觉单词间的关系,通过最大似然分类器计算图像中每个图像块对应的语义概念,从而完成图像的语义标定。
文本以2期影像分割后的图斑作为影像文档,借鉴主题模型在自然图像领域的研究成果[17-19],所有像元作为视觉单词,共同构建词袋模型;结合LDA模型挖掘隐主题分布特征进行变化检测。尝试在传统变化检测方法的基础上,对2期影像特征进行统一表达,更好地反映影像地物特征,准确地探测变化区域。

2 研究区数据分析

本文以Landsat-8影像为主要数据源,获取时间分别为2013年3月25日和2014年3月16日。该数据包括9个波段,空间分辨率为30 m,其中,包括一个15 m的全色波段,既保持了Landsat系列卫星数据的连续性,又在谱段和波谱范围上有所调整,增加了地物信息的差异。
本文从影像中截取537×391像元大小的区域作为研究区,该区域的影像无云层覆盖,地面覆盖光谱相对接近,有效减少不同季节地物的光谱特征差异,如图1所示。影像预处理工作包括大气校正、几何校正、图像融合和研究区裁剪等。融合后影像分辨率为15 m,2期影像配准误差控制在0.5个像元内。
Fig. 1 False color composite Landsat-8 images of the study area

图1 研究区Landsat-8遥感影像(假彩色合成)

3 Landsat-8影像的LDA模型变化检测方法

3.1 词袋模型的遥感影像表示

词袋模型源于自然语言的处理和信息的检索,模型将文档看做无序单词集合,根据文本中的单词统计信息来完成对文本的分类研究[20]。该模型以其快速、高效的特点广泛应用于图像场景分类等自然图像研究。词袋模型可建立底层特征与高层信息之间的联系,使用中层特征对图像进行描述,有效克服使用底层特征的不稳定性和维度高等缺陷。词袋模型是主题模型的基础,单词-文档映射、底层特征提取、视觉词典构建是最主要的3个关键技术。
与文本数据不同,遥感影像缺少天然的文档-单词映射,考虑中高分辨率遥感影像特点,直接利用网格形成影像文档,会造成文档中的地物混杂。随着遥感数据空间分辨率的提高,明显增加了同类地物光谱差异、不同地物光谱特征相互重叠,面向对象的分析方法得到越来越多的应用。基于eCognition影像多尺度分割的基本原理[21],结合地物的光谱特征和几何空间结构等信息,对影像进行多尺度分割。将分割结果映射为模型构建中的影像文档,更符合实际景观的表达,可尽量保证文档的组成较为单一,有利于模型分析。为了对影像文档进行结构化描述,提取遥感影像的底层特征对其表达。不同于自然图像中兴趣区域的提取,需进行遥感影像全局特征的提取,包括结合光谱、纹理、形状等特征,以及主成分分析、植被指数、缨帽变换等可较好反映遥感影像地物特征。综合光谱、纹理的全局特征表达使影像文档中视觉单词更为丰富。
构建词袋模型过程中视觉单词和视觉词典的生成是一个关键步骤,其实质是将高维、连续的底层特征向量量化。本文选择K-mean算法[22]作为构建视觉词典的聚类算法。将聚类得到的所有类簇中心作为视觉词典,像元的类簇分配作为该像元对应视觉单词的类别,并统计每个影像文档中视觉单词出现的频率,构建文档的视觉单词直方图,形成影像文档的词袋模型表示。

3.2 基于LDA模型的Landsat-8影像变化检测方法

LDA模型通过统计图像中视觉单词分布,发现图像中潜在主题信息。该模型的前提是用词袋模型对影像表达,对单词、文档、主题进行挖掘分析,每篇文档由若干个主题混合产生;每个主题则是若干单词构成的1个多项式分布。该模型引入2个超参数αβ,每篇文档的主题成分由一个以α为参数的Dirichlet分布采样获得。而每个主题中的单词成分由1个参数为β的Dirichlet分布采样获得,模型对应的贝叶斯网络如图2所示。 φ 表示某个给定主题条件下生成某单词的概率;θd表示某主题发生的概率;Wd,n是文档d中第n个单词;Zd,n为文档d中第n个单词对应主题;N为文档中的单词数;D为文档数;K为主题个数。整个模型中只有加阴影部分的w是观测变量,θz是隐变量。
Fig. 2 The general process of LDA model

图2 LDA模型结构示意图

鉴此,模型中观测变量 w 和隐变量 θ , z 关于超参数的联合后验条件概率分布如式(1)所示。
LDA模型是一个3层贝叶斯模型,结构较为复杂,对其进行精确计算解析解是非常困难的,本文选择使用Gibbs采样算法[23]对LDA模型进行参数估计。
在LDA模型得到文档-主题概率分布结构后,根据欧式距离(式(2))来度量对应文档的相似度,以检测影像文档对。
D ( X , Y ) = i = 1 N ( X i - Y i ) 2 1 2 (2)
式中,D(X,Y)为2个影像文档特征向量X和Y之间的相似度,N为特征向量的维数。
通过欧式距离计算获得2期影像文档对之间的距离,通过对照土地利用数据和实地调查数据分析,结合影像文档的主题成分来分析研究区内地物覆盖变化情况。
LDA模型2期影像地物的变化检测主要流程如图3所示。
Fig. 3 Flowchart of change detection based on LDA model

图3 基于LDA模型的变化检测技术流程图

4 结果与分析

4.1 LDA模型表达分析

本文对2期完成预处理的影像进行多尺度分割,参照该研究区土地利用数据,分析准确表达该数据地物实际分布情况的分割尺度,形成土地利用现状图的尺度分割图层。基于对象的分析将2期影像分割后的图斑映射为影像文档,使得影像文档内像元均质性较强,消除传统像元分析引起的椒盐现象。
Fig. 4 Result of multiresolution segmentation of the study area

图4 研究区2期影像分割结果

本文以2期影像中所有像元作为视觉单词,分析Landsat-8数据特点,初步提取光谱、纹理、形状等特征包括:各个波段的平均值、标准差、NDVI指数、缨帽变换分量、主成分分析分量、HIS、同质度、对比度、相异性、熵、二阶矩、对比度、紧致度等。结合土地利用、调查样本数据对2期影像进行特征分析,最终选择主成分第一分量、NDVI指数、缨帽变化的绿度和湿度分量、信息熵和同质度作为底层特征参与模型构建。利用K-means算法对上述底层特征进行聚类分析,将所有类簇中心作为视觉词典,根据得到的视觉词典统计每个影像文档中视觉单词出现的频率,完成影像文档的视觉单词直方图构建。
影像文档的词袋表示仍然是在底层特征空间内对影像进行描述,LDA模型可以对影像文档进行2次信息挖掘,将影像文档从单词空间转换到主题空间进行表达。本文利用Gibbs算法求解模型,得到每个影像文档的主题混合比例分布。不同于直接使用底层特征来表达图斑特征,2期影像中每个影像文档被重新表达成隐主题的分布。在此基础上,抽取该区域土地利用数据部分真值样本对所有影像文档进行分析。图5为主题数为8时,部分真实地物(水体、农田)与主题分布关系,该图中水体的主题成分主要集中在主题6中;农田的主题成分主要集中在主题8和主题4中,相同地物的主题分布相似性很高,说明该模型获取的主题成分虽然与实际类别并不是完全对应,但是同一类型地物通常具有非常相似的隐主题分布,有利于下一步影像文档对的变化分析。
Fig. 5 Topic distrbution of the actural ground features

图5 实际地物的主题分布

4.2 影像变化检测对比分析

首先,根据得到的所有影像文档的主题成分,利用欧式距离进行影像文档对的距离计算,得到2期影像对应图斑之间的距离值。然后,获取影像文档主题概率较大的前3个主题进行文档间对比,得到主题一致文档对和不一致文档对。最后,结合上述计算得到影像文档对的欧氏距离进行联合判定,距离大于设定阈值且主题成分不一致为检出变化区域,如图6(b)所示。
Fig. 6 Comparison of the change detection results of three methods

图6 不同方法的变化检测结果比较

根据实地调查分析,该地区土地利用变化主要是水体、农田的变化,利用参考土地利用数据和研究区实地调查数据,进行显著区域变化检测精度检验样本的制作,如图6(a)所示。为了验证本文方法的有效性,选择了2种较为常用的变化检测方法来进行对比分析,图6(c)、(d)为分别对研究区进行的差值变化检测、波谱角变化检测[6]得到的变化区域,从检测目视效果看,基于LDA模型的变化检测结果和波谱角的变化检测方法更接近真值,差值变化检测方法误检率较高。
变化检测中的误差主要表现为变化地物未检测出、未发生变化的地物被误检,为了对上述方法的变化检测精度进行定量评价,本文选择评价指标漏检率、误检率、正确率来衡量这变化检测的效果。本文方法中需要输入的参数主要包括视觉单词数及主题数,实验表明,单词数量小容易将多个不同类别的像元分配为同一个视觉单词;单词数量较大时,计算量较大,且会造成同一类别的像元再次分解对应为多个视觉单词而造成歧义。表1显示了不同单词数和主题数情况下的变化检测正确率,可以看出,视觉单词数为100、主题数为8时,效果最佳。
Tab. 1 Accuracy of change detections with different number of visual words and topics

表1 不同视觉单词数和主题数情况下的模型变化检测正确率

觉单词数量 各主题数下的正确率(%)
4 8 12 16
50 80.23 83.46 81.76 80.10
100 81.37 85.35 83.22 81.21
150 80.75 84.21 84.36 79.87
200 79.56 83.56 83.43 79.87
为了验证LDA模型检测的有效性,本文根据土地利用数据和调查样本数据,从2期影像分别选取显著变化、伪变化区域进行对比分析。在对影像进行词袋模型表达时,2期影像共形成2355个影像文档。图7中1134号和2209号影像文档对为显著变化区域,可以看出LDA模型的分析结果主题表达差异性大,影像文档对距离均大于0.9;49号和1338号影像文档对实际地物光谱有差异,其他2种检测方法均检测为发生变化的区域,由LDA模型分析得到的影像文档主题分布几乎相同,影像文档对距离为0,表明影像文档未发生变化。上述分析表明,通过LDA模型计算得到的主题分布进行影像文档对分析,可很好地解决因2期影像光谱差异造成的伪变化,同时对显著性变化的检测也较为理想,该模型对影像文档的地物特征统一表达结果较为准确。
Fig. 7 Comparative results between LDA models with significant change document and no-change document

图7 显著变化和未变化文档(图斑)LDA模型分析结果对比

为了统一评价基于图斑和基于像元的方法结果,本文以研究区土地利用和2期影像作为参考,从真值图中随机抽取300个样本点,对上述3种变化检测方法进行精度评价对比。如表2所示,LDA模型的变化检测方法正确率为85.35%,漏检率和误检率分别为8.45%和6.20%。结合影像分析,误检测、漏检测的情况,主要存在于形状较复杂、像元类型混杂的影像文档中,如水域、农田间的一些人工建筑、草丛等,这类地物在中高分辨率遥感影像中,易造成影像文档中像元均质性较差,主题分布较为复杂,影像文档对的距离不能准确反映实际地物的变化。相比传统变化检测方法,本文提出的LDA模型的变化检测方法在正确率和误检率上优于传统方法的检测结果;但由于本文的方法建立在影像分割基础上,分割尺度的设定导致有些细小的变化像元无法检测,使得漏检率略高于波谱角变化检测方法。
Tab. 2 Accuracy of different change detection approaches

表2 不同模型变化检测精度评价表

模型 漏检率(%) 误检率(%) 正确率(%)
LDA模型的变化检测方法 8.45 6.20 85.35
差值变化检测方法 13.35 14.15 72.50
波谱角变化检测方法 8.29 7.50 84.21

5 结语

在遥感影像变化检测的实际应用中,不同时期影像因各种原因存在光谱差异和其他一些不可预计的情况,目前分类前变化检测比较方法是直接在底层特征空间内对2期影像进行比较,对2期影像特征的可比性要求严格。本文以2期Landsat-8影像为主要数据源,设计影像的文档-单词映射,利用LDA模型将影像的底层特征转换成中层特征,更稳定地表达影像文档内容,探讨了新一代遥感影像进行土地利用变化检测的可行性,形成一套中高分辨率的变化检测方法。该方法有效地去除了因地物光谱差异大导致的误检测情况,较好地减少错漏判、提高图像检测的正确率。结果表明,基本单元图斑不但避免了基于像元分析带来的椒盐现象,也为下一步分析景观变化提供了良好的基础。今后还需进一步深入探讨影像主题与真实地类的映射关系,并利用该模型进行多源、时间序列数据变化检测的可行性。
致谢:感谢“地球系统科学数据共享平台——长江三角洲科学数据中心(http://nnu.geodata.cn)”对本论文数据分析工作的支持。

The authors have declared that no competing interests exist.

[1]
陈军,陈晋,廖安平,等.全球30 m地表覆盖遥感制图的总体技术[J].测绘学报,2014,43(6):551-557.

[2]
初庆伟,张洪群,吴业炜,等.Landsat-8卫星数据应用探讨[J].遥感信息,2013,28(4):110-114.

[3]
范泽孟,张轩,李婧,等.国家级自然保护区土地覆盖类型转换趋势[J].ACTA GEOGRAPHICA SINICA, 2012,67(12):1623-1633.

[4]
Coppin P R, Bauer M E.Digital change detection in forest ecosystems with remote sensing imagery[J]. Remote sensing reviews, 1996,13(3-4):207-234.

[5]
Howarth P J, Wickware G M.Procedures for change detection using Landsat digital data[J]. International Journal of Remote Sensing, 1981,2(3):277-291.

[6]
Hussain M, Chen D, Cheng A, et al.Change detection from remotely sensed images: From pixel-based to object-based approaches[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2013,80:91-106.

[7]
Tomowski D, Ehlers M, Klonus S.Colour and texture based change detection for urban disaster analysis[C]. Urban Remote Sensing Event (JURSE), 2011 Joint, IEEE, 2011:329-332.

[8]
Ghosh A, Mishra N S, Ghosh S.Fuzzy clustering algorithms for unsupervised change detection in remote sensing images[J]. Information Sciences, 2011,181(4):699-715.

[9]
Huang C, Song K, Kim S, et al.Use of a dark object concept and support vector machines to automate forest cover change analysis[J]. Remote Sensing of Environment, 2008,112(3):970-985.

[10]
Pijanowski B C, Brown D G, Shellito B A, et al.Using neural networks and GIS to forecast land use changes: A land transformation model[J]. Computers, environment and urban systems, 2002,26(6):553-575.

[11]
Lefebvre A, Corpetti T, Hubert-Moy L.Object-oriented approach and texture analysis for change detection in very high resolution images[C]. Geoscience and Remote Sensing Symposium, IGARSS 2008, IEEE International, 2008,4:663-666.

[12]
龙玄耀,李培军.基于图像分割的城市变化检测[J].地球信息科学,2008,10(1):121-127.

[13]
王丽云,李艳,汪禹芹.基于对象变化矢量分析的土地利用变化检测方法研究[J].地球信息科学学报,2014,16(2):307-313.

[14]
Blei D M, Ng A Y, Jordan M I.Latent dirichlet allocation[J]. The Journal of machine learning research, 2003,3:993-1022.

[15]
Li F F, Perona P.A bayesian hierarchical model for learning natural scene categories[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR 2005, 2005,2:524-531.

[16]
Lienou M, Maitre H, Datcu M.Semantic annotation of satellite images using latent dirichlet allocation[J]. Geoscience and Remote Sensing Letters, IEEE, 2010,7(1):28-32.

[17]
周晖,郭军,朱长仁,等.引入PLSA模型的光学遥感图像舰船检测[J].遥感学报,2010,14(4):663-680.

[18]
Putthividhya D, Attias H T, Nagarajan S S. Supervised topic model for automatic image annotation[C].2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), 2010. IEEE.

[19]
Li S, Hong T, Yunhao C, et al.A semisupervised latent dirichlet allocation model for object-based Classification of VHR panchromatic satellite images[J]. Geoscience and Remote Sensing Letters, IEEE, 2014,11(4):863-867.

[20]
Cula O G, Dana K J.Compact representation of bidirectional texture functions[C]. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR 2001, 2001,1:1041-1047.

[21]
易文斌,慎利,齐银凤,等.基于概率潜语义分析模型的高光谱影像层次聚类分析[J].光谱学与光谱分析,2011,31(9):2471-2474.

[22]
Phan X H, Nguyen C T.GibbsLDA++: A C/C++ implementation of latent dirichlet allocation (LDA) using Gibbs sampling for parameter estimation and inference[R]. Sendai: Graduate School of Information Science, Tohoku University, 2007.

[23]
Benz U C, Hofmann P, Willhauck G, et al.Multi-resolution, object-oriented fuzzy analysis of remote sensing data for GIS-ready information[J]. ISPRS Journal of photogrammetry and remote sensing, 2004,58(3):239-258.

Outlines

/