Mapping the Fine-Scale Housing Price Distribution by Integrating a Convolutional Neural Network and Random Forest

  • YAO Yao , 1, 2 ,
  • REN Shuliang 1 ,
  • WANG Junyi 1 ,
  • GUAN Qingfeng , 1, *
  • 1. School of Information Engineering, China University of Geosciences, Wuhan 430074, China
  • 2. Alibaba Group, Hangzhou 311121, China
*Corresponding author: GUAN Qingfeng, E-mail:

Received date: 2018-10-09

  Request revised date: 2018-11-27

  Online published: 2019-01-30

Supported by

National Key Research and Development Program of China, No.2017YFB0503804

National Natural Science Foundation of China, No.41671408, 41801306

Natural Science Fund of Hubei Province, No.2017CFA041


China's rapid urbanization has caused a large number of migrants to move to the city, which has also led to housing shortages. Rapid access to fine-scale house price distribution data plays a very important role in urban housing management, government decision-making, and urban economic model analysis. The availability of data and limitations of existing models make only a few studies involving the mapping of house price distribution at the microscale. By combining house price data with remote sensing images, this study builds a remote sensing image features mining model based on Convolutional Neural Network (CNN) and Random Forest (RF). The proposed CNN-based model in this paper can be applied for accurate and reasonable microscopic mapping of house prices without introducing auxiliary geospatial variables. Only using the house prices data and remote sensing images, we successfully carry out the house prices mapping with the precision of 5 meters in the downtown area of Wuhan city. By comparison with the results generated by the other three traditional mining techniques (including A: using spatial datasets extracted from auxiliary geographic dataset only, B: using original features extracted from high-resolution remote sensing images only, C: using original features extracted from high-resolution remote sensing images and auxiliary geographic dataset), the results show that the proposed CNN-based model has the highest house price simulation accuracy (R2=0.805), at least 23.28% higher than the fitting accuracies of the traditional methods (A: R2=0.592, B: R2=0.0.434, C: R2=0.653). Moreover, based on the fine-scale house price map, this study further analyzes the spatial heterogeneity distribution of housing prices in the downtown area of Wuhan city. By comparing the partial and overall similarity of the simulated house price distribution map calculated via the perceptual hash algorithm, the results also demonstrate that the house prices distribution of Wuhan city has remarkable fractal characteristics. The micro-scale house price data obtained in this study can provide a basis for microeconomics and fractal research in the urban economics. Meanwhile, this study also provides a brand-new research method for micro-scale economic analysis and resource optimization of large cities in China.

YAO Yao , REN Shuliang , WANG Junyi , GUAN Qingfeng . Mapping the Fine-Scale Housing Price Distribution by Integrating a Convolutional Neural Network and Random Forest[J]. Journal of Geo-information Science, 2019 , 21(2) : 168 -177 . DOI: 10.12082/dqxxkx.2019.180508

1 引言

以往对于房价的空间研究多集中在宏观尺度上,如Rondinelli和Veronese[6]使用人口普查数据和由房地产开发商提供的住宅租赁价格数据来估算租赁价格的变化。同时,也有研究认为房价的空间自相关性和异质性需要进一步考量,因此Osland[7]对地理加权回归等模型进行改进并引进了空间计量经 济学模型。已有研究表明,遥感影像特征所挖掘的语义信息可作为制图的有效数据,如Duque等[8]提出基于高分辨率(VHSR)图像的纹理和结构特征模型,来获得更为合理的城市内部贫民窟指数地图,结果表明基于高分遥感影像获得的城市居民居住条件同城市居民的生计密切相关,可作为制图有效数据。

2 基于深度学习的微观尺度房价绘制方法

本文所设计的研究流程图如图1所示,通过多尺度窗口滑动特征采样-卷积神经网络挖掘遥感影像特征-随机森林进行房价拟合3个步骤来获得房价分布图:① 通过数据预处理和多尺度滑动窗口采样,构建了城市住房价格影响因子的数据集并训练了一个轻量级卷积神经网络(CNN),根据softmax层计算出的误差进行反向迭代传播,得到最优模型;② 去除预训练CNN模型的softmax层,并将其输出的高维特征向量作为训练特征,建立具有原始房价数据的RF拟合模型;③ 基于拟合模型,计算具有一定窗口大小的每个像元的住房价格,并以精细的规模获得最终的住房价格结果。
Fig. 1 Flow for simulating housing prices by mining remote-sensing image datasets via CNN

图1 通过CNN挖掘遥感影像数据集来模拟住房价格的流程

2.1 模型构建

Fig. 2 The computational framework of proposed CNN used to feature extraction

图2 用于进行数据挖掘特征提取的CNN计算框架

图2所示,本文最终确定的CNN结构共计 7层,包括3层卷积层,2层最大池层,1层完全连接层和1层softmax层[15]。其中,在卷积层和完全连接层中使用的激活函数是整流线性单元,这是一种线性激活函数,拥有更好的拟合效果以及更快的训练速度。本文还在第三卷积层和最终完全连接层间设置40%的丢弃率,这会随机禁用某些神经元的权重,从而有效防止模型过度拟合[16]。已有的研究表明,与较大的卷积核相比,较小的卷积核参数更少,训练效果更好,训练速度也更快[17]。因此,在卷积核的设置上,本文选择大小为3×3×3像元的卷积核。之后,将训练好的卷积神经网络去掉softmax层,形成一个具有高维CNN特征的数据集生成器,并利用其构建拟合模型。在拟合模型的选取上,采用随机森林(RF)作为最终的拟合模型。以往研究指出,随机森林在解决多维特征拟合所带来的多重共线性问题时有很好的效果[18],因此被广泛应用于多维特征的分类和回归问题[19]

2.2 模型准确性评估

本文采用若干精度评价指标,将模拟的房价结果和真实结果进行对比来定量评估本文提出的模型最终房价制图的准确性。这些精度评价指标包括:皮尔森相关系数(Pearson R),拟合优度(Standard R2),均方根误差(RMSE),平均绝对误差(MAE)。
PearsonR = i = 1 n ( h i , s - h s ¯ ) ( h i , o - h o ¯ ) i = 1 n ( h i , o - h o ¯ ) 2 i = 1 n ( h i , s - h s ¯ ) 2 (1)
S tan dard R 2 = n i = 1 n h i , o h i , s - i = 1 n h i , o i = 1 n h i , s n i = 1 n h i , o 2 - i = 1 n h i , o 2 n i = 1 n h i , p 2 - i = 1 n h i , p 2 (2)
RMSE = i = 1 n ( h i , o - h i , s ) 2 n (3)
MAE = 1 n i = 1 n | h i , o - h i , s | (4)
式中: h i , o h i , s 分别是第i个样本的实际和模拟房价;n是研究区域内的总样本。

3 武汉市中心城区微观房价制图

3.1 研究区概况以及数据准备

武汉市是中国中部地区的中心城市,2017年生产总值为13 410.34亿元,人均生产总值为123 831元人民币,其发达的经济基础和便利的交通位置使得住宅价格稳定提升。如图3所示,本文的研究区域为武汉市内中心城区,共涉及主城区6个行政区划(江岸区、江汉区、汉阳区、武昌区、洪山区、青山区),远城区4个行政区划(东西湖区、蔡甸区、江夏区、黄陂区),总面积约为9147 km2。主城区和远城区的划分参考自武汉市最新颁布的买房落户政策,不同的政策要求下使得各行政区域的人口流动格局和经济结构发生变化[21],这也使不同行政区之间的空间异质性更加复杂[22,23,24]
Fig. 3 Study area (Wuhan city)

图3 研究区域(武汉市)

注:背景数据是Google Earth提供的湖北省武汉市遥感图像,空间分辨率为5 m。

Fig. 4 The acquired housing price data from, China's biggest online housing market website

图4 中国最大的在线住宅市场网站Fang.com收录的房价数据

由于采集的房价数据是连续数值,本文通过对它们进行标准偏差等级划分来进行离散化[25]。设研究区每平方米住房价格的平均值和标准差分别为 μ h σ h ,在数据预处理中,为保证数据的可靠性,删除了低于2000元/ m 2 或者高于 μ h + 3 σ h 的房价样本。然后,对原始房价数据进行评级,步长为 0.25 σ h ,提取出的数据作为CNN的输入数据[12]。研究中部分试验也应用了辅助地理空间数据(表1图5,均见第173页),数据的选择覆盖了影响武汉城市房价的几个主要要素,包括生活环境、交通条件、生活便利、道路密度等。
Tab. 1 Selection table of auxiliary geospatial data

表1 辅助地理空间数据选择表

参数类别 二级分类
区位特征 政府机构
教育资源 幼儿园、小学、初中
交通便捷 地铁站
医疗资源 大型医院
便民服务 超市
休闲娱乐 休闲广场
道路密度 快速路
Fig. 5 The spatial distribution density of Baidu POIs and the auxiliary geospatial datasets

图5 POI辅助地理空间数据集空间分布密度

3.2 对比实验

Tab. 2 The methods of mapping fine-scale housing prices via different mining model

表2 基于不同空间数据挖掘模型的空间房价分布精细制图方法

实验编号 实验描述 实验标签
A 仅使用辅助空间数据集 RF(SD)
B 仅使用遥感影像原始特征 RF(HSR)
C 使用辅助空间数据集和遥感
D 通过CNN从遥感影像中提特征 CNN(HSR)
Tab. 3 The accuracy assessment results of different mapping fine-scale housing prices methods

表3 不同房价分布制图方法得到的结果精度对比结果

精度评价指标 实验编号
Pearson R 0.775 0.655 0.809 0.818
Standard R2 0.592 0.434 0.653 0.805
RMSE 3915.534 4650.235 3614.826 3462.558
MAE 2884.581 2594.251 2535.015 2168.949
通过对比4组实验(A组、B组、C组、D组),实验D均方根误差(RMSE)、平均绝对误差(MAE)均为最小,表明实验D所模拟的预测房价与真实房价之间误差最小,结果最为准确。实验D中拟合模型获得了最高的拟合优度(R2=0.805),相比3种传统方法(A: R2=0.592;B: R2=0.434;C: R2=0.653)其精度提升了至少23.28%。这表明当采用CNN进行遥感影像高级语义特征提取时(D组),比仅使用单一类型的输入数据(A组、B组)的拟合模型或通过多源数据简单地应用特征组合(C组)取得的精度更高。这表明仅仅使用遥感影像的原始纹理和结构特征或辅助地理数据并不能实现高精度的模拟预测,在对数据的挖掘过程中会丢失部分特征信息。相比之下,CNN则更适合于对遥感影像高级语义和背景信息的挖掘与提取[13,17,26]
Fig. 6 Wuhan's housing prices simulated via CNN(HSR)

图6 CNN(HSR)模拟的武汉市房价分布

3.3 武汉市精细房价制图结果分析

武汉市主要城区房价的 Moran's I指数的计算结果为0.109,z得分为126.054,p得分为0。武汉市主城区的房价已经通过了空间自相关检验且 Moran's I指数为正值,表明武汉市主城区的聚类分布特征已经非常明显,存在高值聚类、低值聚类的房价分布特点[27]。从图6可看出,高房价区域( 25 000元/ m 2 )主要位于江岸、江汉、武昌、洪山的沿江地带,低房价区域(<10 000元/ m 2 )多集中在东西湖区、汉阳区的南部、黄陂等较远区域。此外,由表4(见第175页)可知,相对于武汉中心主城区(江汉区,江岸区,洪山区,武昌区,汉阳区,青山区),远城区(江夏,蔡甸区,东西湖区,黄陂区)的房价模拟准确度较低。这是由于同主城区相比,远城区划入武汉市行政区的时间较晚,城市规划和基础配套设施建设虽然比较完善,但是住宅和商业地产的发展却很缓慢,大部分地区仍为农村住宅社区和村庄,这导致CNN提取遥感影像特征后进行房价模拟时容易出现误差。同时,本文还发现主城区的房价模拟精度与各区生产总值排名相似,远城区的精度则与各区房屋均价排名一致。这表明在主城区武汉房价已基本稳定,区域经济发展和房价基本相匹配,而远城区则还处于房价的增长阶段。
Tab. 4 Average values, standard deviations, and overall accuracies of housing prices in different districts in Wuhan central area

表4 武汉中心区域不同地区房价的平均值、标准差和总体准确度

区域类别 区域 真实/(元/m2 预测/(元/m2 准确度/%
平均值 标准差 平均值 标准差
主城区 江汉区 19 577.900 4612.090 19 261.333 3913.542 98.38
江岸区 20 845.530 7071.716 20 337.013 5188.628 97.56
洪山区 20 384.442 4577.304 19 654.007 3639.945 96.42
武昌区 22 129.308 6297.948 20 964.847 3467.340 94.74
汉阳区 16 674.734 3868.972 17 708.541 3544.656 93.80
青山区 15 822.054 4327.896 16 813.957 3255.780 93.73
远城区 江夏区 18 222.980 4833.506 18 423.225 3861.028 98.90
蔡甸区 15 347.774 4090.231 17 043.074 2801.621 88.95
东西湖区 14 127.650 3076.744 16 367.463 2822.753 84.15
黄陂区 12 825.273 2654.790 16 298.700 2303.813 72.92
由模拟房价分布与真实房价分布的对比(图7,见第175页)可看出,模拟房价直方图与真实房价直方图具有较高的相似性,图像特征和形状相近,这表明利用CNN模拟的武汉市房价总体是精准的。另外,由图8可看出,洪山区鲁磨路南区域周边房价在15 000~22 000元/ m 2 之间,且房屋较聚集。洪山区鲁磨路北段区域周边房价多在10 000~18 000元/ m 2 之间,且房屋分布较分散。随后通过遥感图像(图8)对比,发现鲁磨路南段靠近光谷商业圈,而且处于大学生活动辐射周边区域,人流量密集,经济活跃,房屋价格较高,且价格区域较为集中。鲁磨路北段区域临近东湖风景区,政府实行环境保护政策,禁止开发和拆迁,此地多为乡村住宅因此价格较低。
Fig. 7 Contrast histogram of simulated house prices and real house prices

图7 模拟房价和真实房价对比直方图

Fig. 8 Some details of the spatial distribution of housing prices simulated via CNN

图8 CNN房价模拟图细节


4 结论

然而,本研究所提出的模型没有将时间因素考虑在内。在现实的城市规划和建设中,往往存在基础配套设施建设和住房规划不同步的问题,而配套设施和住房价格又相互影响[39,40]。这就造成了在对遥感影像挖掘过程中,难免会因为此问题造成部分区域精度不高的问题。另外,如何确定并调整深度学习的参数,包括层数和卷积核大小,仍然是机器学习领域一个引人深思的问题[17,41]。本文所采用的模型主要依赖于对已有研究较好模型参数的参 考[11,12],今后也将对此开展进一步的研究,力求得到更高精度的模型和更细致的模拟房价分布图。
下一步将从3个方面开展研究工作:① 提高城市空间变异映射中CNN模型的可解释性;② 考虑将时间语义量化,并将其输入CNN模型,以实现更加精确的房价绘制和分析;③ 提高模型的学习能力,以便在更广泛的范围内(如国家和全球范围)绘制住房价格。

