Location Selection and Prediction of SexyTea Store in Changsha City based on Multi-source Spatial Data and Random Forest Model

  • HUANG Qin , 1, 2, * ,
  • YANG Bo , 1, 2, * ,
  • XU Xinchuang 3 ,
  • HAO Hanzhou 3 ,
  • LIANG Lili 1, 2 ,
  • WANG Min 1, 2
Expand
  • 1. School of Geographic Sciences, Hunan Normal University, Changsha 410081, China
  • 2. Key Laboratory of Geospatial Big Data Mining and Application, Hunan Normal University, Changsha 410081, China
  • 3. College of Resources and Environmental Science and Engineering, Hubei University of Science and Technology, Xianning 437100, China
*YANG Bo, E-mail:

Received date: 2021-08-16

  Revised date: 2021-09-17

  Online published: 2022-06-25

Supported by

National Natural Science Foundation of China(41171342)

Key Project of Hunan Provincial Education Department(17A127)

Copyright

Copyright reserved © 2022

Abstract

SexyTea, as a local milk tea brand in China, combines traditional Chinese tea culture with fashion elements and incorporates a strong Chinese style, making it a must-drink milk tea drink for tourists who visit Changsha. Exploring its spatial distribution and evaluating the suitability of its store location is of great practical significance for optimizing store layout, promoting economic development, and improving tourism service level. This article is based on the API of AMAP to crawl the SexyTea POI in Changsha City, and the spatial pattern is analyzed using the average nearest neighbor index, geographic concentration index, unbalanced index, standard deviation ellipse, kernel density estimation, and other methods. We integrate multi-source heterogeneous spatial data to select a series of factors that affect its spatial distribution and use the random forest model to evaluate the suitability of the store layout. The analysis results show that: ① The spatial distribution of SexyTea in Changsha is agglomerated as a whole (ANN=0.558, G=40.283), clustered around the city's core business clusters, forming a spatial pattern of "one super-multi-core"; ② The average test accuracy after optimization of the random forest model is 92.18%, and the OOB test accuracy is 93.45%. The evaluation results can accurately reflect the suitability and spatial distribution heterogeneity of the SexyTea store in Changsha City; ③ SexyTea location suitability results show that the suitability probability in the core business clusters of Changsha City is generally high, and there is an obvious high-value agglomeration phenomenon, which is in line with Friedman's "center-periphery" theory. If the business clusters are stratified into centers of different levels, the service functions and scope of influence provided by them will be affected by the attenuation of spatial distance, and the spatial distribution conforms to the Tobler's First Law of Geography; ④ The ranking result of feature importance shows that competitive environment, transportation location, and socio-economic development have the greatest contribution to the model. This is complementary to the minimum difference criterion emphasizing agglomeration effect and traditional commercial location strategy emphasizing location selection. Therefore, such factors can be considered when selecting store locations. The methods and conclusions of this research that integrate multi-source spatial data and use data mining technology to solve the location problem can provide reference for the location and spatial layout of SexyTea stores.

Cite this article

HUANG Qin , YANG Bo , XU Xinchuang , HAO Hanzhou , LIANG Lili , WANG Min . Location Selection and Prediction of SexyTea Store in Changsha City based on Multi-source Spatial Data and Random Forest Model[J]. Journal of Geo-information Science, 2022 , 24(4) : 723 -737 . DOI: 10.12082/dqxxkx.2022.210478

1 引言

随着我国社会经济的不断发展,饮品市场需求不断扩大,涌现出各式各样的饮品品牌。如蜜雪冰城、书亦烧仙草、益禾堂、CoCo都可等连锁奶茶店分布于全国许多城市,已成为奶茶界的“中流砥柱”。就在各大奶茶品牌争先恐后进驻各大城市抢占商机的同时,长沙茶颜悦色却显得独树一帜。自2013年成立以来,始终坚持只直营不加盟的原则深耕长沙,凭借其独特的口味、优质的服务与国风特色,深受广大消费者青睐,逐渐发展成为长沙市的一张城市名片。作为中国内地首创以中国风为主题的奶茶店,茶颜悦色既凸显了弘扬中国传统文化的时代主题,又不失创新地与新式茶饮相结合,差异化路线使其产品更具竞争优势。目前,茶颜悦色已遍布长沙各地,在空间布局上与其他饮品店类似,主要分布于主城区,且相对集中于主要商圈[1]。茶颜悦色门店扩展,不仅是自身发展需要,而且其合理的空间布局可以与城市空间规划、旅游景点布局等相衔接,对于促进经济发展、提升旅游服务水平、提高城市知名度等具有重要的现实意义。
商业网点选址研究由来已久,国外学者最早奠定了理论基础。根据选址决策优化目标的不同,发展出四大经典选址理论:中心地理论、竞租理论、空间相互作用理论和最小差异化准则[2,3]。随着统计学、运筹学、区域经济学、地理信息科学等理论的不断发展和完善,在经典选址理论基础之上,学者们针对不同的选址决策需求,发展出了不同的选址方法。层次分析法[4,5]、重力模型[6]、回归模型[7]、多准则决策[8]、地理信息系统[9]等方法被广泛应用于各种选址决策场景。这些方法在基本假设、模型复杂性和计算性能方面各不相同,所针对的问题也略有差异。国内对于商业网点选址及其影响因素的探讨最早是基于西方选址理论开展实证研究,并在商业理论、地理区位和商业选址等方面取得了丰硕成果。如克里斯泰勒中心地理论、哈夫商业设施选址模型、赖利零售引力模型以及加纳商业中心空间模式等被国内研究者广泛借鉴[10]。回顾我国商业地理学的发展历程,商业区位选址研究主要经历了4个阶段: ① 以商业地理学及城市区位为主的宏观研究阶段;② 以城市商业网点及商业活动空间结构为主的中观研究阶段;③ 以百货店空间布局、连锁便利店区位为主的微观研究阶段[11];④ 以城市大数据、新商业业态为主的精细尺度研究阶段。研究方法也逐渐由以定性分析为主到定性定量相结合再到定量分析为主方向转变。随着新商业业态的不断涌现以及数据的日益丰富,许多学者利用大数据结合GIS针对不同业态开展了新的研究。通过选取一系列影响商业网点空间分布的指示因子,结合GIS和其他统计方法分析不同因子对商业网点空间布局的影响。如王珏晗等[12]运用核密度分析、莫兰指数并结合OLS和SLM两个模型对比分析了广州市商业型健身房空间分布特征及其影响因素,为探究网点空间格局和构建特征因子方面研究提供了参考;杨秋彬等[13]基于POI数据,运用核密度估计与空间计量回归分析印证了商业集聚对周围邻近空间具有正向溢出效应;汪凡等[14]采用最邻近指数、核密度分析比较了上海传统零售与新零售在空间布局上的不同特征,并采用空间计量模型探究了二者在区位选择因素上的差异;金安楠等[10]基于POI和AOI数据并运用空间分析方法分析了南京市盒马鲜生的空间格局,并采用二元Logistic回归法分析不同影响因素对门店选址的重要程度。此外,还有学者利用博弈分析[15]、层次分析法[16]、智能推荐[17]等方法对商业选址问题进行了研究。上述方法大多从空间分析视角,运用相关统计方法分析不同因素对于不同商业业态的影响程度,丰富了商业地理学的研究内容,推动了选址理论与方法研究,对本文有重要启示和借鉴意义。但是,以上研究皆从宏观层面揭示各影响因素对不同商业业态的影响程度,未从精细尺度评价区域范围内的选址适宜性。此外,目前大多数现有的门店选址方法多是从定性的角度,通过对区位相关因素的重要性进行评价,结合层次分析法,得到候选地点的适宜性综合得分[18]。虽然这种方法在选址研究中得到了广泛的应用,但过多地依赖于评估者的主观想法,致使传统选址方法难以为继,亟需摆脱现有模型困境,并从新方法上取得突破。
而随着智慧城市的不断发展,城市内大规模活动产生多源异构的地理空间数据,促使门店选址研究由单一数据逐渐转向多源数据驱动。不断增长的城市数据为城市连锁商店区位研究提供了大量的数据样本资源。城市大数据的普及和数据挖掘技术的进步给门店选址研究提供了重大机遇,而多源数据融合可以有效解决单一数据源产生的偏差问题[19,20],越来越多的学者倾向于利用数据挖掘技术更加科学合理地选址。如张嘉琪等[21]通过耦合北京市某大型家装品牌户外广告到店转化率和路网、POI数据,运用随机森林构建了广告到店转化率预测模型并得到1 km分辨率的广告适宜性制图结果;汪晓春等[22]以POI数据与"六普"人口数据为基础,结合武汉市现有的城市养老设施分布特征,在500 m格网尺度上运用决策树模型对养老设施选址布局进行了定量模拟。目前,国内外基于机器学习思想和多源空间数据用于精细尺度选址研究的文献还比较有限,尚未有相关文献对长沙市茶颜悦色的空间格局与精细尺度的选址问题展开探讨。基于以上背景,本文融合多源地理空间数据,运用Python网络爬虫技术调用高德地图API爬取长沙市现有茶颜悦色POI。运用多种空间分析方法在分析长沙市现有茶颜悦色空间格局的基础上,选取一系列表征其空间分布的指示因子并运用随机森林模型在100 m格网尺度上对茶颜悦色门店布局适宜性进行评估,以期为茶颜悦色门店布局提供科学依据。

2 研究区概况与数据来源

2.1 研究区概况

长沙地处湖南省东北部,是长江经济带和长江中游城市群重要的节点城市、旅游城市和交通枢纽,也是湖南省的政治、经济和文化中心(图1)。茶颜悦色作为长沙新名片,与臭豆腐齐名,凭借其国风特色与良好的产品质量和服务成功“出圈”,吸引了众多异地游客前来“打卡”品尝。为保证产品质量、降低运营和管理成本,自2013年成立以来,茶颜悦色始终坚持“只直营不加盟”的原则,深耕长沙。发展至今其门店已增至近300多家,2020年底开始落户深圳、武汉和常德等地。
图1 2020年长沙市行政区划及同质性奶茶店空间分布

Fig. 1 The administrative division of Changsha City and the spatial distribution map of homogenous milk tea shops in 2020

2.2 数据来源

本研究涉及多源地理空间数据,涵盖自然地理、社会经济、城市功能结构等诸多方面,数据具体获取时间及来源如表1。POI类型划分是基于高德地图分类标准,在参考张嘉琪等[21]研究的基础上选取了餐饮服务、购物服务、生活服务等14类POI并分别计算其核密度用以构建特征因子,各类POI数量及其所占比重如图2所示。
表1 本文数据来源

Tab. 1 Data source for this article

数据类型 数据年份 数据来源 数据描述
POI数据 2020 高德地图API数据开放接口(https://lbs.amap.com/) 通过Python网络爬虫技术调用高德地图API爬取,共计14个类别429 839条数据
人口数据 2020 WorldPop全球高分辨率人口计划项目数据集(www.worldpop.org) 空间分辨率为3弧度(在赤道处约为100 m)
百度热力图数据 2020 百度地图API 数据开放接口(http://api.map.baidu.com/lbsapi/cloud/index.htm) 反映人流量空间分布差异
路网数据 2020 OpenStreetMap(https://www.openstreetmap.org) 反映城市交通状况,计算加权路网密度
DEM数据 2019 NASA EARTH DATA (https://earthdata.nasa.gov/) 空间分辨率为30 m,反映区域高程,也可用以计算坡度
土地利用数据 2020 地球大数据科学工程数据共享服务系统(http://data.casearth.cn/sdo/detail/5fbc7904819aec1ea2dd7061) 空间分辨率为30 m,反映地表覆盖状况
房价数据 2020 房天下(https://cs.fang.com/) 通过Python网络爬虫技术爬取,再经克里金插值[23]得到,用以近似代替城市各地租金水平
夜间灯光数据 2019 珞珈一号(http://59.175.109.173:8888/app/login.html) 夜间灯光与二、三产业GDP具有高度相关性
行政区划数据 2020 湖南省国土资源规划院(http://www.hngtghy.com/) 表征长沙市行政区划边界,通过矢量底图掩膜提取出各因子栅格
统计数据 2020 长沙市统计局(http://tjj.changsha.gov.cn/) 反映城市社会经济、社会发展情况
图2 2020年长沙市各类POI数量及其所占比重

Fig. 2 The number and proportion of various POIs in Changsha City in 2020

3 研究方法

现有研究表明,将研究区进行网格级别划分,不仅可以为研究区空间位置的比较提供统一尺度[21],而且可以轻松实现多源空间数据的聚合或分解,从而提供一种有效的数据集成方式[24]。本文在参考Gong等[24]和金安楠等[10]研究的基础上,结合研究实际和精度需要,采用100 m×100 m分辨率的网格进行相应的数据处理与分析。本文所涉研究方法主要包括空间分析与随机森林模型(图3)。
图3 茶颜悦色空间格局及选址预测技术路线

Fig. 3 Methodological workflow of SexyTea's spatial pattern, location selection and prediction

3.1 空间分析方法

在宏观空间尺度上,每一茶颜悦色门店都可以抽象为点状要素(POI)。本文综合多种空间分析方法对长沙市茶颜悦门店的空间分布特征进行测度。相关模型及其地理意义如表2所示。
表2 统计分析模型及其释义

Tab. 2 Statistical analysis model and its interpretation

模型名称 模型公式 模型释义 地理意义 编号
平均最近邻指数 ANN = D - 0 D - E ANN为平均最近邻指数; D - 0表示每个要素与最邻近要素之间的平均观测距离; D - E表示随机模式下要素间的预期平均距离 ANN<1时,要素分布趋势为集聚型; ANN=1时为随机型; NNI>1时为离散型 (1)
地理集中指数 G = 100 × i = 1 n x i T 2 G为地理集中指数; x i为第 i个区县内茶颜悦色门店的数量; T为茶颜悦色门店总数; n为长沙市区县数量 G的取值介于0~100之间, G值越小,表明门店分布越分散; G值越高,则分布越集中 (2)
不平衡指数 S = i = 1 n Y i - 50 n + 1 100 n - 50 n + 1 S为不平衡指数; n为区县个数; Y i为各区县茶颜悦色门店数量在全市总数所占比重从小到大排序后,第 i位的累计百分比 S的取值介于0~1之间, S值越大表明不平衡性越高 (3)
标准差椭圆 SD E x = i = 1 n x i - X - 2 SD E y = i = 1 n y i - Y - 2 SD E x SD E y分别为标准差椭圆xy轴方向上的轴长; x i , y i为茶颜悦色门店的空间坐标; X - , Y -为门店的平均中心; n为门店总数 对地理要素的集中、离散和方向趋势进行定量描述,直观展现其空间分布的中心性及延展性 (4)
核密度估计 f x = i = 1 n 1 r 2 k x - x i r f x为核密度函数;n为与空间位置x的距离小于或等于r的要素数;k为空间权重函数;r为距离衰减阈值;n为与位置x的距离小于或等于r的要素点数 用以测度点状要素在空间上的集聚状态,核密度值越大,表明其空间分布越密集 (5)

3.2 随机森林模型

随机森林(Random Forest, RF)模型由Breiman[25]于2001年提出,是一个多决策树集成模型,擅长解决高维非线性分类问题,可以处理大量的输入变量并能有效避免过拟合,在分类过程中具有较好的 准确性、泛化性和鲁棒性[26]。模型通过 K轮训练,构成一个基评估器序列 h 1 X , h 2 X , h 3 X , , h k X,然后对其预测结果进行平均或用多数表决(投票)原则来决定集成评估器的结果:
H x = argma x y i = 1 k I h i X = Y
式中: H x表示模型最终分类结果; I .为示性函数; h i为单棵决策树分类器(基评估器); Y为输出变量(目标变量)。其泛化误差上界为:
P E * ρ - 1 - S 2 S 2
式中: P E *为模型泛化误差; ρ -为决策树之间的相关性; S为决策树的分类强度。
随机森林模型的本质是一种装袋集成算法(Bagging),利用 bootsrap 重抽样方法从原始样本中抽取多个样本。由于是有放回抽样,会导致一些样本可能被重复抽到多次,而其他样本可能被忽略。原始数据中每个样本未被抽到的概率为 ( 1 - 1 / n ) ^ n,当n→∞时, p收敛于1/e,约为0.368,即约有36.8%的样本未被抽取,这些未被抽取的数据统称为袋外数据(Out of Bag Data,OOB),可以利用该数据来测试模型拟合精度。随机森林算法基于bagging进行分割,而不是试图平衡特征,这表明基于随机森林的拟合模型能够解决地理应用中的高维空间变量的核心关系问题[19]。前人研究表明,随机森林模型在空间分布预测的研究中表现优异,相较于其他分类预测模型具有更高的精度[27,28,29]。在数据处理和建模过程中,不需要对样本数据进行归一化、标准化等过多的预处理工作,不仅具有参数调整少、运算效率高、分类准确率高等优点,而且能够度量各个特征的重要性,从而避免了人为因素的介入赋予因子权重,增加了预测结果的客观性。但在噪声较大的数据中容易出现过拟合,相较于单棵决策树其时间复杂度较大。随机森林不仅在实际应用中表现优秀,而且针对不同问题产生了多种变形模型。如极端随机树(Extra-Trees)由于其随机性更强,能有效抑制过拟合,有更强的泛化能力;TRTE算法(Totally Random Trees Embedding)能将低维数据映射到高维,从而更好地应用于分类或回归;独立森林(Isolation Forest)可用于异常点检测等。尽管随机森林模型应用广泛,但在精细尺度的选址研究中仍缺乏应用。
本文基于随机森林分类器对长沙市茶颜悦色门店选址进行概率预测,实验过程为:① 选取影响茶颜悦色门店布局的33维特征并计算每个网格中相应的特征值用以构建特征矩阵;② 提取249个茶颜悦色POI和同数量的负类样本点所对应的特征值以构建训练数据集;③ 从训练数据集中随机选取70%的数据用于训练,剩余30%的数据和袋外数据组合用以验证。通过数据划分、交叉验证、参数调优、平衡模型训练复杂度等方法选取最佳模型;④ 将特征矩阵导入预先训练好的模型进行分类预测,得到每个网格布局茶颜悦色门店的概率并进行适宜性制图。

3.3 特征矩阵构建

在参考Guo等[33]研究的基础上,通过叠加各类POI并结合实地调研与观察,茶颜悦色门店往往布局在人流量大且交通便利的大型商场、办公楼、社区、步行街、热点景区、学校等。根据数据的可获得性和质量水平,结合现有研究成果,从自然环境、社会经济、交通区位、客源市场、竞争环境、城市功能结构6个方面选取相应的特征因子。在指标选取的过程中,坚持科学性、系统性、代表性、可以获得性原则,构建长沙市茶颜悦色门店选址指标体系如表3所示。其中,2020年长沙市土地利用、人流量空间部分如图4所示,各类POI核密度如图5所示。
表3 长沙市茶颜悦色门店选址特征选择

Tab. 3 Feature selection of the location of the SexyTea store in Changsha City

影响因素 特征选取 特征释义 特征粒度
自然环境 高程 地形、地势是门店选址需要考虑的重要因素,海拔高度在一定程度上影响门店选址的适宜性[30] -84~1595 m
坡度 坡度影响着建筑选址,是经济发展的限制性因子 0~50.15°
土地利用 不同土地利用类型其环境承载力不同,通过分析土地使用情况可以排除不合适的区域和空置土地,进而优化门店选址[30] 涉及11个土地利用类别
交通区位 路网密度 路网密度是衡量区域交通可达性的重要指标之一,商业集聚程度高的区域一般路网密度高[12] 0~6.49 km/km2
距最近干道平均距离 城市交通可达性一般以干道为轴线向外围递减,商业门店趋于邻近交通干线布局[12] 0~49.24 km
距最近地铁出入口平均距离 城市快速轨道交通可提高区域交通可达性,对商业集聚和人流产生正向的外部影响[12] 0~114.31 km
距最近公交站点平均距离 公交站点提升区域交通可达性,会串联居民区和重要景点、商场等,促进人口空间流动[19] 0~62.41 km
距最近交通设施平均距离 交通设施的空间分布可以在一定程度上反应城市的交通格局,城市发展水平高、人流量大的地方交通设施越完善 0~52.64 km
社会经济 平均房价水平 城市房价与居民平均收入水平正相关,居民收入水平越高,购买力越强,房价就越高[31] 0~30 852 元/m2
夜间灯光强度 夜间灯光与国民生产总值GDP或区域生产总值GRP存在较高的相关性[32],门店布局往往选择经济发展程度高的区域 辐射校正后的DN值介于0~0.044
人口空间分布 门店布局与人口空间分布存在明显的相互吸引效应,人口规模越大,消费需求的积累越容易产生,市场潜力越大[12] 0~2974.72 人/单位格网
住宅小区密度 商业与房地产业在空间上高度相关,茶颜悦色作为消费性服务业与城市居住用地具有地域共生性[12] 核密度值介于0~85.47
客源市场 人流量 人流量对商业空间分布具有显著的正向效应[13],是影响商业布局的首要因素之一 分为8个等级
距最近景点平均距离 在大多数城市中,景点、学校和商业机构等在选址上具有高度相关性[33],其强大吸引力是影响人员到访重要的外部因素 0~53.12 km
距最近学校平均距离 0~55.19 km
距最近商场平均距离 0~64.96 km
竞争环境 竞争者数量[3] 本文将不同品牌连锁奶茶店(蜜雪冰城、书亦烧仙草、益禾堂、CoCo都可等)认为是茶颜悦色门店布局潜在的竞争者,通过计算每个格网中竞争者的数量、300 m(Chen等[34])范围内的竞争者密度与距竞争者的欧氏距离来衡量竞争强度 0~9个/单位格网
竞争者密度[34] 核密度值介于0~41.46
距竞争者距离[35] 0~57.12 km
城市功能结构 各类POI密度[10] POI数据可以有效反映城市内部功能结构[19],本文通过计算14类POI核密度以反映其空间分布模式和集聚特征 涉及14个类别POI核密度
图4 2020年长沙市土地利用及人流量空间分布

Fig. 4 Spatial distribution of land use and human flow in Changsha City in 2020

图5 2020年长沙市各类POI核密度

Fig. 5 Various types of POI nuclear density in Changsha City in 2020

4 结果分析

4.1 茶颜悦色空间格局

运用ArcGIS10.6软件测算得到长沙市茶颜悦色POI的平均观测距离为689.579 m,预期平均距离为1942.583 m;最邻近指数ANN为0.354,该值小于1;P值和Z得分分别为0和-19.472 (小于-2.58),通过了0.01置信水平的显著性检验,据此可初步判断茶颜悦色的总体分布类型为集聚型。为进一步探讨茶颜悦色的空间集聚程度,本文选取地理集中指数模型对其进行测度。测算结果表明,茶颜悦色的地理集中指数 G为40.283,若将其均匀展布于长沙市各区县,此时得到的地理集中指数 G -为33.333,而 G> G -,表明在区县尺度上,其空间分布较为集中。上述分析表明,茶颜悦色的空间分布集聚程度较高,故本文从地理要素空间分布不均衡角度出发,选取不平衡指数模型对其进行进一步测度。经测算,茶颜悦色的不平衡指数S=0.428,表明其在9个区县中分布不均衡。
以上分析是基于区县从宏观尺度对长沙市茶颜悦色的空间分布展开探讨,为直观展现其空间分布的中心性、延展性及分布密度,采用标准差椭圆与核密度估计方法对其进行分析。结果表明(图6),以地理坐标(112.99°E,28.19°N)为中心,以28 199.413 m为长半轴、13 237.212 m为短半轴的椭圆可以囊括长沙市约98%的茶颜悦色POI点,且集聚区域大致呈东-西向分布,覆盖6个核心城区的绝大部分区域。茶颜悦色门店空间分布高密度区域主要集中在芙蓉区、天心区、开福区的交错地带,包括定王台街道、通泰街街道、坡子街街道等,即由中山路、湘江中路、西湖路、芙蓉中路所围成的圆形区域,形成了“一超多核”的空间格局。其中,“超级核心”大致以五一广场为圆心,向外辐射分布,囊括了长沙市核心商圈。其他密度较高值区,由于受人口、交通、景区吸引力和客源等因素影响在空间上形成高密度核心。
图6 长沙市茶颜悦色标准差椭圆及核密度空间分布

Fig. 6 The spatial distribution of the standard deviation ellipse and kernel density of SexyTea in Changsha City

4.2 模型可靠性评估

传统衡量机器学习算法性能的指标通常选择测试集的 Kappa系数和精度,但该评价方法往往会忽略机器学习模型后验概率大小程度,故不能反映机器学习算法的真实性能。而ROC曲线的下面积值(AUC值)不仅能有效检验模型的分类性能,还能度量机器学习算法的后验概率和排序性能,在机器学习算法可靠性评估中应用广泛[36]。基于以上分析,本文综合使用混淆矩阵、ROC曲线及AUC面积来评估模型性能。
(1)混淆矩阵:基于混淆矩阵选取精确度( Precision)、召回率( Recall)和 F 1值评估模型性能,其计算公式如下:
Precision = TP TP + FP
Recall = TP TP + FN
F 1 = 2 × Precision × Recall Precision + Recall
式中: TP为真正类数量; FP为假正类的数量; FN为假负类的数量。 F 1分数为精确度和召回率的谐波平均值,其值介于[0, 1],越接近于1表示分类器的性能越好。
(2)AUC面积:由于ROC曲线无法直接作为分类器的评价指标,故采用ROC曲线对应的下面积(AUC值)对模型性能进行评估。AUC面积的计算公式如下:
AUC = i 正样本集合 ran k i - M ( M + 1 ) / 2 M × N
式中: AUC为ROC曲线对应的下面积AUC值; M N分别为正负样本个数; ran k i为第 i个正类样本概率得分的排列值。
为增强模型泛化能力,降低模型过拟合风险,本文使用 K-折交叉验证综合测量模型性能,进行10次交叉验证( K取10有相对低的方差和偏倚)[31]。将样本点均匀地分为10份,即 T 1, T 2, T 3,…, T 10,提取 T i作为测试数据集,剩余部分作为训练数据集,构建 i组训练测试集 Trai n i , Tes t i , i = 1,2 , 3 , , 10,然后分别计算其精确度 ( Precision )、召回率( Reca l l)、和 F 1分数的平均值,评价结果如表4所示。
根据实验结果可知,10折交叉验证平均测试精度为92.18%且拥有较高的召回率, F 1值平均得分为0.9758,表明精确度与召回率得到了很好的权衡。经计算,袋外数据(OOB)在该模型上的测试精度为93.45%,模型达到理想状态。通过该训练模型对样本数据的分类预测结果,基于多阈值依赖判断模型精度,得到ROC曲线与AUC面积。如图7所示, ROC曲线呈现明显的左上突趋势,离纯随机分类器的ROC曲线(图中黑色虚线)较远,并且在该状态下的AUC面积为0.976。以上分析结果表明,经过调参之后的模型整体性能表现优秀。
图7 模型拟合ROC曲线及AUC面积

Fig. 7 Model fitting ROC curve and AUC area

4.3 选址适宜性空间分布

将原始数据导入预先训练好的模型中并进行预测,得到门店布局适宜性空间分布图(图8)。根据模型拟合结果并叠加在线电子地图发现,图中热点区域大致与城市干道轮廓相对应;冷点区域涵盖了水域、高植被覆盖区、低城市化区等区域,模型能根据现有茶颜悦色门店的空间布局特征很好地识别出城市功能区。通过将现有茶颜悦色门店与预测结果图进行叠加分析发现,现有茶颜悦色门店与高概率值相对应,表明模型很好地拟合了现有门店布局的空间特征。根据模型预测结果,对每个网格的概率预测值进行排序。在排除现有门店的基础上选择其余预测概率最高的前100个网格,并将其转为矢量点作为布局茶颜悦色门店的候选点。如果以湘江作为分界,现有门店与预测门店在空间上皆是东部大于西部,这与城市发展水平和经济发展程度高度相关。现有门店与预测门店之间存在的较高预测概率而未作为预测门店的网格可作为未来茶颜悦色持续扩展可以考虑的潜在选址地点。
图8 长沙市茶颜悦色门店选址适宜性空间分布

Fig. 8 Spatial distribution of suitability for the location of SexyTea stores in Changsha City

从总体上看,茶颜悦色门店适宜性空间分布概率整体呈现出“中心高外围低”的空间格局,城市中心呈现出高值集聚的现象。另外,在宁乡市、浏阳市的主城区适宜性概率较高,其他地区适宜性概率较低,这与长沙市实际经济发展情况相符。适宜性概率高值区域位于长沙市核心城区及靠近核心城区的近郊区,而外围远郊区及远离主城区的近郊区适宜性概率较低。根据弗里德曼的“中心-外围”理论,城市中心资源集中、经济发展条件优越且效益高,在城市经济系统中处于支配地位;城市外围资源相对匮乏、经济发展条件相对较差且效益较低,在城市经济系统中处于被支配地位,长沙亦是如此。据长沙市统计局数据显示,2019年长沙市6个核心城区全年GDP总和约占整个长沙市GDP总和的63.82%。
从空间分布上看,由于自然地理条件、社会经济发展水平的差异,资源配置的不同以及不同区域优势产业偏向,长沙市的经济发展差距明显。绕城高速内经济发展程度高,企业众多,交通发达,设施完善,人流巨大。餐饮、购物、经融保险业等高度集聚于主城区核心商圈且集聚程度持续增强。电子信息、生物医药、新能源、新材料及服务外包产业集中于麓谷,形成了产业集群,这对于商业和经济发展大有裨益。特别是针对茶颜悦色等第三产业服务业来说,产业集聚形成的引力效应能给门店布局带来充足客源。长远来看,更有利于门店发展。
从特殊门店的空间结构来看,以橘子洲店、岳麓山店最为典型。其主要依托于著名景区,与景区内旅游服务设施相配套,在空间上呈现出单密度核心的分布格局且辐射范围仅限于景区之内。由于其特殊的服务功能,对游客数依赖性较强且有明显的时间和季节变化特性,因此不容易产生集聚效应。在模型拟合的过程中是基于大多数门店的空间特征进行学习,因此识别旅游热点景区内候选门店的概率值相对较低,在实际应用中可以根据景区自身发展状况结合模型预测结果综合决策。

4.4 驱动因素分析

RF模型计算特征重要性的方法主要有2种:平均准确率减少值(Mean Decrease Accuracy,MDA)和平均基尼减小值(Mean Decrease Gini,MDG)。本文基于scikit-learn库运用平均基尼减小值来衡量各个特征(指标)对模型的贡献率。MDG以特征平均基尼减小值占所有特征平均基尼减少值总和的百分比度量特征的重要程度,其计算公式为:
MD G k = i = 1 n j = 1 t D Gkij k = 1 m i = 1 n j = 1 t D Gkij
式中: MD G k为第 k个特征在所有特征中的重要程度; n为分类树棵数; t为单棵树的节点数;m为总特征个数; D Gkij为第 k个特征在第 i棵树的第 j个节点的基尼指数减小值。
通过模型返回的特征重要性排序结果(图9)发现,竞争环境、交通区位与社会经济等因素对模型的贡献率较大。其中,距竞争者距离(16.357%)和竞争者数量(9.548%)的特征重要性排名靠前,分列第一、三位。根据空间竞争理论,地理空间上的分散性所导致的交通成本的差异会在不同程度上削弱市场竞争强度。同质性奶茶店围绕核心商圈在空间上呈现出集聚状态可以最大化市场份额,不同品牌的奶茶店共生布局兼有良好的互补性。距最近交通设施平均距离(12.439%)和夜间灯光强度(7.220%)的特征重要性分列第二、四位,2个特征从侧面反映出交通便利程度和社会经济发展水平对茶颜悦色门店布局有巨大影响。交通设施的完善程度反映出区域交通状况,依托于便利的交通条件带来巨大客流,这是商业选址的必要条件。同时,夜间灯光强度与第二、三产业具有高度相关性,能客观、真实地反映出社会经济活力的空间异质性,可以在很大程度上表征区域经济发展程度。而茶颜悦色作为第三产业服务业对交通和经济发展水平的依赖性较强,所以2个特征对模型的贡献率较大。特征重要性较小的指标,如土地利用(0.450%)、高程(0.492%)等对模型的贡献率最小,这与样本点(现有门店))的空间分布有直接关联。由于现有门店集中于城市经济发展程度高的区域,其土地利用类型均为居住或商业用地并且高程的空间异质性不强,导致模型训练时从中学习不到足够的异质特征,因而其特征重要性靠后,其他评分较小的特征如是。
图9 各指标特征重要性度量

Fig. 9 The importance of each index feature

5 结论与讨论

5.1 结论

本研究以长沙市茶颜悦色为研究对象,立足于商业地理学选址研究理论背景,融合多源空间数据运用数据挖掘技术解决选址问题,提供了一种切实可行的研究思路用于城市精细尺度的选址研究工作。在分析现有茶颜悦色空间格局的基上运用随机森林模型对门店布局适宜性开展实证研究,得出如下结论:
(1)长沙市现有茶颜悦色门店具有明显的集聚特征( ANN = 0.354, G = 40.283),主要集中于核心城区,其中芙蓉区、岳麓区、雨花区、天心区四区茶颜悦色门店数量约占整个长沙市的80%,主要分布于人流量大且交通便利的大型商场、办公楼、社区、步行街、热点景区、学校等地。围绕核心商圈集聚分布,形成“一超多核”的空间格局。
(2)通过融合多源空间数据构建特征矩阵并利用随机森林算法对已知样本进行训练学习以实现对未知数据的高精度分类与评价,得到每个网格布局茶颜悦色门店的概率。经检验,模型具有较高的拟合精度( Accuracy = 0.921, AUC = 0.996),能够准确反映长沙市茶颜悦色门店选址适宜性与空间分布的异质性。
(3)茶颜悦色选址适宜性结果表明,长沙市核心商圈内适宜性概率整体较高,存在明显的高值集聚现象,弗里德曼的“中心-外围”理论也印证了这一点。若将各商圈抽象为不同等级的中心地,其所提供的服务职能和影响范围受到空间距离衰减作用的影响,在空间分布上符合地理学第一定律。
(4)模型返回的特征重要性排序结果分析发现,竞争环境因素对茶颜悦色门店选址有至关重要的作用,这与最小差异化准则强调集聚效应相一致。同时,社会经济与交通设施布局等因素对门店选址的贡献率比较大,这与传统商业选址强调区位相得益彰。在今后布局茶颜悦色门店时应首要考虑竞争环境、交通区位和社会经济等因素,结合店面租金与城市功能结构合理选址。

5.2 讨论

本研究运用随机森林模型探索长沙市茶颜悦色门店布局的适宜性,取得了良好的分类效果。同时,也存在如下理论与应用层面的优势及不足:
(1)在理论层面,本研究基于空间相互作用理论、商业区位论和最小差异化准则,在随机森林分类器中纳入社会经济、交通区位、客源市场、竞争环境等相关特征,使评价结果更具理论依据。同时,根据中心地理论、竞租理论和最小差异化准则分析了茶颜悦色门店集中于核心商圈的主要原因:① 中心地提供商品或服务的引力随距离的增加而减小,而对各级中心地的商品及服务范围产生影响的关键因素就是经济距离(时间、运费、劳动力、便利性等)。核心商圈由于其经济距离优势而吸引了大量门店在此集聚;② 对于区位意识敏感且竞租能力较强的竞租者而言,围绕城市核心商圈布局门店会有更强的吸引力;③ 门店集中于核心商圈,竞争对手之间会展开博弈,可以扩大经营范围,相互促进产生良性循环,从而形成“溢出效应”。这也是茶颜悦色为何采用密集型打法,集聚分布的主要原因。
(2)在应用层面,与既有大多数研究在宏观尺度揭示各影响因素对不同商业业态的影响程度所不同。本研究基于多源空间数据和机器学习数据挖掘思想,定量评估各个网格布局茶颜悦色门店的概率,从而筛选出潜在门店的候选地点。同时,模型返回的特征重要性排序结果可以直观展现不同影响因素对于茶颜悦色空间布局的影响程度,可以在实际选址过程中提供科学参考。
(3)本研究仍然存在不足之处,由于绝大部分茶颜悦色门店均已上线美团、饿了么等外卖平台且门店集中于城市核心商圈,致使门店服务范围在空间上存在交叉,外卖服务在很大程度上扩展了其辐射范围,而在实际研究中缺乏考虑。另外,长沙市茶颜悦色门店扩展固然是大势所趋,但数量不至于太多,而茶颜悦色在2020年已走出长沙落户深圳、武汉等地,冷启动选址问题也是现阶段亟需解决的问题。因此在后续的研究中可以考虑引入迁移学习模型,以解决训练样本不足或者零样本问题,从而更好地服务于城市商业发展及茶颜悦色异地选址。
[1]
石忆邵, 杨凤龙. 上海星巴克咖啡店的空间分布特征及其影响因素[J]. 经济地理, 2018,38(5):126-132.

[ Shi Y S, Yang F L. Features of spatial distribution and impacting factors of starbucks in Shanghai[J]. Economic Geography, 2018,38(5):126-132. ] DOI: 10.15957/j.cnki.jjdl.2018.05.016.

DOI

[2]
Erdin C, Akbaş H E. A comparative analysis of fuzzy topsis and Geographic Information Systems (GIS) for the location selection of shopping malls: A case study from turkey[J]. Sustainability, 2019,11(14):3837. DOI: 10.15957/j.cnki.jjdl.2018.05.016.

DOI

[3]
Yıldız N, Tüysüz F. A hybrid multi-criteria decision making approach for strategic retail location investment: Application to Turkish food retailing[J]. Socio-Economic Planning Sciences, 2019,68:100619. DOI:/ 10.1016/j.seps.2018.02.006

DOI

[4]
Koç E, Burhan H A. An application of Analytic Hierarchy Process (AHP) in a real world problem of store location selection[J]. Advances in management and applied economics, 2015,5(1):41.

[5]
Zheng Z, Morimoto T, Murayama Y. Optimal location analysis of delivery parcel-pickup points using AHP and network huff model: A case study of shiweitang sub-district in Guangzhou city, China[J]. ISPRS International Journal of Geo-Information, 2020,9(4):193. DOI: 10.3390/ijgi9040193

DOI

[6]
Kurowska K, Kryszk H, Kietlinska E. The use of gravity model in spatial planning[C]//Environmental Engineering. Proceedings of the International Conference on Environmental Engineering. ICEE. Vilnius Gediminas Technical University, Department of Construction Economics & Property, 2017,10:1-9. DOI: 10.3846/enviro.2017.109

DOI

[7]
Chang H J, Hsieh C M, Yang F M. Acquiring an optimal retail chain location in China[C]//2015 2nd International Conference on Information Science and Control Engineering. IEEE, 2015:96-99. DOI: 10.1109/ICISCE.2015.30

DOI

[8]
Pope J A, Lane W R, Stein J. A multiple-attribute decision model for retail store location[J]. Southern Business Review, 2012,37(2):15-25.

[9]
Aboulola O I. GIS spatial analysis: A new approach to site selection and decision making for small retail facilities[D]. Claremont: The Claremont Graduate University, 2018.

[10]
金安楠, 李钢, 王建坡, 等. 社区化新零售的布局选址与优化发展研究——以南京市盒马鲜生为例[J]. 地理科学进展, 2020,39(12):2013-2027.

DOI

[ Jin A N, Li G, Wang J B, et al. Location choice and optimization of development of community- oriented new retail stores: A case study of Freshippo stores in Nanjing City[J]. Progress in Geography, 2020,39(12):2013-2027. ] DOI: 10.18306/dlkxjz.2020.12.005

DOI

[11]
方远平, 闫小培, 毕斗斗. 1980 年以来我国城市商业区位研究述评[J]. 热带地理, 2007(5):435-440.

[ Fang Y P, Yan X P, Bi D D. A review of the study on urban commercial location in China since the1980s[J]. Tropical Geography, 2007(5):435-440. ] DOI: 10.13284/j.cnki.rddl.001056

DOI

[12]
王珏晗, 周春山. 广州市商业型健身房空间分布及其影响因素[J]. 热带地理, 2018,38(1):120-130.

[ WangY H, Zhou C S. Spatial distribution and its influential factors of commercial fitness clubs in Guangzhou[J]. Tropical Geography, 2018,38(1):120-130. ] DOI: 10.13284/j.cnki.rddl.002979

DOI

[13]
杨秋彬, 何丹, 高鹏. 上海市体验型商业空间格局及其影响因素[J]. 城市问题, 2018(3):34-41.

[ Yang Q B, He D, Gao P. The geography of Shanghai's experience business and its determinants[J]. Urban Problems, 2018(3):34-41. ] DOI: 10.13239/j.bjsshkxy.cswt.180305

DOI

[14]
汪凡, 林玥希, 汪明峰. 第三空间还是无限场景:新零售的区位选择与影响因素研究[J]. 地理科学进展, 2020,39(9):1522-1531.

[ Wang F, Li Y X, Wang M F. "Third space" or "infinite occasion": Location choice and influencing factors of the new retail industry[J]. Progress in Geography, 2020,39(9):1522-1531. ] DOI: 10.18306/dlkxjz.2020.09.009

DOI

[15]
朱涛. 零售企业选址的博弈分析[J]. 商业经济与管理, 2004(7):18-21.

[ Zhu T. Game analysis on location selection of retail enterprises[J]. Journal of Business Economics, 2004(7):18-21. ]

[16]
戴晓爱, 仲凤呈, 兰燕, 等. GIS与层次分析法结合的超市选址研究与实现[J]. 测绘科学, 2009,34(1):184-186.

[ Dai X A, Zhong F C, Lan Y, et al. Site selection and realization of supermarket based on GIS and AHP[J]. Science of Surveying and Mapping, 2009,34(1):184-186. ] DOI: 10.3771/j.issn.1009-2307.2009.01.064

DOI

[17]
翟书颖, 郝少阳, 杨琪, 等. 多源异构数据融合的智能商业选址推荐算法[J]. 现代电子技术, 2019,42(14):182-186.

[ Zhai S Y, Hao S Y, Yang Q, et al. A method for chain enterprise site selection recommendation fusing multi-source data[J]. Modern Electronic Technology, 2019,42(14):182-186. ] DOI: 10.16652/j.issn.1004-373x.2019.14.042.

DOI

[18]
Zhang Y, Wan B, Cao H, et al. Research on the location suitability evaluation of 24 hours convenient store based on AHP and GIS technology: A case study of siming district in Xiamen[J]. Journal of Fuzhou University (Natural Science Edition), 2018.

[19]
Yao Y, Liu P, Hong Y, et al. Fine‐scale intra‐and inter‐city commercial store site recommendations using knowledge transfer[J]. Transactions in GIS, 2019,23(5):1029-1047. DOI: 10.1111/tgis.12553

DOI

[20]
Yao Y, Liu X, Li X, et al. Mapping fine-scale population distributions at the building level by integrating multisource geospatial big data[J]. International Journal of Geographical Information Science, 2017,31(6):1220-1244. DOI: 10.1080/13658816.2017.1290252

DOI

[21]
张嘉琪, 杜开虎, 任书良, 等. 多源空间大数据场景下的家装品牌线下广告选址布局研究[J/OL]. 武汉大学学报•信息科学版):1-14[2021-09-09]. https://doi.org/10.13203/j.whugis20190468.

[ Zhang J Q, Du K H, Ren S L, et al. Research on location selection of outdoor advertisement of home decoration brand based on multi-source spatial big data[J/OL]. Geomatics and Information Science of Wuhan University:1-14[2021-09-09]. ] DOI: 10.13203/j.whugis20190468.

DOI

[22]
汪晓春, 熊峰, 王振伟, 等. 基于POI大数据与机器学习的养老设施规划布局——以武汉市为例[J]. 经济地理, 2021,41(6):49-56.

[ Wang X C, Xiong F, Wang Z W, et al. Planning and layout of facilities for the elders based on POI and machine learning:A Case Study of Wuhan[J]. Economic Geography, 2021,41(6):49-56. ] DOI: 10.15957/j.cnki.jjdl.2021.06.006.

DOI

[23]
Kuntz M, Helbich M. Geostatistical mapping of real estate prices: an empirical comparison of kriging and cokriging[J]. International Journal of Geographical Information Science, 2014,28(9):1904-1921. DOI: 10.1080/13658816.2014.906041

DOI

[24]
Gong Z, Ma Q, Kan C, et al. Classifying street spaces with street view images for a spatial indicator of urban functions[J]. Sustainability, 2019,11(22):6424. DOI: 10.3390/su11226424

DOI

[25]
Breiman L. Random forests[J]. Machine learning, 2001,45(1):5-32. DOI: 10.1023/A:1010933404324

DOI

[26]
Biau G. Analysis of a random forests model[J]. The Journal of Machine Learning Research, 2012,13:1063-1095.

[27]
Belgiu M, Drăguţ L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016,114:24-31. DOI: 10.1016/j.isprsjprs.2016.01.011

DOI

[28]
Chen W, Xie X, Wang J, et al. A comparative study of logistic model tree, random forest, and classification and regression tree models for spatial prediction of landslide susceptibility[J]. Catena, 2017,151:147-160. DOI: 10.1016/j.catena.2016.11.032

DOI

[29]
Sahin E K, Colkesen I, Kavzoglu T. A comparative assessment of canonical correlation forest, random forest, rotation forest and logistic regression methods for landslide susceptibility mapping[J]. Geocarto International, 2020,35(4):341-363. DOI: 10.1080/10106049.2018.1516248

DOI

[30]
Mohamad M Y, Al Katheeri F, Salam A. A GIS application for location selection and Customers' preferences for shopping malls in al Ain City; UAE[J]. American Journal of Geographic Information System, 2015,4(2):76-86. DOI: 10.5923/j.ajgis.20150402.03

DOI

[31]
姚尧, 任书良, 王君毅, 等. 卷积神经网络和随机森林的城市房价微观尺度制图方法[J]. 地球信息科学学报, 2019,21(2):168-177.

DOI

[ Yao Y, Ren S L, Wang J Y, et al. Mapping the fine-scale housing price distribution by integrating a convolutional neural network and random forest[J]. Journal of Geo-information Science, 2019,21(2):168-177. ] DOI: 10.12082/dqxxkx.2019.180508

DOI

[32]
李德仁, 张过, 沈欣, 等. 珞珈一号01星夜光遥感设计与处理[J]. 遥感学报, 2019,23(6).

[ Li D R, Zhang G, Shen X, et al. Design and processing night light remote sensing of LJ-1 01 satellite[J]. Journal of Remote Sensing, 2019,23(6):1011-1022. ] DOI: 10.11834/jrs.20199327

DOI

[33]
Guo B, Li J, Zheng V W, et al. Citytransfer: Transferring inter-and intra-city knowledge for chain store site recommendation based on multi-source urban data[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2018,1(4):1-23. DOI: 10.1145/3161411

DOI

[34]
Chen L F, Tsai C T. Data mining framework based on rough set theory to improve location selection decisions: A case study of a restaurant chain[J]. Tourism Management, 2016,53:197-206. DOI: 10.1016/j.tourman.2015.10.001

DOI

[35]
Reigadinha T, Godinho P, Dias J. Portuguese food retailers-Exploring three classic theories of retail location[J]. Journal of Retailing and Consumer Services, 2017,34:102-116. DOI: 10.1016/j.jretconser.2016.09.015

DOI

[36]
周超, 方秀琴, 吴小君, 等. 基于三种机器学习算法的山洪灾害风险评价[J]. 地球信息科学学报, 2019,21(11):1679-1688.

DOI

[ Zhou C, Fang X Q, Wu X J, et al. Risk assessment of mountain torrents based on three machine learning algorithms[J]. Journal of Geo-information Science, 2019,21(11):1679-1688. ] DOI: 10.12082/dqxxkx.2019.190185

DOI

Outlines

/