基于多源空间数据和随机森林模型的长沙市茶颜悦色门店选址与预测研究

黄钦, 杨波, 徐新创, 郝汉舟, 梁莉莉, 王敏

Location Selection and Prediction of SexyTea Store in Changsha City based on Multi-source Spatial Data and Random Forest Model

HUANG Qin, YANG Bo, XU Xinchuang, HAO Hanzhou, LIANG Lili, WANG Min

表2 统计分析模型及其释义

Tab. 2 Statistical analysis model and its interpretation

模型名称	模型公式	模型释义	地理意义	编号
平均最近邻指数	$ANN = \frac{{\bar{D}}_{0}}{{\bar{D}}_{E}}$	$ANN$ 为平均最近邻指数; ${\bar{D}}_{0}$ 表示每个要素与最邻近要素之间的平均观测距离; ${\bar{D}}_{E}$ 表示随机模式下要素间的预期平均距离	$ANN$ <1时,要素分布趋势为集聚型; $ANN$ =1时为随机型; $NNI$ >1时为离散型	（1）
地理集中指数	$G = 100 \times \sqrt[]{\overset{n}{\sum_{i = 1}} {(\frac{x_{i}}{T})}^{2}}$	$G$ 为地理集中指数; $x_{i}$ 为第 $i$ 个区县内茶颜悦色门店的数量; $T$ 为茶颜悦色门店总数; $n$ 为长沙市区县数量	$G$ 的取值介于0~100之间, $G$ 值越小,表明门店分布越分散; $G$ 值越高,则分布越集中	（2）
不平衡指数	$S = \frac{\overset{n}{\sum_{i = 1}} Y_{i} - 50 (n + 1)}{100 n - 50 (n + 1)}$	$S$ 为不平衡指数; $n$ 为区县个数; $Y_{i}$ 为各区县茶颜悦色门店数量在全市总数所占比重从小到大排序后,第 $i$ 位的累计百分比	$S$ 的取值介于0~1之间, $S$ 值越大表明不平衡性越高	（3）
标准差椭圆	$SD E_{x} = \sqrt[]{\overset{n}{\sum_{i = 1}} {(x_{i} - \bar{X})}^{2}} SD E_{y} = \sqrt[]{\overset{n}{\sum_{i = 1}} {(y_{i} - \bar{Y})}^{2}}$	$SD E_{x}$ 、 $SD E_{y}$ 分别为标准差椭圆x、y轴方向上的轴长; $(x_{i}, y_{i})$ 为茶颜悦色门店的空间坐标; $(\bar{X}, \bar{Y})$ 为门店的平均中心; $n$ 为门店总数	对地理要素的集中、离散和方向趋势进行定量描述,直观展现其空间分布的中心性及延展性	（4）
核密度估计	$f (x) = \overset{n}{\sum_{i = 1}} \frac{1}{r^{2}} k (\frac{x - x_{i}}{r})$	$f (x)$ 为核密度函数;n为与空间位置x的距离小于或等于r的要素数;k为空间权重函数;r为距离衰减阈值;n为与位置x的距离小于或等于r的要素点数	用以测度点状要素在空间上的集聚状态,核密度值越大,表明其空间分布越密集	（5）