POI Outliers Detection Based on Local Aggregation Characteristic Scale Determination and Its Interpretability Analysis

WU Peng; Hasibagen; QIN Fuying

doi:10.12082/dqxxkx.2024.240039

Journal of Geo-information Science >

2024 , Vol. 26 >Issue 7: 1594 - 1610

DOI: https://doi.org/10.12082/dqxxkx.2024.240039

POI Outliers Detection Based on Local Aggregation Characteristic Scale Determination and Its Interpretability Analysis

WU Peng ^,¹^,²^,^* ,
Hasibagen ¹^,² ,
QIN Fuying ¹^,²

Expand

1. College of Resources and Environmental Economics, Inner Mongolia University of Finance and Economics, Hohhot 010070, China
2. Planning and Geographic Information System Laboratory, Inner Mongolia University of Finance and Economics, Hohhot 010070, China

*WU Peng, E-mail: wupeng_imufe_edu@163.com

Received date: 2024-01-18

Revised date: 2024-04-19

Online published: 2024-06-25

Supported by

Natural Science Foundation of Inner Mongolia Autonomous Region(2021BS04002)

Natural Science Foundation of Inner Mongolia Autonomous Region(2021MS04006)

University Basic Research Business Fee Project of Inner Mongolia Autonomous Region(NCYWT23046)

Fold

Abstract

Points of Interest(POI), which are rich in semantic information, reflect current situations, and indicate areas of interest, serve as the primary data source in studies related to urban functionalization studies. These studies aim to deepen the understanding of human activities and environmental features within geographical spaces. An important research issue for enhancing the understanding of the human-environment system is detecting outliers, namely elements considerably different from the rest in large-scale spatial data. The detection of POI outliers can be broadly discussed from three perspectives: (1) spatial distribution differences, (2) spatial contextual differences, and (3) variations in the usage frequency of some POI instances and their surrounding points in specific areas due to factors such as special events, changes in urban population behavior, cultural activities, etc., leading to outliers. This paper focuses on discussing the phenomenon of POI outliers caused by spatial distribution differences. However, current outlier detection methods face with challenges. They fall short of adequately expressing and quantifying POIs' local spatial distribution features. The effectiveness of these methods needs further investigation. Given these considerations, this study proposed a novel approach for detecting POI outliers based on determination of local aggregation scales. Initially, we constructed spatial adjacency relationships of the POIs using Delaunay triangulation. Subsequently, the local aggregation characteristic scales of these points were determined by combining cross K-nearest distances and multi-scale feature parameters. Thereafter, based on the scale constraint, the points and their adjacent edge sets that met the conditions were extracted. Finally, we employed the edge length constraint index to systematically remove local long edges that did not meet the prescribed criteria. This meticulous process ensured the integration of the refined point set, thus facilitating the comprehensive detection of outliers within the POI context. The comparative experimental results, drawn from real-world data, suggested that the proposed method possessed a strong generalization ability. Moreover, it effectively and robustly detected outliers without compromising the inherent distribution characteristics of POI. We also performed an interpretability analysis of outlier detection results. The analysis revealed a close correlation between the causes of outlier distribution and various factors including the proportion of POI types, spatial layout, footprint area, and public awareness level. This study provides novel methodologies and academic perspectives for a comprehensive understanding of urban development trends, optimal resource allocation, and the enhancement of urban sustainability and quality of life.

Key words： points of interest; spatial outliers; Delaunay triangulation; cross K-nearest distance; aggregation characteristic scale; edge length constraint metric; interpretability analysis; public awareness

Cite this article

WU Peng , Hasibagen , QIN Fuying . POI Outliers Detection Based on Local Aggregation Characteristic Scale Determination and Its Interpretability Analysis[J]. Journal of Geo-information Science, 2024 , 26(7) : 1594 -1610 . DOI: 10.12082/dqxxkx.2024.240039

1 引言

离群点探测是数据挖掘的一个重要研究领域，其目的是通过数据挖掘方法发现离群点中潜在且有意义的重要知识与规律，可应用于城市气候观测、环境监测、犯罪行为检测和医学异常检测等方面。由于问题背景及研究领域的不同使得准确定义离群点存在着复杂性^[1]，当前研究中已提供了众多离群点的定义描述，如Ayadi等^[2]根据不同学者的观点列出12种离群点解释，反映了离群点概念的多样性。总体而言，离群点可描述为由某种机制引起，导致与其他数据点显著不同或者不符合预期典型行为的点^[3-4]。兴趣点（Point of Interests，POIs）是对各类地理实体的概括表达，在“城市物质空间结构识别”、“人类活动空间表征与预测”及“人地关系耦合机制探析”等领域有较强优势^[5]。因数据生产模式、隐私政策及标注方式等因素影响，POI易形成符合上述定义的离群点，如何有效探测这些离群点，对于合理表达与理解城市空间特征至关重要^[6⇓-8]。POI离群点探测大致可从3种角度讨论： ① 空间分布差异，概括程度较低的点通常泛在地、集聚地分布于道路两旁，大多为非离群点^[7]，而占地面积较大的地理实体（如校园、住宅区、机场等）POI概括程度高，常采用分布稀疏的少量点表示^[9⇓-11]，这两类点分布模式差异明显，形成了离群与非离群的划分； ② 空间上下文差异，各类型POI的空间依赖性不同，一些频繁出现在同一地点的实例类型组合构成了全局或局部的流行同位模式^[12-13]，而未构成同位模式的点由于存在空间上下文特征的差异，一定程度上可判定为离群点^[4]； ③ 此外，由于特殊事件触发、城市人群行为变化、文化活动等时空关联性因素影响，导致在特定区域内一些POI实例及其周围点的使用频率发生变化，因此形成离群。现有POI离群探测主要基于①展开，常见于数据匹配^[6]、空间范围估计^[7]等研究，由于②、③可看作是在①的基础上对专题属性、时间序列信息等非空间属性的综合考虑，因此从POI数据本身出发，本文重点讨论角度①下的离群点探测问题。

Shekhar^[14-15]将空间离群点定义为“专题属性与其邻近空间实体显著不同，而在整体数据范围内差异可能不明显的空间实体”，遵循该定义的相关方法大致可分为基于统计学、距离度量、密度估计以及聚类方法等^[16-17]。基于统计的方法^[18⇓-20]主要根据数据分布特征，通过概率分布模型的适配分析，将数据中不能匹配的点识别为离群点，这类方法虽具备大量的模型支撑，但较难预估实际数据分布规律，泛化能力较差。基于距离的方法（如KNN）^[21-22]是通过距离阈值设定实现离群与非离群的数据划分；基于密度的方法（如COF、LOF等）^{[23⇓⇓-26]}需根据离群值（如局部离群因子）判定数据的离群程度及排序，并根据预设点数提取离群点，基于距离、密度的方法简单易操作，不受数据分布影响，但这类方法对近邻参数较为敏感且时间复杂度较高。基于聚类的方法^[27⇓-29]通过调用聚类算法将不属于任何聚类的点识别为离群点，目前这类方法理论较为完善，但侧重聚类分析，对于离群点挖掘不够充分。

由于POI数据不存在是否离群的先验知识，在不叠加其他专题数据情况下，其本身非空间属性主要为实体类型、地名地址信息等，在海量的POI数据中，邻近实体间的非空间属性繁杂，单纯通过非空间属性差异难以有效判定POI是否离群。Shi等^[30]考虑到传统方法的局限性，以空间点事件为研究对象，提出层次约束TIN法（Multi-constraint Delaunay Triangulation, MC-DTIN），该方法通过Delaunay三角网建立事件间的拓扑联系，并基于3个边集统计指标约束划分层次，实现全局离群模式、局部离群模式及内部离群模式的挖掘。MC-DTIN方法无需设置参数，但自上而下的多约束划分方式能否顾及POI固有的沿街分布规律尚待进一步讨论。随着深度学习及GeoAI等相关研究的深入^[31]，以自编码器（Autoencoder）为代表的神经网络模型也被应用到离群点挖掘中^[32]，该方法通过学习将输入数据映射到低维表示，然后映射回原始空间，再比较重构误差，进而识别离群点。自编码器具备建模灵活、可识别潜在空间、特征工程需求小等优势，但存在模型解释性缺乏、过拟合风险、超参数选择需进行大量预实验等问题，尤其应用于大规模POI数据时其捕捉空间分布模式能力有限并且需耗费大量计算资源。此外，如何选择合适的方法对提高离群点挖掘精度至关重要，为此Zhao等^[33]提出MetaOD算法，将无监督模型选择问题建模为冷启动的推荐问题，实现了离群探测方法选择^[34]。提取数据集的元特征是元学习方法的关键环节，由于MetaOD方法中集成的元特征及地标特征对POI数据的空间分布规律表达和量化不足，因此所推荐的离群点探测方法并不理想。

综上所述，现有离群点探测方法是否适配POI数据尚需论证与分析，并且对于所获得POI离群探测结果缺乏进一步的应用及解释，具体表现为： ① 已有研究常通过剔除POI离群点以分析研究区域空间结构^[7,35]，而对于POI离群点所表达的关键功能信息（如住宅区、绿地、体育中心等）缺乏讨论； ② 现有离群点探测方法对POI在街道空间分布的固有特征缺乏考虑^[30]； ③ 鲜有研究面向兴趣点离群分布形成机制开展可解释性分析^[36]。针对以上问题，本文通过Delaunay三角网表达邻近关系并围绕边长及子图直径构建约束指标，在顾及兴趣点局部特征前提下，提出基于集聚尺度判定的POI离群分布探测方法，并针对离群点探测结果的分布成因开展可解析性分析，进一步挖掘POI离群点在城市空间中所表达的信息。

2 基于局部集聚特征尺度判定的兴趣点离群分布探测方法

POI离群分布的本质源于其对地理实体的概括表达，由于地理数据固有的空间异质性及不同抽象程度，导致POI在不同空间尺度上表现出集聚程度差异，形成了全局离群及局部离群等模式^[30,37]。POI在局部空间范围内的显著分布特征，在全局尺度上可能无法识别。因此，由局部向全局过渡的尺度变化中^[5]，找到能够有效表征POI分布模式的空间尺度是离群探测方法设计的关键。鉴于此，本文方法基于两个算法模块，即POI局部集聚尺度判别方法和POI离群点探测方法，对上述问题予以解决。首先借助Delaunay三角网表达POI空间邻近关系，并引入多尺度特征参数判别点群集聚分布特征；然后，在显著的集聚特征尺度下，提取满足条件的点及其所属边集；最后通过边长约束指标剔除部分长边，在剩余点集上进行离群簇判定并与前置结果整合，最终实现离群点探测。本文选择KNN、LOF、COF、集成算法（Ensembling）及MC-DTIN算法作为对比方法，并以高斯混合模型所拟合的POI分布密度为量化评价指标，用以验证所提方法的有效性，技术框架如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 本文方法基本框架

Fig. 1 Framework of the method proposed in this paper

2.1 兴趣点局部集聚尺度判别方法

POI的互邻近距离自某一尺度开始突然变大且点群呈不均匀分布，这是由于局部空间存在离群点导致分布疏密程度显著变化，鉴于此本文引出如下定义。

定义1：交叉K近邻距离^[37]。参考已有文献对交叉K近邻距离的定义，在已构建的Delaunay三角网中，任意POI实例P_i的交叉K近邻距离d_K(P_i)为P_i与距离其最近的K个实例间的最大距离，K为控制邻近关系的空间尺度参数。基于定义1，进一步引入交叉K近邻距离突变指标用以判别POI局部集聚分布的特征尺度。

定义2：局部集聚特征尺度^[38]。通过给定参数K，交叉K近邻距离方差比I_K用于检测任意两点间的交叉邻近关系在连续尺度变化过程中是否存在突变。

（1）

I K = V a r K + 1 V a r K / R K

式中：

V a r K + 1

和

V a r K

分别表示当前POI集合的交叉K+1近邻方差和交叉K近邻方差；R_K表示点集在服从均匀泊松分布情况下的交叉K+1与交叉K近邻距离方差比，即

（2）

R K = K + 1 - K + 1 2 K + 2! 2 K + 1 (K + 1)! 2 2 / K - K (2 K)! 2 K K! 2 2

若I_K>1，则说明存在互邻近关系的跨尺度突变，此时认为在参数K对应的空间尺度下POI表现出显著的局部集聚特征。

引入上述定义及量化方法的合理性在于： ① K邻近距离测度方式可有效表达任意点的局部密度^[38]，如图2(a)所示； ② 通过预构建Delaunay三角网可以使原数据中的邻近关系更加局部化，不同尺度下POI空间集聚特征过渡明显（如图2(b)中 K=2过渡至K=3时）； ③ 可以减少每个点的邻域数量并限制为有限个数，使得数据结构简化，可加快邻域搜索并节省空间开销； ④ 此外，综合②、③两点优势，也加快了局部集聚特征尺度的判别过程，对比图2(a)和图2(b)，图2(a)中K=10时依然可以看到清晰的局部集聚特征，而图2(b)中K=9时，POI局部的集聚特征已经弱化而呈现全局性，由此可推断，图2(b)过程可更快挖掘出集聚特征尺度的突变（I_K>1）。综上所述，基于定义1与定义2可以捕捉POI沿街道分布的局部特征，并在保留该特征的前提下通过局部集聚特征尺度约束实现非离群点与离群点的划分，该方法可有效应对现有方法中对于POI固有分布特征考虑不足的问题。

显示原图|下载原图ZIP|生成PPT

图2 POI局部集聚尺度判别方法合理性论证

Fig. 2 Rationality argument for the POI local aggregation characteristic scale discrimination method

基于上述定义，兴趣点局部集聚尺度判别方法为（算法1, 图3(a)、3(b)，图4）：①构建Delaunay三角网，并将每个点的邻接点按照邻接边长从小到大排列，形成1阶邻域、2阶邻域……的邻接链表结构；②设K初始值为1，按照

K ∈ 1, K m a x - 1

循环遍历，其中K_max为所有点的直接邻居数最大值，每个点要素的直接邻居个数作为该点可选择K值（尺度参数）的上限，如点P1存在5个直接邻居

P 2, P 3, P 4, P 5, P 6

，则其K值最大为5，同理P2的可选K值最大为3，以此类推可知图4中所示案例K_max为5；③按照定义2求解K和K+1尺度下的近邻距离方差比I_K，若I_K>1，则终止循环，并以当前K值作为局部集聚特征尺度，否则跳转②步。

算法1 兴趣点局部集聚尺度判别方法

输入： 1实例点集合Pnts
2预定义两个空列表k_List, k_1_List
输出：集聚特征尺度参数K
步骤：
1通过Delaunay三角化，粗略表达实例点集的空间邻近关系: tri = Trianglulate(Pnts)
2提取tri中的边集E，并按照{[i, j]:Edge_Length | i, j∈Index(Pnts)}的结构构建边集字典EdgeDic，并提取全局点集的最大直接邻居个数Max_K
3基于EdgeDic构建图结构，其中图中任意节点的邻接点按照其邻接边长度由小到大构建邻接链表EdgeLink
for k in [ 1, Max_K - 1]:
5 在EdgeLink中分别查找Pnts中每个点的第K个节点及第K+1个节点，即K邻域和K+1邻域，将结果分别存入k_List和k_1_List
6 根据定义2，计算交叉K与交叉K+1近邻距离方差比Ik
7 若Ik<1，则继续执行for循环，k_List和k_1_List置空
8 若Ik>1，则跳出for循环，return K, EdgeDic.
9 end for

显示原图|下载原图ZIP|生成PPT

图3 本文方法执行过程示例

Fig. 3 Illustration of the method proposed in this paper's execution process

显示原图|下载原图ZIP|生成PPT

图4 POI局部集聚特征尺度判别示意

Fig. 4 POI local aggregation characteristic scale discrimination

2.2 POI离群点探测方法

通过算法1便可获得POI的局部集聚尺度参数K，在该尺度下以每个点的K邻域截取Delaunay三角网，生成新的边集（

T I N_p a r t

）；在新边集上通过边长约束指标（定义3）进行离群点探测，具体方法见算法2，示例见图3(c)—图3(e)。

定义3：边长约束指标^[30]，根据所构建的Delaunay三角网定义约束指标如式（3）所示。

（3）

C I E i = M e a n T I N_p a r t + α × S T D (T I N_p a r t) α = M e a n T I N_p a r t l e n (E i)

式中： E_i和len(E_i)分别表示Delaunay三角网中任一边及其边长；

M e a n (T I N_p a r t)

和

S T D (T I N_p a r t)

为新边集的平均边长及边长标准差，该统计量可较好区分长边与短边；α为适应系数。求取边长约束指标CI(E_i)后，在新边集中剔除边长大于该指标的边及关联点，获得部分离群点。

最后，对剩余点集中的各个点簇（连通子图）进行离群簇识别。考虑到经过集聚尺度判定及长边剔除等前置处理后，剩余各点簇的集聚程度大致相同，为提取其中微小差别并以不破坏POI在街道空间中的分布特征为原则，本文对各个子图直径进行计算，并基于式（4）计算指标，当直径小于该指标时，则该子图判定为离群簇。具体方法为： ① 筛选节点数在[2, K+1]范围内的连通子图（

S u b_g

），分别求取这些子图的直径并存储为数值序列

D i a m e t e r (S u b_g)

；②计算

D i a m e t e r (S u b_g)

的均值、中位数及标准差，并代入式（4）中求得判别指标OC；③遍历所有连通子图，将直径小于指标OC的点簇判定为离群簇。将上述离群点与离群簇挖掘结果整合便获得离群点探测最终结果。

（4）

O C = C e n t r a l_T e n d e n c y - γ · S T D (D i a m e t e r (S u b_g)) γ = C e n t r a l_T e n d e n c y / D i a m e t e r (S u b_g (i)) C e n t r a l_T e n d e n c y = m i n (M e a n (D i a m e t e r (S u b_g)), M e d i a n (D i a m e t e r (S u b_g)))

式中：

C e n t r a l_T e n d e n c y

为直径序列均值与中位数的最小值，该指标用于反馈数值序列的集中趋势；γ为

C e n t r a l_T e n d e n c y

与子图直径的比值。

算法2 POI离群点探测方法

输入: 1局部集聚尺度参数K
2边集字典EdgeDic
3实例点集合Pnts
输出:离群点探测结果Outliers
步骤:
1 根据EdgeDic所构建的图结构及K值，截取每个节点的K邻域，生成K_EdgeDic,
根据定义3，基于K_EdgeDic计算边集的均值(Mean)和标准差(STD)

2 for edge, edge_Length in K_EdgeDic:
3 根据定义3计算边长约束指标CI
4 if edge_Length<CI:
continue
5 else:
在K_EdgeDic中删除edge相关的边记录;
6 end for
7 将点集Pnts与K_EdgeDic中剩余节点作差集运算，获得初步离群点探测结果Outlier.
8 创建一个空列表，用于存储连接子图的直径: diameter_List = [ ].
9 for sub_g in connected components of K_EdgeDic:
10 if len( sub_g.nodes )<K+1:
diameter_List.append( sub_g.diameter )
11 end for
12 计算直径数值序列diameter_List的均值、中位数和标准差;
13 遍历K_EdgeDic中的所有子图，根据公式4计算指标，若子图直径小于该指标，
则存入Outlier_cluster
14 汇总离群点探测结果: Outliers = Outlier+Outlier_cluster
15 return Outliers

2.3 离群点探测对比方法及结果评价指标

本文基于PyOD库^[16]及层次约束TIN算法（MC-DTIN）^[30]搭建对比方法原型。初步根据运算开销小且不破坏POI固有空间分布规律的原则，在PyOD无监督算法模块中遴选：局部离群因子（LOF）算法、KNN算法、COF算法、孤立森林（IForest）算法及HBOS算法，并截取小样本实际数据进行测试，根据测试结果优选MC-DTIN算法、KNN算法、LOF算法、COF算法及后三者的集成方法（Ensembling）作为对比方法，相关信息见表1。由于缺乏POI是否离群的标记信息，无监督方法探测结果无法与任何目标进行比较，因此本文拟采用相似矩阵聚类的方式设计集成方法： ① 首先构建备选模型的相似矩阵，矩阵中的值指示每个点被标记为离群点的平均次数（本文备选3个算法，所以每个点被标记的次数最大为3），因此，若某点在所有算法中都标记为离群，则相似度值为1，若未被标记，则相似度值小于1或接近于0； ② 将该矩阵作为谱聚类的输入，设置聚类数为2，获得离群点探测结果。

表1 各离群点探测方法详细信息

Tab. 1 Details of various outlier detection methods

算法名称	算法复杂度	算法复杂度说明	算法描述
KNN	$O (N 2 l o g N)$	对于KNN、LOF、COF及其集成算法的复杂度均采用大O计数法表达，其中N为POI要素的规模	KNN: 计算每个点与其他点的距离，并选择最近的K个邻居
LOF	$O (N 2 l o g N)$		LOF: 通过比较每个点与其邻域点的密度，计算局部离群因子
COF	$O (N 3)$		COF: 基于LOF，考虑全局信息，计算局部离群因子的平均值
Ensembling	$O (N l o g N) + O (N l o g N) + O (N 3)$		Ensembling: 构建共现矩阵(相似度图)；计算拉普拉斯矩阵；特征值分解
MC-DTIN	$O (N l o g N) + O (M) + O (N * m)$	MC-DTIN算法中N为POI要素的规模；M为初始Delaunay三角网的边数； m为删除全局长边后的各点的邻域个数	MC-DTIN: 构建Delaunay三角网；分别基于三层边长约束指标提取离群点
本文方法	$O (N l o g N) + O (K N) + O (N p) +$ $O (N s u b_g (K + 1 + E) l o g (K + 1))$	本文方法中N为POI的规模； K为邻域个数； N_p为新边集规模； N_sub_{_}_g为连通子图数量； E为子图中边数	构建Delaunay三角网；识别显著局部集聚尺度并生成新边集(N_p)；根据边长约束指标提取离群点，并在剩余点集(连通子图数量为N_sub_{_}_g)中识别离群簇

由于POI数据本身缺乏分布模式是否离群的先验知识，常见的离群点探测方法评价指标需通过标签信息进行有效性评价，因此平均精度^[33]、AUC^[4]等评价指标较难应用于POI离群探测结果。考虑到高斯混合模型（Gaussian Mixture Model， GMM）可有效拟合任意概率分布，因此本文拟基于GMM拟合POI样本分布的概率密度函数，构建各点与概率密度的映射关系，通过结果观察及指标分析2个方面进行所选方法的有效性评价。

（1）结果观察：根据文献^[39]的研究方法对实验数据的分布特征进行拟合， ① 计算各POI的第K邻近距离（邻近度）； ②对邻近度进行规范化处理（对数转换、归一化），使其映射在0到1之间； ③ 通过GMM拟合分布情况； ④ 提取与大邻近度值关联的高斯成分以及总体概率密度函数；⑤将所选方法的离群点探测结果分别与④中剩余高斯成分所关联的点进行叠加分析。基于该方法可有效研判离群探测结果是否合理顾及POI原有的街道空间分布特征。

（2）指标分析：由于概率密度反映了数据在某区间内的集中程度，可有效反馈数据的分布情况，POI的离群点通常与概率密度相对较低的GMM组分形成关联^[7,39]，因此，基于（1）拟合结果，本文拟通过离群点的平均概率密度验证所选方法的有效性，平均概率密度值越低说明离群点集合中基本没有混入密度值较高的非离群点；相反地，其值越高，说明离群点探测结果非离群点占有一定比例。

3 实验及结果分析

3.1 实验数据

本节首先通过小样本POI数据开展对比试验分析，以检验本文方法的有效性，数据采集于百度地图API（http://lbsyun.baidu.com/index.php?title=webapi），相关信息如表2和图5所示。图5中分别展示了实验数据概况（图5(a)）及其GMM拟合结果（图5(b)）和高斯成分（图5(c)），其中，各点的第2邻近距离作为邻近度；高斯成分数量通过贝叶斯信息准则（Bayesian Information Criterion, BIC）确定，可观察到成分4与大邻近度关联。本实验原型基于Python 3.8开发，在64位WIN7（Core(TM) i7-12700F 2.10 GHz, 16 G）环境中部署并测试。

表2 小样本POI数据信息

Tab. 2 Details about small-sample POI data

数据类型	来源	点要素数/个	点要素类型
POI数据	百度地图	3 862	共涉及24种一级类型，222种二级类型

显示原图|下载原图ZIP|生成PPT

图5 实验数据及GMM拟合结果

Fig. 5 Experimental dataset and results of GMM fitting

3.2 POI试验结果与分析

POI具有泛在地、密集地分布于街道空间的固有特征，并多呈“线型”分布的非凸形状簇，如图5所示的GMM高密度组分。本文重点讨论由于POI空间分布差异导致的离群现象，结合其固有分布特征可大致推断：POI的非离群点可能更多地分布于街道空间，而离群点则会在剩余空间中随机、松散地分布^[7]。从该讨论角度对图6进行观察分析，其中每个方法所示为最优结果，组图包含离群点探测结果。从离群点与高密度点重合情况来看，本文方法、KNN及MC-DTIN算法结果中重合点较少，并且对POI街道空间分布特征保持良好，尤以KNN算法效果最优，本文方法效果次之，MC-DTIN算法的探测结果中少量离群簇分布于街道上，导致一部分POI在街道上连续的线型分布特征被破坏；LOF、COF及Ensembling算法结果中重合点较多，并且大量重合点存在于街道空间，较少顾及POI街道方向上的集聚性；此外，这3种算法对于部分离群簇也缺乏识别，如图中红色圆圈标注的区域。

显示原图|下载原图ZIP|生成PPT

图6 POI离群点探测结果

Fig. 6 Outlier detection results based on POIs

图7为各方法的详细配置信息及相关指标测试结果，其中KNN、LOF及COF算法的参数设置：离群比例为0.133、0.08及0.106、邻居数目为5，测得在离群比例为0.08时获得最优离群探测结果，离群点平均概率密度分别为0.483 4、0.838 2及0.831 6，离群点数目为309个（即KNN(2), LOF(2)及COF(2)，分布情况见图6）；Ensembling方法结果的离群点平均概率密度为0.967 9，探测到离群点数目为356个；MC-DTIN算法获得离群点515个，离群点的平均概率密度为0.745 9；本文方法获得离群点370个，离群点平均概率密度为0.632 7。由于离群点平均概率密度越低，则说明该方法所获得的离群点中较少混杂非离群点。基于该指标可说明本文方法、KNN及MC-DTIN算法的离群探测结果相较于其他3个方法更为有效，这与观察分析的结果保持一致。就泛化能力而言，本文方法和MC-DTIN方法均无需人工设置参数，在不同地理区域内可获得有效的离群探测结果；在运行效率方面，经典方法通过设置合适参数来减少拓扑关系判别运算量，所以效率较高，本文方法虽慢于经典算法，但减少了为获得适宜参数而带来的预实验开销，运行效率亦在可接受范围；此外，区别于MC-DTIN自上而下探测离群点的方式，本文则是基于尺度参数递增的方法寻找局部邻近关系突变，可有效避免因小型离群簇存在而破坏POI原有分布结构。

显示原图|下载原图ZIP|生成PPT

图7 POI数据试验的参数设置、离群点平均概率密度及运行时间统计

Fig.7 Parameter settings, outlier average probability density, and execution time for POI dataset

为进一步验证本文方法普适性，以城市路网结构（棋盘状、环形放射状、蛛网状）及城市发展规模为参考，遴选并截取北京市、上海市、西安市、成都市、长春市及包头市的部分区域POI数据参与验证，数据信息见表3，得到图8所示结果。可以观察得出，对于不同路网结构约束下的POI要素，本文方法仍可以在顾及POI街道空间分布特征的前提下有效探测离群点，方法具备普适性。综上所述，本文方法在泛化能力、运行效率及离群点探测有效性上均表现良好，可承担POI数据预处理等任务以及支撑相关下游应用。

表3 各城市POI样本数据信息及其在本文方法中的离群点探测结果

Tab. 3 The sample data of POI from multiple cities, along with their outlier detection results using the proposed method

城市	点要素数 /个	路网类型	集聚特征尺度	离群点数 /个
北京	21 928	棋盘状	K=3	1 487
上海	2 992	蛛网状	K=3	167
西安	12 235	棋盘状	K=3	764
成都	10 269	环形放射状	K=2	1 165
长春	9 461	放射状	K=2	855
包头	33 101	环形放射状	K=2	2 687

显示原图|下载原图ZIP|生成PPT

图8 本文方法普适性验证

Fig. 8 The universality validation of the method proposed in this paper

4 POI离群探测结果的可解释性分析

讨论离群点的产生原因并给予解释说明是离群探测的主要任务之一^[36]，兴趣点离群原因涉及城市规划变化、人群行为及社会活动等方面，本文重点解决由POI属性特征、离群点空间布局及城市规划现状等因素导致POI离群分布的可解释性问题，而由于特殊事件触发、城市人群行为变化、文化活动及文化影响等时空关联性因素导致POI要素使用频率的变化所形成的离群现象，本文暂不论述。基于本文方法对北京市中心城区内249 535个POI进行离群点探测，除去数据读取时间，算法总运行时长为39.33 s，其中Delaunay三角网建模时长为0.13 s，边字典构建时长为35.63 s，集聚尺度特征判别时长为1.74 s（K=2），离群点及离群簇挖掘时长为1.83 s；共探测POI离群点23 359个。

4.1 POI各类型离群点数量占比及其空间分布特征

本小节通过离群点类型占比以及Ripley's K函数分析方法对离群点探测结果进行解释，挖掘POI数据中离群点的潜在分布模式。首先测度POI各类型中离群点数量占比，表4展示了离群点占比排名前20（≥0.5）的POI类型，高离群点占比的POI类型主要来源3个方面： ① 具备特殊的业务或活动，如高尔夫球场、大型露营公园、市政府、宗教场所等； ② 大型的自然或人工景观带，如农场果园、滑雪场、海洋馆、动植物园等； ③ 满足社会需求的特殊专项服务设施，如机场、火车站、交通服务设施（桥、油/气供给站、出入口等）、殡葬服务等。此外，离群点占比在0.2~0.5之间的POI类型，多涉及本身数量较大且满足大众日常需求的POI：大型工厂及技术服务类企业（‘140201’,‘140101’）；特殊功能设施，如高校及科研机构（‘160107’,‘160207’等）；住宅区及部分高端社区（‘120201’）。这些类型POI离群占比较低主要由于为适配生活圈中生产、生活及社会交往需求，多为非离群点^[40]；同时，研发机构、待孵化产业、科技园等面积较大实体互相关联，形成少量离群点。

表4 POI各类型中离群点占比

Tab. 4 Outliers percentage in each type of POI

类型编码	POI类型名称	离群点占比	类型编码	POI类型名称	离群点占比
‘180105’	高尔夫球场	1.00	‘180310’	海洋馆	0.67
‘190107’	北京市政府	1.00	‘230127’	机场	0.67
‘230226’	大型露营公园	1.00	‘230216’	加气站	0.58
‘180106’	运动俱乐部	0.95	‘230203’	交通出口	0.58
‘210211’	陵园&公墓	0.83	‘180304’	公园广场	0.57
‘180301’	生态果园	0.77	‘180308’	动物园	0.55
‘250100’	农场&大型绿地	0.75	‘140202’	汽车检测中心	0.54
‘230209’	收费站	0.70	‘230201’	旅游景点桥	0.54
‘230202’	立交桥等	0.69	‘180109’	垂钓园	0.50
‘180104’	滑雪场	0.67	‘230103’	火车站	0.50

其次，本文基于Ripley's K函数从空间统计的角度进一步探索离群点的分布特征。将POI中原有222个二级类整合为17个大类，剔除如公共厕所、村镇地名地址及类型不明的地理实体，最终得到包括房地产、生活服务&超市购物、金融、教育培训及政府机构等类型。对17类POI离群点进行分布特征统计，得到如图9所示的Ripley's K函数曲线。

显示原图|下载原图ZIP|生成PPT

图9 基于Ripley's K函数的离群点分布分析

Fig. 9 Outlier distribution analysis based on Ripley’s K function

通过观察各类型离群点的Ripley's K函数曲线可以得出： ① 从函数曲线的发展趋势来看，房地产、公司企业、交通设施、教育培训及生活服务&超市购物类型在25 000 m范围内呈现急剧递增的趋势，表明这组类型的离群点在该范围内分布相对集聚。具体而言，房地产、公司企业及交通设施在 25 000 m的范围内较集聚，而教育培训和生活服务类要素则集聚分布在20 000 m范围内，这些地理实体在一定范围内呈现集聚主要是由于北京市对生活圈、高新科技产业园区及教育基地（大学城）等项目的规划导致。其他类型的函数曲线增长趋势相对平缓，说明这些类型的离群点在全局范围内呈随机分布。 ② 根据Ripley's K函数曲线与水平参考线的位置关系可知，房地产、公司企业、交通设施、教育培训、政府机构、生活服务类及酒店&美食类函数曲线的大部分在参考线上方，说明这些类型离群点的间距在当前范围内相较于其他类型而言较短，除 ① 中给出解释的离群点类型外，由于政府机构、生活服务及酒店&美食类型的离群点受职住空间、服务设施均衡性等规划因素影响，该类型要素通常与住宅区、教育机构及公司企业空间同位^[13]，因此曲线在参考线上方；商务大厦类型的函数曲线在 25 000~ 45 000 m的范围内接近水平参考线，说明该类型离群点在当前空间范围内分布相对均匀；大部分离群点类型在参考线以下，其中农场绿地、旅游景点、公园广场、运动健身、科研机构等类型离群点受要素占地面积、历史遗迹保护及空间管制等因素影响，分布相对随机且分散；而医疗、汽修、金融及休闲娱乐等社会服务类型受可达性、生活圈适配性^[40-41]的影响，大部分为非离群点。

4.2 离群POI的面积占比及其公众认知水平分析

POI通常标注在地理实体的中心点或实体范围内的其他代表性点上^[8,42-43]，将大范围区域抽象为一个点也是POI离群的可能原因之一，由于现有POI多缺乏面积属性，因此需借助其他数据对POI进行信息增补^[9,11,44]。本文选用北京市AOI数据（数据采集于百度地图API（http://lbsyun.baidu.com/index.php?title=webapi））与POI离群点进行匹配，对POI离群成因作进一步分析。具体匹配方法为： ① 为克服POI标注位置与AOI不一致的问题，本文首先以Delaunay三角网中的最大邻近距离作为半径构建缓冲区，并与AOI求交； ② 将交集中的地名信息与AOI要素中地名信息通过编辑距离（Levenshtein Distance）进行匹配，若某点的编辑距离大于当前交集内的距离均值，则认为当前点与所交AOI要素匹配。基于该匹配策略可获得如图10所示结果。

显示原图|下载原图ZIP|生成PPT

图10 离群点与AOI匹配结果

Fig. 10 Matching results of outliers and AOIs

研究区内AOI共22 907个，涉及政府机构、房地产、公司企业、购物、文化传媒、自然景观以及各类基础设施服务等19个大类。通过统计分析各类离群AOI要素的面积占比可知： ① 大型地物类离群要素有较高的面积占比（图10(a)），如出入口类（99.96%）、自然地物类（98.81%）、绿地类（97.87%）等，还包括交通设施类和旅游景点类，这些AOI本身占地面积大、数量少或分布独立性高，在抽象为点时更易离群； ② 美食类、购物类、公司企业类、运动健身类AOI与离群点也呈现大量匹配（图10(b)），主要由于这些类型中涉及美食城（如小红门、白纸坊等）、购物中心（望京、大红门、三里屯等）、经济技术开发区、体育中心等大面积同质化区域，因此离群要素面积占比也相对较高； ③ 离群要素面积占比在60%以上的AOI类型还包括房地产类（63.15%）、教育培训类（67.95%）、文化传媒类（65.94%）及汽车服务类（64.01%），其中离群点与住宅区、高等院校、会议中心以及大型汽车服务（检测、销售、维修）等二级类型匹配较多（图10(c)），这些二级类型在同类别中具备较高的面积占比。 ④ 部分基础设施服务类型AOI离群要素面积占比在60%以下（图10(d)），包括生活服务类、政府机构类、休闲娱乐类、医疗类、酒店类和金融类，以酒店（28.48%）和金融（13.88%）较低；本文选择Z-Score方法统计该分组中各类型大面积AOI要素的离群占比，如图11饼状图所示。可以发现，除金融类外，其余类型中大部分离群点均为大面积AOI。以上讨论充分说明POI自身占地面积是其离群分布的主要原因。

显示原图|下载原图ZIP|生成PPT

图11 离群AOI要素的面积占比分析

Fig. 11 Area proportion of outlying AOIs

最后，本文以AOI的大众评分来量化各类型离群点的公众认知水平，如图12所示。从箱体长度来看，公司企业类、金融类、生活服务类、文化传媒及政府机构类箱体长度较长，说明这些类型离群点的公众认知水平较均衡，其中公司企业、金融及文化传媒类型中大部分离群点的公众认知水平在平均值以上；从中位数（红线）位置来看，酒店、旅游景点、文化传媒及自然地物类型的离群点认知水平分布集中且均具有较高的公众认知度；另外，除出入口、生活服务、医疗、政府机构外，其余各类型离群点的公众认知度均在平均水平以上，说明大部分POI离群点的公众认知水平较高。反过来也可说明，由于较高的公众认知度使得这些地理实体具备了离群布局的初始规划条件，进而可以大范围辐射周边区域，以提供相关功能及社会服务^[40,45]。

显示原图|下载原图ZIP|生成PPT

图12 离群点的公众认知水平

Fig. 12 Public cognition level of outliers

综上所述，本文通过构建POI离群点与类型占比、空间分布、占地面积及公众认知度的关联，实现POI离群分布的可解释性分析。分析结果说明当POI要素具备自身功能独特性、大面积占地范围、高抽象程度及知名度时，或在这几个因素综合影响下，较易形成离群分布格局。此外，通过上述分析进一步阐释了部分类型POI与真实地物空间的要素分布疏密程度不一致的现象，比如居住区常由高密度的建筑物群紧凑构成，但表达该类地物的POI数量为一个或极少量^[8,10]，这种现象一定程度影响了以POI要素作为语义标定的相关应用精度，如高密度建筑物群功能识别^[8,43]。通过本文方法该类POI可判定为离群点，在此基础上，基于地标显著度测算^[45]、范围刻画^[7,35,39,41]等方法或叠加其他专题数据实现POI离群点数据增强，可避免因POI分布不均匀而导致语义标定偏差，进而提高相关下游应用的准确性与可靠性。根据离群点成因分析也可反映出北京市基础设施分布较为均衡，城市整体运行效率及可持续性相对良好。基于可解释性分析的结果进一步验证本文所提POI离群探测方法的有效性及结果合理性。

5 结论与讨论

POI离群点探测已广泛应用于多源数据匹配、城市要素范围划定等领域，但现有离群探测方法对POI空间分布固有特征缺乏考虑，且相关研究成果中对POI离群点缺乏进一步应用及解释分析，鉴于此，本文着眼于因POI空间分布差异导致的离群现象，提出基于局部集聚尺度判定的兴趣点离群分布探测方法。该方法通过Delaunay三角网及交叉K近邻距离表达点群的邻近关系，并围绕图边长及子图直径构建约束指标，在顾及POI局部分布特征的前提下获得离群点；基于本文方法进一步开展POI离群探测结果的可解释性分析，挖掘其分布成因及表达内涵。通过与最优参数配置下的KNN、LOF、COF、Ensembling算法及无参数的MC-DTIN算法进行比较，可得出本文方法具备以下优势： ① 相较于局部离群因子测算类算法（LOF，COF）及Ensembling算法，本文方法继承了KNN算法在任意点局部密度表达上的优势，离群探测结果与高密度组分的非离群点鲜有重合，较好顾及POI在街道方向的集聚性； ② 无需通过预实验获得适配参数，减少算法前期开销，并且相较于同为无参数方法的MC-DTIN算法，本文方法通过尺度参数递增的方式寻找局部邻近关系突变，有效避免微小离群簇对POI原分布结构的干扰； ③ 本文方法普适于不同发展规模城市及各类路网结构约束下的POI要素。另外，利用本文方法对北京市POI数据进行离群探测，并从空间分布特征、类型数量、面积占比以及公众认知水平等方面对离群点开展可解释性分析，合理揭示了兴趣点在现状规划背景下的离群分布成因。综上，本文方法可有效探测POI离群点，并在POI分布特征保持、泛化能力及运行效率方面均获得较好表现。基于该方法的相关研究可辅助城市规划与决策者更全面地把握城市发展动向，并为资源配置优化、提高城市可持续性及人居生活质量等方面提供新的方法及研究视角。

本文主要根据POI离群点与非离群点的分布差异建构方法体系，但对于①如何结合各类型POI不同的空间依赖性探测并解释其离群现象； ② 如何根据时空关联性因素开展POI在特定情境下的离群探测及变化分析，这两个问题尚未开展具体分析与实践。因此，下一步工作主要集中在： ① 开展基于离群点探测的城市规划优化与社区服务改进、商业及旅游业等业态的规划与决策支持、城市设施要素的空间同位模式挖掘及功能适配性分析、城市高密度建筑物群功能识别等下游应用研究； ② 基于多年期POI数据，耦合城市动态变化、人类及社会群体行为等时空信息，更深入地开展POI离群的根因分析。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	Wang H, Bah M J, Hammad M. Progress in outlier detection techniques: A survey[J]. Ieee Access, 2019, 7:107964-108000. DOI:10.1109/ACCESS.2019.2932769

[2]	Ayadi A, Ghorbel O, Obeid A M, et al. Outlier detection approaches for wireless sensor networks: A survey[J]. Computer Networks, 2017, 129:319-333. DOI:10.1016/j.comnet.2017.10.007

[3]	Hawkins D M. Identification of outliers[M]. London: Chapman and Hall, 1980.

[4]	Goldstein M, Uchida S. A Comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data[J]. PLOS ONE, 2016, 11(4):e0152173. DOI:10.1371/journal.pone.0152173

[5]

薛冰, 赵冰玉, 李京忠. 地理学视角下城市复杂性研究综述——基于近20年文献回顾[J]. 地理科学进展, 2022, 41(1):157-172.

DOI

[Xue

, Zhao

B Y

, Li

J Z

. Urban complexity studies from the perspective of geography: A review based on the literature in the past 20 years[J]. Progress in Geography, 2022, 41(1):157-172.] DOI:10.18306/dlkxjz.2022.01.014

[6]	Almeida A, Alves A, Gomes R. Automatic POI Matching Using an Outlier Detection Based Approach, Cham, F, 2018[C]. Springer International Publishing. DOI:10.1007/978-3-030-01768-2_4

[7]	Wang J, Kwan M P, Xiu G, et al. Extracting hierarchical boundaries of places from noisy geotagged user-generated content[J]. International Journal of Applied Earth Observation Geoinformation, 2023, 122:103455. DOI:10.1016/j.jag.2023.103455

[8]	Deng Y, Chen R, Yang J, et al. Identify urban building functions with multisource data: A case study in Guangzhou, China[J]. International Journal of Geographical Information Science, 2022, 36(10):2060-2085. DOI:10.1080/13658816.2022.2046756

[9]	Touya G, Antoniou V, Olteanu-Raimond A M, et al. Assessing crowdsourced POI quality: Combining methods based on reference data, history, and spatial relations[J]. ISPRS International Journal of Geo-Information, 2017, 6(3):80. DOI:10.3390/ijgi6030080

[10]	张景奇, 史文宝, 修春亮. POI数据在中国城市研究中的应用[J]. 地理科学, 2021, 41(1):140-148. DOI [Zhang J Q, Shi W B, Xiu C L. Urban research using points of interest data in China[J]. Scientia Geographica Sinica, 2021, 41(1):140-148.] DOI:10.13249/j.cnki.sgs.2021.01.015

[11]	范红超, 孔格菲, 杨岸然. 众源地理信息研究现状与展望[J]. 测绘学报, 2022, 51(7):1653-1668. DOI [Fan H C, Kong G F, Yang A R. Current status and prospects of research for volunteered geographic information[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(7):1653-1668.] DOI:10.11947/j.AGCS.2022.20220192

[12]	Yao X, Jiang X, Wang D, et al. Efficiently mining maximal co-locations in a spatial continuous field under directed road networks[J]. Information Sciences, 2021, 542:357-379. DOI:10.1016/j.ins.2020.06.057

[13]	Chen Y, Chen X, Liu Z, et al. Understanding the spatial organization of urban functions based on co-location patterns mining: A comparative analysis for 25 Chinese cities[J]. Cities, 2020, 97:102563. DOI:10.1016/j.cities.2019.102563

[14]	Shekhar S, Lu C T, Zhang P. A unified approach to detecting spatial outliers[J]. GeoInformatica, 2003, 7:139-66. DOI:10.1023/A:1023455925009

[15]	邓敏, 石岩, 龚健雅, 等. 时空异常探测方法研究综述[J]. 地理与地理信息科学, 2016, 32(6):8. [Deng M, Shi Y, Gong J Y, et al. A Summary of Spatio-temporal Outlier Detection[J]. Geography and Geo-Information Science, 2016, 32(6):43-50.] DOI:10.3969/j.issn.1672-0504.2016.06.008

[16]	Zhao Y, Nasrullah Z, Li Z. Pyod: A python toolbox for scalable outlier detection[J]. arXiv preprint arXiv:01588, 2019. DOI:10.48550/arXiv.1901.01588

[17]	Boukerche A, Zheng L, Alfandi O. Outlier detection: Methods, models, and classification[J]. ACM Computing Surveys, 2020, 53(3):1-37. DOI:10.1145/3381028

[18]	Barnett V, Lewis T. Outliers in statistical data[M]. Wiley New York, 1994.

[19]	Chen F, Lu C T, Boedihardjo A P. Gls-sod: a generalized local statistical approach for spatial outlier detection[C]// Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining. 2010:1069-1078. DOI:10.1145/1835804.1835939

[20]	Albanese A, Pal S K, Petrosino A. Rough sets, kernel set, and spatiotemporal outlier detection[J]. IEEE Transactions on knowledge and data engineering, 2012, 26(1):194-207. DOI:10.1109/TKDE.2012.234

[21]	李光强, 邓敏, 朱建军, 等. 一种顾及邻近域内实体间距离的空间异常检测新方法(英文)[J]. 遥感学报, 2009, 13(02):197-202. [Li G Q, Deng M, Zhu J J, et al. Spatial outliers detection considering distances among their neighbors[J]. Journal of Remote Sensing, 2009, 13(2):197-202.] DOI:10.11834/jrs.20090237

[22]	Huang J, Zhu Q, Yang L, et al. A non-parameter outlier detection algorithm based on natural neighbor[J]. Knowledge-Based Systems, 2016, 92:71-77. DOI:10.1016/j.knosys.2015.10.014

[23]	Breunig M M, Kriegel H P, Ng R T, et al. LOF: identifying density-based local outliers[C]// Proceedings of the 2000 ACM SIGMOD international conference on Management of data. 2000:93-104. DOI:10.1145/342009.335388

[24]	Papadimitriou S, Kitagawa H, Gibbons P B, et al. Loci: Fast outlier detection using the local correlation integral[C]// Proceedings 19th international conference on data engineering (Cat. No. 03CH37405). IEEE, 2003:315-326. DOI:10.1109/ICDE.2003.1260802

[25]	Kriegel H P, Kröger P, Schubert E, et al. LoOP: local outlier probabilities[C]// Proceedings of the 18th ACM conference on Information and knowledge management. 2009:1649-1652. DOI:10.1145/1645953.1646195

[26]

Zhang

, Hutter

, Jin

. A new local distance-based outlier detection approach for scattered real-world data[C]// Advances in Knowledge Discovery and Data Mining:13th Pacific-Asia Conference, PAKDD 2009 Bangkok, Thailand, April 27-30, 2009 Proceedings 13. Springer Berlin Heidelberg, 2009:813-822. DOI:10.1007/978-3-642-01307-2_84

[27]	Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]// kdd. 1996, 96(34):226-231.

[28]	谢娟英, 高红超, 谢维信. K近邻优化的密度峰值快速搜索聚类算法[J]. 中国科学:信息科学, 2016, 46(2):258-280. [Xie J Y, Gao H C, Xie W X. K-nearest neighbors optimized clustering algorithm by fast search and finding the density peaks of a dataset[J]. Scientia Sinica(Informationis), 2016, 46(2):258-280.] DOI:10.1360/N112015-0013

[29]	周玉, 朱文豪, 房倩, 等. 基于聚类的离群点检测方法研究综述[J]. 计算机工程与应用, 2021, 57(12): 37-45. DOI [Zhou Y, Zhu W H, Fang Q, et al. Survey of Outlier Detection Methods Based on Clustering[J]. Computer Engineering and Applications, 2021, 57(12):37-45.] DOI:10.3778/j.issn.1002-8331.2102-0167

[30]	Shi Y, Deng M, Yang X, et al. Adaptive detection of spatial point event outliers using multilevel constrained Delaunay triangulation[J]. Computers, Environment and Urban Systems, 2016, 59:164-183. DOI:10.1016/j.compenvurbsys.2016.06.001

[31]	Psyllidis A, Gao S, Hu Y, et al. Points of Interest (POI): A commentary on the state of the art, challenges, and prospects for the future[J]. Computational Urban Science, 2022, 2(1):20. DOI:10.1007/s43762-022-00047-w PMID

[32]	Aggarwal C C, Aggarwal C C. An introduction to outlier analysis[M]. Springer International Publishing, 2017.

[33]	Zhao Y, Rossi R A, Akoglu L. Automating outlier detection via meta-learning[J]. arXiv preprint arXiv:2009. 10606, 2020. DOI:10.48550/arXiv.2009.10606

[34]

邹彤彤, 刘孝义, 刘金泉, 等. 基于MetaOD模型选择的岩土工程数据异常检测方法[J]. 地质科技通报, 2022, 41(2):239-245.

[Zou

T T

, Liu

X Y

, Liu

J Q

, et al. Outlier detection method for geotechnical engineering based on MetaOD model selection[J]. Bulletin of Geological Science and Technology, 2022, 41(2):239-245.] DOI:10.19509/j.cnki.dzkq.2022.0041

[35]	王圣音, 刘瑜, 陈泽东, 等. 大众点评数据下的城市场所范围感知方法[J]. 测绘学报, 2018, 47(8):1105-13. DOI [Wang S Y, Liu Y, Chen Z D, et al. Representing Multiple Urban Places' Footprints from Dianping.com Data[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(8):1105-1113.] DOI:10.11947/j.AGCS.2018.20180110

[36]	Panjei E, Gruenwald L, Leal E, et al. A survey on outlier explanations[J]. The VLDB Journal, 2022, 31(5):977-1008. DOI:10.1007/s00778-021-00721-1

[37]	邓敏, 谌恺祺, 石岩, 等. 多尺度空间同位模式挖掘的点过程分解方法[J]. 测绘学报, 2022, 51(2):258-268. DOI [Deng M, Chen K Q, Shi Y, et al. Point process decomposition method for multi-scale spatial co-location pattern mining[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(2):258-268.] DOI:10.11947/j.AGCS.2022.20200548

[38]	Pei T. A non-parameter index for differentiating between heterogeneity and randomness[J]. Math Geosci, 2011, 43:345-62. DOI:10.1007/s11004-011-9325-x

[39]	黄潇莹, 李霖, 颜芬. 基于多源兴趣点的模糊地名空间范围划分方法[J]. 地理信息世界, 2016, 23(6):61-67,72. [Huang X, Li L, Yan F. Delimitating the Vague Place Name Bound Using Multiple-Sources Points of Interest[J]. Geomatics World, 2016, 23(6):61-67,72.] DOI:10.3969/j.issn.1672-1586.2016.06.012

[40]	常飞, 王录仓, 马玥, 等. 城市公共服务设施与人口是否匹配?——基于社区生活圈的评估[J]. 地理科学进展, 2021, 40(4):607-619. DOI [Chang F, Wang L C, Ma Y, et al. Do urban public service facilities match population demand? Assessment based on community life circle[J]. Progress in Geography, 2021, 40(4):607-619.] DOI:10.18306/dlkxjz.2021.04.006

[41]

柴彦威, 李春江, 夏万渠, 等. 城市社区生活圈划定模型——以北京市清河街道为例[J]. 城市发展研究, 2019, 26(9):1-8,68.

[Chai

Y W

, Li

C J

, Xia

W Q

, et al. Study on the Delineation Model of Urban Community Life Circle: Based on Qinghe District in Haidian District, Beijing[J]. Urban Development Studies, 2019, 26(9):1-8,68.] DOI:doi:10.3969/j.issn.1006-3862.2019.09.001

[42]	李琦, 林志勇. 顾及空间及语义相关性的POI位置标注优化方法[J]. 地球信息科学学报, 2022, 24(7):1254-1263. DOI [Li Q, Lin Z Y. POI location optimization method considering spatial and semantic relevance[J]. Journal of Geo-information Science, 2022, 24(7):1254-1263.] DOI:10.12082/dqxxkx.2022.210697

[43]	曹元晖, 刘纪平, 王勇, 等. 基于POI数据的城市建筑功能分类方法研究[J]. 地球信息科学学报, 2020, 22(6):1339-1348. DOI [Cao Y H, Liu J P, Wang Y, et al. A study on the method for functional classification of urban buildings by using POI data[J]. Journal of Geo-information Science, 2020, 22(6):1339-1348.] DOI:10.12082/dqxxkx.2020.190608

[44]

杨敏, 蒋琛俊, 李莹, 等. 分布依存规则指导的空间数据冲突探测与一致性改正[J]. 测绘通报, 2020, 0(12):50-53,70.

DOI

[Yang

, Jiang

C J

, Li

, et al. Inconsistency detection and correction of spatial data using constraint rules of dependent distribution[J]. Bulletin of Surveying and Mapping, 2020, 0(12):50-53,70.] DOI:10.13474/j.cnki.11-2246.2020.0389

[45]

谭永滨, 李小龙, 程朋根, 等. 顾及距离约束的地标相对影响力评价模型[J]. 测绘学报, 2021, 50(12):1663-70.

DOI

[Tan

Y B

, Li

X L

, Cheng

P G

, et al. A evaluation model of relative influence among landmarks considering distance constraint[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(12):1663-1670.] DOI:10.11947/j.AGCS.2021.20200363

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 基于局部集聚特征尺度判定的兴趣点离群分布探测方法

图1 本文方法基本框架

2.1 兴趣点局部集聚尺度判别方法

图2 POI局部集聚尺度判别方法合理性论证

图3 本文方法执行过程示例

图4 POI局部集聚特征尺度判别示意

2.2 POI离群点探测方法

2.3 离群点探测对比方法及结果评价指标

表1 各离群点探测方法详细信息

3 实验及结果分析

3.1 实验数据

表2 小样本POI数据信息

图5 实验数据及GMM拟合结果

3.2 POI试验结果与分析

图6 POI离群点探测结果

图7 POI数据试验的参数设置、离群点平均概率密度及运行时间统计

表3 各城市POI样本数据信息及其在本文方法中的离群点探测结果

图8 本文方法普适性验证

4 POI离群探测结果的可解释性分析

4.1 POI各类型离群点数量占比及其空间分布特征

表4 POI各类型中离群点占比

图9 基于Ripley's K函数的离群点分布分析

4.2 离群POI的面积占比及其公众认知水平分析

图10 离群点与AOI匹配结果

图11 离群AOI要素的面积占比分析

图12 离群点的公众认知水平

5 结论与讨论

References