“第五届空间数据智能学术会议SpatialDI 2024”优秀论文

众源地理数据驱动的社区管辖范围生成

  • 郑聪 , 1, 2, 3 ,
  • 李丽勤 , 4, * ,
  • 赵婉 4 ,
  • 王铭 1, 2, 3 ,
  • 俞自生 2, 3 ,
  • 隋远 2, 3 ,
  • 王文超 4 ,
  • 张钧波 2, 3 ,
  • 鲍捷 2, 3 ,
  • 郑宇 2, 3
展开
  • 1.西安电子科技大学网络与信息安全学院,西安 710126
  • 2.京东城市(北京)数字科技有限公司,北京 100176
  • 3.北京京东智能城市大数据研究院,北京 100176
  • 4.北京市大数据中心,北京 101100
* 李丽勤(1972— ),女,重庆人,博士,高级工程师;主要研究方向为数据挖掘和分析、人工智能。 E-mail:

郑 聪(1999— ),男,黑龙江齐齐哈尔人,硕士,主要研究方向为时空数据管理分析。E-mail:

Copy editor: 蒋树芳 , 黄光玉

收稿日期: 2024-05-29

  修回日期: 2024-09-03

  网络出版日期: 2024-10-09

基金资助

国家自然科学基金项目(62076191)

国家自然科学基金项目(62172034)

国家自然科学基金项目(72242106)

Inferring Community Boundaries from Volunteered Geographical Data

  • ZHENG Cong , 1, 2, 3 ,
  • LI Liqin , 4, * ,
  • ZHAO Wan 4 ,
  • WANG Ming 1, 2, 3 ,
  • YU Zisheng 2, 3 ,
  • SUI Yuan 2, 3 ,
  • WANG Wenchao 4 ,
  • ZHANG Junbo 2, 3 ,
  • BAO Jie 2, 3 ,
  • ZHENG Yu 2, 3
Expand
  • 1. School of Cyber Engineering, Xidian University, Xi'an 710126, China
  • 2. JD iCity, JD Technology, Beijing 100176, China
  • 3. JD Intelligent Cities Research, Beijing 100176, China
  • 4. Beijing Big Data Centre, Beijing 101100, China
* LI Liqin, E-mail:

Received date: 2024-05-29

  Revised date: 2024-09-03

  Online published: 2024-10-09

Supported by

National Natural Science Foundation of China(62076191)

National Natural Science Foundation of China(62172034)

National Natural Science Foundation of China(72242106)

摘要

社区管辖范围在智慧社区场景中应用广泛,高时效性、可靠的社区管辖范围是提供高质量基层服务的基础。然而,目前社区管辖范围面的绘制仍然依赖于基层工作者的人工标注,具有采集门槛高、更新时效低等问题。运用社区下辖区域的空间关联点位,可实现针对复杂社区管辖范围的生成问题,本文提出了一种基于众源地理数据驱动和图神经网络建模的社区范围生成算法CB-GCN,以实现针对复杂关联点位分布及区域划分条件下的高质量、低成本社区管辖范围面生成。基于城市中的多级路网将城市划分为块面,并基于楼栋空间坐标将块面进一步细分为空间单元,再基于空间单元在众源兴趣面及路网块面中的共现关系构造空间关系图;然后,基于图卷积网络计算空间单元之间的近邻关系度,并据此加权聚合计算空间点位特征;最后根据聚合结果 推断空间单元的社区归属,并得到最终的社区管辖范围。实验结果表明,CB-GCN生成社区管辖范围面的效果均优于基准方法,尤其在F1-score和IoU指标中较基准方法分别提升9.4%和14.4%。CB-GCN实现了社区面管辖范围生成的自动化,显著提升了社区管辖范围兴趣面生成的效率。

本文引用格式

郑聪 , 李丽勤 , 赵婉 , 王铭 , 俞自生 , 隋远 , 王文超 , 张钧波 , 鲍捷 , 郑宇 . 众源地理数据驱动的社区管辖范围生成[J]. 地球信息科学学报, 2024 , 26(10) : 2407 -2418 . DOI: 10.12082/dqxxkx.2024.240302

Abstract

Community jurisdictional boundaries are pivotal in the context of smart communities, where their prompt and accurate delineation is critical for providing high-quality grassroots services. Currently, the delineation of these boundaries relies heavily on manual labeling by grassroots workers, which poses considerable challenges, including substantial data collection barriers and delays in updating information. Utilizing spatially associated points within community jurisdictions offers a promising approach to address the complexities involved in generating accurate community boundaries. In this paper, we propose CB-GCN, a novel community boundary generation algorithm that integrates volunteered geographic information with graph neural network. This approach ensures the generation of high-quality, cost-effective, and timely community boundaries, even in the presence of complex point distributions and intricate regional divisions. CB-GCN consists of three fundamental components: semantic spatial feature extraction, spatial relationship graph construction, and jurisdictional area affiliation inference. In the initial phase of semantic feature extraction, the city area is partitioned into blocks using a multi-level road network. These blocks are then divided into spatial units based on the spatial coordinates of individual buildings. The use of semantic Areas of Interest (AOIs) and the multi-level road network blocks facilitates the extraction of containment and adjacency relationships between spatial units, which are crucial for constructing the spatial relation graph. During the phase of spatial relationship graph construction, edges are established between spatial units according to the extracted spatial semantic relationships, resulting in a comprehensive spatial relationship graph. The affiliation inference phase involves inferring proximity relationships between spatial units using graph convolutional networks. Spatially related point features of neighboring nodes are then aggregated with weighted adjustments based on these proximity relationships to accurately determine community affiliations. Based on the aggregation results, community affiliations of spatial units are classified, leading to the identification of definitive community jurisdictional boundaries. Experimental results demonstrate that CB-GCN substantially outperforms baseline methods in generating community jurisdictional boundaries, achieving notable improvements of 9.4% in F1-score and 14.4% in Intersection over Union (IoU). CB-GCN has also proven effective in complex scenarios involving fragmented jurisdictional areas, such as when a single AOI is intersected by multiple jurisdictional regions. Furthermore, CB-GCN can effectively generating regional AOIs despite variations in building distribution patterns and densities. By automating the generation of community jurisdictional boundaries, CB-GCN significantly enhances the efficiency of producing community boundary interest areas, representing a substantial advancement in boundary delineation methodologies.

1 引言

当前,社区信息化建设是智慧城市建设的重要方向。在信息化基层治理服务中,社区接诉即办派单、突发事件处理等需要任务下派的场景,以及特殊人群关怀、居民未诉先办等服务,都需要快速定位事件发生的具体地理位置,尤其是事件的地理位置与社区的所属关系。利用地理位置判断事件发生位置和社区的所属关系,依赖于社区的空间范围面。
社区管辖范围面的获取,可分为传统人工绘制方式和利用数据挖掘手段自动推断生成的方式。人工绘制方式,即利用人工测绘或手工标注的方式得到各个社区的管辖范围面。使用人工方式获得的管辖范围面质量高,但其消耗的人力成本和时间成本较高,难以实现高效、低成本的社区管辖范围面获取。运用数据挖掘的方法获取兴趣面,即利用文本、空间等包含社区管辖范围的数据,生成其对应的兴趣面。但是,当前并没有社区范围的标准化、规范化描述。当前可公开获取的社区管辖范围描述,通常使用结构化的文本描述社区四周边界上的道路、兴趣点等地理实体,称为“四至信息”。互联网中的四至信息通常缺乏专业人员维护,其数据不具备及时性。运用这些数据难以获得准确和及时的社区管辖边界,无法满足业务需求。与此同时,随着城市建设的发展,社区也发生着新增、合并、边界调整的情况。因此,获得高精确度的城市范围的社区管辖范围面,对提升数字化社区服务水平和服务效率至关重要。随着社区信息化建设的推进,基层工作者在日常工作中,积累了大量的社区内部地理实体所对应的空间坐标,称为社区的空间关联点位。基层工作者的工作要求,关联点位的数据时效性和准确度较高,可大致反映社区的管辖范围。利用此类关联点位数据进行社区管辖范围面的生成,对基层治理信息化效率的提升具有重要的意义。
关联点位数据,是带有标签的空间坐标数据。针对此类数据的兴趣面生成问题,目前已有较多的研究。G-RoI[1]基于社交网络用户在景区上传的坐标及关键字,推测出景区的大致范围。Dahiya等[2]提出了一种利用带标签的有噪空间坐标生成空间范围的方法。其将空间划分成六边形网格,并利用核密度分析的方法推测网格的范围,以在降低空间坐标噪声对生成范围准确度的影响。该方法在坐标点稀疏的情况下,容易产生内部空洞,无法满足生成的需求。DBSCAN[3]是基于点的密度分布确定聚类的方法。DBSCAN通过计算每个点的邻域密度来确定的边界,将密度可达的点划分为同一个聚类中。目前已有较多基于DBSCAN进行兴趣面发现的方法,如Hu等[4]提出的基于有标签坐标数据的兴趣面提取框架。此框架基于DBSCAN算法提取出各坐标集合的簇,并基于chi-shape算法得到各簇所对应的兴趣面。基于DBSCAN的兴趣面生成方法,其优势在于可发现任意形状的区域,但其存在对空间噪声和离群点比较敏感的问题。此外,此类方法需要确定邻域半径和最小密度等超参数,在具有复杂建筑物空间分布的场景下无法稳定生成可靠的社区范围。针对更广泛类型的兴趣面生成,已有了更多的研究。如Zhou等[5]、Yan等[6]、Alshehhi等[7]在利用CNN提取卫星图像表征的基础上建立路网节点图,运用GCN进行路网提取;Zorzi等[8]利用CNN检测卫星图中楼栋面顶点,并构造成图,使用GCN对顶点的邻近关系进行分析,最终得到完整的楼栋面。Zakharov[9]、Wei等[10]也利用GCN进行楼栋面的生成。除此之外,图神经网络还被应用于城市功能区识别和预测,以帮助城市规划。Zhu等[11]、Wang等[12]利用GCN对北京市的地块特征进行预测,Yan等[13]、Rong等[14]、张等[15]利用建筑的空间邻近关系构造图,并利用多层次的GCN对城市内部各类住宅区的住宅分布类型进行分类。由此,利用图神经网络实现空间地理数据的生产,成为了一条切实可行的途径。
社区工作人员在日常基层工作中,使用信息化系统积累了大量的社区关联点位信息。同时,基于城市中泛在、海量的非专职人群时空数据或公众主动提供的地理数据来推测城市地理信息是一种成本较低、时效性强的补充方式,成为近年的研究热点。众源地理数据更新及时、覆盖广,以城市中的众源地理数据作为空间关联点位的有效补充,是生成高质量社区范围面的可行途径。但众源地理数据非专职人员维护的特性导致其存在数据质量低、名称不准确、采样时空分布不均衡等问题[16]。在利用众源地理数据和关联点位数据生成社区面时,低质量的众源地理数据是制约社区范围面生成质量的关键因素之一。此外,城市中多样的住宅区建筑分布模式及社区范围划分的复杂性也为社区管辖范围生成带来了挑战。为应对上述挑战,本文提出了一个社区空间关联点位及众源地理数据驱动的管辖范围面生成算法CB-GCN(Community Boundary Graph Convolutional Network)。GB-GCN利用业务系统积累的关联点位数据,以及众源的AOI和路网等空间地理数据预先对区域进行划分,运用图神经网络对空间划分切片进行社区归属推测,最终依据各空间单元的归属社区生成社区管辖范围面。实验结果表明,该方法能够使用已有的众源地理数据实现较高精确度的社区管辖范围面生成。

2 社区管辖范围推断

2.1 问题定义和方法框架

2.1.1 问题定义

本节首先对问题涉及的相关概念进行定义,随后定义对社区管辖范围面生成问题。
定义1(社区,Community) 社区是基层治理的最小单位,通常具有一定的地理范围。本文使用小写字母c表示社区,使用大写字母C表示社区集合,同时使用bc表示社区c管辖的空间边界。
定义2(社区关联点位,Community Related Point) 社区关联点位指带有所属社区标签c的空间点位,本文使用小写字母pc表示,即pc=((lng, lat), c),其中,lnglat表示经纬度坐标。同时,使用大写字母Pc表示关联点位集合。例如,社区居委会就是一种典型的社区关联点位。
问题(社区管辖范围推断,Community Boundary Infer) 给定社区集合C及其所对应的关联点位集合{Pc|cC},以及基础地理数据兴趣面(Area of Interest, AOI)、路网语义信息,推断每个社区c的空间管辖范围bc,如图1所示。
图1 社区推断示意图

Fig. 1 Motivation of community boundary infer

2.1.2 方法框架

社区管辖范围推断的目标是利用与社区相对应的空间关联点,推导出社区空间范围的几何面。由于城市空间关联点的覆盖不完整,若直接以此生成社区管辖范围面,将导致生成的范围出现缺失。社区管辖范围的划分通常以楼栋为最小单元,因此,社区管辖范围的推断问题可以转化为:确定一个楼栋对应的空间区域最有可能归属的社区。因此,本研究首先依据城市楼栋的空间数据,对城市空间进行分割,确保每个楼栋对应一个空间区域,即所谓的空间单元。随后,本研究基于空间单元的空间语义特征和相关点,推断出每个空间单元最有可能归属的社区。
进行归属推断的一个简单想法是,根据一个空间单元所对应的节点特征,直接判断其所属的社区。但是,这种方法难以在社区划分复杂及关联点位噪声的条件下实现准确的社区判断。部分空间单元不含关联点位信息,难以直接推断出其所属的管辖范围。同时,关联点位中包含的噪声将导致分类结果出现偏差。于是,在判断一个空间单元的归属时,需要考虑其周围的空间单元的特征,以降低关联点位噪声所造成的影响。因此,本文基于距离及城市空间的语义关系,在空间单元之间构造边,以反映出各个空间单元之间的空间邻近关系,称为空间关系图。在构造上述图的基础上,构造了一个基于图神经网络的归属推断模型。该模型预先在空间关系图的各节点及其邻接节点学习其语义空间表征,并利用空间邻近关系学习各节点之间消息传播的权重,并基于此预测各个分片的归属社区。在推断空间单元的社区归属时聚合大量邻近空间单元的特征,可在一定程度上降低关联点位和众源地理数据的噪声对社区归属推测结果的影响。进行空间聚合及后处理,即得到最终的社区管辖范围面。图2展示了本文所提方法CB-GCN的整体框架及处理流程。
图2 社区管辖范围生成框架CB-GCN整体架构

Fig. 2 Architecture of CB-GCN community AOI generation framework

2.2 城市空间语义建模

2.2.1 城市空间特征抽取

空间单元归属的判断,依赖于关联点位信息及空间单元之间的语义邻近性。空间语义特征抽取的目的,是提取出有助于推断空间单元归属的语义特征。从直觉上看,2个距离更近的空间单元,其属于同一片管辖范围的概率更大。然而,由于城市中的空间通常是具有特定语义的,除了距离因素之外,城市中仍然有更多类型的特征体现2个空间单元之间的邻近性。因此,提取了可反映空间邻近性的语义特征,具体如下所述。
(1)AOI语义特征提取。一个AOI所代表的空间区域,暗示了该区域内部空间属于同一个地理实体。处于同一个AOI内部的空间单元,其属于同一个社区的概率也较大。一个空间单元i的AOI语义特征ai即为该空间上包含该空间单元坐标的语义AOI的唯一ID。
(2)路网语义特征提取。路网语义特征代表着多个空间单元之间的临近性。被相同路网所包围的2个空间单元,其处于同一个社区的可能性较分处于2个不同路网切分块的2个空间单元更大。城市中的路网具有不同的等级,不同等级的路网之间围成的面,属于同一个社区管辖范围的可能性更大。提取路网语义特征时,先取各道路的中心线,再将路网按照道路等级分层,对城市空间区域进行切割,得到以路网为边界的几何面集合,称为路网块面集合,按照高、中、低的路网等级分别记为HMO。由于低等级路网相对高等级路网更密集,在得到更高等级的路网切割空间区域的基础上,利用下一级别的路网切割高一级路网的几何面。一个空间单元i的路网语义特征himioi分别为空间包含空间单元i的高、中、低等级路网块面的唯一ID。
(3)距离特征提取。此处的距离定义为2个空间单元ij中点之间的欧式距离dij。提取时,根据距离的最大值进行归一化操作。
(4)关联点位特征提取。由于定位噪声等因素,关联点位的位置通常存在一定误差。因此,同一空间单元中可能落入来自不同社区的关联点位。空间关联点位特征时,统计落入其中的各个社区的关联点位数量的比例,并取比例最大的作为其对应的所属社区。
c i = a r g m a x c | P c i | c ' C | P c ' i |
式中:Ci代表空间单元i对应的关联点位特征; P c i代表落入空间单元i中的社区C的关联点位集合。对关联点位信息进行独热编码后,作为节点特征的一部分。注意到部分空间单元并不包含关联点位。对于此类特征,在输入时假设其属于各个社区的可能是相等的,因此将其初始化为均匀分布的概率。
传统的网格切分方式,通常使用规则的几何形状,如MGeo[17]在构建表征时采用四边形网格划分区域、Dahiya等[4]在生成兴趣面前采用六边形网格划分区域。使用传统的规则网格划分方式,其网格精细度难以控制。由于社区管辖范围在不同密度住宅区的大小变化较大,为了能够在保证绘制精确度的同时减少网格的数量,并且能够反映楼栋之间的空间相邻关系,需要一种自适应住宅区内部楼栋分布的网格切分方式,形成足够细粒度的切分,并使获得的空间单元和楼栋坐标一一对应。切分后得到的空间单元集合 V = { < i d ,   c ,   g > }作为社区归属推测的基本单元,其中id为空间单元的唯一标识,c为空间单元包含的关联点位特征,g为空间单元的集合范围。

2.2.2 城市空间关系图构建

城市空间关系图的构建,其目的在于利用提取的空间语义特征,对各空间单元之间的邻近性进行建模,以利用空间语义邻近的空间单元推断其空间归属。建模时的城市空间关系图的构建主要依赖于以下的特征:城市中兴趣面通常代表一个连续、密闭的几何面。一个空间单元的管辖范围归属,与其本身携带的空间关联信息,及其邻近范围内的空间单元所携带的空间关联信息,及其自身的空间特征相关。据此,需要依据空间距离和空间单元的语义邻近性,表示空间单元之间的邻近关系。基于楼栋的空间坐标,构造泰森图GT,其边集合为ET。为了在空间关系图G中建模空间单元在AOI集合A和路网块面集合HMO中的共现关系,基于以下方法构建全连接子图。以下以将所有空间单元分为两个集合,有关联点位属性的空间单元集合Vp,及无关联点位的空间单元集合Vn。对于处于同一个AOI面 a A及路网块面 h H , m M ,   o O的空间单元,按照如下方法构造边:
E a = { < i , j > | i V p j V n i . g a j . g a }
E o = { < i , j > | i V p j V n i . g o j . g o }
E m = { < i , j > | i V p j V n i . g m j . g m }
E h = { < i , j > | i V p j V n i . g h j . g h }
最后,空间关系图的边集合E构建如下:
                          E A = a A E a E H = h H E h E M = m M E m E O = o O E o E = E A E O E M E H E T
将空间单元节点i所在的AOI面和路网块面的唯一ID进行独热编码,空间单元的AOI语义特征ai和路网语义特征himioi保存在图中。aihimioi不直接参与图节点属性的聚合,仅为相似度计算使用。

2.3 社区归属推断模型

基于已获取各空间单元的语义特征,及根据空间语义关系构建的空间关系图,使用基于图卷积神经网络的模型,根据图节点自身关联点位特征及其邻近节点空间语义及关联点位特征,推断出其所属的社区。模型结构图如图3所示。
图3 CB-GCN社区归属推断模型整体架构

Fig. 3 Architecture of CB-GCN model

社区归属推断模型总体分为4个模块,即表示层、节点近邻度计算层、高层表征生成层和节点分类层。首先,CB-GCN利用表示层得到城市语义表征的稠密表示。图中节点的关联点位特征进入一个由ri个神经元构成的全连接层,边图中上的距离特征、AOI特征及路网块面特征进行连接操作之后也进入一个神经元数量为 1 + | A | + | H | + | M | + | O |的全连接层,以得到其稠密表示。
上述特征的稠密表示将进入l组节点近邻度计算模块和高层表征生成模块,以基于邻近节点的语义特征及关联点位特征得到其高层语义表示。为进行节点归属判定的推理,前述节点特征和边特征的稠密表示首先被输入到节点近邻度计算层,以推断出相邻的节点之间在空间语义中的相似度,称为空间邻近度。考虑到空间单元邻近节点的关系,处于同一AOI和道路切分块的节点对,以及空间距离近的节点对,在空间语义上具有更高的邻近度。于是,根据节点所处的AOI语义特征、路网语义特征和距离特征,计算节点之间的空间邻近度。具体地,对于图中的一对邻接节点ij,根据上述空间特征,使用一个全连接层进行计算该对节点的空间邻近度:
r c i = c o n c a t ( h i ,   m i ,   o i ) r c j = c o n c a t ( h j ,   m j ,   o j ) s i m i j = M L P ( c o n c a t ( a i ,   r c i ,   r c j ,   d i j ) )
式中:ai表示节点i所属AOI语义特征;rcircj表示节点i及节点j所属路网语义特征; c o n c a t ( )代表拼接操作。在得到空间邻近度之后,将节点的语义表征与空间邻近度一同输入高层表征生成层,以其邻接节点的空间邻近度加权聚合邻接节点的高层语义表示,得到此节点新的高层语义表示。具体地,以上述计算所得空间邻近度作为权重,聚合节点i邻接节点的第l层语义表征 h j l,得到节点il+1层的语义表征 h i l + 1
h i l + 1 = σ ( j N ( i ) s i m i j W h j l )
式中:N(i)代表节点i的邻接节点集合; h i l代表由第l层网络得到节点i的语义表示; h i 0代表图的原始输入表示,即原始的关联点位所属社区特征;W代表可训练参数。在经过l次卷积后,即得到节点最终的第l层语义表示,记为 h i l,其与 h i 0将被输入节点分类层。在节点分类层中, h i 0 h i l被连接,并被输入一个接受2n维向量的全连接层,其中n代表关联点位所属社区的数量。该全连接层输出一个1×m维向量,即为输出结果zi。根据式(9)得到节点i的归属社区pi
p i = a r g m a x j e x p ( z i , j ) k = 1 n e x p ( z i , k )
由于节点的社区归属判断任务属于分类任务的一种,本文选用交叉熵损失函数作为模型的训练目标。根据模型输出的预测结果zi, j和节点本身的关联点位 h i 0计算交叉熵损失函数L
L = - j = 1 n h i , j 0 l n z i , j
最后,将归属同同一社区的空间节点所对应的空间区域,通过空间聚合得到最后的社区面:
b c = i V { i . g   |   p i = c }
在得到模型的归属判断结果之后,直接利用输出结果进行社区面的绘制,仍然会出现少数飞地、空洞、边界交错的现象。对此,可以基于空间分布对模型的输出结果进行后处理(如去噪、边界平滑)等方法,提升社区面生成结果的质量。

3 实验与讨论

3.1 实验设置

实验数据。数据实验采用的路网数据、AOI数据及楼栋数据从OpenStreetMap取得。通过社区工作人员录入的社区包含关系,及社区工作人员上报的空间点位,获取了北京市西城区180个社区中 共18 877个关联点位。利用北京市西城区路网和楼栋数据,对北京市西城区范围进行切割,得到了78 000空间单元,据此生成空间关系图。
训练设置。训练模型时,选取其中的30个社区作为训练集,其余的社区作为测试集。首先利用训练集得到社区高维语义表征,并构建训练样本。模型训练完成后,在测试集上进行社区面生成,进行后处理,并测试其生成质量。
模型训练过程。模型的训练使用一台包含1张NVIDIA GTX 3090显卡的工作站上进行。模型使用三层CB-GCN,使用5×10-3的学习率,并采用权重衰减,设置为5×10-4,训练500轮。
基准实验。实验采取了常见的AOI面生成算法作为对比基线,具体为如下5种:
(1) DBSCAN凸包法。对社区与关联点位进行DBSCAN去噪,计算去噪后各社区对应关联点位的最小凸包作为社区面。实验时聚类核心点数量设置为3,聚类距离设置为100 m。
(2) AOI投票法。统计区域内各个AOI内部的各社区关联点位所占比例,取比例最高的作为AOI所属的社区。
(3)核密度分析法。预先将区域划分为网格。对于一个特定的网格,统计该网格一定半径内属于各社区的关联点位的高斯核密度,选取核密度分数最大的作为该网格所属社区。该实验中选取半径λ为100 m。
(4) G-RoI。采用与Belcastro等[1]相同的设置进行实验。
(5) Plain GCN。数据预处理采用与CB-GCN相同的方式,但仅使用关联点位作为聚合特征,不使用AOI和路块特征进行相似度计算。网络共使用三层GCN,并使用一个全连接层作为分类层,判断节点的社区归属。
衡量指标。对于生成的社区面 b c r和对应的基准社区面 b c g,统计如下指标:
精确率Precision,定义如下:
P r e c i s i o n = S ( b c g ) S ( b c r ) S ( b c r )
召回率Recall,定义如下:
R e c a l l = S ( b c g ) S ( b c r ) S ( b c g )
F1-score,定义如下:
F 1 - s c o r e = 2 P R P + R
IoU(Intersection over Union),定义如下:
I o U = S ( b c r b c g ) S ( b c r b c g )
式中:S(·)代表社区面的面积。

3.2 实验结果及分析

使用上述基线方法及本文提出的方法,在西城区内生成社区面,并统计出各方法所生成的准确率、召回率,如表1所示。可见在召回率、F1-score和IoU指标中,CB-GCN取得了最好的结果。而在召回率中,虽然普通的GCN取得了最高的分数,但是CB-GCN取得的分数与Plain GCN几乎一致,而CB-GCN在精确率和IoU指标中的表现远好于GCN。这说明CB-GCN在社区管辖范围面生成这一任务具有更好的性能。
表1 各方法生成社区面的指标

Tab. 1 Metrics of the generated boundaries

方法名 Precision Recall F1-score IoU
AOI投票法 0.769 0.600 0.638 0.493
核密度分析法 0.640 0.736 0.655 0.498
DBSCAN凸包法 0.707 0.612 0.592 0.438
G-RoI 0.795 0.177 0.231 0.154
Plain GCN 0.885 0.708 0.764 0.636
CB-GCN 0.865 0.826 0.836 0.728

注:加粗数值代表对应指标中最高值。

图4中展示了各个方法生成的社区管辖范围面效果。由图中可知,DBSCAN凸包法生成的社区管辖范围面交叠、覆盖现象严重,这是由于DBSCAN法寻找密度中心的策略无法适应城市中建筑物分布密度多变的特征。G-RoI法的生成结果中,部分社区管辖范围面生成失败,这是由于其寻找密度中心的策略不适用于部分关联点位密度低及内部密度变化小的社区。核密度分析法的生成结果中,在关联点位密度较大的区域生成质量较好,但由于未利用AOI、路网等城市的空间语义知识,生成的社区管辖范围面边界走向跨过路网、AOI,侵入其他社区管辖范围的现象较多。同时,在关联点位密度较低及形状不规则的区域,利用核密度分析法生成的社区管辖范围面存在内部空洞、飞地等现象。AOI投票法在关联点位覆盖度高的社区生成的社区管辖范围面较完整,但在覆盖度低的区域,对于无关联点位的AOI,由于该算法无法利用其周围的AOI关联点位推断出其可能的归属社区,故其生成的管辖范围面中存在较多的缺失、空洞等问题。CB-GCN在生成管辖范围兴趣面时使用了城市中空间的语义关系,在社区关联点位沿着道路、AOI分布的情况下,其生成的社区边界较基准方法精度更高。
图4 各方法生成社区面效果示意图

Fig. 4 Community boundaries generated by each method

为更细致地展示不同方法生成社区面的质量,统计各个社区面的精确率和召回率,并绘制累积密度函数(Cumulated Density Function, CDF)曲线,如图5所示。从图5可以观察到,与其他基线方法相比,采用CB-GCN方法生成的社区管辖范围在更多社区中展现出较高的召回率、F1-score以及IoU值。由此可见,针对单一社区,CB-GCN方法所生成的社区管辖范围的精确度更高。观察到图5(b)中G-RoI对应的累积分布函数(CDF)曲线,大约有50%的社区面积精确率为0,而大约20%的社区面积精确率达到100%。这种现象是由于G-RoI采用的基于密度的兴趣面生成策略导致的。其中,对于精确率为0的社区,G-RoI未能识别出其关联点位中的高密度簇,从而无法生成社区管辖范围面。对于精确率达到100%的社区,G-RoI成功识别出了这些高密度簇,但由于其确定的范围严格地被真值包围,生成结果的精确率达到100%。由图5(a)可见,G-RoI的召回率远低于其他方法,这证明G-RoI生成的社区管辖范围远小于真值。因此,G-RoI在部分社区生成的精确率上高于CB-GCN,但整体上其生成管辖范围面的质量低于CB-GCN。
图5 各方法生成社区面指标的分布的累积密度曲线示意图

Fig. 5 CDF of metrics of generated boundaries

为证明CB-GCN在不同的建筑空间分布密度下都有良好的社区面生成质量,以下对不同密度的关联点位下社区面生成质量进行分析。根据各个社区楼栋数量及真实社区面,计算出各社区内部楼栋分布密度,如图6所示。
图6 楼栋在社区内部分布的密度特征分布

Fig. 6 Distribution of density of buildings in a community

按照楼栋密度的50%分位将社区分为2类,其中密度高于50%分位的社区分为高楼栋密度社区,密度低于50%分位的社区分为低楼栋密度社区。图7图8分别展示了部分低楼栋密度社区和高楼栋密度社区的管辖范围面生成质量。如图7所示,在低楼栋密度社区中,由于点位在社区中密度较低,CB-GCN生成管辖范围面时,边缘区域会产生少许缺失及冗余,但生成的管辖范围面整体上和真值的差异不大。
图7 低楼栋密度社区生成结果

Fig. 7 Generated community boundaries with low point density

图8 高楼栋密度社区生成结果

Fig. 8 Generated community boundaries with low point density

对于高楼栋密度社区,CB-GCN保持了较好的生成质量。注意到图8(c)中煤市街东社区的真值与图8(f)中其生成结果相比,生成结果下侧出现了部分空缺,其原因在于煤市街东社区下侧的关联点位数据与其中心相比下降过多,而其周围的社区关联点位密度明显高于此区域关联点位密度,模型在此处的推断产生了误差。但总体上其生成结果与真值较为接近。这说明CB-GCN对不同楼栋密度的社区管辖范围面生成都有较好的表现。
此外,CB-GCN在社区管辖范围划分复杂情境下仍能保持较好的社区面生成效果。图9展示了CB-GCN在处理单个AOI分割成多个社区时的处理效果。图9(a)中,粗线表示的AOI分属大栅栏西街社区、百顺社区、石头社区。图9(b)中,CB-GCN生成的社区面分别用不同色块区分。可见CB-GCN在单个AOI被分割为多个社区时可以较准确地生成社区管辖范围。模型成功地学习了AOI和路网块面内部的相似关系,而不是将AOI和路网块面特征直接映射到归属社区。
图9 单个AOI对应多个社区时模型生成结果

Fig. 9 Output of our model when communities split an AOI apart

4 结语

社区管辖范围面生成,是提供精准、可靠的基层治理信息化服务的重要支撑。本文提出的众源地理数据驱动的社区管辖范围面生成方法,主要包括空间语义关系提取、空间关系图构建、基于语义相似度的节点归属判断3个步骤。实验结果表明,本方法可以依据带有噪声的空间关联点位以及众源兴趣面数据生成高准确度的社区管辖范围面,并可适应各类密度的关联点位分布以及复 杂的管辖范围划分。生成的社区管辖范围面, F1-score达到了0.836,IoU达到了0.728,分别较基于空间坐标的传统方法提升了9.4%和14.4%。
本文方法中社区管辖范围面的推断基于关联点位,其在数据来源层面存在局限性,并且其生成结果的精确性受限于关联点位的精度。今后可基于基层工作人员的活动轨迹等更多样化的地理数据来源生成管辖范围兴趣面,提高管辖范围面的生成精确度。
[1]
Belcastro L, Marozzo F, Talia D, et al. G-RoI: Automatic Region-of-interest Detection Driven by Geotagged Social Media Data[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2018, 12(3):1-22. DOI:10.1145/3154411

[2]
Dahiya M, Samatia D, Rustogi K. Learning locality maps from noisy geospatial labels[C]// Proceedings of the 35th Annual ACM Symposium on Applied Computing. ACM, 2020:601-608. DOI:10.1145/3341105.3373933

[3]
Ram A, Jalal S, Jalal A S, et al. A density based algorithm for discovering density varied clusters in large spatial databases[J]. International Journal of Computer Applications, 2010, 3(6):1-4. DOI:10.5120/739-1038

[4]
Hu Y J, Gao S, Janowicz K, et al. Extracting and understanding urban areas of interest using geotagged photos[J]. Computers, Environment and Urban Systems, 2015, 54:240-254. DOI:10.1016/j.compenvurbsys.2015.09.001

[5]
Zhou G D, Chen W T, Gui Q S, et al. Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:5614115. DOI:10.1109/TGRS.2021.3128033

[6]
Yan J J, Ji S P, Wei Y. A combination of convolutional and graph neural networks for regularized road surface extraction[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:4409113. DOI:10.1109/TGRS.2022.3151688

[7]
Alshehhi R, Marpu P R. Hierarchical graph-based segmentation for extracting road networks from high-resolution satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 126:245-260. DOI:10.1016/j.isprsjprs.2017.02.008

[8]
Zorzi S, Bazrafkan S, Habenschuss S, et al. PolyWorld: Polygonal building extraction with graph neural networks in satellite images[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:1848-1857. DOI:10.1109/CVPR52688.2022.00189

[9]
Zakharov A, Tuzhilkin A, Zhiznyakov A. Automatic building detection from satellite images using spectral graph theory[C]// 2015 International Conference on Mechanical Engineering, Automation and Control Systems (MEACS). IEEE, 2015:1-5. DOI:10.1109/MEACS.2015.7414937

[10]
Wei S Q, Ji S P. Graph convolutional networks for the automated production of building vector maps from aerial images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:5602411. DOI:10.1109/TGRS.2021.3060770

[11]
Zhu D, Zhang F, Wang S Y, et al. Understanding place characteristics in geographic contexts through graph convolutional neural networks[J]. Annals of the American Association of Geographers, 2020, 110(2):408-420. DOI:10.1080/24694452.2019.1694403

[12]
Wang J F, Feng C C, Guo Z. A novel graph-based framework for classifying urban functional zones with multisource data and human mobility patterns[J]. Remote Sensing, 2023, 15(3):730. DOI:10.3390/rs15030730

[13]
Yan X F, Ai T H, Yang M, et al. A graph convolutional neural network for classification of building patterns using spatial vector data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 150:259-273. DOI:10.1016/j.isprsjprs.2019.02.010

[14]
Zhao R, Ai T, Yu W, et al. Recognition of building group patterns using graph convolutional network[J]. Cartography and Geographic Information Science, 2020, 47(5):400-417.

[15]
张自强, 刘涛, 杜萍, 等. 典型建筑物群组模式的空间图卷积模型DGCNN识别方法[J]. 武汉大学学报(信息科学版), 2024, 49(5):868-878.

[Zhang Z Q, Liu T, Du P, et al. Recognition of typical building group patterns using spatial graph convolutional model DGCNN[J]. Geomatics and Information Science of Wuhan University, 2024, 49(5):868-878.] DOI:10.13203/j.whugis20210507

[16]
单杰, 秦昆, 黄长青, 等. 众源地理数据处理与分析方法探讨[J]. 武汉大学学报(信息科学版), 2014, 39(4):390-396.

[Shan J, Qin K, Huang C Q, et al. Methods of crowd sourcing geographic data processing and analysis[J]. Geomatics and Information Science of Wuhan University, 2014, 39(4):390-396.] DOI:10.13203/j.whugis20130633

[17]
Ding R, Chen B, Xie P, et al. MGeo: Multi-Modal Geographic Language Model Pre-Training[C] // Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023: 185-194.

文章导航

/