地球信息科学理论与方法

YOLOv8l-FMSC-Spatial:一种微地图地理要素的检索模型

  • 侯宇豪 , 1, 2, 3 ,
  • 杨维芳 , 1, 2, 3, * ,
  • 闫浩文 1, 2, 3 ,
  • 李精忠 1, 2, 3 ,
  • 朱昕宇 1, 2, 3 ,
  • 闫香蓉 1, 2, 3 ,
  • 彭毅博 1, 2, 3
展开
  • 1.兰州交通大学测绘与地理信息学院,兰州 730070
  • 2.地理国情监测技术应用国家地方联合工程研究中心,兰州 730070
  • 3.甘肃省地理国情监测工程实验室,兰州 730070
*杨维芳(1970— ),女,甘肃兰州人,博士,教授,主要从事微地图、测量数据处理等研究。E-mail:

侯宇豪(1998— ),男,安徽宿州人,硕士生,主要从事微地图检索研究。E-mail:

Copy editor: 黄光玉 , 蒋树芳

收稿日期: 2024-06-08

  修回日期: 2024-11-25

  网络出版日期: 2025-01-24

基金资助

甘肃省高等学校产业支撑计划项目(2022CYZC-30)

国家自然科学基金项目(42430108)

国家自然科学基金项目(41930101)

国家自然科学基金项目(42371463)

国家自然科学基金项目(42271454)

国家自然科学基金项目(42394063)

国家自然科学基金项目(42061076)

兰州交通大学研究生教育教学质量提升工程项目(JG202301)

甘肃省联合科研基金重大项目(24JRRA848)

YOLOv8l-FMSC-Spatial: A Retrieval Model for We-Map Geographical Elements

  • HOU Yuhao , 1, 2, 3 ,
  • YANG Weifang , 1, 2, 3 ,
  • YAN Haowen 1, 2, 3 ,
  • LI Jingzhong 1, 2, 3 ,
  • ZHU Xinyu 1, 2, 3 ,
  • YAN Xiangrong 1, 2, 3 ,
  • PENG Yibo 1, 2, 3
Expand
  • 1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
  • 2. National-Local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou 730070, China
  • 3. Gansu Provincial Engineering Laboratory for National Geographic State Monitoring, Lanzhou 730070, China
*YANG Weifang, E-mail:

Received date: 2024-06-08

  Revised date: 2024-11-25

  Online published: 2025-01-24

Supported by

The Industrial Support and Program Project of Universities in Gansu Province(2022CYZC-30)

The National Natural Science Foundation of China(42430108)

The National Natural Science Foundation of China(41930101)

The National Natural Science Foundation of China(42371463)

The National Natural Science Foundation of China(42271454)

The National Natural Science Foundation of China(42394063)

The National Natural Science Foundation of China(42061076)

The Graduate Education Teaching Quality Improvement Project of Lanzhou Jiaotong University(JG202301)

The Major Program of Joint fund of Gansu Province, China(24JRRA848)

摘要

【目的】 当前在微地图的内容检索领域尚缺乏系统性的研究。为了填补这一研究空白,本文提出了一种YOLOv8l-FMSC-Spatial (You Only Look Once v8l- Fewer Multi-Scale Convolution-Spatial, YOLOv8l-FMSC-Spatial)模型,实现在手绘地图场景下地理要素的提取及检索。【方法】 首先通过对比YOLO系列模型,选取最优的YOLOv8l模型,引入C2f-FMSC模块改进最优模型,建立应用于微地图的YOLOv8l-FMSC训练模型,利用该模型实现栅格地图的地理要素提取;其次针对地理要素的检索需要,建立地理要素的空间关系数据库,设计空间计算检索模块Spatial,通过Spatial模块实现地理要素信息的传递与筛选,进一步地计算用户检索信息与数据库地理要素信息的空间关系关联程度;最后根据空间关系关联程度,从微地图数据库中索引包含相关地理要素信息的地图,实现基于空间关系的地理要素检索模型构建。依据上述方法,在手绘校园地图检索场景中进行验证。实验数据源自各个学校发布内容以及学生自由制作,共计493幅手绘校园地图,在全国范围内研究学校代表性地理要素检索,此类要素包括水体、操场、特色建筑,确保准确识别和检索这些特征元素,验证所提模型的实际适用性。【结果】 实验结果表明:训练后的YOLOv8l模型可有效识别手绘地图中的地理要素,并在收集的数据集上验证了模型的有效性和鲁棒性;引入FMSC模块后的YOLOv8l-FMSC模型精确率可达0.8、召回率可达0.764,为实际对比中的最优模型;引入Spatial模块计算模型度量空间关系,可有效捕捉到相关地理要素的空间信息,减少与正射地图检索的差距。【结论】 综上,提出的YOLOv8l-FMSC-Spatial模型可根据顾及空间关系的地理要素条件,快速准确地检索到内容相关的手绘地图,从而填补微地图在内容检索方面的研究空缺。

本文引用格式

侯宇豪 , 杨维芳 , 闫浩文 , 李精忠 , 朱昕宇 , 闫香蓉 , 彭毅博 . YOLOv8l-FMSC-Spatial:一种微地图地理要素的检索模型[J]. 地球信息科学学报, 2025 , 27(2) : 461 -478 . DOI: 10.12082/dqxxkx.2025.240327

Abstract

[Objectives]Currently, systematic research in content retrieval for We-maps is lacking. To address this gap, this paper proposes an approach for geographic feature extraction and retrieval in hand-drawn map scenes using the YOLOv8l-FMSC-Spatial model (You Only Look Once v8l - Fewer Multi-Scale Convolution-Spatial). [Methods]First, different YOLO models were compared to select the optimal YOLOv8l model. The C2f-FMSC module was introduced to improve this model, resulting in the YOLOv8l-FMSC training model specifically designed for We-maps. This model was applied to extract geographic features from raster maps. Next, to meet the retrieval needs of geographic features, a spatial relationship database for these features was established. A spatial computation and retrieval module, Spatial, was designed to process geographic feature information by transmitting and filtering it. The module further calculates spatial correlations between user queries and the geographic feature information in the database. Based on the degree of spatial relationship association, the model indexes maps containing relevant geographic feature information from the We-maps database, enabling the construction of a spatial relationship-based geographic feature retrieval model. The method was validated using hand-drawn campus map retrieval scenarios. The experimental dataset comprised publicly available maps from schools and maps freely created by students, totaling 493 hand-drawn campus maps. These maps were used to study the retrieval of representative geographical elements such as water bodies, sports fields, and unique architectural structures associated with schools nationwide. The focus was on accurately identifying and retrieving these characteristic elements to ensure the model’s practical applicability. [Results] The experimental results indicate: (1) The trained YOLOv8l model effectively identifies geographical elements in self-made maps, with its effectiveness and robustness verified on the proposed dataset; (2)The YOLOv8l model, enhanced with the FMSC module, achieved a precision of 0.8 and a recall of 0.764, making it the optimal choice for practical comparisons; (3)The Spatial calculation model effectively captures the spatial information of relevant geographical elements, narrowing the gap with orthographic map retrieval. By applying this method, the retrieval of geographical elements from hand-drawn campus maps, while considering spatial relationships, becomes achievable. [Conclusions] The proposed model can quickly and accurately retrieve content-relevant hand-drawn maps based on geographic feature conditions, effectively filling the research gap in content retrieval for We-maps.

1 引言

地图是国际上公认的三大通用语言(地图、绘画和音乐)之一,是人类生活、学习、工作和实践不可缺少的一部分[1]。地图作为人类社会文化传承中必不可少的一部分,其发展过程与人类社会形态变化密不可分。从生产力角度观察,人类社会经历了以手工为主的原始社会和农业社会、以机器为主的工业社会和以数字科技推动的现代社会。地图同样历久弥新,经历了手工地图制图时代和计算机数字制图[2]时代,逐渐发展出现代地图科学[3-4]。在这个过程中,涌现出各种各样的地图形式,而手绘地图制作内容泛化,创意功能明显,大众参与制作门槛低,可产生自媒体式的传播,符合微地图制作门槛低和自媒体传播的特点,因此手绘地图可作为微地图[5]的一种存在形式。
目前互联网上存在大量的手绘地图,此部分地图聚焦于艺术性与创意性,相较于标准线划地图,该部分地图地理要素信息未能被充分挖掘。因此手绘地图的应用有着巨大的发展潜力,但是如何提取手绘地图的地理要素信息仍处在起步阶段,也成为新的研究问题。由于微地图目前的存量数据较少,而手绘地图可产生自媒体式的传播,符合微地图特点,因此可用手绘地图补充微地图数据。针对手绘地图的检索研究不仅对微地图具有借鉴意义,而且针对存量手绘地图的信息利用提出一种可行的方法,使得手绘地图的检索[6]作为微地图传播体系中必不缺少的一环。而应用检索方法解决手绘地图地理要素提取问题,是一种实际有效的手段。同时信息检索与地图发展近似相同,在人类发展文字形式进行沟通的过程中,检索等同于人类对信息的关注。在计算机数字制图时代,检索方法的研究将极大地提高地图用户获取信息的效率。20世纪60年代,Salton[7]作为信息检索研究的先驱,对信息检索(Information Retrieval,IR)做出定义。随后,有学者开始研究除文本以外的信息检索方法。20世纪90年代,Kato[8]、赵学敏等[9]提出了基于内容的图像检索(Content-Based Image Retrieval,CBIR)理论与方法。随后不断有学者和研究人员对原有的图像检索方法进行研究发展,将CBIR应用于各个领域解决问题[10],这也使得以图像形式存在的地图有了参考的理论示例和应用样本[10]。目前在地图检索方法已有相关的研究成果,例如周熙然等[11]对当前地图图像的识别与理解方法进行了归纳,概述了地图图像表征研究的必要性。Gui等[12]针对用户意图提出了相关的地图检索设计方法。但是上述研究并未针对地图内容检索的下一步工作进行探索。
因此,本文从微地图视角出发,以现有手绘地图入手,并作为样本,研究一种检索手绘地图的方法,用于解决当前微地图手绘地图内容检索缺失的问题,为自媒体时代的地理要素检索提供新的解决思路与方法。当前微地图检索主要存在以下问题:① 微地图是新兴领域,理论体系搭建不够完善,微地图框架内缺少的部分理论体系可能会对实际检索造成影响; ② 微地图数据多为不规范存在,模块化检索困难; ③ 现有的检索理论与技术在微地图上的应用尚无先例; ④ 微地图应用场景有限,检索算法应用场景泛化仍需解决; ⑤ 当前微地图检索效率低,仍然依赖手动浏览或图名搜索,不能满足信息传播的及时性与相关性要求。因此微地图检索方法的研究在大数据时代传播地图声音中,承担着重要的社会责任。针对微地图地理要素检索的研究,不仅对微地图的发展应用意义重大,还能为现代地图学的数字化检索提供思路。
本文引入目标检测方法作为检索前置工具,目前针对目标检测的研究主要分为2部分,包括支持向量机[13-14](Support Vector Machine,SVM)为代表的机器学习与基于神经网络[15-16](Neural Network,NN)的深度学习[17]方法。随着深度学习方法的深入,神经网络模型已被作为地图图像处理的一种首选解决方案。然而目前在微地图的地理要素检索中尚未有应用深度学习方法进行研究的先例。YOLO(You Only Look Once)系列[18-22]模型起源于Redmon等[21]在2016年提出的一种基于神经网络的图像检测方法—YOLOv1模型。在随后的几年中,YOLO模型在学界与工业界的研究下,不断进行迭代改进,使得YOLO系列模型一直作为目标检测领域的最先进(State-Of-The-Art,SOTA)模型。其中Ultralytics公司于2023年提出YOLOv8模型,以更快的推理速度和更高的模型精度,被各个领域[23-26]所研究应用,例如鱼类检测[27],通过YOLOv8模型检测水下图像中鱼类,应用于渔业物种调查,在检测阈值为0.5的情况下平均检测精度可达52.7%;在公路安全[28]的研究中,训练后的YOLOv8模型在道路损伤检测[29]的平均检测精度可达63.3%;在遥感图像目标检测[30-31]的研究中,YOLOv8模型在RSOD数据集平均检测精度更是达到94.6%,在上述研究中,YOLOv8除拥有领先的检测准确率外,更在复杂图像环境中表现出更强特征提取能力且改进后的YOLOv8模型在目标检测方面远超同类检测模型。因此,本文以YOLOv8模型作为微地图地理要素信息检索的基线模型进行研究,引入C2f-FMSC模块,设计顾及空间关系的Spatial检索计算模型,实现微地图场景下的地理要素检索任务。
综上所述,本文以微地图为立足点,基于手绘地图,提出一种YOLOv8l-FMSC-Spatial (You Only Look Once v8l- Fewer Multi-Scale Convolution-Spatial, YOLOv8l-FMSC-Spatial)模型提取及检索手绘地图地理要素的方法。首先通过收集手绘校园地图,在YOLOv8模型中引入C2f-FMSC模块进行目标检测任务,建立地理要素空间关系知识库;其次划分训练集与验证集,训练并验证模型精度,设计Spatial检索计算模块,对地理要素从属的空间信息进行计算;最后应用Spatial模块提取并筛选手 绘地图,实现顾及空间关系的手绘地图地理要素检索。

2 研究框架与方法

2.1 YOLOv8模型

目标检测领域的深度学习方法主要分为单阶段目标检测与二阶段目标检测[32]。检测主要参数包括:主干网络Backbone、输入图像Inputs、提取图像特征的卷积层Conv(Convolution)、通过Conv获取到的特征图Feature map、降低冗余特征的感兴趣区域池化(Region of interest pooling,RoI Pooling)[33]、分类器CLS、定位网络LOC。二阶段目标检测[34]的处理思想如下:一阶段生成潜在候选区域,即与实际区域较为符合的部分;二阶段通过卷积神经网络模型对原有特征进行分类和定位。单阶段目标检测YOLO与二阶段目标检测相比,省略了生成潜在候选区域的步骤,简化了检测流程,提高了检索速度,但对小物体的检测误差较大[35]。同时,YOLO系列远超当代的单级检测技术,并随着YOLO9000[22]与YOLOv3[18]的提出,早期的小物体检测问题也在后面的版本得到修复[36]
YOLOv8[37]模型作为新一代单阶段目标检测的SOTA模型,融合众多的SOTA技术,且具有一定的扩展性,同时支持YOLO之外的大量算法,采用了新的主干架构和损失函数,并用Anchor-Free方法代替了Anchor Boxes方法[38],使得该模型拥有更快的推理速度、更高的特征视野与面向对象的检测准确率,成为同代的SOTA模型,同时本文在3.2节验证了YOLOv8领先的检测性能。
YOLOv8的总体架构包括主干网络(Backbone)、颈部网络(Neck)和检测头(Head) 3部分,根据模型的大小又分为YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x共5种模型[39]表1为5种基础模型在COCO数据集上检测的参数大小。
表1 不同YOLOv8模型参数大小对比

Tab. 1 Comparison of parameter sizes of different YOLOv8 models

YOLOv8n YOLOv8s YOLOv8m YOLOv8l YOLOv8x
参数/M 3.2 11.2 25.9 43.7 68.2

2.2 YOLOv8-FMSC-Spatial模型构建

本文以最优YOLOv8模型为基线模型,在模型中执行下游任务的Neck层引入多尺度特征提取模块C2f-FMSC代替原有的C2f模块,用多个不同尺度的卷积核代替原有的单一卷积核。引入C2f-FMSC模块使得YOLOv8模型拥有了提取不同尺度层次的特征能力,从而使模型能够学习到更多的知识,最终在地图要素学习与推理能力上得到提升。改进后的Yolov8l-FMSC部分网络结构如图1所示。
图1 YOLOv8改进模型基本网络

注:Backbone为主干网络;Neck为颈部网络;Head为头部网络;CBS为卷积-批归一化-激活模块;C2f为特征增强模块;C2f-FMSC为多尺度特征增强模块;Concat为拼接模块;SPPF为空间金字塔池化模块;Upsample为上采样模块;Bbox Loss为边界框损失;ClsLoss为分类损失。

Fig. 1 YOLOv8 improved model basic network

图1为YOLOv8改进模型的基本网络图,主要包括以下模块:图像预处理模块,对于训练集图像进行预处理,将图像分辨率置为640像素×640像素输入到Backbone中;提取特征的CBS模块,CBS模块包括了1层卷积,解决内部协变量偏移(Internal Covariate Shift)的批归一化层(BatchNorm2d)[40]及激活函数层SiLU[41](Sigmoid Linear Unit,SiLU),其中head部分调用2次CBS模块从而增加特征提取深度和训练稳定性;降低参数的同时增加特征提取能力的Bottleneck[40]模块;可实现多尺度特征提取的C2f-FMSC模块,该模块继承了前代的C3结构与ELAN结构,引入多尺度特征提取能力,使模型保持轻量化的同时,获得更高的精度;增加图像细节的上采样模块(Upsample);融合全局特征的空间金字塔池化(Spatial Pyramid Pooling - Fast,SPPF)模块。

2.2.1 C2f-FMSC模块

Gao等[42]介绍了多尺度卷积[43]的基础应用模型(Multi-Scale Convolution,MSC),通过不同核大小的卷积层提取不同尺度下的特征。C2f-FMSC(Convolution to Feature-Fewer Multi-Scale Convolution,C2f-FMSC)应用了该思想对Neck层中的多尺度特征进行提取,并应用1×1的卷积核对多尺度特征进行逐点卷积,实现通道特征的交换。图2为C2f-FMSC的总体架构,对于DConv部分,在从CBS模块继承到的通道信息,采用四分之一的通道应用3×3的卷积核提取特征,四分之一的通道应用5×5的卷积核提取特征,其余部分保留原有的特征信息不做任何处理。其思想是由华为提出的GhostNet模型[44],通过对冗余的特征图进行卷积变换生成更多的特征图,应用更少的卷积计算参数保持相似的识别性能,通过C2f-FMSC模块有效降低了计算参数,减少了过拟合的实现过程。
图2 C2f-FMSC基本架构

注:C2f-FMSC为多尺度特征增强模块;虚线内为各个模块内容,CBS为卷积-批归一化-激活模块;Split为分割模块;Bottleneck-FMSC为多尺度瓶颈模块;CBS-FMSC为多尺度卷积-批归一化-激活模块;BatchNorm2d为批归一化层;SiLU为激活函数层;Dconv为多尺度卷积模块,其中3个色块代表3种处理方法;Conv为卷积层。

Fig. 2 C2f-FMSC basic architecture

2.2.2 Spatial模块构建

在手绘地图地理要素检索的过程中,需考虑地理要素的位置信息,针对YOLOv8模型提取到的地理要素识别信息,从中获取地理要素的相对坐标,设计相似地理要素的检索计算方法。
图3为地图要素存储与检索的基础结构—Spatial模块,其中Box部分负责提取Head部分输出的检测框信息,即配准分类信息; Loc部分根据检测框信息计算地理信息要素的位置,即中心坐标;该部分计算内容包括初始标注的位置信息与推理的位置信息,从而实现推理位置与标识位置的格式一致性。式(1)为Loc模块的归一化计算公式。
x i = x m i n + ( x m a x - x m i n ) / 2 y i = y m i n + ( y m a x - y m i n ) / 2
式中:xiyi为地理要素在图中的中心点坐标; xmaxxminyminymax为Head部分提供的检测框位置信息。
图3 Spatial基本架构

注:Box为检测框信息;Loc为地理要素坐标信息;Cal为坐标信息计算模块;Save为保存模块;Retrieve为检索模块;Result为检索结果输出模块;Finish为终止模块。

Fig. 3 Spatial basic architecture

图3中Cal部分负责处理Loc部分提取到的地理要素空间位置信息,计算地理要素间的相对空间位置。Save部分负责地理要素信息在数据库中的存储;Retrieve部分负责处理地理要素的检索计算,包括检索信息的实时推理检索和数据库对比计算;Result部分负责Retrieve部分计算结果的返回及排序;Finish部分负责存储最后推理检索结果并结束检索任务。
θ i = a r c c o s B A · B C B A B C = a r c c o s ( x 1 - x 2 ) ( x 3 - x 2 ) + ( y 1 - y 2 ) ( y 3 - y 2 ) ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2 · ( x 3 - x 2 ) 2 + ( y 3 - y 2 ) 2
式中:ABC分别代表不同地理要素的中心坐标;θi是以标志地理要素B为中心的地理要素夹角,通过该角度一定程度上减少绘图者的手绘误差,捕捉地理要素间的空间关系。
η i = | φ 1 - φ 2 |
式中:ηi为2幅微地图设定地理要素约束下的空间差异,即不同手绘地图地理要素空间关系相似性的判断依据。最终通过Spatial模块对YOLOv8-FMSC识别的信息进行处理。

2.3 YOLOv8-FMSC-Spatial检索全流程

针对检索实现目标,实验设计如图4所示。第一步在收集的手绘地图数据集上对比YOLO历代模型的检测效果,包括具有代表性的YOLOv3、v5系列模型。第二步选择YOLO对比实验中的最优模型,作为后续改进的基础模型,从而保证模型在数据集上的适用性。第三步进行基于YOLOv8改进模型的手绘地图检索试验,在基线模型中引入C2f-FMSC模块,减少原有模型的参数量,并提高模型的特征识别能力与检测能力。为选取到应用于手绘地图检索的最优模型,在第三步对比各个改进模型相较于基线模型的识别性能,选取最优改进模型进行后续的检测任务。为测试此模型的可信度,分别设计模型检测热力分布与检测混淆矩阵对比,从而验证此模型是否正确关注检测目标。第四步为检索的重点任务,即检测信息的提取与应用,通过设计的Spatial模块提取检测模型的地理要素识别信息并对此信息进行处理。Spatial模块的任务设计如下:
图4 地图检索全流程

Fig. 4 The whole process of map retrieval

(1)提取检测模型输出的地理要素类型信息与检测框信息
根据类型信息筛选包含此类信息的手绘地图,根据检索框信息计算地理要素在图中的相对位置信息。根据识别用户信息选取包含关键地物的3个地理要素,构建以关键地物为核心的三角形,保存以关键地物为核心的夹角。
(2)筛选符合用户需要的手绘地图
在数据库已有手绘地图中筛选与用户识别信息一致的部分,即包含模型检测到的3类地理要素。继而构建与用户信息一致且以相同关键地物为核心的多地理要素夹角。计算数据库中包含相同内容的手绘地图与用户信息构建的地理要素夹角差异,根据差异程度进行排序,并返回与用户检索差异最小的手绘地图,进而实现顾及空间关系的手绘地图检索。

3 实验及结果分析

为了验证YOLOv8-FMSC-Spatial模型检索地理要素的有效性,本节首先对比YOLO系列模型的检测效果,选取最优模型作为后续的基线模型;继而在基线模型中引入C2f-FMSC模块用于改进模型,并在同一数据集上对比改进模型的检测效果;最后应用Spatial模块进行检索实证。针对以上内容,分别分析以“水体”“建筑”为中心的检索结果和实验中存在的问题。

3.1 实验数据及评估指标

实验数据为在校学生手绘及百度图库、公众号等互联网平台公开收集的288幅校园手绘地图,模型统计提取到标识水体152个、草地595个、操场404个。实验数据划分为训练集与验证集,划分比例为8:2,将校园场景中具有代表且易区分的水体、草地和操场作为标识物。模型的训练与验证基于深度学习Pytorch 2.0框架下,采用基于GPU加速训练,CUDA版本为11.7,操作系统为Ubuntu 20.04,处理器为NVIDIA A100(80GB RAM),上述环境通过Anaconda3集成。
由于本文为实现手绘地图地理要素检测,因此实验中以精确率(Precision)、召回率(Recall)、F1值和各类平均精度的均值mAP(mean Average Precision作为绝对评价指标,构建混淆矩阵,对比不同模型的检测性能,表2为相关检测评价指标。
表2 检测评价指标

Tab. 2 Detection and evaluation indicators

评估指标 定义 公式 取值范围 公式编号 变量参数含义
Precision 精确率 P r e c i s i o n = T P T P + F P 0~1 (4) TP为被分类至正类别的样本;FP为被分类至负类别的样本
Recall 召回率 R e c a l l = T P T P + F N 0~1 (5) FN为被错误分类至正类别的样本
F1 F1分数 F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l 0~1 (6) F1值是评估二分类模型的一个指标
AP 平均精确度 A P = 1 0 P r e c i s i o n ( r ) d r 0~1 (7) AP是用于计算单一类别的平均精确度
mAP 0.800 m A P = 1 n s = 1 s = n A P s 0~1 (8) n为设置类别的数量;APS为S类别的APmAP为衡量多类别地理要素检测下的的准确性
IoU 重叠度 I o U = A S B S A S B S 0~1 (9) AS为预测框所包含的面积;BS为真实框所包含的面积
Confidence 置信度 C o n f i d e n c e = P r ( C l a s s i ) · I O U 0~1 (10) Confidence[19]为每个类别的置信度;Pr(Classi)为某一类别下的条件概率

注:式(6)由于精确率与召回率指标计算存在矛盾,因此引入F1值用于综合衡量考虑精确率与召回率,即F1值较高时实验方法较为有效;式(7)张秀再等[29]通过构建P-R曲线,计算曲线下的面积,即AP;式(7)为计算单一类别AP的计算方法;式(8)为多类别AP的计算方法;式(9) IoU是表现检索模型的推理出的边界框准确性,通过设定IoU的阈值可控制检测结果的输出及正负类别的划分;式(10)通过置信度分数可分析该类别存在的可能性。

3.2 YOLO模型对比

由于YOLO系列模型继承改进较快,本实验针对具有代表性的YOLOv3-YOLOv8系列模型进行对比,实验数据集选用3.1节中的预处理数据。模型训练参数通过迁移模型引用源参数,由于数据集较小,训练周期(epoch)参数为400,图像分辨率(image size)参数为640像素×640像素,训练设备为GPU-CUDA。
表3为YOLO系列训练模型验证结果对比,结果依据式(4)—式(10)计算得出,范围在0~1之间。F1-Confidence代表最大F1值所在的置信度,mAP50表示在设置IoU阈值为0.5时计算得到的mAP值。表3中Scaled-YOLOv4为原作者发布的YOLOv4改进版,适应了更多的检测场景,是目前YOLOv4系列应用最广泛的模型之一。YOLOv3与Scaled-YOLOv4相较于其他模型有着较简单的网络结构和较少的层与参数,在小数据集的检测中有着较高的检测指标。在YOLOv8系列模型中,引入了更多的参数和更深、更宽的网络结构,从而提高了模型的性能与准确率。其中最大的YOLOv8x模型相较于YOLOv8l模型精度下降的主要原因是YOLOv8x模型的参数量过大,标注量不均衡导致模型存在过拟合现象,在测试集上表现不佳。而YOLOv8l在试验中表现出最佳检测效果,在较高的置信度条件下依然有最高的F1值和mAP,由此选取YOLOv8l模型作为基线模型,作为后续模型的对比。
表3 不同YOLO模型验证对比

Tab. 3 Verification comparison of different YOLO models

模型 Precision Recall F1-Confidence mAP50
YOLOv3 0.647 0.771 0.70-0.356 0.737
Scaled-YOLOv4 0.721 0.697 0.70-0.472 0.754
YOLOv5n 0.668 0.624 0.64-0.227 0.630
YOLOv5s 0726 0.619 0.67-0.231 0.689
YOLOv5m 0.669 0.614 0.64-0.191 0.668
YOLOv5l 0.836 0.568 0.66-0.322 0.699
YOLOv5x 0.563 0.667 0.61-0.201 0.653
YOLOv6n 0.636 0.498 0.55-0.243 0.530
YOLOv6s 0.764 0.491 0.59-0.215 0.622
YOLOv6m 0.755 0.636 0.68-0.249 0.700
YOLOv6l 0.733 0.620 0.65-0.202 0.694
YOLOv6x 0.651 0.664 0.66-0.193 0.666
YOLOv7 0.826 0.668 0.74-0.473 0.735
YOLOv7-w6 0.724 0.632 0.67-0.391 0.684
YOLOv7x 0.775 0.721 0.75-0.102 0.716
YOLOv7-d6 0.507 0.572 0.51-0.216 0.537
YOLOv7-e6 0.752 0.666 0.70-0.415 0.718
YOLOv7-e6e 0.677 0.789 0.72-0.266 0.764
YOLOv8n 0.576 0.660 0.60-0.166 0.626
YOLOv8s 0.796 0.566 0.66-0.266 0.721
YOLOv8m 0.677 0.661 0.69-0.301 0.704
YOLOv8l 0.750 0.727 0.76-0.330 0.794
YOLOv8x 0.694 0.704 0.72-0.242 0.769

注:加粗数值为同类数据最优部分及所属模型,上述值在0~1范围内。F1-Confidence代表最大F1值所在的置信度,例如0.76-0.330代表该模型在置信度为0.330时F1达到最大值0.76。

3.3 YOLOv8-FMSC模型对比

选择基线模型中的最优模型-YOLOv8l,测试引入C2f-FMSC模块的YOLOv8模型识别效果,迁移YOLOv8l的权重数据作为改进模型的初始权重,从而加快改进模型的收敛速度,模型参数保持不变,仅测试引入C2f-FMSC结构的改进模型性能。对比实验参数设置见表4。其中,Epoch为模型对整个训练数据集进行一次完整遍历的过程,可通过增加一定数量的Epoch提高模型特征提取能力; Batch为每个周期的中的图像数量; Patience为早停策略,即在30个周期内没有观察到模型性能的明显提升,停止模型训练,从而避免过拟合;AdamW[45]是传统Adam优化算法的改进型,引入权重衰减的概念,对比原型算法更加稳定,过拟合的风险更小,因此实验中选用AdamW作为优化(Optimizer);Dropout是一种在学习的过程中随机删除神经元的正则化方法,可在一定程度上抑制过拟合;Momentum是一种加速梯度下降的技术,考虑历史梯度方向,辅助参数向正确的方向更新; Lr0为初始学习率; Lrf为最终学习率; Mosaic为YOLOv4中提出的一种数据增强技术,将4张图片进行随机裁剪,拼接到一张图上作为训练数据,从而解决训练数据不足的问题。
表4 模型参数设置

Tab. 4 Comparison of parameter sizes of different YOLOv8 models

Epoch Batch Patience 图像大小 优化器
400 32 30 640像素×640像素 AdamW
Dropout Momentum Lr0 Lrf Mosaic
0.5 0.937 0.00 01 0.01 0.8
表5中引入C2f-FMSC结构的YOLOv8l模型,增加了mAP50-95指标。YOLOv8l-FMSC在表3中的各个指标均为最佳,在平衡召回率的同时,对地理要素的识别达到了最佳效果。
表5 不同YOLO模型对比

Tab. 5 Comparison of parameter sizes of different YOLOv8 models

Precision Recall F1-Confidence mAP50 mAP50-95
YOLOv8l 0.750 0.727 0.76-0.330 0.794 0.515
YOLOv8n-FMSC 0.720 0.588 0.65-0.270 0.629 0.312
YOLOv8s-FMSC 0.710 0.617 0.66-0.217 0.657 0.385
YOLOv8m-FMSC 0.670 0.677 0.67-0.223 0.691 0.377
YOLOv8l-FMSC 0.800 0.764 0.78-0.405 0.815 0.588
YOLOv8x-FMSC 0.654 0.691 0.67-0.223 0.718 0.466

注:加粗数值为同类数据中的最优值。F1-Confidence代表最大F1值所在的置信度,例如0.76-0.330代表该模型在置信度为0.330时F1达到最大值0.76。mAP50-95指标是用于表示IOU阈值从0.50到0.95变化的范围内,模型在验证集上的平均精度。

图5为YOLOv8系列改进模型与最优基线模 型-YOLOv8l的可信度对比,图5(a)F1值与置信度关系曲线,图5(b)为精确率与召回率关系曲线,根据式7可得到各模型的mAP值。上述PR曲线与F1-置信度曲线均为多类别检测计算得到的平均值,YOLOv8l-FMSC在不同置信度下均有较高的F1得分,该得分在图5(b)中有着明显的表现,相较于其他改进模型,YOLOv8l-FMSC有较高的精确率起点,随着召回率的增加,该模型仍可以实现较高的精确率,并且有着最高的mAP值。这表明YOLOv8l-FMSC为实验中的最优模型,拥有最优识别效果和应用价值,可快速应用于手绘地图的其他检测场景。
图5 模型可信度对比

Fig. 5 Model credibility comparison

在实际训练过程中,YOLOv8l-FMSC的损失(loss)曲线收敛值更低(图5(c)),mAP50(图5(d))与mAP50-95(图5(e))在每个epoch均为最高,同时验证了图5(a)图5(b)的分析结果。
Grad-CAM是Selvaraju等[46]为帮助理解模型在图像中的关注信息提出的一种图像分类可解释方法,通过输出不同层次的特征信息,进行辅助决策,其中红色区域为模型关注的重点区域。图6(a)为YOLOv8l-FMSC在多要素识别场景下的关注信息,该模型正确关注了水体、草地和操场信息,在草地识别中,该模型聚焦在草地聚集区域,对具有复杂特征的草地有着明显的兴趣表现;在操场识别中,该模型聚焦小操场的形状特征部分,为验证该模型对操场信息是否能正确捕捉,增加了在单要素识别场景下的关注实验(图6(b)),证明该模型可正确捕捉操场特征。
图6 YOLOv8l-FMSC模型检测热力图

Fig. 6 YOLOv8l-FMSC model detection heat map

图7表5中各个模型检测结果的归一化混淆矩阵,对角线元素为每个类别的分类准确率,非对角线元素表示错误分类,background为背景区域,即不包含任何目标的区域,式(11)为混淆矩阵归一化计算方法。
I = C i , j k = 1 N C i , j
式中:Ci,j为混淆矩阵中第ij列的元素类别, k = 1 N C i , j为该类别的总样本数量。
图7 归一化混淆矩阵对比

Fig. 7 Normalized confusion matrix comparison

图7中YOLOv8l与YOLOv8l-FMSC对设定的3个类别均有着较高的分类准确率,但是YOLOv8l-FMSC对比YOLOv8l在操场分类中的准确率下降0.01,在水体与草地的分类中均高出0.03。从总体上分析,模型对于草地的分类误差较大,在background误判的主体部分均为草地,主要原因是手绘草地形状多变,色彩简单,形状特征较少,例如图6(a)中关注具有明显特征的草地。然而草地与水体的分类误差均集中在background中,即未被判定为水体、操场与草地3种类别之一,该模型对设定的3个类别有着较强的区分能力。综上所述,实际检索中应以水体和操场作为检索条件,达到最佳的识别效果。

3.4 Spatial模块检索结果

通过设计的Spatial模块对YOLOv8l-FMSC提取到的地理要素信息进行处理,实现顾及空间关系的地理要素检索。在原有的空间信息匹配实现以图搜图的基础上,增加一个地理要素空间信息差值模块,记录地理要素之间的空间差异,通过该差异实现手绘校园地图场景下的地理要素检索。
对于检索而言,关键信息至关重要,而地图的关键地物天然符合此特点,本文选择了一类筛选要素“水体”,选择了2类辅助要素“操场”和“草地”,用于组建后续的检索示例。考虑到手绘要素地理信息不标准,相对位置偏差大,因此本文提出了Spatial模块解决此问题。通过建立多要素之间的角度关系,计算多要素间的角度差值,模拟正射地图几何结构上的空间关系,角度差值可在一定程度上减少检索误差,从而增加该方法的鲁棒性。
图8为Spatial模块检索输出结果,该模型用方位角关系代替常用方法—提取物体间的绝对位置衡量相似度,该方法考虑到手绘场景中绝对位置不准确的问题,一定程度上减少了地理要素在手绘场景下的位置误差。图8(a)为输入图像,图8(b)图8(c)图8(d)图8(e)为YOLOv8l-FMSC模型的检索结果,其中图8(c)图8(e)为历史标注数据。首先通过YOLOv8l-FMSC进行地理要素推理识别,提取到关键地理要素“水体”,辅助地理要素“操场”、“草地”,其次经过Spatial模块进行空间关系计算,最后通过空间相似度排名返回检索结果,该结果涵盖历史数据与推理数据。其中图8(b)证实应用YOLOv8-FMSC模型实现以图搜图的可能性,图8(c)图8(a)为输入信息,应用式(3)及Spatial模块实现水体与操场为约束条件的相似地理要素推理检索。
图8 Spatial模块检索结果

Fig. 8 Spatial model retrieval results

3.5 关键地物为中心的检索结果分析

上述内容主要介绍基于水体的检索方法,将水体作为检索条件,通过Spatial模块返回了部分相似手绘地图,而存量数据中并不全包含水体,因此需选取新的关键地物。在校园场景下,用户检索关键条件多为记忆深刻的特征地物,该部分建筑多为丁字楼、环形楼、工字楼等印象深刻的地理要素,选取该类要素替代水体要素,作为检索条件,补充水体要素缺失时的手绘要素检索。
针对特色建筑的识别,补充了205幅手绘地图,预处理后提供520个建筑信息进行训练识别,表6为YOLOv8系列模型验证结果,实验结果表明本文提出的YOLOv8l-FMSC模型表现最优,精确率与召回率均在0.5以上。
表6 不同YOLO模型针对特色建筑识别对比

Tab. 6 Comparison of different YOLO models for characteristic building recognition

模型 Precision Recall F1-Confidence mAP50 mAP50-95
YOLOv8l 0.493 0.433 0.49-0.206 0.441 0.233
YOLOv8n-FMSC 0.169 0.135 0.17-0.075 0.078 0.020
YOLOv8s-FMSC 0.221 0.212 0.23-0.122 0.151 0.054
YOLOv8m-FMSC 0.387 0.452 0.43-0.175 0.381 0.197
YOLOv8l-FMSC 0.530 0.519 0.54-0.189 0.477 0.262
YOLOv8x-FMSC 0.472 0.446 0.46-0.185 0.447 0.234

注:加粗数值为同类数据中的最优值。F1-Confidence代表最大F1值所在的置信度,例如0.54-0.189代表该模型在置信度为0.189时F1达到最大值0.54。

针对表6的检测效果进行分析,建立了图9所示的要素对比,由于手绘要素中存在大量混淆要素,该类别主要以线要素构成,不同类别出现重叠混淆,因此在模型训练过程中,隔离了此类相同要素,而在实际推理中仍识别此类要素,导致误判整体模型精度下降。
图9 识别要素与混淆要素对比

Fig. 9 Comparison of identifying factors and confusing factors

图10为用户可实现检索示意图。图11为用户检索的示例。其中图11(a)模型输入图像,图11(b)为模型要素识别结果,基于图11(b)可实现图10所示的检索意图。图11(c)为用户以特色建筑为中心,顾及空间关系的检索结果,图11(d)为用户以水体为核心,顾及空间关系的检索结果。
图10 用户可实现检索意图

Fig. 10 Users can realize search intent

图11 用户全流程检索示例

Fig. 11 User full process retrieval example

3.6 复杂手绘校园地图场景下的检测分析

图12为手绘校园地图在复杂场景下的地理要素检测,其中图12(a)正确识别了操场和草地信息,但未识别到左下方的水体信息;其原因是由于水体形状不规则,仅有颜色信息无法确定该地理要素的种类信息。其次训练过的模型可有效识别特色建筑,但对于图12(b)中仅由线条构成的地理要素,无法达到应用检索的要求,在检索过程中需排除该部分内容。综合分析图8图12可得出YOLOv8-FMSC-Spatial模型在检测过程中不局限于关注颜色特征,因此为达到更佳的识别效果需要对模型进行一定的改进,提供更大的数据样本进行学习。
图12 复杂手绘校园地图下的地理要素检测

注:图中黄色阴影部分为未正确检测到的内容。

Fig. 12 Geographic element detection on complex hand-drawn campus maps

4 结论与讨论

本文针对微地图在内容检索方面研究缺失的问题,在手绘校园地图场景下提出了一种应用YOLOv8l-FMSC-Spatial模型检索微地图地理要素的方法。通过收集的493幅手绘校园地图数据集进行了实验,得出结论如下:
(1)对比YOLO系列经典目标检测模型在手绘校园地图数据集上的检测效果。YOLOv8l模型相较于同代模型F1值最大提高0.16,相较于历代模型最大提高0.25,为最优模型。
(2)选择最优的YOLOv8l作为手绘地图地理要素识别的基线模型,通过引入C2f-FMSC模块,减少模型参数量,提高模型特征识别能力,建立最优的YOLOv8l-FMSC目标检测模型。YOLOv8l-FMSC相较于基线模型F1值提高0.02,置信度提高0.075,相较于同类改进模型F1值最大提高0.12,置信度最大提高0.188,为最优模型。
(3)以检索微地图地理要素为目标,建立顾及空间关系的Spatial模块,搭建YOLOv8l-FMSC-Spatial模型实现微地图地理要素的检索实例,实现了手绘校园地图场景下的地理要素检索,并为微地图检索提供解决示例。
本文应用目标检测技术对通过内容检索地图的方法进行了初步研究,由于建立手绘地图地理要素一一对应的关系有困难。因此本文以手绘校园地图为示例,建立了有限类别的对应关系,模拟了根据水体进行检索的情况,并通过环形建筑或工字楼等印象深刻的关键地物以弥补不存在水体的校园检索。由于数据集的约束与不规则性,检索的种类与精度受到了一定约束。针对数据集特征的不规则性,未来将开展结合语意特征的检索研究,同时改进模型,应用语义要素代替混淆地理要素,实现全要素的手绘地图识别,设计更加完善的空间检索模型,提高手绘地图地理要素检索的准确性。
此外,当前模型仅针对部分手绘地图检索的研究且未考虑计算性能的损失,且手绘地图相较于标准地图的绘制没有约束性,因此针对手绘地图没有建立系统的评价标准,也没有建立综合要素的识别对比,同时针对YOLOv8l-FMSC-Spatial模型的泛化研究,在未来的研究中还需进一步探索。
利益冲突: Conflicts of Interest
所有作者声明不存在利益冲突。
All authors disclose no relevant conflicts of interest.
作者贡献: Author Contributions
侯宇豪和杨维芳参与实验设计;侯宇豪、闫浩文、李精忠、朱昕宇完成实验操作;侯宇豪、闫香蓉、彭毅博参与论文的写作和修改。所有作者均阅读并同意最终稿件的提交。
The study was designed by HOU Yuhao and YANG Weifang. The experiment operation was completed by HOU Yuhao, YAN Haowen, LI Jingzhong and ZHU Xinyu. The manuscript was drafted and revised by HOU Yuhao, YAN Xiangrong, PENG Yibo. All the authors have read the last version of paper and consented for submission.
[1]
王家耀. 地图科学技术:由数字化到智能化[J]. 武汉大学学报(信息科学版), 2022, 47(12):1963-1977.

[ Wang J Y. Cartography: from digital to intelligent[J]. Geomatics and Information Science of Wuhan University, 2022, 47(12):1963-1977. ] DOI:10.13203/j.whugis20220780

[2]
陈述彭. 新型地图产品前瞻[J]. 地球信息科学, 2005, 7(2):8-10.

[ Chen S P. Prospects of new map products[J]. Journal of Geo-Information Science, 2005, 7(2):8-10.] DOI:10.3969/j.issn.1560-8999.2005.02.003

[3]
何宗宜, 宋鹰, 李连营. 地图学[M]. 武汉: 武汉大学出版社, 2016.

[ He Z Y, Song Y, Li L Y. Cartography[M]. Wuhan: Wuhan University Press, 2016. ]

[4]
王家耀. 关于信息时代地图学的再思考[J]. 测绘科学技术学报, 2013, 30(4):329-333.

[ Wang J Y. Rethinking about the information age cartography[J]. Journal of Geomatics Science and Technology, 2013, 30(4):329-333. ] DOI:10.3969/j.issn.1673-6338.2013.04.001

[5]
闫浩文, 张黎明, 杜萍, 等. 自媒体时代的地图:微地图[J]. 测绘科学技术学报, 2016, 33(5):520-523.

[ Yan H W, Zhang L M, Du P, et al. We-map: A new type of map in the era of we media[J]. Journal of Geomatics Science and Technology, 2016, 33(5):520-523. ] DOI:10.3969/j.issn.1673-6338.2016.05.015

[6]
侯宇豪, 杨维芳, 马文骏, 等. 一种利用VSM检索微地图的方法[J]. 测绘科学, 2023, 48(12):225-233.

[ Hou Y H, Yang W F, Ma W J, et al. A new method of retrieving We-maps by using VSM[J]. Science of Surveying and Mapping, 2023, 48(12):225-233. ] DOI:10.16251/j.cnk.i1009-2307.2023.12.022

[7]
Salton G. A theory of indexing[M]. SIAM, 1975. DOI:10.1126/science.151.3712.859-b

[8]
Kato T. Database architecture for content-based image retrieval[C]// Image Storage and Retrieval Systems. SPIE, 1992,1662:112-123. DOI:10.1117/12.58497

[9]
赵学敏, 田生湖, 张潇璐. 基于深度学习的以图搜图技术在照片档案管理中的应用研究[J]. 档案学研究, 2020(4):64-68.

[ Zhao X M, Tian S H, Zhang X L. Research on application of image search technology in photo archives management based on deep learning[J]. Archives Science Study, 2020(4):64-68. ] DOI:10.16065/j.cnki.issn1002-1620.2020.04.009.

[10]
顾昕, 张兴亮, 王超, 等. 基于文本和内容的图像检索算法[J]. 计算机应用, 2014, 34(S2):280-282,313.

[ Gu X, Zhang X L, Wang C, et al. Image retrieval algorithm based on text and content[J]. Journal of Computer Applications, 2014, 34(S2):280-282.] DOI:CNKI:SUN:JSJY.0.2014-S2-079

[11]
周熙然, 李德仁, 薛勇, 等. 地图图像智能识别与理解:特征、方法与展望[J]. 武汉大学学报(信息科学版), 2022, 47(5):641-650.

[ Zhou X R, Li D R, Xue Y, et al. Intelligent Map image recognition and understanding: Representative features, methodology and prospects[J]. Geomatics and Information Science of Wuhan University, 2022, 47(5):641-650. ] DOI:10.13203/j.whugis20210300.

[12]
Gui Z P, Liu X J, Zhao A Q, et al. Map retrieval intention recognition based on relevance feedback and geographic semantic guidance: For better understanding user retrieval demands[J]. Information Processing & Management, 2024, 61(4):103767. DOI:10.1016/j.ipm.2024.103767

[13]
丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1):1-10.

[ Ding S F, Qi B J, Tan H Y. An overview on theory and algorithm of support vector machines[J]. Journal of University of Electronic Science and Technology of China, 2011, 40(1):1-10.] DOI:10.3969/j.issn.1001-0548.2011.01.001

[14]
汪海燕, 黎建辉, 杨风雷. 支持向量机理论及算法研究综述[J]. 计算机应用研究, 2014, 31(5):1281-1286.

[ Wang H Y, Li J H, Yang F L. Overview of support vector machine analysis and algorithm[J]. Application Research of Computers, 2014, 31(5):1281-1286. ] DOI:10.3969/j.issn.1001-3695.2014.05.001

[15]
Abiodun O I, Jantan A, Omolara A E, et al. State-of-the-art in artificial neural network applications: A survey[J]. Heliyon, 2018, 4(11):e00938. DOI:10.1016/j.heliyon.2018.e00938

[16]
Wu Y C, Feng J W. Development and application of artificial neural network[J]. Wireless Personal Communications, 2018, 102(2):1645-1656. DOI:10.1007/s11277-017-5224-x

[17]
周晓彦, 王珂, 李凌燕. 基于深度学习的目标检测算法综述[J]. 电子测量技术, 2017, 40(11):89-93.

[ Zhou X Y, Wang K, Li L Y. Review of object detection based on deep learning[J]. Electronic Measurement Technology, 2017, 40(11):89-93. ]

[18]
Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL].(2018-04-08) [2022-10-04]. https://doi.org/10.48550/arXiv.1804.02767.

[19]
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004.10934, 2020. https://doi.org/10.48550/arXiv.2004.10934

[20]
Li C Y, Li L, Jiang H L, et al. YOLOv6: A single-stage object detection framework for industrial applications[J]. arXiv preprint arXiv:2209.02976, 2022. https://doi.org/10.48550/arXiv.2209.02976.

[21]
Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:779-788.

[22]
Redmon J, Farhadi A. YOLO9000:Better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6517-6525. DOI:10.1109/CVPR.2017.690

[23]
窦智, 高浩然, 刘国奇, 等. 轻量化YOLOv8的小样本钢板缺陷检测算法[J]. 计算机工程与应用, 2024, 60(9):90-100.

DOI

[ Dou Z, Gao H R, Liu G Q, et al. Small sample steel plate defect detection algorithm of lightweight YOLOv8[J]. Computer Engineering and Applications, 2024, 60(9):90-100. ]

DOI

[24]
卢子册, 刘小芳, 王德伟. 基于改进YOLOv8的PCB焊点语义分割方法[J]. 无线电工程, 2023(2023-10-31). https://kns.cnki.net/kcms/detail/13.1097.TN.20231031.1454.002.html

[ Lu Z C, Liu X F, Wang D W. PCB solder joint semantic seqmentation method b-ased on improved YOLOv8[J]. RADIO ENGINEERING, 2023(2023-10-31). https://kns.cnki.net/kcms/detail/13.1097.TN.20231031.1454.002.html

[25]
油亚鹏, 马波, 赵乐, 等. 基于CA-YOLOv8的输送带大块煤检测方法[J/OL]. 计算机辅助设计与图形学学报, 2024(2024-02-06). https://kns.cnki.net/kcms/detail/11.2925.TP.20240204.1655.057.html

[ You Y P, Ma B, Zhao L, et al. Detection Method of Large Coal Blocks on Conveyor Belt Based on CA-YOLOv8[J]. Journal of Computer-Aided Design and Computer Graphics, 2024(2024-02-06). https://kns.cnki.net/kcms/detail/11.2925.TP.20240204.1655.057.html

[26]
Ju R Y, Cai W M. Fracture detection in pediatric wrist trauma X-ray images using YOLOv8 algorithm[J]. Scientific Reports, 2023, 13(1):20077. DOI:10.1038/s41598-023-47460-7

[27]
袁红春, 陶磊. 基于改进的Yolov8商业渔船电子监控数据中鱼类的检测与识别[J]. 大连海洋大学学报, 2023, 38(3):533-542.

[ Yuan H C, Tao L. Detection and identification of fish in electronic monitoring data of commercial fishing vessels based on improved Yolov8[J]. Journal of Dalian Ocean University, 2023, 38(3):533-542. ] DOI:10.16535/j.cnki.dlhyxb.2022-354

[28]
李松, 史涛, 井方科. 改进YOLOv8的道路损伤检测算法[J]. 计算机工程与应用, 2023, 59(23):165-174.

DOI

[ Li S, Shi T, Jing F K. Improved Road Damage Detection Algorithm of YOLOv8[J]. Computer Engineering and Applications, 2023, 59(23):165-174. ] DOI:10.3778/j.issn.1002-8331.2306-0205

[29]
魏陈浩, 杨睿, 刘振丙, 等. 具有双层路由注意力的YOLOv8道路场景目标检测方法[J]. 图学学报, 2023, 44(6):1104-1111.

DOI

[ Wei C H, Yang R, Liu Z B, et al. YOLOv8 with bi-level routing attention for road scene object detection[J]. Journal of Graphics, 2023, 44(6):1104-1111. ] DOI:10.11996/JG.j.2095-302X.2023061104

[30]
程换新, 矫立浩, 骆晓玲, 等. 改进YOLOv8的遥感图像检测算法[J]. 无线电工程, 2024, 54(5):1155-1161.

[ Cheng H X, Jiao L H, Luo X L, et al. Improved YOLOv8 for Remote Sensing lmage Detection[J]. RADIO ENGINEERING, 2024, 54(5):1155-1161.] https://link.cnki.net/urlid/13.1097.TN.20240118.0934.002

[31]
张秀再, 沈涛, 许岱. 改进YOLOv8算法的遥感图像目标检测[J/OL]. 激光与光电子学进展, 2023(2023-11-10). https://kns.cnki.net/kcms/detail/31.1690.TN.20231108.1140.078.html

[ Zhang X Z, Shen T, X D. Improved YOLOv8 algorithm for remote sensing image target detection[J/OL]. Laser and Optoelectronics, 2023(2023-11-10).] https://kns.cnki.net/kcms/detail/31.1690.TN.20231108.1140.078.html

[32]
杨锦辉. 基于深度学习的目标检测方法轻量化研究[D]. 北京: 中国科学院大学, 2022.

[ Yang J H. Research on lightweight of target detection method based on deep learning[D]. Beijing: University of Chinese Academy of Sciences, 2022. ]

[33]
Girshick R. Fast R-CNNC[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2015:1440-1448.DOI:10.1109/ICCV.2015.169

[34]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.DOI:10.1109/TPAMI.2016.2577031

PMID

[35]
Jiao L C, Zhang F, Liu F, et al. A survey of deep learning-based object detection[J]. IEEE Access, 2019, 7:128837-128868. DOI:10.1109/ACCESS.2019.2939201.

[36]
Zaidi S S A, Ansari M S, Aslam A, et al. A survey of modern deep learning based object detection models[J]. Digital Signal Processing, 2022, 126:103514. DOI:10.1016/j.dsp.2022.103514

[37]
邓亚平, 李迎江. YOLO算法及其在自动驾驶场景中目标检测研究综述[J/OL]. 计算机应用, 2023(2023-09-05). https://kns.cnki.net/kcms/detail/51.1307.TP.20230904.1321.006.html

[ Deng Y P, L Y J. Review of YOLO algorithm and its application to object detection in auton-omous driving scenes[J/OL]. Journal of Computer Applications, 2023(2023-09-05)] https://kns.cnki.net/kcms/detail/51.1307.TP.20230904.1321.006.html

[38]
赵继达, 甄国涌, 储成群. 基于YOLOv8的无人机图像目标检测算法[J]. 计算机工程, 2024, 50(4):113-120.

DOI

[ Zhao J D, Zhen G Y, Chu C Q. Unmanned aerial vehicle image target detection algorithm based on YOLOv8[J]. Computer Engineering, 2024, 50(4):113-120.] DOI:10.19678/j.issn.1000-3428.0068268

[39]
G J. Ultralytics YOLOv8[EB/OL]. https://github.com/ultralytics/ultralytics

[40]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778. DOI:10.1109/CVPR.2016.90

[41]
Zheng Z H, Wang P, Liu W, et al. Distance-IoU loss: Faster and better learning for bounding box regression[J]. arXiv, 2019. DOI:10.1609/aaai.v34i07.6999

[42]
Gao S H, Cheng M M, Zhao K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE transactions on pattern analysis and machine intelligence, 2019, 43(2): 652-662. DOI:10.1109/TPAMI.2019.2938758

[43]
Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017. DOI:10.48550/arXiv.1704.04861

[44]
Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE, 2020:1577-1586. DOI:10.1109/CVPR42600.2020.00165

[45]
Loshchilov I, Hutter F. Decoupled weight decay regularization[J]. arXiv preprint arXiv:1711.05101, 2017. DOI:10.48550/arXiv.1711.05101

[46]
Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020, 128(2):336-359. DOI:10.1007/s11263-019-01228-7

文章导航

/