YOLO11-DAE：高分遥感图像露天煤矿复杂场景目标识别方法

刘英; 范雅慧; 岳辉

doi:10.12082/dqxxkx.2025.250213

地球信息科学学报 >

2025 , Vol. 27 >Issue 9: 2230 - 2249

DOI: https://doi.org/10.12082/dqxxkx.2025.250213

遥感科学与应用技术

YOLO11-DAE：高分遥感图像露天煤矿复杂场景目标识别方法

刘英 ^,^* ,
范雅慧 ,
岳辉

展开

西安科技大学测绘科学与技术学院，西安 710054

作者贡献：Author Contributions

刘英和范雅慧参与实验设计；刘英、范雅慧、岳辉参与论文的写作和修改。所有作者均阅读并同意最终稿件的提交。

The study was designed by LIU Ying and FAN Yahui. The manuscript was drafted and revised by LIU Ying, FAN Yahui and YUE Hui. All the authors have read the last version of the paper and consented for submission.

刘英（1982— ），女，山东滨州人，博士，副教授，主要从事环境遥感研究。E-mail: liuying712100@163.com

收稿日期: 2025-05-11

修回日期: 2025-07-11

网络出版日期: 2025-09-09

基金资助

陕西省自然科学基础研究计划项目(2023-JC-YB-266)

陕西省自然科学基础研究计划项目(2023-JC-YB-440)

收起

YOLO11-DAE: A Target Recognition Method for Complex Scenes in Open-Pit Coal Mines Using High-Resolution Remote Sensing Images

LIU Ying ^,^* ,
FAN Yahui ,
YUE Hui

Expand

College of Geomatics, Xi’an University of Science and Technology, Xi'an 710054, China

*LIU Ying, E-mail: liuying712100@163.com

Received date: 2025-05-11

Revised date: 2025-07-11

Online published: 2025-09-09

Supported by

Natural Science Basic Research Program of Shaanxi(2023-JC-YB-266)

Natural Science Basic Research Program of Shaanxi(2023-JC-YB-440)

Fold

摘要

【目的】矿产资源是人类生存和经济发展的重要物质基础，开展矿山监测、建立矿山监测模型对矿产资源的高效开发和矿区环境保护具有重要意义。针对露天矿区背景复杂、目标尺度多样且小目标聚集的特点，本研究旨在构建兼顾监测精度与效率的轻量化模型，以提升矿区目标地物监测的准确性和效率。【方法】现有遥感数据集存在的样本单一、地域局限等问题，因此本文基于0.9 m天地图与1.8 m谷歌影像构建了不同气候背景、大范围和多种地物的六大露天煤矿基地OMTSFD（Open-pit Mine Typical Surface Features Dataset）数据集，提出改进的YOLO11-DAE算法进行模型训练与验证。首先，在骨干网络和特征金字塔中引入C3K2-DBB模块以增强多尺度特征捕获能力；其次，采用ADown模块替换网络下采样卷积，增强了模块对不同特征的表征能力，减少了低对比度场景的细节丢失；最后，采用E_Detect高效检测头降低模型复杂度和参数量，实现模型轻量化。【结果】实验表明，YOLO11-DAE的每秒帧数（Frames Per Second， FPS）为528.100，模型推理速度较快，精确率（Precision，P）、召回率（Recall，R）、综合评价指标（F1-Score， F1）、平均精度均值（Mean Average Precision， mAP）分别达到0.932、0.894、0.913和0.950，显著优于YOLOv5n、YOLOv8n和YOLOv10n算法，相较于YOLOv11n各项指标分别提高7.600%、10.000%、8.800%、8.000%。【结论】YOLO11-DAE算法能够满足矿区实时监测，并适用于多尺度、多背景等复杂场景的目标识别，实现了高精度、低漏检率的监测目标，达到了模型可应用性与实时性的平衡。

关键词： 矿山监测; 目标识别; 多尺度特征; 矿山地物数据集; YOLO11-DAE; 轻量化模型; 深度学习

本文引用格式

刘英 , 范雅慧 , 岳辉 . YOLO11-DAE：高分遥感图像露天煤矿复杂场景目标识别方法[J]. 地球信息科学学报, 2025 , 27(9) : 2230 -2249 . DOI: 10.12082/dqxxkx.2025.250213

Abstract

[Objectives] Mineral resources are a vital material foundation for human survival and economic development. Conducting mine monitoring and establishing monitoring models are essential for the efficient utilization of mineral resources and environmental protection in mining areas. Given the complex backgrounds, diverse target scales, and dense distribution of small targets in open-pit mining areas, this study aims to develop a lightweight model that balances monitoring accuracy and efficiency, thereby improving the recognition of target objects in such environments. [Methods] Existing remote sensing datasets often suffer from limitations such as low sample diversity and regional constraints. To address this, we construct the OMTSFD (Open-pit Mine Typical Surface Features Dataset) based on 0.9 m TianDiTu and 1.8 m Google imagery. The dataset covers various climate backgrounds, large areas, and a wide range of surface features. For model training and validation, we propose an improved YOLO11-DAE algorithm. First, the C3K2-DBB module is integrated into both the backbone and feature pyramid networks to enhance multi-scale feature extraction. Second, the ADown module replaces traditional downsampling convolution layers, improving the representation of diverse features and reducing detail loss in low-contrast scenes. Finally, the E_Detect efficient detection head is introduced to reduce model complexity and the number of parameters, contributing to overall model lightweighting. [Results] Experimental results show that YOLO11-DAE achieves an FPS of 528.100, indicating high inference speed. The model achieves a precision (P) of 0.932, recall (R) of 0.894, F1-score of 0.913, and mean average precision (mAP) of 0.950, significantly outperforming YOLOv5n, YOLOv8n, and YOLOv10n algorithms. Compared to YOLOv11n, the proposed method improves performance by 7.600%, 10.000%, 8.800%, and 8.000% in the respective metrics. [Conclusions] The YOLO11-DAE algorithm meets real-time monitoring requirements in mining areas and is well-suited for complex scenarios involving multi-scale and multi-background targets. It achieves high-precision detection with a low miss rate and strikes an effective balance between model applicability and real-time performance.

Key words： mine monitoring; object detection; multi-scale features; mine feature dataset; YOLO11-DAE; lightweight model; deep learning

1 引言

随着采矿活动的持续进行所引起的一系列环境问题变得愈发严峻，如地表景观和土地资源的破坏、水土流失、植被退化等^[1-2]，因此，如何实现矿产资源开采与环境保护相协调的可持续发展已成为生态文明建设的重要议题。2021年国务院印发《2030年前碳达峰行动方案》^[3]，提出加强大宗固废综合利用，在2030年前“碳达峰”，2060年前“碳中和”目标背景下，提高矿产资源综合开发利用水平和综合利用率的发展目标被提出，而露天矿作为主要矿产资源开发场所，对其进行及时、全面的摸底排查，依法开展矿山综合整治，加强矿山生态修复对实现矿产资源可持续开发具有重要意义。

传统矿山监测方法主要通过人为实测调查与统计相结合的方式进行信息汇总^[4]，虽具有极高准确性但耗费大量人力、物力和财力^[5]，并具有一定的滞后性。20世纪初，随着数字矿山相关技术的不断完善，生态环境的监测手段也日益丰富，遥感矿山监测因其直观、快速、高效且准确等优点，成为矿山监测的重要技术手段^[6]，但从大量遥感影像中进行人工目视解译获取信息仍耗时耗力，无法满足快速获取大量矿山信息的需求。另外，矿区环境的动态性和复杂性对监测技术提出了更高的时效性要求，如露天矿区安全监测、生态修复与污染防控的及时性需求，以及矿产资源的规模化开发要求对矿区地物状态进行动态评估，从而优化开采效率和资源利用率等。近年来，无人机遥感技术凭借其机动灵活、高分辨率成像及快速响应能力，成为实现矿山区域实时监测的重要手段^[7]。然而，无人机平台的高频次、大范围数据采集对后端处理系统的实时性提出了更高要求，传统人工解译或离线分析方法难以满足其高效处理需求。因此，如何实现高精度与实时性协同的智能监测技术，成为推动矿区可持续发展的重要挑战。

矿区地表信息的快速获取经历了基于像元、面向对象和面向场景等不同空间单元的发展阶段^[8]。其中，基于像元的传统矿山地物分类主要依赖遥感影像的光谱特征差异进行分类，主要方法有决策树^[9]、支持向量机^[10]及人工神经网络^[11]等；面向对象的方法则补充了基于像元方法难以充分利用影像纹理和特征空间的不足^[12]，通过尺度分割参数、空间统计等工具将影像同质斑块进行分类，最后采用随机森林、支持向量机等方法将影像典型特征进行分类；而面向场景的方法从整体出发，提取场景的全局特征进行分类和解译，能更好地理解遥感图像，并解决了面向对象分类中特征难以确定的问题^[13]。随着计算机技术蓬勃发展，深度学习作为场景分类的重要研究方向^[14]，因具有多尺度和多层次特征提取优势^[15-17]而受到越来越多的学者关注，其包含的卷积神经网络因擅长提取图像中的局部特征被广泛应用于各种计算机视觉任务中去。因此，将遥感图像与深度学习相结合，通过对输入数据逐级提取特征，能够有效检测复杂的露天矿区地物覆盖特征，如Chen等^[18]利用无人机图像创建了矿区地裂缝分割数据集，并提出了GFSegNet地裂缝分割网络，在矿区地裂缝检测任务中取得了较好效果，Lyu等^[19]通过优化YOLO网络架构，在提取尾矿库任务上获得99.6%的高检测精度。然而，当前基于深度学习的图像分类任务主要依赖于监督学习方法，但在矿山地物识别领域，由于不同地物之间色调和形状差异较大^[16]，且数据标注成本高、地物多样性复杂，导致监督学习所需的大样本量数据难以得到满足。因此，基于矿山检测的深度学习分类任务仍然面临巨大的挑战。

选择合适的遥感影像数据源是矿山环境监测的基础，目前公开遥感影像数据集多以生活场景要素为主^[20]，而针对露天矿区典型目标地物分类较为稀缺，且已有矿山地物分类数据集往往局限于某一特定地物或区域^[21]，如矿区地裂缝、尾矿库数据集等，样本和背景气候条件单一，训练出的模型对露天矿区典型地物识别类型并不全面，且难以适应大范围下不同气候和背景条件需求，缺乏普适性，难以广泛应用，因此，构建一个全国范围、多分类、高质量标注的矿山地物数据集，是构建高效、高精度、高普适性的统一矿山地物识别模型的重要前提。

目前，针对深度学习的图像算法主要包括分类、定位、分割及目标检测4类任务，其中目标检测因可同时实现物体分类和定位，被认为是分类和回归问题的叠加^[22]。目标检测算法分为单阶段和双阶段^[23]，其中，单阶段目标算法从原始图像提取特征信息然后进行目标类别及锚框的预测，而双阶段则需先生成一系列目标潜在区域，然后再进行预测。单阶段目标算法因其较快的处理速度和更低的资源需求而更适用于实时响应的应用场景。具有代表性的单阶段目标算法有：SSD^[24]（Single Shot MultiBox Detector）、YOLO^[25-27]（You Only Look Once）等系列算法^[28-30]。其中，YOLO算法为目标检测算法的发展奠定了新的基础。然而，由于YOLO检测器的非极大值抑制（Non-Maximum Suppression，NMS）处理难以优化且不够鲁棒等问题，目标检测精度较低。DETR^[31]（Detection Transformer）作为第一个基于transformer的端到端算法，成功解决了NMS处理困难并提高了目标识别能力。优化的RT-DETR^[32]（Real Time-Detection Transformer）虽然相较于DETR算法收敛及推理速度已经大大提升，但仍旧无法满足实时要求。Ultralytics推出的YOLO11在精度和速度方面都有着非常优越的表现，对图像中复杂细节的捕捉更准确，且支持目标检测、实例分割、定向目标检测等多种任务^[33]。

已有研究采用Sentinel-2、GF-6、GF-2及谷歌影像与深度学习算法相结合，建立了露天煤矿场地识别模型，并获得了较好的精度^[34]，虽然解决了大多数研究所选取矿山样本分布范围较小问题^[35,36]，但仍聚焦于宏观角度的矿山边界及场景识别，忽略了矿区内部特征地物的精细识别。因此，建立大区域露天矿内部特征地物识别模型面临着巨大挑战。综上所述，本文以六大露天采矿基地为样本选择区，建立露天矿数据集，以YOLO11为基线模型，通过优化使其更加适合于尺度多样、背景复杂的矿区数据集，最终以所建数据集及优化模型构建露天矿目标地物检测模型，实现对露天矿地物识别的自动化、智能化和规模化。

2 研究方法

2.1 技术路线

本文针对露天矿区典型地物目标的自动识别需求，提出了一种改进YOLO11-DAE算法的新型检测方法。在算法改进方面，主要进行了3个关键性优化： ① 通过引入C3K2-DBB模块重构骨干网络和特征金字塔结构，显著提升了模型对不同尺度特征的提取能力； ② 采用ADown模块替代网络下采样卷积，有效增强了特征表达能力，特别是在低对比度环境下能够更好地保留细节信息； ③ 设计了E_Detect高效检测头结构，在保证检测精度的同时大幅降低了模型复杂度和参数规模，实现了检测模型的轻量化设计。本研究以构建的OMTSFD数据集（包含0.9 m分辨率天地图与1.8 m分辨率谷歌影像数据）为基础进行模型训练与验证，包含采区、排土场、建筑物、水体及道路五类典型地物目标，为验证模型性能，选取不同矿区场景的遥感影像作为验证集，并与当前主流目标检测模型进行对比分析。最终，将优化后的算法应用于典型露天矿区的多目标识别任务中，以评估改进算法的实际应用效果。本研究的技术路线如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 技术路线

Fig. 1 Technical workflow diagram

2.2 数据集选择与构建

近年来，公开遥感影像数据集逐渐丰富，但多数仍以生活场景为主。2009年Kaggle发布的ImageNet数据集^[37]作为计算机视觉领域的里程碑，基于WordNet层次结构构建，包含1 400万张人工标注图像，是评估图像分类算法性能的基准； 2017年西北工业大学推出的遥感图像场景分类数据集NWPU-RESISC45^[38]覆盖45类典型地物场景（每类700张），包含3.15万张图像，分辨率为0.2~30 m，该数据集在空间分辨率、平移、物体姿态、光照、背景和遮挡方面做出很多改变，实现了较高的类间相似性和类内多样性； 2019年发布了全球最大的目标检测数据集Objects365^[39]，其包含365个类别、 638万张图像、1.01亿个标注框，具有规模化和高质量标注等特点。2021年发布了高分辨率遥感图像细粒度目标识别数据集FAIR1M^[40]，该数据集包括15 000余幅空间分辨率优于1 m的图像（像素范围1 000× 1 000~10 000×10 000），具有100多万多角度分布、精细化标注的目标，覆盖全球典型的城市、乡镇、港口和机场等地物场景（表1）。针对矿山数据集，样本和背景气候条件单一，大多学者选择进行自建数据集以满足需求。黄登冕^[20]构建祁连山典型矿山地物数据集进行模型训练和验证；张成业等^[21]建立神东露天矿区土地利用样本库，利用深度学习DeepLabv3+模型实现露天煤矿区土地利用识别。

表1 公开遥感数据集

Tab. 1 Publicly available remote sensing datasets

数据集名称	类别	存储格式	图像大小/像素×像素	图像数/万	标注框数/万
ImageNet	200	.xml	256×256	1400	534
NWPU-RESISC45	45	.xml	256×256	3.15	3.15
Objects365	365	.xml	512×683	638	10 101
FAIR1M	37	.xml	1 000×1 000~10 000×10 000	164	2 000

本研究需要一个大范围下不同气候和背景条件的矿山地物数据集，但公开的生活场景遥感影像数据集和某一矿区数据集难以满足这一需求。因此本研究自建数据集，选取了全国范围内的不同煤矿基地，位置遍布全国，气候多样，基地内包含建筑物、采场、排土场、道路、水体等多种地物类型。采用不同尺度的0.9 m天地图影像以及1.8 m谷歌影像构建数据集，参考近70年我国六大露天煤矿基地（神东基地、新疆基地、蒙东基地、晋北基地、陕北基地和云贵基地）进行选取。六大基地横跨我国东北、华北、西北及西南四大地理分区；所处区域含3种不同场景，神东基地、蒙东基地、晋北基地、陕北基地为干旱、半干旱气候区背景复杂样本，新疆基地为干旱、半干旱气候区背景单一样本，云贵基地为湿润半湿润气候区背景单一样本， 3种气候区占比分别为6.550%、22.740%和70.710%，具有显著的地理代表性和气候多样性。所选29个露天煤矿包含我国亿吨级露天矿，能够全面反映不同地质条件（如草原生态脆弱区、干旱深凹开采区、喀斯特地貌区）下的开采特征。通过这种科学的空间分布和气候场景配比，选取的样本具有代表性和普适性，显著提升了模型的泛化性能。

其中，神东基地位于陕西省和内蒙古接壤地带，包含黑岱沟、武家塔、马家塔、哈尔乌素4个露天煤矿，新疆基地位于新疆东北方向，包含哈密三道岭、天池能源南、红沙泉、将军戈壁、准东、五彩湾一号、黑山7个露天煤矿；蒙东基地位于内蒙古北方向和辽宁省中部地区，包括平庄、阜新海州、抚顺西、抚顺东、伊敏、宝日希勒、霍林河、元宝山、扎哈卓尔、白音华、胜利、宝清朝阳12个露天煤矿；晋北基地位于山西省北方向，包括安太堡、安家岭、平朔 3个露天矿；陕北基地位于陕西北方向，包括西湾露天煤矿；云贵基地位于云南东南方向，包括小龙潭和布沼坝露煤天矿。

标注过程基于SAM（Segment Anything Model）模型进行半自动化辅助标注。首先，采用SAM半自动标注软件制作OMTSFD数据集，包含采区、排土场、建筑物、水体及道路5类目标。在标注过程中生成的JSON文件，既包含目标检测所需的目标类别标签和边界框信息（用于生成txt标签），又包含语义分割所需的像素级分类信息（用于生成png标签），采用所生成的yolo格式txt标签进行数据增强构建露天矿目标监测数据集，另外，生成的png标签可为后续矿山场景的动态监测研究提供数据支撑。

由于计算机和图形处理器（GPU）的内存限制，需要对原始训练样本进行裁剪，选择固定的窗口大小，并使用滑动窗口方法从左上到右下以10%重叠切割原始图像以获得初始数据集。为了扩展可用的训练数据，提高网络的泛化能力，有必要对数据集进行增强，在输入模型训练前，通过将图像进行旋转90°、180°、镜像以及调整明暗度的方法对数据集进行扩充，得到最终OMTSFD数据集，样本分类为尺度差距较大的5种地物类型：采区、排土场、矿山建筑、道路及水体，共含7 598张图像，整体数据集按7：2：1比例进行随机划分，其中训练集含5 318张，测试集1 520张以及验证集760张图像。

2.3 YOLO11-DAE模型构建

YOLO11是由开发团队Ultralytics于2024年 9月30日提出的高效目标检测算法，其结构主要包括骨干网络（Backbone）、颈部网络（Neck）以及头部网络（Head）3个部分，相较于YOLOv8模型，其引入了C3k2和C2PSA模块，并延续了YOLOv10无NMS的训练策略，实现了端到端的目标检测能力，提高了其性能及灵活性。Backbone通过Conv、C3K2、SPPF和C2PSA模块提取特征； neck层包括C3K2模块、upsample上采样模块、 concat张量拼接模块及Conv模块，起到将主干网络的特征进行多尺度融合再将这些特征传递给检测头； Head采用双分支设计：one-to-many提供多标签监督， one-to-one实现精准预测。 YOLO11-DAE模型以YOLO11为基线模型，结合DBB、ADown和E_Detect 3个模块构建而成。

2.3.1 改进后的YOLO11模型整体架构

本文提出的改进网络模型架构如图2所示，采用多分支卷积模块^[41]（Diverse Branch Block， DBB）去替换基线模型中C3K2残差块中的Conv结构，解决原结构单一卷积路径难以捕捉矿区地物的多尺度特征以及对不规则几何形态物体敏感性弱等问题，实现在保证模型大小的同时提高其准确率，满足矿区无人机监测资源受限场景，再根据YOLOv9^[42]中的下采样结构将Conv下采样替换成ADown，解决原模型传统下采样卷积结构因采用固定降维模式所导致的小目标特征丢失与边缘信息模糊化问题，提高了模型在针对矿区影像不同尺度来源及不同地物尺度差距大等问题时对多尺度特征的表达能力，及降低其特征丢失率，以减少模型对于小目标物体的漏检现象，最后将原有的Detect检测头替换为E_Detect结构，避免了原模型中由深度可分离卷积（DWConv）的堆叠带来的计算冗余以及特征耦合干扰问题，有助于减少网络的复杂性和处理步骤，从而实现轻量化处理。另外，所改进模型所用损失函数分别为完全交并比损失函数CIOU、分布聚焦损失函数DFL和平衡二元交叉熵BCE，三者权重分配比例为7.5∶1.5∶0.5， CIOU通过几何多因素约束提升定位精度再结合DFL增强泛化性， BCE则通过权重参数对样本进行加权处理，解决样本不平衡问题，三者协同平衡模型的精度与速度，实现YOLO11-DAE模型在检测任务中的高效性。

显示原图|下载原图ZIP|生成PPT

图2 改进型模型结构

Fig. 2 Improved model structure

2.3.2 多分支卷积模块（DBB）

基线模型的卷积网络由单个分支组成，很难同时兼顾轻量化和高准确性，而DBB（图3）的核心思想是结构重参数化，能将模型训练时和测试时的卷积神经网络结构解耦以达到不增加推理时间的前提下提升模型的性能，因此本文通过将C3k2模块中的残差块与DBB模块结合来增强原始主干，利用其多分支协同学习特性，自适应融合不同感受野的特征，提高网络对采场、排土场和小型建筑物间尺度差异的捕获能力，降低由目标尺度跨度大导致的漏检与误检问题。

显示原图|下载原图ZIP|生成PPT

图3 DBB结构示意图

Fig. 3 DBB structure diagram

DBB模块利用了卷积的2个重要特性——同质性和可加性，以实现轻量化和高准确性的平衡，在训练阶段通过使用不同的组合1×1、1×1-K×K和1×1-AVG来增强原始的k×k卷积，然后通过结构重参数化，将训练阶段的多分支通过如图4的6种变换形式，即首先利用BN融合消除所有批归一化层，进而通过卷积串联将1×1-K×K分支合并为K×K卷积核，再联立平均池化操作以及卷积串联将1×1-AVG分支转为K×K卷积核然后通过多尺度卷积转换将1×1卷积分支扩展为K×K卷积核，最终依据卷积可加性将所有分支的卷积核与偏置相加，形成了等效的单一卷积核进行计算。其中，同质性是对一个缩放值的核进行卷积，相当于对原始核进行卷积，然后对得到的特征映射进行缩放，而可加性是两个卷积的和等价于将输入与它们各自的核的和进行卷积，具体公式^[41]如下：

（1）

I ⊗ (p F) = p (I ⊗ F), ∀ p ∈ R I ⊗ F 1 + I ⊗ F 2 = I ⊗ (F 1 + F 2)

显示原图|下载原图ZIP|生成PPT

图4 6种卷积变换形式

Fig. 4 Six forms of convolution transformation

式中： I为卷积的输入特征图； 􀱋表示卷积算子； F为一个K×K的卷积核； p为运算参数F⁽¹⁾和F⁽²⁾分别为2个不同的卷积核。

2.3.3 ADown模块

ADown模块结构如图5所示，首先，将输入通道数为C的特征图先通过一个二维平均池化层进行初步下采样，再将池化后的特征图采用通道切片操作，将特征图沿通道维度均匀分割成2个通道数为C/2的特征图，以达到模型对不同特征的感知能力，然后将其中一个特征图通过一个二维最大池化层，并将其输出通道数约束为C/2，再将2个特征图分别经过一个Conv模块，最后进行拼接输出一个与原通道数相同的特征图，平均池化和最大池化层的结合，有助于模型实现降低环境干扰和噪声的同时，保留采场、排土场等大尺度目标的连续性纹理特征以及通过局部显著性增强，突出矿区道路边缘、建筑物轮廓及水体边界等关键几何结构特征，避免低对比度场景下的细节丢失问题。另外，不同特征的拼接也增强了模块对不同特征的表征能力，有助于提高模型在不同场景下的表现能力。

显示原图|下载原图ZIP|生成PPT

图5 ADown模块结构

Fig. 5 Structure of the ADown module

2.3.4 E_Detect

E_Detect通过简化和优化卷积操作来减少计算复杂度和参数量以实现模型轻量化的目的，其结构包含2层3×3的分组卷积^[43]（GConv）和一层1×1的二维卷积（Conv2d），用于提取特征并生成边界框和分类输出。其中，分组卷积将输入通道分成多个组，并为每个组分配一个独立的卷积核集合，每个组都有自己的卷积操作，通过并行计算提高了计算效率，操作过程如图6所示，分组卷积将输入的特征图的C（通道数）、H（高）和W（宽）在通道维度上划分成为m组，表示为X∈[X₀, X₁, …, X_m_-1] X_i∈R⁽^C^/^m^)×^H^×^W，然后在每一个X_i进行独立的卷积操作。

显示原图|下载原图ZIP|生成PPT

图6 分成3组的分组卷积操作

Fig. 6 GConv operation divided into 3 groups

3 实验设计及结果分析

3.1 实验设计

实验在操作系统为windows10，处理器为Intel(R) Core(TM) i7-8700 CPU @3.20GHz 3.19 GHz，内存大小为32 GB的计算机上运行，开发工具为Pychram，开发语言为Python3.8.18，深度学习框架为PyTorch2.0.1，GPU加速库采用CUDA11.8，所建模型经多次实验，选定训练次数epoch为300（mAP已收敛），训练参数详见表2。

表2 训练参数

Tab. 2 Training parameter

参数	参数值
学习率	0.01
优化器	SGD
批量大小	16
图像大小/（像素×像素）	512×512
动量	0.937
工作进程数	4

评价指标选择精确率（Precision， P）、召回率（Recall，R）、综合评价指标（F1-Score， F1）、平均精度均值（Mean Average Precision， mAP）以及每秒帧数（Frames Per Second， FPS）作为评估指标，计算公式如下：

（2）

P = T P T P + F P

（3）

R = T P T P + F N

（4）

A P = ∫ 01 P (R) d R

（5）

m A P = ∑ i = 1 N A P (i) N

（6）

F P S = 1000 P r e + I n f e r + P o s t

（7）

F 1 = 2 × P × R P + R

式中： TP、 FP、 FN分别为预测为正样本的正样本数量、预测为正样本的负样本数量、预测为负样本的正样本数量； AP为平均精度，对所有类别的平均精度求平均值即为mAP， mAP@0.5是指IoU（Intersection over Union）阈值为0.5时的mAP， N为类别总数； FPS为算法1 s能够检测的图像帧数（包括前处理时间Pre、推理时间Infer、后处理时间Post）。

3.2 结果分析

3.2.1 对比实验

为了验证本文改进算法的优越性和有效性，在所作数据集上将改进后的YOLO11-DAE网络模型与其它YOLO系列主流算法进行比较（表3）。由表3可知，改进后的YOLO11-DAE算法在各个评估指标上都有一定的提升。相较于YOLOv5n、YOLOv8n、YOLOv10n和YOLOv11n 4种算法，YOLO11-DAE的精确率P分别提高了0.106、0.060、0.095、0.066；召回率R分别提升了0.150、0.084、0.108、0.081；模型的综合评价指标F1与平均精确度mAP均达到0.900以上，较次高模型提升约0.070； FPS为528.100，相较于基线模型YOLOv11n有所下降，但与4种算法相比，仍旧保持较好水平，满足实时检测要求。综上所述，改进后的YOLO11-DAE模型推理速度相对较快，检验精度高，且漏检率下降，相较其余4种算法存在明显优势。

表3 不同检测算法比较

Tab. 3 Comparison of different detection algorithms

分类类型	P	R	F1	mAP@0.5	FPS
YOLOv5n	0.826	0.744	0.783	0.832	540.800
YOLOv8n	0.872	0.810	0.840	0.886	519.900
YOLOv10n	0.837	0.786	0.811	0.874	417.000
YOLOv11n	0.866	0.813	0.839	0.880	544.500
YOLO11-DAE	0.932	0.894	0.913	0.950	528.100

3.2.2 可视化分析

为了更加直观地展示改进效果，分别在六大露天煤矿基地测试集随机抽取一张影像输入5种模型进行测试，结果如图7所示。由图7可知， 5种模型中YOLOV5n效果最差，漏检现象较多，对一个目标总是出现重复预测，浪费计算资源，且锚框与目标地物匹配程度较差，表明该模型在目标和背景的区分上存在一定模糊性； YOLOV8n与YOLOv11n表现较为接近，整体效果优于YOLOV5n，但低于YOLOV10n模型；改进后的YOLO11-DAE模型表现效果最佳，对目标地物的判断置信度显著高于其他4种模型，在新疆、神东、晋北及陕北四大露天煤矿基地的地物预测中置信度更高，锚框与目标地物更加贴合且无冗余现象，此外， YOLO11-DAE还检测出蒙东和云贵基地中其余4种算法漏检的建筑物及道路，进一步验证了其优越性。

显示原图|下载原图ZIP|生成PPT

图7 部分可视化结果展示

Fig. 7 Part of the visual results are displayed

由表4可知，YOLO11-DAE模型在不同试验区的监测精度总体表现良好，但存在区域性差异。神东基地综合性能最优（mAP@0.5达0.990），而晋北基地表现相对较弱（mAP@0.5为0.936），主要受目标特征和环境因素影响。各基地的精确率P、综合评价指标F1普遍较高，但召回率R有一定波动，反映出模型在不同场景下的漏检情况差异比较明显。这些精度差异主要源于数据分布不均、环境条件变化以及目标特征多样性等因素。

表4 YOLO11-DAE监测精度差异分析

Tab. 4 Precision difference analysis of YOLO11-DAE monitoring

不同试验区	P	R	F1	mAP@0.5	精度差异分析
神东基地	0.929	0.976	0.952	0.990	综合检测性能最优，与该区域的数据质量高和目标特征明显相关
新疆基地	0.943	0.905	0.924	0.959	该区域模型精确率较高(误检少)，但召回率略低(存在漏检)，可能是由于目标分布稀疏或背景复杂导致部分目标未被检出
蒙东基地	0.938	0.885	0.911	0.949	召回率相对较低，可能是目标遮挡或光照条件影响了检测性能
晋北基地	0.939	0.862	0.899	0.936	召回率较低，表明漏检较多，与目标尺寸较小或背景干扰较大相关
陕北基地	0.976	0.900	0.936	0.971	精确率最高，但召回率略低于神东基地，与目标特征明显但分布稀疏相关
云贵基地	0.919	0.927	0.923	0.956	各项指标较为均衡，与环境多样性或数据标注差异相关

另外单独对所建模型YOLO11-DAE进行可视化分析，在空间分辨率为4 m的谷歌卫星影像上随机选取我国区域内湿润半湿润气候区背景单一样本、干旱半干旱气候区背景单一样本和干旱半干旱气候区背景复杂样本进行检测，检测结果如图8所示，随着影像分辨率下降，模型检测准确率有所下降，但仍能有效识别不同气候背景下矿区目标地物，其中建筑类效果仍低于其余目标地物，面对拼接影像也能准确进行地物的分类，展现了其较强的适应能力，进一步验证YOLO11-DAE模型能有效迁移至其余矿区进行监测，具有良好的普适性和泛化性。

显示原图|下载原图ZIP|生成PPT

图8 YOLO11-DAE不同背景气候可视化结果

Fig. 8 Climate visualization results of YOLO11-DAE with different backgrounds

3.2.3 OMTSFD在5种算法上的精度评价

将所作OMTSFD数据集输入YOLOv5n、YOLOv8n、 YOLOv10n、 YOLOv11n及改进后的YOLO11-DAE模型所得各分类结果如图9所示，在建筑物、采场、排土场、道路、水体5种地物类型上，露天采场表现效果最好，在5种模型中，4项评估指标最高值和次高值分别为0.991和0.945、0.975和0.915、0.983和0.926以及0.993和0.966，其次为排土场， 4项指标在最优模型中均高于0.940，而其余4种模型中，除YOLOv5n召回率R为0.780外均高于0.800，表明这2类地物识别效果与人工标注的真实标签匹配程度接近；道路和水体在所改进模型上表现最好， 4项指标分别为0.916和0.897、0.879和0.871、0.897和0.884及0.939和0.926，在YOLOv10n模型中表现最差，分别为0.834和0.786、0.790和0.711、0.811和0.747及0.867和0.803；矿区建筑由于分布较为杂乱，部分建筑物在图像上目标太小且表现不清晰导致精度相对较低，漏检现象相对较多，在改进模型YOLO11-DAE上P、R、F1、mAP@0.5分别为0.880、0.795、0.835和0.904，从整体结果来看， 5种地物类型在改进后的YOLO11-DAE算法上均表现较高的检测精度和较低的漏检率，而矿区建筑在其余4种模型中表现相对较差。

显示原图|下载原图ZIP|生成PPT

图9 YOLOv5n、YOLOv8n、YOLOv10n、YOLOv11n及YOLO11-DAE 算法分类结果精度

Fig. 9 Classification accuracy of YOLOv5n, YOLOv8n, YOLOv10n, YOLOv11n and YOLO11-DAE algorithms

3.2.4 消融实验

为了评估模块的有效性，在OMTSFD数据集上进行了消融实验，以验证每个改进对算法所产生的影响，结果如表5、图10所示，从基线模型开始，首先使用DBB模块去更改C3K2中的残差块，模型的P、R、F1、mAP@0.5皆有所上升，提高大约为0.030，FPS产生轻微下降，为1.400，结果表明仅靠加入这一个模块，模型改进效果一般；其次将模型的骨干网络和特征金字塔中下采样部分替换成ADown模块， P、R、F1和mAP@0.5上升效果明显，提升约为0.050，但FPS下降了39.300，表明模型推理速度受到一定影响；再其次采用轻量化的高效检测头E_Detect对基线模型检测头进行替换，模型的P、R、F1和mAP@0.5几乎保持不变，上升不到0.010，但FPS有明显上升，上升了27.300，实现了模型的轻量化处理；再将不同模块进行两两组合，表现最优为C3k2-DBB与E_Detect， P、R、F1、mAP@0.5、FPS共5项指标均产生了不同程度的上升，分别为0.924、0.865、0.894、0.930、563.600，表明2个模块的组合达到了良好的平衡，最后整合3个模块构建本文所提YOLO11-DAE模型，在P、R、F1、mAP@0.5 共4项评估指标上分别提升0.066、0.081、0.074和0.070，提升效果显著，而FPS下降了16.400，但相较于不添加E_Detect检测头模型增加了24.700。综上所述，改进后的YOLO11-DAE模型虽FPS产生一定下降，但仍旧保持较高水平，且其余4项指标都有不同程度的显著上升，说明整体上加入的每个模块对最终结果都产生了正向影响，模型改进有效。

表5 消融实验结果

Tab. 5 Ablation experiment results

Base-line	C3k2-DBB	ADown	E_Detect	P	R	F1
√				0.866	0.813	0.839
√	√			0.896	0.843	0.869
√		√		0.916	0.860	0.887
√			√	0.873	0.822	0.847
√	√	√		0.905	0.881	0.893
√	√		√	0.924	0.865	0.894
√		√	√	0.888	0.876	0.882
√	√	√	√	0.932	0.894	0.913

显示原图|下载原图ZIP|生成PPT

**图10 不同模块组合的mAP@0.5和FPS对比图**

Fig. 10 Comparison chart of mAP@0.5 and FPS for different module combinations

再对mAP@0.5和FPS进行单独分析，探寻不同模块对模型所产生的贡献，结果如图10所示，在YOLO11基线模型上逐级添加C3k2-DBB、ADown和E_Detect 3个模块进行不同组合，结果表明，在不同模块的两两组合中， mAP@0.5和FPS表现最优组合为C3k2-DBB与E_Detect，分别为0.930和563.600，模型平均精度值较高，且FPS在两两组合中为最高值，组合C3k2-DBB、 ADown与ADown、E_Detect的mAP@0.5和FPS分别为0.934、503.400与0.926、534.200，尽管ADown模块的加入导致了模型速度指标FPS的下降，但对模型产生了最大精度增益，且E_Detect模块的引入也极大地抵消了模块 ADown对模型速度的影响，最终C3k2-DBB、ADown和E_Detect 3个模块共同组合表现出的模型综合性能显著最优， mAP@0.5和FPS分别为0.950和528.100，相较于基线模型，检测精度显著提升7.950%，而推理速度仅下降3.000%，验证了在不同模块的共同协作下，模型整体产生了有效的正向提升。

将改进型YOLO11-DAE消融实验可视化，如图11所示， C3k2-DBB及ADown下采样模块的加入，使六大露天采矿基地检测精度都产生了不同程度的提升，其中， C3k2-DBB的单独加入检测出了蒙东基地漏检的建筑物及云贵基地漏检的道路，但新疆基地也产生了道路漏检现象，而ADown模块的加入虽精度提升不如C3k2-DBB，但相较于基线模型，降低了其漏检率且并未产生其它漏检现象，E_Detect模块的加入对于原模型精度未产生明显影响，但提升了模型锚框和目标地物的匹配程度，降低了信息冗余，C3k2-DBB、ADown及E_Detect3个模块的同时加入，相较于单个模块，整体精度提升更高，检测出了基线模型漏检的目标地物，且提升了锚框与目标地物的贴合度，减少信息冗余，增强了模型目标细节感知能力，使其拥有更强的多尺度特征提取能力。

显示原图|下载原图ZIP|生成PPT

图11 消融实验可视化结果

Fig. 11 Visualization result of the ablation experiment

另外统计不同模块加入后模型的参数量，及每秒10亿次的浮点运算数（Giga Floating-point Operations Per Second， GFlops）来衡量模型大小及其复杂度，结果如图12所示，以百万（M）为单位，YOLOv11n及不同模块的加入（C3k2-DBB、ADown、E_Detect、C3k2-DBB+ADown、C3k2-DBB+ADown+E_Detect）所建6种模型参数量分别为2.580、 2.580、 2.100、2.310、 2.100及1.830，相对于基线模型YOLOv11n，ADown和E_Detect模块的加入都有效减少了模型的参数量，另外，对于加入C3k2-DBB和ADown 2个模块来说，第3个模块E_Detect的共同加入，将模型参数量（2.1）降低到1.830，减小了模型的计算量，有效提升模型速度。就GFlops来说， 3个模块的单独加入，YOLOv11n-E_Detect呈最低值5.100，C3k2-DBB、ADown和E_Detect 3个模块的共同加入较仅加入C3k2-DBB和ADown 3个模块的GFlops值低1.200，较基线模型GFlops值低2.200，有效降低了模型的复杂度，减少其硬件需求，使其更适合于如智能摄像头、无人机等资源受限场景，满足矿区实时监测需求。

显示原图|下载原图ZIP|生成PPT

**图12 不同模块加入后的GFlops及参数量**

Fig. 12 GFlops and parameters after the addition of different modules

3.3 不同模型精度对比结果

由于表6中，YOLOv8n和YOLOv11n效果较为接近， P、F1、mAP@0.5 3项指标上，YOLOv8n分别比YOLOv11n高0.006、0.001、0.006，在R和FPS 2项指标上，YOLOv11n则高于YOLOv8n 0.003和24.600，除去FPS外，其余4项指标， 2个模型均相差不超过0.010，但FPS上，YOLOv11n显著优于YOLOv8n模型，模型更加轻便快速。为进一步验证YOLO11作为基线模型优于YOLOv8模型，将两模型分别结合所选结构进行实验，所得结果如表6所示，从单个结构来看，将YOLOv8n和YOLOv11n 基线模型的C3K2模块中的残差块替换成DBB模块后，二者表现相近， P、R、F1、mAP@0.5 4项评估指标数值相差均不超过0.010，但YOLOv11n-DBB在FPS指标上比YOLOV8n-DBB高12.900，再分别加入ADown和E_Detect 2个模块，结果表明，以YOLOv11n为基线模型显著优于以YOLOv8n为基线模型， YOLOv11n-ADown在5项评估指标上均高于YOLOv8n-ADown，分别为0.059、0.006、0.023、0.014、 2.300， YOLOv11n-E_Detect除去精确值P比YOLOv8n-E_Detect低0.004外，其余4项指标均高于YOLOv8n-E_Detect，分别为0.029、0.014、0.006、19.000。从整体来看，结合3个模块构建的 YOLOv8n-DAE以及YOLOv11n-DAE模型，在P、R、F1、mAP@0.5、FPS 5项评估指标上，均表现为YOLOv11n-DAE表现更优，分别高于YOLOv8n-DAE 0.033、0.058、0.047、0.041、2.200，综上所述，以YOLO11为基线模型，结合DBB、ADown和E_Detect 3个模块构建的YOLOv11n-DAE要显著优于YOLOv8n-DAE模型。

表6 YOLOv8n和YOLOv11n模型对比结果

Tab. 6 Comparison results of YOLOv8n and YOLOv11n models

Base-line	C3k2-DBB	ADown	E_Detect	P	R	F1	mAP@0.5	FPS
YOLOv8n				0.872	0.810	0.840	0.886	519.900
	√			0.902	0.849	0.875	0.912	530.200
		√		0.875	0.854	0.864	0.915	502.900
			√	0.877	0.793	0.833	0.886	552.800
	√	√		0.929	0.887	0.908	0.944	506.200
	√	√	√	0.899	0.836	0.866	0.909	525.900
YOLOv11n				0.866	0.813	0.839	0.880	544.500
	√			0.896	0.843	0.869	0.917	543.100
		√		0.916	0.860	0.887	0.929	505.200
			√	0.873	0.822	0.847	0.892	571.800
	√	√		0.905	0.881	0.893	0.934	503.400
	√	√	√	0.932	0.894	0.913	0.950	528.100

为验证本文所构建模型的优越性和有效性，选择具有代表性的单阶段算法SSD和双阶段算法Faster-RCNN进行比较，结果如表7所示，YOLO11-DAE所构模型表现最好，整体P值均高于0.880，SSD为次优，整体高于0.820，而Faster-RCNN在精确率上表现相对较差，整体处于0.600~0.800之间，但矿区建筑物精确率低，仅为0.434，表明该模型在矿区建筑物上产生较多误检现象，在召回率方面，整体表现最优模型为Faster-RCNN，因其双阶段结构特性在运行过程会产生更多候选框并精细化分类，以至于能够检测到更多目标来获得较高召回率，但也因此导致其占用显存更大，推理速度过长运行速度极慢，相同运行环境下，YOLO11-DAE模型运行速度快于Faster-RCNN约7.5倍，在平均精确度上YOLO11-DAE模型在5种类别中都保持较好表现，特别是在露天采场和排土场类别中，数值高达0.993和0.987，说明该模型综合检测性能很好，Faster-RCNN整体也呈现较好状态，但在矿区建筑物这一类别中表现相对较差，仅为0.690，整体略低于 YOLO11-DAE模型，SSD的mAP@0.5数值普遍较低，表明其在多类别的综合检测能力上不如 YOLO11-DAE和Faster-RCNN。

表7 3种算法分类结果精度

Tab. 7 Accuracy of classification results by three algorithms

类别	方法	P	R	F1	mAP@0.5
矿区建筑物	Faster-RCNN	0.434	0.717	0.541	0.690
	SSD	0.830	0.398	0.540	0.456
	YOLO11-DAE	0.880	0.795	0.835	0.904
露天采场	Faster-RCNN	0.820	0.967	0.887	0.980
	SSD	0.901	0.535	0.670	0.565
	YOLO11-DAE	0.991	0.975	0.983	0.993
排土场	Faster-RCNN	0.793	0.974	0.874	0.960
	SSD	0.908	0.527	0.670	0.567
	YOLO11-DAE	0.978	0.949	0.963	0.987
道路	Faster-RCNN	0.623	0.922	0.744	0.900
	SSD	0.864	0.395	0.540	0.465
	YOLO11-DAE	0.916	0.879	0.897	0.939
水体	Faster-RCNN	0.649	0.934	0.766	0.910
	SSD	0.893	0.543	0.670	0.557
	YOLO11-DAE	0.897	0.871	0.884	0.926

再将本文所建模型YOLO11-DAE与轻量级实时检测模型NanoDet及RT-DETR进行比较，结果如表8所示，与RT-DETR相比，平均检测精度mAP@0.5为0.950，提升14.500%，速度指标FPS达RT-DETR的4.9倍，参数量远小于RT-DETR的19.870 M，模型大小为5.500 MB，仅达RT-DETR模型大小77.000 MB的7.100%，4项指标全面优于RT-DETR模型，相较于NanoDet模型，在mAP@0.5提升55.680%的情况下，仍维持与其相当的实时性能， FPS仅下降2.300%，参数量及模型大小较NanoDet模型提高了0.890和1.700。综上所述， NanoDet模型虽在轻量级方面呈现最优，但其模型检测精度差，不满足实际需求，而RT-DETR检测精度较好，但模型相对笨重，速度较慢，改进型YOLO11-DAE在模型检测精度、速度及轻量化方面达到了良好的平衡，在资源受限场景下仍能以较好精度进行任务检测。

表8 不同方法目标检测性能对比

Tab. 8 Performance comparison of different methods for object detection

方法	mAP@0.5	FPS	参数量/M	模型大小/MB
NanoDet	0.421	540.600	0.940	3.800
RT-DETR	0.830	107.900	19.870	77.000
YOLO11-DAE	0.950	528.100	1.830	5.500

4 结论与讨论

4.1 结论

目前，遥感目标检测公开数据集多以生活场景要素为主^[44]，针对矿区领域数据集十分匮乏，故本研究针对煤矿领域采用包含多尺度、多背景遥感影像进行样本采集，样本包含神东基地、新疆基地、蒙东基地、晋北基地、陕北基地和云贵基地，建立范围广、气候背景多样、地物丰富和普适性高的OMTSFD数据集；本文基于基线模型YOLO11进行优化，为解决矿区背景复杂、目标多样、目标尺度差异较大、遥感影像输入尺度较多等问题，首先通过将C3k2模块中传统的残差块替换为多分支卷积模块，使其能够从多个分支并行提取特征信息，从而在处理目标时具有更强的适应能力，有效增强了模型在噪声较大或目标边界模糊的情况下的识别能力；同时，引入YOLOv9中的ADown下采样模块，减少训练过程中的特征丢失，增强了对多尺度目标的检测能力；最后，由于前2个模块的加入增加了模型的复杂度，为了满足矿区监测中的实时监测要求以及保持模型的高效性，采用基于分组卷积的高效检测头E_Detect对模型进行轻量化处理，最终得到优化后的YOLO11-DAE算法，结合所作OMTSFD数据集建立露天矿内部特征地物识别模型，并与其余4种算法做对比；采用消融实验定量分析了C3k2-DBB模块、ADown下采样模块和E_Detect检测头等核心组件对模型性能的贡献度。主要得出以下结论：

（1）通过将改进后的YOLO11-DAE算法与其他4种YOLO系列主流算法进行比较，得出YOLO11-DAE在P、R、F1、mAP@0.5上均优于YOLOv5n、YOLOv8n、YOLOv10n和YOLOv11n 4种算法；在衡量模型推理速度指标FPS上，YOLO11-DAE算法高于YOLOv8n、YOLOv10n，分别提高了为12.700、111.100，而比YOLOv5n、YOLOv11n低12.700、16.400；可视化分析上，相较于其它4种算法， YOLO11-DAE算法锚框与目标地物置信度更高，更加贴合且无冗余现象，并检测出其余算法漏检的目标地物。综上所述，改进后的算法YOLO11-DAE显著优于其余4种算法，在可应用性、实时性上起到了更好的平衡作用，针对矿区目标尺度多样、背景复杂、小目标聚集等现象能更好地实现矿区目标地物的高精度实时监测。

（2）OMTSFD数据集在YOLOv5n、 YOLOv8n、YOLOv10n、 YOLOv11n及改进后的YOLO11-DAE模型上均表现较好，其中YOLO11-DAE算法表现最好，该模型露天采场和排土场的P、 R、 F1、mAP@0.5上均高于0.940，道路和水体均高于0.870，矿区建筑物R相对较低，为0.795；次高模型为YOLOv8n，除建筑物外其余4种地物类型P值均高于0.850， R高于0.800，检测效果较好。

（3）通过消融实验评估模块的有效性，C3K2-DBB模块的P、R、F1、mAP@0.5皆有所上升，且FPS几乎保持不变； ADown下采样模块P、 R、 F1、 mAP@0.5上升效果更加明显，分别提高了0.050、0.047、0.048和0.049，但FPS下降39.300；检测头E_Detect在保证P、 R、 F1、 mAP@0.5不下降基础上，将FPS提高了27.300，实现了模型的轻量化处理。上述结果表明每个模块的加入对检测结果均产生了正向影响，说明本文所构建YOLO11-DAE模型在保证模型轻量、快速，满足矿区实时监测的前提下，显著地提升了其精度、减少其漏检现象，整体综合检测性能更好，能更好针对矿区复杂背景，目标尺度多样等情况进行高速高效的统一监测。

本研究为露天矿区遥感影像数据的地物分类提供技术支撑，有效提高了露天矿各地物自动识别与分类的能力，提升了矿区管理的精准化和科学化，为资源监管、灾害预警及生态修复提供支持。

4.2 讨论

本研究提出的OMTSFD数据集及优化后的YOLO11-DAE算法虽然在露天矿区目标检测中展现出较好的性能，但仍存在一些问题和不足，主要体现在数据特性、模型能力和样本分布3个方面。

（1）在数据特性方面，当前模型主要依赖RGB三波段影像进行目标检测，未能充分利用多光谱遥感数据的优势。矿区环境中的水体、采场、植被等目标在RGB影像中容易因光谱特征相似而产生混淆，特别是在复杂背景下的小型建筑物检测中，漏检现象较为明显。这种局限性源于模型对光谱信息的利用不足，无法有效区分具有相似颜色特征但光谱响应不同的地物目标。未来研究应考虑引入多波段遥感数据，通过融合光谱特征与空间特征来提升模型对矿区目标的辨别能力，同时优化模型的多尺度检测架构以增强对小目标的捕捉能力。

（2）模型监测效果受多种因素影响。数据质量方面，低分辨率影像导致小目标细节丢失，直接影响建筑物、道路等精细目标的检测可靠性。目标特性方面，尺寸小、分布密集或形状不规则的矿区建筑容易产生漏检和误检。环境干扰因素如水体反光、阴影遮挡、气候条件变化等会破坏图像特征的一致性，特别是在多云或植被覆盖区域，模型表现波动明显。虽然YOLO11-DAE通过引入DBB和ADown模块增强了特征提取能力，但在极端光照条件或目标严重重叠的场景下仍可能出现失效情况。针对这些问题，未来需要采用更高分辨率的影像数据，开发动态注意力机制来应对复杂环境干扰，并设计针对性的数据增强策略来提升模型鲁棒性。

（3）数据集样本分布不均匀的问题不容忽视。目前数据集中的样本主要来自我国北部干旱半干旱地区的大型露天矿，南方湿润气候区的样本仅集中在云贵区域，导致湿润区样本数量明显不足。这种样本分布的不平衡性会影响模型在不同气候区域的泛化性能。此外，现有数据增强方法未能充分考虑矿区特有的噪声干扰，如扬尘、阴影和云覆盖等常见干扰因素的模拟不足。建议后续研究应系统收集和标注更多南方湿润气候区的露天矿样本，同时开发能够模拟典型矿区干扰特征的数据增强方法，构建更具代表性和平衡性的基准数据集。

AI使用说明：本文没有使用AI技术。

■ 本文图文责任编辑：蒋树芳黄光玉

利益冲突：Conflicts of Interest 所有作者声明不存在利益冲突。

All authors disclose no relevant conflicts of interest.

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Xu J X, Yin P C, Hu W M, et al. Assessing the ecological regime and spatial spillover effects of a reclaimed mining subsided lake: A case study of the Pan'an Lake wetland in Xuzhou[J]. PLoS One, 2020, 15(8):e0238243. DOI:10.1371/journal.pone.0238243

[2]	Firozjaei M K, Sedighi A, Firozjaei H K, et al. A historical and future impact assessment of mining activities on surface biophysical characteristics change: A remote sensing-based approach[J]. Ecological Indicators, 2021, 122:107264. DOI:10.1016/j.ecolind.2020.107264

[3]	国务院关于印发2030年前碳达峰行动方案的通知[C]// 中国企业改革发展2021蓝皮书.国务院, 2021:473-483. [ Notification of the state council on issuing the action plan for carbon peaking before 2030[C]// 2021 Blue Book on the Reform and Development of Chinese Enterprises.State Council, 2021:473-483 ] DOI:10.26914/c.cnkihy.2021.070332

[4]

朱冬雨, 陈涛, 牛瑞卿, 等. 利用移动窗口遥感生态指数分析矿区生态环境[J]. 武汉大学学报(信息科学版), 2021, 46(3):341-347.

[ Zhu

D Y

, Chen

, Niu

R Q

, et al. Analyzing the ecological environment of mining area by using moving window remote sensing ecological index[J]. Geomatics and Information Science of Wuhan University, 2021, 46(3):341-347. ] DOI:10.13203/j.whugis20190122

[5]	Chen W T, Li X J, He H X, et al. A review of fine-scale land use and land cover classification in open-pit mining areas by remote sensing techniques[J]. Remote Sensing, 2018, 10(1):15. DOI:10.3390/rs10010015

[6]	Przeździecki K, Zawadzki J, Miatkowski Z. Use of the temperature-vegetation dryness index for remote sensing grassland moisture conditions in the vicinity of a lignite open-cast mine[J]. Environmental Earth Sciences, 2018, 77(17):623. DOI:10.1007/s12665-018-7815-6

[7]	Ren H, Zhao Y L, Xiao W, et al. A review of UAV monitoring in mining areas: Current status and future perspectives[J]. International Journal of Coal Science & Technology, 2019, 6(3):320-333. DOI:10.1007/s40789-019-00264-5

[8]	黄登冕, 张聪, 姚晓军, 等. 矿山环境遥感监测研究进展[J]. 遥感技术与应用, 2022, 37(5):1043-1055. DOI [ Huang D M, Zhang C, Yao X J, et al. Research progress of mine environment remote sensing monitoring[J]. Remote Sensing Technology and Application, 2022, 37(5):1043-1055. ]

[9]	Yang C, Wu G F, Ding K, et al. Improving land use/land cover classification by integrating pixel unmixing and decision tree methods[J]. Remote Sensing, 2017, 9(12):1222. DOI:10.3390/rs9121222

[10]	Maulik U, Chakraborty D. Remote Sensing Image Classification: A survey of support-vector-machine-based advanced techniques[J]. IEEE Geoscience and Remote Sensing Magazine, 2017, 5(1):33-52. DOI:10.1109/MGRS.2016.2641240

[11]	Li X J, Chen W T, Cheng X W, et al. A comparison of machine learning algorithms for mapping of complex surface-mined and agricultural landscapes using ZiYuan-3 stereo satellite imagery[J]. Remote Sensing, 2016, 8(6):514. DOI:10.3390/rs8060514

[12]	Yuan Q Q, Shen H F, Li T W, et al. Deep learning in environmental remote sensing: Achievements and challenges[J]. Remote Sensing of Environment, 2020, 241:111716. DOI:10.1016/j.rse.2020.111716

[13]	胡乃勋, 陈涛, 甄娜, 等. 基于卷积神经网络的面向对象露天采场提取[J]. 遥感技术与应用, 2021, 36(2):265-274. DOI [ Hu N X, Chen T, Zhen N, et al. Object-oriented open pit extraction based on convolutional neural network[J]. Remote Sensing Technology and Application, 2021, 36(2):265-274. ] DOI:10.11873/j.issn.1004-0323.2021.2.0265

[14]	Balaniuk R, Isupova O, Reece S. Mining and tailings dam detection in satellite imagery using deep learning[J]. Sensors, 2020, 20(23):6936. DOI:10.3390/s20236936

[15]	Zhang C M, Liu J P, Yu F. Segmentation model based on convolutional neural networks for extracting vegetation from Gaofen-2 images[J]. Journal of Applied Remote Sensing, 2018, 12(4):1. DOI:10.1117/1.jrs.12.042804

[16]	Xie H B, Pan Y Z, Luan J H, et al. Open-pit mining area segmentation of remote sensing images based on DUSegNet[J]. Journal of the Indian Society of Remote Sensing, 2021, 49(6):1257-1270. DOI:10.1007/s12524-021-01312-x

[17]	Xiao D, Yin L Y, Fu Y H. Open-pit mine road extraction from high-resolution remote sensing images using RATT-UNet[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19:3002205. DOI:10.1109/LGRS.2021.3065148

[18]	Chen P, Li P X, Wang B, et al. GFSegNet: A multi-scale segmentation model for mining area ground fissures[J]. International Journal of Applied Earth Observation and Geoinformation, 2024, 128:103788. DOI:10.1016/j.jag.2024.103788

[19]	Lyu J J, Hu Y, Ren S L, et al. Extracting the tailings ponds from high spatial resolution remote sensing images by integrating a deep learning-based model[J]. Remote Sensing, 2021, 13(4):743. DOI:10.3390/rs13040743

[20]	黄登冕. 基于深度学习的典型矿山地物智能识别方法研究——以祁连山为例[D]. 兰州: 西北师范大学, 2022. [ Huang D M. Research on intelligent recognition method of typical mine features based on deep learning: A case study of the Qilian Mountains. Lanzhou: Northwest Normal University, 2022. ] DOI:10.27410/d.cnki.gxbfu.2022.001560

[21]

张成业, 李飞跃, 李军, 等. 基于DeepLabv3+与GF-2高分辨率影像的露天煤矿区土地利用分类[J]. 煤田地质与勘探, 2022, 50(6):94-103.

[ Zhang

C Y

, Li

F Y

, Li

, et al. Recognition of land use on open-pit coal mining area based on DeepLabv3+ and GF-2 high-resolution images[J]. Coal Geology & Exploration, 2022, 50(6):94-103. ] DOI:10.12363/issn.1001-1986.22.01.0029

[22]	Li Q T, Chen Z C, Zhang B, et al. Detection of tailings dams using high-resolution satellite imagery and a single shot multibox detector in the Jing-Jin-ji Region, China[J]. Remote Sensing, 2020, 12(16):2626. DOI:10.3390/rs12162626

[23]	王永生, 姬嗣愚. 基于深度学习的目标检测算法综述[J]. 计算机与数字工程, 2023, 51(6):1231-1237. [ Wang Y S, Ji S Y. Review of target detection algorithms based on deep learning[J]. Computer & Digital Engineering, 2023, 51(6):1231-1237. ]

[24]	Liu W, Anguelov D, Erhan D, et al. SSD: Single shot MultiBox detector[M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016:21-37. DOI:10.1007/978-3-319-46448-0_2

[25]	Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:779-788. DOI:10.1109/CVPR.2016.91

[26]	Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

[27]	Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv:2004. 10934, 2020. DOI:10.48550/arXiv.2004.10934

[28]	Wang C Y, Bochkovskiy A, Liao H M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2023:7464-7475. DOI:10.1109/CVPR52729.2023.00721

[29]	Ge Z, Liu S, Wang F, et al. Yolox: Exceeding yolo series in 2021[J]. arXiv preprint arXiv:2107.08430, 2021. DOI:10.48550/arXiv.2107.08430

[30]	Hussain M. Yolov5, yolov8 and yolov10: The go-to detectors for real-time vision[J]. arXiv preprint arXiv:2407.02988, 2024. DOI:10.48550/arXiv.2407.02988

[31]	Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[M]// Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020:213-229. DOI:10.1007/978-3-030-58452-8_13

[32]	Zhao Y A, Lv W Y, Xu S L, et al. DETRs beat YOLOs on real-time object detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024:16965-16974. DOI:10.1109/CVPR52733.2024.01605

[33]	He L H, Zhou Y Z, Liu L, et al. Research on object detection and recognition in remote sensing images based on YOLOv11[J]. Scientific Reports, 2025, 15:14032. DOI:10.1038/s41598-025-96314-x

[34]

王立兵, 任予鑫, 马昆, 等. 多源数据融合智能识别煤矿山场景特征AI模型[J]. 煤炭学报, 2023, 48(12):4617-4631.

[ Wang

L B

, Ren

Y X

, Ma

, et al. AI model for intelligent recognition of coal mine scene features through multi-source data fusion[J]. Journal of China Coal Society, 2023, 48(12):4617-4631. ] DOI:10.13225/j.cnki.jccs.2023.0805

[35]	赵银娣, 卫虹宇, 董霁红, 等. 基于子区域多标签学习的露天煤矿区场景识别[J]. 遥感学报, 2022, 26(9):1849-1858. [ Zhao Y D, Wei H Y, Dong J H, et al. Opencast coal mine scene recognition based on sub-region multi-label learning[J]. National Remote Sensing Bulletin, 2022, 26(9):1849-1858. ] DOI:10.11834/jrs.20210001

[36]

张峰极, 吴艳兰, 姚雪东, 等. 基于改进DenseNet网络的多源遥感影像露天开采区智能提取方法[J]. 遥感技术与应用, 2020, 35(3):673-684.

DOI

[ Zhang

F J

, Wu

Y L

, Yao

X D

, et al. Opencast mining area intelligent extraction method for multi-source remote sensing image based on improved DenseNet[J]. Remote Sensing Technology and Application, 2020, 35(3):673-684. ]

[37]	Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009:248-255. DOI:10.1109/CVPR.2009.5206848

[38]	Cheng G, Han J W, Lu X Q. Remote sensing image scene classification: Benchmark and state of the art[J]. Proceedings of the IEEE, 2017, 105(10):1865-1883. DOI:10.1109/JPROC.2017.2675998

[39]	Shao S, Li Z M, Zhang T Y, et al. Objects365:A large-scale, high-quality dataset for object detection[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2019:8429-8438. DOI:10.1109/iccv.2019.00852

[40]	Sun X, Wang P J, Yan Z Y, et al. FAIR1M: A benchmark dataset for fine-grained object recognition in high-resolution remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 184:116-130. DOI:10.1016/j.isprsjprs.2021.12.004

[41]	Ding X H, Zhang X Y, Han J G, et al. Diverse branch block: Building a convolution as an inception-like unit[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) IEEE, 2021:10881-10890. DOI:10.1109/CVPR46437.2021.01074

[42]	Wang C Y, Yeh I H, Mark Liao H Y. Yolov9: Learning what you want to learn using programmable gradient information[C]// European conference on computer vision. Cham: Springer Nature Switzerland, 2024:1-21. DOI:10.1007/978-3-031-72751-1_1

[43]	Ioannou Y, Robertson D, Cipolla R, et al. Deep roots: Improving CNN efficiency with hierarchical filter groups[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:5977-5986. DOI:10.1109/CVPR.2017.633

[44]

龚健雅, 许越, 胡翔云, 等. 遥感影像智能解译样本库现状与研究[J]. 测绘学报, 2021, 50(8):1013-1022.

DOI

[ Gong

J Y

, Xu

, Hu

X Y

, et al. Status analysis and research of sample database for intelligent interpretation of remote sensing image[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8):1013-1022. ] DOI:10.11947/j.AGCS.2021.20210085

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

2.1 技术路线

图1 技术路线

2.2 数据集选择与构建

表1 公开遥感数据集

2.3 YOLO11-DAE模型构建

2.3.1 改进后的YOLO11模型整体架构

图2 改进型模型结构

2.3.2 多分支卷积模块（DBB）

图3 DBB结构示意图

图4 6种卷积变换形式

2.3.3 ADown模块

图5 ADown模块结构

2.3.4 E_Detect

图6 分成3组的分组卷积操作

3 实验设计及结果分析

3.1 实验设计

表2 训练参数

3.2 结果分析

3.2.1 对比实验

表3 不同检测算法比较

3.2.2 可视化分析

图7 部分可视化结果展示

表4 YOLO11-DAE监测精度差异分析

图8 YOLO11-DAE不同背景气候可视化结果

3.2.3 OMTSFD在5种算法上的精度评价

图9 YOLOv5n、YOLOv8n、YOLOv10n、YOLOv11n及YOLO11-DAE 算法分类结果精度

3.2.4 消融实验

表5 消融实验结果

图10 不同模块组合的mAP@0.5和FPS对比图

图11 消融实验可视化结果

图12 不同模块加入后的GFlops及参数量

3.3 不同模型精度对比结果

表6 YOLOv8n和YOLOv11n模型对比结果

表7 3种算法分类结果精度

表8 不同方法目标检测性能对比

4 结论与讨论

4.1 结论

4.2 讨论

参考文献

**图10 不同模块组合的mAP@0.5和FPS对比图**

**图12 不同模块加入后的GFlops及参数量**