Automated Sheep Detection from UAV Images for the Application of Sheep Roundup

  • CHENG Jun , 1, 2, * ,
  • DING Linfang 2 ,
  • FAN Hongchao 2
Expand
  • 1. The First Topographic Surveying Brigade of Ministry of Natural Resources, Xi'an 710054, China
  • 2. Norwegian University of Science and Technology, Trondheim 7491, Norway
*CHENG Jun, E-mail:

Received date: 2023-04-18

  Revised date: 2023-07-28

  Online published: 2023-11-02

Abstract

Each year, approximately 2.1 million sheep are released to graze freely in vast, forest-covered, and mountainous areas throughout Norway. At the end of the grazing season, farmers must find and round up their sheep. This can be a time consuming and challenging process because of the large area and cluttered nature of the sheep grazing environment. Existing technologies that help farmers find their sheep, such as bells, radio bells, electronic ear tags and UAVs, are limited by the cost, signal coverage, and low degree of automation, which cannot efficiently and automatically locate sheep in the wild. This study proposes an automatic sheep detection algorithm using UAV images. A model architecture using the ResNet and ResNeXt as the backbone networks is designed to address the automatic sheep detection task from UAV RGB and infrared images. Our study evaluates how well this model meets performance and processing speed requirements of a real-world application. We also compare models using fused RGB and infrared data to models using either RGB or infrared as input, and further explore the model complexity and generalization ability. Results show that fusion of RGB and infrared data yields better average precision results than using single RGB or infrared dataset in the model. The set of optimal solutions achieve average precision scores in the range of 69.6% to 96.3% with inference times ranging from 0.1 to 0.6 seconds per image. The most accurate network achieves a grid precision of 97.9% and a recall of 90.1%, at a confidence threshold of 0.5. This corresponds to the detection of 97.5% of the sheep in the validation dataset. These satisfactory results demonstrate the great potential of the proposed automatic sheep detection method using multi-channel UAV images for improving sheep roundup.

Cite this article

CHENG Jun , DING Linfang , FAN Hongchao . Automated Sheep Detection from UAV Images for the Application of Sheep Roundup[J]. Journal of Geo-information Science, 2023 , 25(11) : 2281 -2292 . DOI: 10.12082/dqxxkx.2023.230202

1 引言

在挪威,每年约有210万只羊在广阔的森林覆盖区域和山区自由放牧[1],在放牧季节结束时,牧民们必须找到并围拢他们的羊。然而,由于放牧环境广袤且地形复杂,对许多牧羊农民来说,在放牧季节结束时找到并围拢所有羊群将是一个耗时耗力的过程,非常具有挑战性。目前,羊群的围捕主要分为3个阶段:第一个围捕阶段通常需要许多人和牧羊犬的帮助,需持续1~2周,大约能围捕90%的羊;第二个阶段即牧民们独自在与第一个围捕阶段的相同区域再去搜寻羊群,本轮围捕大约能找到5%~10%的羊;第三个阶段即需找到游离在常规放牧区域之外的羊,这个阶段搜寻羊群非常困难,也是亟需帮助牧民们解决的问题。
目前市场上有一些技术解决方案用以帮助农民跟踪他们的羊,包括铃铛、无线电铃、电子耳标和无人机等[2-4]。铃铛是最简单和最便宜的方法,农民们将铃铛戴在羊的脖子上,当羊走动时,铃铛就会发出声音,因此,牧民可以通过听铃铛的声音找到附近的羊。但只有当搜索的人已经在羊附近时,才能听到铃声,且铃声可能会吸引其它捕食者。无线电铃是让羊戴上有GPS的无线电跟踪项圈,以确定并传输它们的位置,但该产品单价较高,仅适用于跟踪羊群,且需在通信信号覆盖的区域使用。
以上2种方法均不适用于小羊羔,因为羊羔长得很快,不能戴传统项圈。电子耳标是另一种常见的追踪工具,通过将这些耳标的读取器放置在一个特定位置,农民可以获得哪些羊在这些位置“签到”的信息。无人机也是用于在放牧季节观察、寻找羊群的一种廉价而有效的技术,其可以轻松飞越地形复杂区域并获取该区域的图像,但无人机图像中羊群目标检测尚未实现自动化,在无人机图像中人工搜索羊群是极其耗时且易出现错漏的。针对这一挑战,本文提出基于无人机RGB和红外图像结合进行羊群自动目标检测,以帮助牧民快速有效地找到他们的羊。此前关于这一主题的研究发现,基于深度学习的目标检测方法[5-8]可以应用于这一任务。常见的基于深度学习的目标检测算法大致分为2类: ① FAIR(Facebook AI Research)研发的R-CNN系列为代表的两阶段检测算法,如R-CNN[9],Faster RCNN[10],R-FCN[11],Cascade R-CNN。该系列算法首先从图像中预测高质量的区域候选框,然后分别连接分类和回归的子网络判断区域候选框的类别并矫正其位置。② 以YOLO系列[12]、SSD[13]为代表的单阶段检测算法,该系列算法在预测候选框的同时,进行物体类别的分类和位置的回归[14]
一些学者研究探索了无人机图像中的羊群自动检测任务,大多基于单独使用红外图像或单独使用RGB图像[15-16]。其中,Ytterland和Winsnes[17]用一架装有RGB相机的无人机来获取羊的图像,并且尝试使用各种传统的计算机视觉方法,如对图像进行滤波和阈值处理来检测羊。这对白羊检测效果相对较好,但对非白羊检测结果则不尽人意,同时检测结果中也有较高的假正率(False Positive Rate, FPR)。Muribø[18]使用基于深度学习的目标检测架构YOLOv3来检测RGB图像中的羊,检测结果其准确率和召回率分别为94%和99%。然而,由于数据集中所有的图像都是在相同的位置拍摄的,且都是由同一群在草地上的圈养羊组成的,检测结果有较强的局限性,其适用性有限。Muribø建议可以通过收集更多样化的数据,将RGB图像与红外图像结合起来进行羊群的目标检测。Rognlien[17]在无人机红外图像上使用了传统的计算机视觉方法,由于数据集中存在明显的噪声,仅选用25张图像参与测试。该研究发现,当数据量不足以使用机器学习时,使用更传统的图像处理方法会有更好的结果,能够检测到83.3%的羊,准确率为85.7%,考虑到数据量非常小,这是一个可以接受的结果。以上的方法均是仅使用红外图像或RGB图像进行目标检测。与传统的RGB图像相比,红外图像可以根据体温区分动物,因此也可以在夜间探测到动物[18],RGB图像中的颜色和纹理信息与红外图像可以实现很好的互补。因此,本文将RGB图像与红外图像结合使用,且使用比之前研究更多样更大规模的数据集,以达到更优的羊群目标自动检测效果。
目标识别和大数据等技术的发展为地面拍摄人群与航拍车辆的检测与统计提供了极大的便利,但在动物群的统计方面应用还很少[19],国内有学者利用无人机影像基于深度学习统计羊只数量以监测过度放牧和评估草原生态[20],而对无人机影像在畜牧业移动目标检测方面的研究较少,本文基于挪威在无人机影像目标自动提取在羊群围捕中的应用方面的探索研究,对于我国无人机在畜牧业移动目标检测方面的应用提供一定的参考意义。
本文提出一种基于卷积神经网络(Convolutional Neural Network, CNN)[21]的羊群自动检测系统,利用无人机RGB和红外图像自动检测羊群,以帮助牧民在放牧季节结束时找到他们的羊。对于本文任务需求,需使用RGB和红外图像2种输入数据,且无需精确定位每只羊的准确位置,只需预测固定区域内是否存在羊即可,因此,为适应2种输入数据和较低定位精度要求,受YOLO[22]将图像划分为网格的思路启发,本文针对性设计了满足以上任务需求的神经网络架构。该算法将输入图像划分为S×S个网格,并对每个网格预测B个边界框,对每个网格中的物体分别进行预测。因此,对于具有C个类别的目标检测任务,YOLO算法的输出y是一个尺寸为S×S×(B×5+C)的矩阵,其中,yi,j表示对第i行第j列网格的预测结果[23],最终的预测特征由边界框的位置和置信度得分组成。本文将图像划分为7×8的网格,选择ResNet和ResNeXt作为骨干网络,交并比(Intersection of Union, IoU)阈值设置为0.5,除此以外,规定设置的置信度阈值需大于等于0.5,并最终计算不同网络配置参数下的平均精度和处理时间。此外,本文还研究对比了模型基于RGB和红外融合图像和仅使用单一图像的检测效果和性能,并探讨了不同模型复杂性、融合位置和输入分辨率对模型性能的影响,并验证了模型泛化能力。

2 研究方法

本文针对羊群目标检测的特点,提出了一种基于深度学习的羊群目标检测系统,通过结合RGB图像的光谱特征和红外图像的热成像特征,以二者融合图像作为输入数据,以ResNet和ResNeXt作为骨干网络,同时针对本文任务的低定位精度要求,将图像划分为网格,无需检测出每只羊并输出边界框,只需检测网格内是否存在至少一只羊即可,最终输出网格置信度得分,该改进可提高检测性能,减少处理时间。本文所采用的研究方法主要分为4个步骤,包括数据预处理、模型设计、模型训练及模型性能评估。
(1)数据预处理:包括图像采样和配准。图像采样包括从整个图像集合中选取符合要求的图像并将这些数据分为训练、验证和研究数据集。为了实现图像与地理位置的对应,需对相机进行标定,计算其内、外参数,对于本项目任务需求而言,低质量的定位精度即可满足项目要求,只需在大片区域内确定是否有羊即可,该过程始终需要人工参与。由于红外和RGB相机视场范围不一致,2种图像之间存在错位,因此需要进行图像配准,本文主要通过3个步骤来完成配准,如图1所示,即首先利用相机标定对红外图像进行镜头畸变校正,本文使用了张氏标定法[24]进行相机标定。为使棋盘图案在红外波段中可见,本文使用投影仪和印有棋盘图案的透明胶片进行红外相机的标定,通过投影仪加热胶片的黑色方块部分,温度的差异将使棋盘图案在红外图像中可见,如图2所示;其次,通过将红外图像转换为RGB图像的像方坐标系,即在一系列对应的红外和RGB图像像素点上,使用最小二乘法进行仿射变换,将未失真红外图像的像素映射到RGB图像中相应的像素;最后,从配准后的RGB和红外图像中提取重叠区域。
图1 红外图像与RGB图像配准步骤(单位:像元)

Fig. 1 Three step process for aligning the infrared and RGB images (unit: pixel)

图2 相机标定时的RGB和红外图像样例

Fig. 2 A sample of the RGB and infrared image pairs taken by the camera used for camera calibration

(2)神经网络结构设计:本文以RGB和红外融合图像作为输入,其网络结构如图3所示。该网络体系结构基于文献[25]和[26]中描述的体系结构,其中两个独立的输入在2个并行子网络(图3中Infrared Base Network和RGB Base Network)中处理。随后,对子网络的输出进行融合(图3中的Fusion),可参数化的融合网络通过实验不同的融合位置来确定网络中的最佳融合点,以产生联合信息特征图并作为模型后续部分(图3中的Backbone和Head)的输入,以实现融合特征的提取和最终的羊群识别。融合模型的权重初始值分别在红外和RGB数据上预训练过(图3中橙色表示在RGB图像上预训练;绿色表示在红外图像上预训练;蓝色表示无预训练,仅进行权重初始化),此种融合网络可以保持迁移学习的优势。
图3 以RGB和红外融合图像作为输入网络结构

Fig. 3 Network architecture used for accepting both RGB and infrared input

在本文设计的融合模型中,Infrared Base network 和RGB Base network分别对红外图像和RGB图像进行特征提取,随后,上采样层(图3中Upsample)用于放大红外特征图以匹配RGB特征图,融合层(图3中Fusion)负责连接2个子网的特征图。由于红外图像的空间分辨率远低于RGB图像,因此需要对红外特征图进行上采样或对RGB特征图进行下采样,以使2个特征图的尺寸在融合前匹配。为减少信息丢失,本文采用对红外特征图进行上采样的方式实现二者的匹配。
Backbone(图3中CNN Layers)负责进一步计算输入的融合图像的特征,主要指用于特征提取并已在大型数据集上完成预训练,拥有预训练参数的卷积神经网络[27],本文使用ResNet[28]和ResNeXt[29]作为Backbone进行相关实验,ResNet网络是参考了VGG19网络,在其基础上进行了修改,并通过短路机制加入了残差单元,ResNet通过残差学习解决了深度网络的退化问题。ResNeXt是ResNet的升级版,在ResNet的基础上,引入了基数(cardinality)的概念,通过控制cardinality的数量,使得ResNeXt的参数量和ResNet几乎相同。而通过cardinality的分支结构,为网络提供更多的非线性,从而获得更精确的分类效果。这些网络可以实现本文任务需求并取得最好模型结果(state of the art,SOTA),且易于扩展。Head(图3中Head部分)负责将特征映射转换为所需的输出。在典型的目标检测任务中,期望的输出是每个类的一组边界框,然而对于本文的任务需求,模型只需简单地说明某个区域是否有羊即可,只要在该区域至少有一只羊存在,则农民可以定位到该羊群,无需在一群羊中找到每只羊。受YOLOv1思路启发,本文将图像划分为7×8的网格,YOLOv1的主要缺点是每个网格只能预测一个类,这意味着检测彼此非常接近的许多小对象效果不太理想。然而,对于本文的研究内容而言这不是问题,因为在每个单元格中只找到一只羊即可。YOLOv1输出与羊群检测网络输出的概念比较如图4所示。通过使用这种类型的输出,网络能够继承速度快、低误报率和利用YOLOv1提供的上下文信息能力的优势,而不必受到YOLOv1缺点的负面影响。因此,这大大简化了问题,不需为每只羊输出边界框,只需计算每个格网的置信度分数,这种简化既可以提高检测性能,又减少了处理时间。
图4 pascal VOC数据集上YOLO V1的输出与羊群数据集网格输出的比较

Fig. 4 Output of YOLO V1 on the pascal VOC dataset compared to the grid output of the sheep dataset

(3)模型训练:即将样本输入网络中进行训练,输出样本候选框位置及类别置信度[30]图5显示了训练CNN的步骤。由于羊的品种、颜色、生长阶段不同呈现不同的特征,增加了羊的类内复杂性,需要对数据集进行人工扩增,以增加数据集的变化,避免过拟合[31]。本文利用Albumentations库[32]对图像进行增强处理,包括随机水平/垂直翻转、随机旋转变换、随机大小裁切、随机调整图像分辨率、随机调整亮度/对比度等方法,同时边界框标签被转换为网格标签。接下来,将样本输入CNN进行预测,并将预测结果与真实结果进行对比计算损失。随后,标签和权重通过反向传播和梯度下降进行相应更新[33],以优化CNN。此外,为了在训练过程中监控训练过程,训练损失和验证损失每一轮(epoch)中都记录2次。
图5 神经网络模型训练过程

Fig. 5 The process of training a neural network

(4)模型性能评估:为了评估和比较目标检测算法的性能,本文以平均精度(Average Precision,AP)和处理时间作为性能评估指标。平均精度是指准确率-召回率(Precision-Recall)曲线下面积[34],是一种同时考虑精度和召回率的性能指标,其表达形式如下:
A P = P ( R ) d R
其中准确率(Precision)是针对模型预测结果而言,它表示的是预测为正的样本中有多少是真正的正样本,即预测正确的羊的数量占总预测数量的比值,因此又称为查准率,其计算方式见式(2)。
P r e s i o n = T P T P + F P
召回率(Recall):指针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了,是预测正确的羊的数量占羊总数量的比值,又称为查全率,其计算方式见式(3)。
R e c a l l = T P T P + F N
式中:P表示准确率;R表示召回率;TPFNFPTN分别指实际为正样本检测为正样本、实际为正样本检测为负样本、实际为负样本检测为正样本、实际为负样本检测为负样本的数量。
模型的性能取决于大量变量的作用和相互作用,必须对这些变量进行优化或系统分析,以确定它们的最佳值。在实验过程中,通过改变输入图像类型、图像分辨率、网络深度、融合深度以及学习率、优化器、一次训练的样本数目(batch size)、所有数据被训练的总轮数(epoch)等参数,以获得模型最佳性能的相关参数。

3 实验及结果与分析

3.1 模型训练

本实验采用的软硬件包括:Intel(R)Core(TM)i7-9750HCPU@2.60GHz;GPU:GeForce RTX 2080;操作系统:Ubuntu;深度学习框架:PyTorch[35]。选用3.2节所述数据集,对CNN进行训练,规定设置的置信度阈值大于等于0.5,其它训练参数配置见表1
表1 模型训练配置参数

Tab. 1 Model training configuration parameters

输入类型 学习率 批大小 训练总轮数/次
Infrared 0.000 10 32 400
RGB 0.000 07 8 400
RGB+I 0.000 05 8 400
模型使用一系列配置参数进行训练,本文以RGB和红外(RGB+I)融合数据作为输入,对网络深度为18和50的ResNet模型进行了测试,并以仅RGB或红外(I)图像作为输入进行对比实验。此外还对仅红外输入的网络深度为101的ResNet模型进行了测试。同时针对3种不同输入类型(RGB+I,RGB,I),本文测试了基数为32的ResNeXt 50模型,比较各模型性能指标,测试模型包括:I_r101、I_r18、I_r50、I_rx50、RGB_r18、RGB_r50、RGB_rx50、RGB+I_r18、RGB+I_r50、RGB+I_rx50,其中I、RGB、RGB+I分别表示输入数据类型,r和rx分别表示ResNet和ResNeXt模型。另一方面,通过改变融合深度、RGB和红外图像尺寸,以测试输入数据类型、网络设计和图像分辨率对各性能指标的影响。

3.2 实验数据

本文用于训练和评估羊群检测模型的数据是一组2019年8、9和10月以及2020年5月共25个不同时段捕获的羊群无人机图像。图像获取采用DJI Mavic2 Enterprise dual(M2ED)双镜头无人 机[36],并使用标签工具Labelbox标记边界框[37]。该数据集由1 005对图像组成,其中包含8 413只标记绵羊,如图6所示为训练集中标记RGB图像和对应的红外图像示例。RGB图像的分辨率为4 056像素×3 040像素,红外图像的分辨率为160像素×120像素,由于不同时段获取的影像飞行高度不同,其地面分辨率也各不相同。
图6 训练集中标记图像对示例

Fig. 6 Sample of labelled image pairs in the sheep dataset

我们将图像进行筛选分组后,共选出515张图像,并将这些图像进一步分为4个子数据集:1个训练集(Training)、1个验证集(Validation)及2个测试集(T1:Klæbu地区和T2:Orkanger地区)。由于2020年5月收集的图像与训练数据集差异太大,包含有羊羔和古挪威Spælsau羊,这在2019年获取的图像中是没有的,因此将其作为案例研究,以评估模型对羊羔和新的羊种族的泛化能力。其中T1数据集是Klæbu地区捕获的,包含有大量的羊羔和成年羊,属于挪威白羊品种;T2数据集是在Orkanger地区捕获的,包含有大量的羊羔和古挪威Spælsau羊。表2表3分别记录了各数据集中的图像数量和羊的数量,其中羊的品种包括:1挪威白羊;2挪威Pelssau羊;3古挪威Spælsau羊。训练和验证数据集中大多为白羊,棕色和灰色较少,T1数据集几乎均为白羊,而T2数据集羊的颜色分布更加多样,如图7所示为数据集中按照羊的颜色分组的样例图像。
表2 各数据集图像数量

Tab. 2 The number of images in each dataset after sampling (张)

数据集 合计 生长环境 羊的品种
散养 圈养 1 2 3
训练集 229 123 106
验证集 64 59 5
测试集T1:Klæbu 106 0 106
测试集T2:Orkanger 116 0 116
合计 515 182 333
表3 各数据集中按照羊的颜色和生长阶段分组的羊的数量

Tab. 3 The number of sheep in each dataset after sampling grouped by sheep color and sheep life stage (只)

数据集 合计 羊的颜色 生长阶段
白色 灰色 黑色 棕色 羊羔 成年羊
训练集 277 5 155 5 878 257 85 0 277 5
验证集 435 237 175 18 5 0 435
测试集T1:Klæbu 147 4 142 2 2 28 22 409 106 5
测试集T2:Orkanger 123 6 196 167 627 246 608 628
合计 592 0 341 0 122 2 930 358 101 7 490 3
图7 数据集示例

Fig. 7 A sample of the sheep in the dataset

3.3 精度评价

所有模型配置的验证数据集平均精度与处理时间如图7所示。从图中可见,红外模型都具有非常小的处理时间(大约0.1 s/图像),但平均精度比融合模型低10%左右。相比之下,融合模型显然具有最佳的平均精度性能(大多在90%以上),但其处理效率较低。RGB模型在平均精度和处理时间方面介于红外模型和融合模型之间。一些特殊的点(包括pareto前沿的所有点)被标记在图8中,这些兴趣点是通过模型配置设置命名的,例如,‘r18_f4_rgb1024’是一个用ResNet18、融合深度为4、RGB裁切大小1 024的模型。
图8 根据输入类型分组的所有模型性能对比

Fig. 8 Validation average precision performance of all models against inference time grouped by input type

在pareto前沿最优点集合的数值结果如表4所示,所有模型的验证集最高平均精度为96.3%,测试集最高平均精度为94.5%(T1)和82.3%(T2),这是由ResNeXt50融合模型实现的, RGB图像尺寸为1 024,使用该模型的处理时间成本为0.586 s。另一方面,最快的模型是ResNet18红外模型,处理时间为0.096 s,但该模型的验证集平均精度仅为69.6%。
表4 pareto前沿模型的平均精度、准确率、召回率和处理时间结果

Tab.4 Average precision, precision, recall and inference time results for models on the pareto front. The best values are highlighted in bold.

模型 融合深度 RGB尺寸 平均精度 处理时间/s 格网 羊群召回率
训练集 验证集 测试集T1 测试集T2 准确率 召回率
I_r18 - - 0.808 0.696 0.682 0.487 0.096 0.759 0.505 0.721
I_r50 - - 0.893 0.833 0.585 0.385 0.098 0.846 0.726 0.871
I_r101 - - 0.882 0.840 0.620 0.339 0.100 0.844 0.689 0.856
RGB+I_r18 4 256 0.983 0.879 0.912 0.652 0.233 0.834 0.807 0.925
RGB+I_r18 4 512 0.985 0.908 0.924 0.708 0.329 0.839 0.835 0.948
RGB+I_r18 4 1 024 0.991 0.942 0.939 0.804 0.355 0.901 0.858 0.960
RGB+I_r50 4 1 024 0.990 0.959 0.940 0.810 0.465 0.959 0.873 0.968
RGB+I_rx50 4 1 024 0.993 0.963 0.945 0.823 0.586 0.979 0.901 0.975

注:加粗字体表示最优解。

为了分析输入类型和模型设计对性能的影响,将RGB和红外图像裁切尺寸分别固定为1 024和64,融合深度固定为4(对于RGB+I),其模型检测结果如表5所示。从表中可见,以RGB+I作为输入的ResNeXt50模型给出了最好的平均精度结果。同时,输入类型对平均精度的影响似乎要比网络设计大得多,对于每个模型backbone,融合模型的表现都优于RGB和红外模型。同样,对于处理时间,输入类型比backbone有更大的影响,在大多数情况下,红外模型的速度是RGB和融合模型的3倍以上。红外模型受网络深度和基数增加的影响较少,而当模型深度从18增加到50或基数从1(ResNet50)增加到32(ResNeXt50)时,RGB和RGB+I模型的处理时间都增加了约0.1 s。
表5 按模型backbone和输入类型分组的模型测试结果

Tab. 5 Result of models grouped by model backbone and input type

模型Backbone 输入 平均精度 处理时间/s
训练集 验证集 测试集T1 测试集T2
ResNet18 Infrared 0.880 0.741 0.705 0.435 0.100
RGB 0.925 0.817 0.843 0.708 0.285
RGB+I 0.991 0.942 0.939 0.804 0.355
ResNet50 Infrared 0.893 0.833 0.585 0.365 0.098
RGB 0.936 0.871 0.852 0.801 0.380
RGB+I 0.990 0.959 0.940 0.810 0.465
ResNeXt50 Infrared 0.909 0.808 0.770 0.440 0.109
RGB 0.970 0.899 0.918 0.818 0.477
RGB+I 0.993 0.963 0.945 0.823 0.586

3.4 模型泛化能力研究

本节分析了模型在数据集T1和T2上的表现,以深入了解模型对羊羔和未见过的羊种族的泛化能力。
表1可知,T1和T2数据集均包含羊羔和成年羊,且T1数据集均为挪威白羊,T2数据集均为古挪威Spælsau羊,该种类是一种特别多毛和色彩鲜艳的羊,其它数据集中均没有,模型网络在训练期间也未接触过,此外,这些数据集还包括一些其他动物。通过实验对比分析,验证数据集、T1和T2数据集之间的性能比较如图9所示,模型在T2数据集上的表现比在T1和验证数据集上的表现更差,红外模型在T2数据集上的表现尤其差(平均精度44%),而RGB模型在T2上的效果几乎是红外模型的2倍(平均精度81.8%)。与仅RGB相比,在T2上使用RGB+I模型获得的平均精度增益不到1%,相比之下,T1数据集获得了与验证数据集相似的平均精度。
图9 红外、RGB和融合ResNeXt50模型在验证数据集、T1和T2数据集上的平均精度性能

Fig. 9 Examples of predictions made on the validation dataset by the ResNeXt50 I, RGB and RGB+I models

图10显示了T1和T2数据集中羔羊与成年绵羊的召回率,对于T2数据集,羊羔的召回率始终低于成年羊的召回率。然而,对于T1数据集,红外模型的羊羔召回率实际上比成年羊召回率高约10%,RGB和融合模型的召回率大致相同。
图10 不同方法羊羔和成年羊召回率的差异对比

Fig. 10 The difference in sheep recall for lamb vs. adult sheep by different methods

实验结果表明,对于模型训练期间未见过的羊羔和其它羊种族,红外模型泛化能力表现较差,RGB模型和融合模型则表现相当。下一步可将羊羔及新的羊种族图像制作成为样本,进一步提高模型的检测能力。

4 结论

本文提出了一种针对红外和RGB图像中羊群的准确、高效自动检测任务而定制的深度学习模型体系结构。这些架构使用一系列配置实验和测试,包括测试不同的输入类型、模型设计和图像分辨率,以找到一组最佳解决方案,获得平均精度与处理时间平衡的最优参数。在置信阈值为0.5时,最优模型网格准确率为97.9%,召回率为90.1%, RGB和红外模型的准确率和召回率均比融合模型相差9%以上。
研究结果证实了RGB与红外的融合数据比单独使用RGB或红外输入能产生更好的性能结果。融合模型也比单输入RGB模型获得了最大化平均精度与最小化处理时间的平衡,但无法与低分辨率红外模型的快速处理速度相匹配。融合模型结合RGB图像和红外图像的信息,可以利用红外图像中的体温信息以及RGB图像的纹理、形状和颜色细节。通过对样本检测结果的分析表明,这2种输入数据类可以通过支持对方的正确预测和反对对方的错误预测来相互补充。
融合深度、模型复杂性和RGB分辨率也是影响平均精度和处理时间的因素。实验结果表明,ResNet或ResNeXt主干CNN的第四组卷积层融合将为该网络设计提供最佳结果。模型复杂度和RGB分辨率的增加都可以提高平均精度,但是这些调整都以增加时间成本为代价。
尽管如此,本文训练的检测模型所取得的高性能结果表明,使用深度学习方法能够以高精度和可接受的处理时间完成RGB和红外无人机图像中的羊群自动检测。将这种模型集成到一个易于使用的商业系统中,可以极大地帮助牧民在更复杂的地理环境及更大范围内更加高效定位他们的羊群,提高羊检测的自动化程度以节省牧民们宝贵的时间和体力。
[1]
Norske Leksikon S. Sauehold i norge[EB/OL]. 2019, https://snl.no/sau.

[2]
Smartbjella. Smartbjella[EB/OL]. 2019, https://smartbjella.no/

[3]
findmy. findmy[EB/OL]. 2019, https://www.findmy.no/

[4]
Telespor. Elektronisk overvÅking av husdyr[EB/OL]. 2019, https://telespor.no/.

[5]
Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL]. 2018: arXiv: 1804. 02767. https://arxiv.org/abs/1804.02767

[6]
Cai Z W, Vasconcelos N. Cascade R-CNN: Delving into high quality object detection[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:6154-6162. DOI:10.1109/CVPR.2018.00644

[7]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2):318-327. DOI:10.1109/TPAMI.2018.2858826

[8]
Pang J M, Chen K, Shi J P, et al. Libra R-CNN: Towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020: 821-830. DOI:10.1109/CVPR.2019.00091

[9]
Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:580-587. DOI: 10.1109/CVPR.2014.81

[10]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149. DOI:10.1109/tpami.2016.2577031

PMID

[11]
Dai J F, Li Y, He K M, et al. R-FCN: Object detection via region-based fully convolutional networks[EB/OL]. 2016: arXiv: 1605. 06409. https://arxiv.org/abs/1605.06409

[12]
Huang L C, Yang Y, Deng Y F, et al. DenseBox: Unifying landmark localization with end to end object detection[EB/OL]. 2015: arXiv: 1509. 04874. https://arxiv.org/abs/1509.04874

[13]
Liu W, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[C]// European Conference on Computer Vision. Cham: Springer, 2016:21-37.10.1007/978-3-319-46448-0_2

[14]
范红超, 李万志, 章超权. 基于Anchor-free的交通标志检测[J]. 地球信息科学学报, 2020, 22(1):88-99.

DOI

Fan H C, Li W Z, Zhang C Q. Anchor-free traffic sign detection[J]. Journal of Geo-Information Science, 2020, 22(1):88-99. ] DOI:10.12082/dqxxkx.2020.190424

[15]
Ytterland M G, Winsnes T K E. Retrieval of sheep using unmanned aerial vehicles[D]. NTNU, 2019.

[16]
Muribø J H, Hvasshovd S O. Locating sheep with yolov3[D]. NTNU, 2019.

[17]
Rognlien E A, Tran T Q. Detecting Location of free range sheep-using unmanned aerial vehicles and forward looking infrared images[D]. NTNU, 2018.

[18]
Burke C, Rashman M, Wich S, et al. Optimizing observing strategies for monitoring animals using drone-mounted thermal infrared cameras[J]. International Journal of Remote Sensing, 2019, 40(2):439-467. DOI:10.1080/01431161.2018.1558372

[19]
祝宁华, 郑江滨, 张阳. 无人机航拍野生动物智能检测与统计方法综述[J]. 航空工程进展, 2023, 14(1):13-26.

Zhu N H, Zheng J B, Zhang Y. Review of intelligent detection and statistical methods of wild animals in UAV aerial photography[J]. Advances in Aeronautical Science and Engineering, 2023, 14(1):13-26. ] DOI:10.16615/j.cnki.1674-8190.2023.01.02

[20]
赵建敏, 李雪冬, 李宝山. 基于无人机图像的羊群密集计数算法研究[J]. 激光与光电子学进展, 2021, 58(22):220-229.

[ Zhao J M, Li X D, Li B S. Algorithm of sheep dense counting based on unmanned aerial vehicle images[J]. Laser & Optoelectronics Progress, 2021, 58(22):220-229. ]

[21]
Khan A, Sohail A, Zahoora U, et al. A survey of the recent architectures of deep convolutional neural networks[J]. Artificial Intelligence Review, 2020, 53(8):5455-5516. DOI: 10.1007/s10462-020-09825-6

[22]
Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:779-788. DOI:10.1109/CVPR.2016.91

[23]
李柯泉, 陈燕, 刘佳晨, 等. 基于深度学习的目标检测算法综述[J]. 计算机工程, 2022, 48(7):1-12.

DOI

Li K Q, Chen Y, Liu J C, et al. Survey of deep learning-based object detection algorithms[J]. Computer Engineering, 2022, 48(7):1-12. ] DOI:10.19678/j.issn.1000-3428.0062725

DOI

[24]
Zhang Z Y. Flexible camera calibration by viewing a plane from unknown orientations[C]// Proceedings of the Seventh IEEE International Conference on Computer Vision. IEEE, 2002:666-673. DOI:10.1109/ICCV.1999.791 289

[25]
Hassan A. Transfer learning from RGB to multi-band imagery[J]. https://www.azavea.com/blog/2019/08/30/transfer-learning-from-rgb-to-multi-band-imagery,2019.

[26]
Ophoff T, Van Beeck K, Goedemé T. Exploring RGBDepth fusion for real-time object detection[J]. Sensors, 2019, 19(4):866. DOI:10.3390/s19040866

[27]
梁华, 宋玉龙, 钱锋, 等. 基于深度学习的航空对地小目标检测[J]. 液晶与显示, 2018, 33(9):793-800.

Liang H, Song Y L, Qian F, et al. Detection of small target in aerial photography based on deep learning[J]. Chinese Journal of Liquid Crystals and Displays, 2018, 33(9):793-800. ] DOI:10.3788/YJYXS20183309.0793

DOI

[29]
Xie S N, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:5987-5995. DOI:10.1109/CVPR. 2017.634

[30]
Karim R. Illustrated: 10 cnn architectures[EB/OL]. 2019, https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d.

[31]
Bronshtein A. Common loss functions in machine learning[EB/OL]. 2017, https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6.

[32]
Buslaev A, Iglovikov V I, Khvedchenya E, et al. Albumentations: Fast and flexible image augmentations[J]. Information, 2020, 11(2):125. DOI:10.3390/info11020125

[33]
Glossary M L. Machine learning glossary[EB/OL]. 2020, https://ml-cheatsheet.readthedocs.io/en/latest/index.html

[34]
龙怡灿, 雷蓉, 董杨, 等. 基于YOLOv5算法的飞机类型光学遥感识别[J]. 地球信息科学学报, 2022, 24(3):572-582.

DOI

[ Long Y C, Lei R, Dong Y, et al. YOLOv5 based on aircraft type detection from remotely sensed optical images[J]. Journal of Geo-Information Science, 2022, 24(3):572-582. ]

[35]
PyTorch. From research to production[EB/OL]. 2019, https://pytorch.org/

[36]
DroneZon. Top mavic 2 enterprise review and faqs - thermal, dual spotlight,loudspeaker and beacons mounts[EB/OL]. 2019, https://www.dronezon.com/drone-reviews/mavic-2-enterprise-review-with-spotlights-loudspeaker-beacon-faqs/

[37]
Labelbox. Labelbox homepage[EB/OL]. 2019, https://labelbox.com/

Outlines

/