Welcome to Smart Agriculture 中文
Technology and Method

MSH-YOLOv8: Mushroom Small Object Detection Method with Scale Reconstruction and Fusion

  • YE Dapeng 1, 2 ,
  • JING Jun 1 ,
  • ZHANG Zhide 1, 2 ,
  • LI Huihuang 1 ,
  • WU Haoyu 3 ,
  • XIE Limin , 1, 2
Expand
  • 1. College of Mechanical and Electrical Engineering, Fujian Agriculture and Forestry University, Fuzhou 350002, China
  • 2. Fujian Key Laboratory of Agricultural Information Sensoring Technology, Fuzhou 350002, China
  • 3. School of Future Technology, Haixia Institute of Science and Technology, Fujian Agriculture and Forestry University, Fuzhou 350002, China
XIE Limin, E-mail:

YE Dapeng, E-mail:

Received date: 2024-03-30

  Online published: 2024-07-16

Supported by

Fujian Province Forestry Science and Technology Project(2023FKJ01)

Copyright

copyright©2024 by the authors

Abstract

[Objective] Traditional object detection algorithms applied in the agricultural field, such as those used for crop growth monitoring and harvesting, often suffer from insufficient accuracy. This is particularly problematic for small crops like mushrooms, where recognition and detection are more challenging. The introduction of small object detection technology promises to address these issues, potentially enhancing the precision, efficiency, and economic benefits of agricultural production management. However, achieving high accuracy in small object detection has remained a significant challenge, especially when dealing with varying image sizes and target scales. Although the YOLO series models excel in speed and large object detection, they still have shortcomings in small object detection. To address the issue of maintaining high accuracy amid changes in image size and target scale, a novel detection model, Multi-Strategy Handling YOLOv8 (MSH-YOLOv8), was proposed. [Methods] The proposed MSH-YOLOv8 model builds upon YOLOv8 by incorporating several key enhancements aimed at improving sensitivity to small-scale targets and overall detection performance. Firstly, an additional detection head was added to increase the model's sensitivity to small objects. To address computational redundancy and improve feature extraction, the Swin Transformer detection structure was introduced into the input module of the head network, creating what was termed the "Swin Head (SH)". Moreover, the model integrated the C2f_Deformable convolutionv4 (C2f_DCNv4) structure, which included deformable convolutions, and the Swin Transformer encoder structure, termed "Swinstage", to reconstruct the YOLOv8 backbone network. This optimization enhanced feature propagation and extraction capabilities, increasing the network's ability to handle targets with significant scale variations. Additionally, the normalization-based attention module (NAM) was employed to improve performance without compromising detection speed or computational complexity. To further enhance training efficacy and convergence speed, the original loss function CIoU was replaced with wise-intersection over union (WIoU) Loss. Furthermore, experiments were conducted using mushrooms as the research subject on the open Fungi dataset. Approximately 200 images with resolution sizes around 600×800 were selected as the main research material, along with 50 images each with resolution sizes around 200×400 and 1 000×1 200 to ensure representativeness and generalization of image sizes. During the data augmentation phase, a generative adversarial network (GAN) was utilized for resolution reconstruction of low-resolution images, thereby preserving semantic quality as much as possible. In the post-processing phase, dynamic resolution training, multi-scale testing, soft non-maximum suppression (Soft-NMS), and weighted boxes fusion (WBF) were applied to enhance the model's small object detection capabilities under varying scales. [Results and Discussions] The improved MSH-YOLOv8 achieved an average precision at 50% (AP50) intersection over union of 98.49% and an AP@50-95 of 75.29%, with the small object detection metric APs reaching 39.73%. Compared to mainstream models like YOLOv8, these metrics showed improvements of 2.34%, 4.06% and 8.55%, respectively. When compared to the advanced TPH-YOLOv5 model, the improvements were 2.14%, 2.76% and 6.89%, respectively. The ensemble model, MSH-YOLOv8-ensemble, showed even more significant improvements, with AP50 and APs reaching 99.14% and 40.59%, respectively, an increase of 4.06% and 8.55% over YOLOv8. These results indicate the robustness and enhanced performance of the MSH-YOLOv8 model, particularly in detecting small objects under varying conditions. Further application of this methodology on the Alibaba Cloud Tianchi databases "Tomato Detection" and "Apple Detection" yielded MSH-YOLOv8-t and MSH-YOLOv8-a models (collectively referred to as MSH-YOLOv8). Visual comparison of detection results demonstrated that MSH-YOLOv8 significantly improved the recognition of dense and blurry small-scale tomatoes and apples. This indicated that the MSH-YOLOv8 method possesses strong cross-dataset generalization capability and effectively recognizes small-scale targets. In addition to quantitative improvements, qualitative assessments showed that the MSH-YOLOv8 model could handle complex scenarios involving occlusions, varying lighting conditions, and different growth stages of the crops. This demonstrates the practical applicability of the model in real-world agricultural settings, where such challenges are common. [Conclusions] The MSH-YOLOv8 improvement method proposed in this study effectively enhances the detection accuracy of small mushroom targets under varying image sizes and target scales. This approach leverages multiple strategies to optimize both the architecture and the training process, resulting in a robust model capable of high-precision small object detection. The methodology's application to other datasets, such as those for tomato and apple detection, further underscores its generalizability and potential for broader use in agricultural monitoring and management tasks.

Cite this article

YE Dapeng , JING Jun , ZHANG Zhide , LI Huihuang , WU Haoyu , XIE Limin . MSH-YOLOv8: Mushroom Small Object Detection Method with Scale Reconstruction and Fusion[J]. Smart Agriculture, 2024 , 6(5) : 139 -152 . DOI: 10.12133/j.smartag.SA202404002

0 引 言

数字农业的兴起推动了农业生产管理从传统的人工管理模式向数字化、智能化管理转变1。在传统管理模式下,诸如农作物的生长监测、分级分类、病害诊断、采摘收取等环节存在成本高、效率低、易受人为因素干扰等问题2。小目标检测技术的引入有望解决这些问题,成为提高农业生产管理精度、效率和经济效益的关键。
尽管小目标检测技术在农业领域中具有巨大的潜力,但由于小目标的像素范围较小,容易在特征图尺度变换过程中丢失特征,从而导致检测精度下降。因此,如何提高模型的小目标检测能力成为了重要挑战。Zhu等3提出了Transformer Prediction Heads-YOLOv5(TPH-YOLOv5)解决了密集目标场景下不同尺度的目标检测问题,在DET-test-challenge数据集上,TPH-YOLOv5的平均精度值为39.18%,远超其他模型,表现优异。Pham等4提出了YOLO-fine,专为实时操作环境中准确高效地检测小目标而设计,解决了遥感领域的域适应问题。Mathew和Mahesh5利用改进YOLOv5,通过识别叶子上的症状检测辣椒植物上的细菌斑点病,所提出方法被证明对于检测手机拍摄图像中的植物病害非常有效。Gai等6提出了一种改进的YOLOv4-dense用于樱桃检测,实验结果表明YOLOv4-dense的全类平均正确率(Mean Average Precision, mAP)达89.14%,相对其他模型对樱桃检测效果最佳。Ji等7提出了MCS-YOLOv4,在小目标数据集上的实验结果显示,在RSOD数据上,其mAP高达84.63%,与其他检测模型相比,该算法具有优越的性能。Liu等8通过改进YOLOv3同时结合使用无人机视角数据集的优化训练方法,提高了小目标检测性能。Li等9提出了YOLO-ACN,该模型擅长检测小型和遮挡目标,在Microsoft Common Objects in Context(MS COCO)数据集上,以22 ms的实时速度达到了53.8%的mAP50,展示了高准确性和实时速度。Zhang等10基于YOLOv3-tiny提出了一种新的马铃薯种薯芽眼检测算法,改进后模型的检测平均精度达91.18%,调和均值F 1为87.13%,表现优异。Zhang等11提出了MBAB-YOLO,用于实时小目标检测,实验结果表明,MBAB-YOLO在检测准确率和速度方面均表现出色,其mAP50为52%,远高于YOLOv5的32.2%,相较于基准方法具有显著优势。Li和Shen12提出了YOLOSR-IST用于红外检测小目标,该方法在公开数据集上的mAP50达到了99.2%,有效地解决了漏检和误检问题。
上述研究表明,当前研究主要集中在优化特征传递结构以提高小目标检测的精度。然而,对于图像尺寸变化对小目标检测影响问题的研究却相对较少。与此同时,随着食用菌行业的发展,近年来菌菇检测类研究日益增多。如菇房香菇检测与分类13、双孢菇的个体检测14、双孢菇菇帽形态参数测量15、蘑菇空间姿态估计16、猴头菇无损检测与分级17等。然而,菌菇作为一种小型农作物,其检测过程中常常面临小目标检测的挑战:图像尺寸变化与目标尺度变化共存18。虽然上述研究关注菌菇检测,但对于其小目标特性导致的漏检问题尚未进行充分的研究和探讨。
针对以上问题,本研究提出Multi-Strategy Handling YOLOv8(MSH-YOLOv8)的改进模型,旨在应对小目标检测中的挑战。该模型基于YOLOv8s,并采用了一系列创新策略:首先,引入了一个新的检测头,并将Swin Transformer Prediction预测结构Swin Heads(SH)融合到原检测结构中,以提升检测精度和速度;将引入可变形卷积(Deformable Convolutionv4, DCNv4)的C2f层和Swin Transformer编码器整合到YOLO主干网络中,增强特征提取能力;在Neck部分引入基于规范化的注意力模块(Normalization-Based Attention Module, NAM),优化特征利用;此外,采用Wise-Intersection over Union Loss(WIoU)替代原有的阈值(Intersection over Union, IoU)损失函数提高训练效果;最后,在后处理阶段,结合分辨率动态训练(Dynamic Resolution Training, DRT)、多尺度测试(Multi-Scale Testing, MST)策略及软非极大值抑制方法(Soft-Non-Maximum suppression, Soft-NMS)和加权边界框融合算法(Weighted Boxes Fusion, WBF),进一步提升模型的性能表现。

1 算法改进

1.1 MSH-YOLOv8目标检测模型

本研究提出了一种基于YOLOv8s的小目标检测模型:MSH-YOLOv8。该模型由三部分组成:主干网络(Backbone)、颈部网络(Neck)和头部网络(Head)。其中将Swin Transformer特征编码器定义为“SwinStage”;引入Swin Transformer检测结构后的头部输入模块定义为“Swtran”;将引入DCNv4的C2f块定义为“C2f_DCNv4(以下简称C2f_DCN)”;使用“Swtran”作为输入的头部网络定义为“Swtran-Head(SH)”。详细结构如图1所示。
图1 本研究构建的MSH-YOLOv8网络结构

Fig. 1 MSH-YOLOv8 network architecture proposed in this research

主干网络用于提取特征。传统的卷积神经网络(Convolutional Neural Networks, CNN),如Cross Stage Partial(CSPDarknet53)19等通过堆叠不同卷积层提取特征。然而,卷积的感受野范围有限,常需要采用多尺度特征图融合等方式来弥补全局语义信息的不足。相比之下,Swin Transformer20采用了基于注意力机制的架构,利用层次化特征表征及跨层连接等设计获取更大的感受野,同时允许特征信息在不同层级间进行交互,能更好地捕捉全局语义信息,提高特征表征能力。而C2f_DCN21通过引入额外的偏移量,动态调整卷积核的感受野,以更好地适应目标物体的形变或位置偏移,提高特征处理的效率。
考虑到CNN相较于Swin Transformer更加轻量化,为了减少计算负担,本研究在YOLOv8主干网络L3处的添加包含2个“Swin Transformer Block”的特征提取层“SwinStage”。同时将L4,L6,L8和L10处的C2f替换成“C2f_DCN”。该过程中,输入图像被调整大小为[b,1,640,640]的张量。经过两个Conv层处理后,张量变为[b,128,160,160],输入到“SwinStage”中,得到大小为[b,256,80,80]的张量,最后将其输入后续卷积层中。该调整有助于在特征提取的早期阶段充分捕捉到全局特征之间的关联性,从而改善后续卷积层中的信息处理效果,进而提高特征提取的效率。
颈部网络用于特征处理。常用的颈部结构能充分利用不同尺度的特征图,弥补传递特征损失,如特征金字塔(Feature Pyramid Network, FPN)22等。还有一些嵌入功能性模块,如空间金字塔池化(Spatial Pyramid Pooling, SPP)23等。其中,NAM24是一种基于卷积注意力(Convolutional Block Attention Module, CBAM)25的轻量级注意力模块,可以集成到大多数CNN通用架构中,并以端到端方式训练。如图1所示,MSH-YOLOv8颈部采用PANet-FPNet26结构,引入NAM模块,以提高模型的特征利用效率。
头部网络使用来自颈部或主干网络的特征来检测物体的位置和类别。如图1所示,MSH-YOLOv8添加了一个新的检测头部(X-small,Xs-Det),以提高模型小尺度目标的敏感度;同时将“Swtran”集成到原检测头部连接层中,利用自注意力机制提高检测能力。

1.2 分辨率动态训练与模型融合

YOLO默认处理图像像素尺寸为640×640,该条件会导致输入图像被裁剪或填充,从而改变目标的尺度,影响语义信息的丰富度。此外,不同尺寸的图像需要的计算资源也不同,输入大量不同尺寸的图像可能会增加模型的计算负担,影响模型优化,进而对最终结果产生负面影响。针对上述问题,提出分辨率动态训练策略训练7个处理不同尺度图像的子模型并将其融合,实现在图像尺寸与目标尺度变化下特征信息的稳定提取。

1.2.1 图像超分辨率重建

图像超分辨率重建旨在将低分辨率(Low resolution, LR)图像重建到高分辨率(High resolution, HR)图像,强化图像语义信息丰富度。如图2所示,基于对抗生成网络(Generative Adversarial Networks, GAN)的图像超分辨率重建技术可对数据集中的低分辨率图像进行重建,其中,生成网络接收低分辨率图像并学习如何重建高分辨率映射;判别网络则以真实高分辨率图像(Real HR)和生成的高分辨率图像(Fake HR)为输入,运用教师学生模型理论,激励生成网络生成更优质的图像。这种方法能获取内容相同但语义级别不同的图像,为后续研究提供高质量图像数据。
图2 对抗生成网络工作流程

Fig. 2 Workflow of generative adversarial network

1.2.2 模型融合

为减轻输入图像尺寸变化与目标尺度变化对检测结果的影响,本研究提出了一种模型融合方法。首先,利用DRT训练得到7个子模型。接着,通过MST对子模型进行评估,并利用Soft-NMS方法对每个子模型的检测结果进行改进,以提高其精确度。最后,采用WBF方法将多个子模型的输出进行融合,以获得最优结果。
本研究整体流程如图3所示。具体步骤如下。
图3 MSH-YOLOv8工作流程

Fig. 3 Workflow of MSH-YOLOv8

(1)数据集分析与图像选择:分析数据集特性,选择适合的图像作为研究对象。
(2)基于GAN的图像分辨率重建:在保持图像宽高比的前提下,基于640×640的分辨率尺寸,对步骤(1)中图像进行分辨率重建,生成7种不同分辨率尺寸的图像,重建因子分别为0.75、0.8、1、1.2、1.25、1.5和1.6。
(3)DRT:针对每个重建后的图像尺寸,训练相应的子模型sub-model用于处理不同尺寸的图像。
(4)MST与Soft-NMS融合:在推理阶段,每个子模型接受7种不同分辨率的图像作为输入,进行多尺度测试。针对每个子模型的7个预测结果,采用Soft-NMS方法进行融合,以获得鲁棒性更好的检测结果。
(5)WBF融合:采用WBF方法对所有子模型的输出进行集成,得到最终的检测结果。
其中,图像上采样由超分辨率重建方法完成,而图像下采样则通过Lanczos插值方法完成。

2 Fungi数据集介绍及处理

本研究使用开放蘑菇数据集Fungi作为实验材料。该数据集名为“Mushrooms”,共6 714张,图像格式为JPEG,文件大小2 GB。包含9个以北欧常见蘑菇命名的子级文件夹:“Agaricus”有353张图像,“Amanita”有750张图像,“Boletus”有1 073张图像,“Cortinarius”有836张图像,“Entoloms”有364张图像,“Hygrocybe”有316张图像,“Lactarius”有1 563张图像,“Russula”有1 148张图像,“Suillus”有311张图像。由于本研究旨在提升模型小目标检测效果不做分类,故上述9类蘑菇一律标记为“mushroom”。

2.1 数据处理

初步观察Fungi图像,发现有15种以上不同分辨率尺寸,为了解数据详情,统计了6 714张图像的尺寸信息,结果如图4所示。
图4 Fungi图像尺寸研究与统计

Fig. 4 Study and statistics of fungi image dimensions

图4表明,Fungi的图像具有复杂的尺寸分布,像素范围从200×370到1 500×1 200不等,而分辨率尺寸为600×800的图像数量最多。由于网络参数量固定,不同尺寸的图像将导致不同的计算复杂度,从而影响网络的优化效果。尽管YOLO能够处理不同尺寸的图像,但尺寸动态调整仍会增加额外的计算和内存消耗。因此,考虑到Fungi数据集的复杂性,为了提高训练效率,需要选择合适的训练方案。
选择分辨率尺寸分别为1 280×1 200和600×540的图像各100张,并从中各取50张组成混合训练集“both”。结果如图5所示,其中图5a的模型固定处理分辨率尺寸为640,图5b则为1 024。
图5 两种固定处理尺寸下的图像尺寸混合训练对比

Fig. 5 Comparison of mixed training of image sizes under two fixed processing sizes

结果显示,75个训练轮次,单尺寸图像输入的耗时都要小于混合尺寸图像输入的耗时。训练效果上,虽然多尺寸混合输入提高了模型的鲁棒性和泛化性,实现更稳定的训练,但会耗费更多时间和计算资源。因此在资源有限的情况下,难以获取最佳训练效果。特别是当输入图像数量庞大且涵盖多种尺寸时,容易导致训练效率下降,影响模型优化。
因此,本研究采用尺寸重建预处理的方法,避免混合尺寸输入,提高训练效率并改善模型优化效果。由于Fungi包含尺寸多,为了选择合适的图像同时保证样本代表性,基于统计结果,最终选择分辨率尺寸在600×800附近的图像200张作为主要研究材料,同时选择分辨率尺寸在200×400和1 000×1 200附近的图像各50张,以确保图像尺寸的代表性和泛化性。该样本中,“Agaricus”有15张,“Amanita”有32张,“Boletus”有46张,“Cortinarius”有36张,“Entoloms”有16张,“Hygrocybe”有14张,“Lactarius”有67张,“Russula”有49张,“Suillus”有13张,接近原数据整体比例。选取的图像经过上、下采样处理,转换为常用且易于计算的分辨率尺寸:480×480、512×512、640×640、768×768、800×800、960×960和1 024×1 024。最终得到共计2 100张图像,并按照训练集:验证集为8∶2的比例进行划分并标注,其中训练集包含1 680张,验证集420张。

2.2 小尺度目标分析

小目标的定义方法包括基于绝对尺度与基于相对尺度两种。由于图像尺寸不统一,且基于MS COCO数据集定义的绝对尺度标准存在局限性,本研究用基于相对尺度的方法定义小目标:当目标边界框的宽高与图像的宽高比值小于0.1时为小目标27。对300张图像中2 003个目标标注进行统计,结果如图6所示。
图6 不同尺度目标边界框与图像宽高比统计

Fig. 6 Statistics of target bounding box to image aspect ratio at different scales

观察图6可见,比例阈值设置为0.1时,有1 102个对象被归类为小目标,占总量的55.1%。由此可知,选取图像中目标尺度多样化,且主要包含小型目标对象,符合小目标研究预期。
考虑到图像尺寸的因素,对重建图像的目标标注进行统计,如图7所示。
图7 不同图像尺寸下目标尺度变化分析

Fig. 7 Analysis of the variation of target scale under different image sizes

图7显示了图像尺寸变化对目标边界框和图像宽高比例的影响,可见目标尺度在不同图像尺寸下会被重新定义。因此,可以对目标在不同图像尺寸下进行训练,并融合结果以提高模型对小尺度目标的适应度。

3 实验结果与分析

3.1 评价指标

以精度均值(Average Precision, AP)作为评价指标参考评估模型表现。其中AP值越高,模型检测效果越好。设置不同IoU可获取不同AP值,以全面评估模型表现。
最终以APs、AP50、AP@50-95为评价指标。AP50表示IoU为0.5时的AP值(针对所有目标);APs(AP50 small)表示IoU在0.5取值下的针对小目标的AP值;AP@50-95表示IoU在0.5~0.95区间且增量为0.05的所有取值下的AP的均值(针对所有目标)。

3.2 模型训练与环境

在开放数据集Fungi上开展实验,训练环境基于Windows11操作系统,使用Pytorch1.13.1作为深度学习框架编写程序,CUDA版本为11.6,Python版本为3.7。显卡为NVIDIA GeForce RTX3060 GPU,设备主频2.50 GHz,内部储存16 GB。
采用迁移学习方法,以Fungi在YOLOv8s上得到的pt文件作为训练预权重。Batch size设置为-1,epoch设置为75,其中前3个epoch为热身。选择Adam优化器,初始学习率 l r 0设置为21E-4,以余弦退火算法作为训练的学习率策略调度器,超参数周期学习率 l r f设置为9E-2。

3.3 消融实验

在相同的训练参数和条件下,设计了消融实验,结果如图8表1所示。
图8 MSH-YOLOv8消融实验结果曲线

Fig. 8 MSH-YOLOv8 ablation experiment results curve

表1 MSH-YOLOv8消融研究各阶段实验结果

Table 1 Experimental results at each stage of MSH-YOLOv8 ablation study

指标 Basic Meth A Meth B Meth C Meth D Meth E Meth F
Xs Det ×
Swin Transformer encoder × ×
C2f_DCN × × ×
NAM × × × ×
SHs + New Anchors × × × × ×
WIoU × × × × × ×
AP50/% 96.13

96.71

(0.61↑)

97.44

(0.75↑)

97.56

(0.12↑)

97.93

(0.38↑)

98.27

(0.35↑)

98.49

(0.22↑)

APs/% 36.69

37.15

(1.09↑)

38.20

(2.82↑)

38.36

(0.42↑)

38.62

(0.68↑)

39.59

(2.51↑)

39.73

(0.35↑)

Params/M 11.17 19.94 28.15 28.17 28.14 26.93 26.93
GFLOPs 28.81 34.91 40.57 40.67 40.55 24.63 24.63

注:×表示不含此模块;√表示包含此模块。

图8a表示YOLOv8的训练曲线,称为“Basic”;图8b表示在“Basic”基础上添加X-small目标检测头(Xs Det),称为“Meth A”;图8c表示在“Meth A”上引入Swin Transformer特征编码器,称为“Meth B”;图8d表示在“Meth B”上引入C2f_DCN,称为“Meth C”;图8e表示在“Meth C”上集成NAM注意力模块,称为“Meth D”;图8f表示在“Meth D”上使用基于K-means++的自适应锚框,同时引入SH检测头,称为“Meth E”;图8g表示在“Meth E”上配置WIoU损失函数28,称为“Meth F”(MSH-YOLOv8)。
表1为MSH-YOLOv8消融研究各阶段实验结果,具体分析如下。
(1)Meth A的结果显示,尽管添加Xs Det后参数量增加至19.94 M,浮点运算量也增至34.91 G FLOPs,但相较于Basic,其AP50和APs值分别提高了0.61%和1.09%。虽然该阶段增加了模型参数量,但也显著提升了小目标检测性能,因此参数增加是可接受的。
(2)Meth B表明,CNN和Swin Transformer的融合使参数量增至28.15 M,浮点运算量增至40.57 GFLOPs,但对小目标的检测有积极作用。相较Meth A,其APs涨幅高达2.82%。由于该阶段APs指标提升较大,为探究效果变化,输出检测可视化结果如图9所示。其中图9a表示Meth B的可视化结果,图9c表示Meth A的可视化结果,图9b则表示两阶段检测结果的细节差异。该结果直观地展示了Meth B小目标检测能力的提高。
图9 消融实验Meth B阶段蘑菇检测优化结果可视化

Fig. 9 Visualization of optimization results for mushroom in Meth B stage of ablation experiment

(3)Meth C表明,C2f_DCN几乎不会增加参数和计算复杂度,还能提高网络性能。相较上一阶段,AP50提高了0.12%,APs提高了0.42%,这表明可变形卷积能有效改变感受野范围,使其适应不同形态大小的目标,提高目标检测表现。
(4)Meth D表明,在L16、L21、L26、L30、L34和L37处引入NAM模块后,计算复杂度稍有下降,同时AP50较Meth C提升0.38%,APs提升0.68%。该结果表明注意力模块能在减小网络复杂度的前提下提高网络对目标特征的关注度。
(5)Meth E表明,使用基于K-means++的自适应锚框和SH检测结构后,相较于Meth D,AP50提高了0.35%,APs提高了2.51%;与Basic相比,APs更是提高了7.91%,小目标检测能力进步显著。同时,该阶段的参数量也降至26.93 M,分析是由于K-means聚类得到的锚框更适应目标,减少了需要预测的锚框数量,进而减少了参数量。选择一张检测难度较大的样本,输出该阶段检测可视化结果如图10所示,其中图10a图10c分别表示Meth D、Meth E的检测结果,图10b为二者的细节对比。结果表明Meth E已具备优秀的小目标检测能力。
图10 消融实验Meth D阶段蘑菇检测优化结果可视化

Fig. 10 Visualization of optimization results for mushroom in Meth D stage of ablation experiment

(6)边界框损失函数影响模型的收敛速度和训练精度。Meth F结果表明,引入损失函数WIoU后,AP50提高了0.20%,有效提升了模型表现。
为验证WIoU的适配性,在损失函数CIoU、DIoU、WIoU、GIoU间开展实验对比,结果如表2图11所示。
表2 消融阶段不同损失函数的结果横向对比

Table 2 Horizontal comparison of results with different loss functions during ablation stage

模型 AP50/%
Meth E+ CIou Loss 97.83
Meth E+ GIou Loss 98.37
Meth E+ DIou Loss 98.09
Meth E+ WIou Loss 98.37
图11 消融阶段不同损失函数的训练对比曲线

Fig. 11 Training comparison curves of different loss functions during ablation stage

结果表明,虽然GIoU与WIoU均使模型取得了最高精度值,但WIoU在17~70轮次范围内具有最低的损失值,最终收敛至约0.05,较其他损失函数损失值更低;同时,在损失值降至0.10时,WIoU仅用5个epoch,GIoU则用了7个epoch,表现出更快的收敛速度。故最终选用WIoU。
(7)由分析(4)的结论可以看出注意力机制对于网络性能提升有重要作用。开展不同类型注意力机制对比实验,结果如表3所示。可以发现,注意力机制不仅不会增加过多的计算负担,还能提升网络性能。其中NAM注意力机制在Fungi数据上对MSH-YOLO贡献最大。该实验结果为注意力机制的选择提供依据。
表3 MSH-YOLOv8引入不同注意力机制的结果横向对比

Table 3 Horizontal comparison of results with different attention mechanisms introduced in MSH-YOLOv8

模型 AP50/% APs/% Params/M GFLOPs
MSH-YOLO+ NAM 98.47 39.70 26.93 24.63
MSH-YOLO+ CBAM 98.45 39.66 27.02 29.58
MSH-YOLO+ SimAM 98.33 39.63 27.95 29.62
MSH-YOLO+ SE 98.39 39.61 27.03 29.58
MSH-YOLO+ ECA 98.41 39.64 26.95 29.63
最后,对每个功能模块进行独立的消融实验,结果如表4所示。其中,AEn代表消融实验编号,n取1~5。
表4 MSH-YOLOv8单功能模块独立消融实验结果

Table 4 Independent ablation experiment results for single functional modules in MSH-YOLOv8

模型 Basic AE1 AE2 AE3 AE4 AE5 AE6
Xs Det × × × × × ×
C2f_DCN × × × × × ×
Swin Transformer encoder × × × × × ×
NAM × × × × × ×
WIoU × × × × × ×
SHs + New Anchors × × × × × ×
APs/% 36.69

37.15

(1.25↑)

37.03

(0.93↑)

37.18

(1.34↑)

37.05

(0.98↑)

36.71

(0.06↑)

37.13
(1.19↑)

注:×表示不包含此模块;√表示包含此模块。

表4显示,AE3(即Swin Transformer Encoder)对小目标检测性能的影响最显著,使APs提高了1.34%;然后是AE1(Xs Det)、AE6(SHs + New Anchors)和AE4(NAM),使APs分别提高1.67%,1.19%和0.98%;接着是AE2(C2f_DCN)使APs提高0.93%;最后是AE5(WIoU)使APs提高0.06%。上述结果证明了本方法的有效性。

3.4 模型横向对比实验

为验证MSH-YOLOv8的性能,设计同YOLOv5、YOLOv8、TPH-YOLOv5、Swin Transformer和Vision Transformer模型的对比实验。其中固定训练epoch为75,各模型在指标AP50、APs和AP@50-95上的结果如表5所示。
表5 MSH-YOLOv8同其他模型实验结果横向比较

Table 5 Horizontal comparison of experimental results between MSH-YOLOv8 and other models

模型名称 AP50/% 变化量/% AP@50-95/% 变化量/% APs/% 变化量/% GFLOPs Params/M
YOLOv5 95.81 2.80↑ 71.13 5.85↑ 36.32 9.39↑ 16.66 7.23
YOLOv8 96.24 2.34↑ 72.35 4.06↑ 36.60 8.55↑ 28.81 11.17
Vision Transformer 96.07 2.52↑ 71.96 4.63↑ 36.42 9.09↑ 17.67 14.67
Swin Transformer 96.29 2.28↑ 72.54 3.79↑ 36.57 8.64↑ 41.53 49.94
TPH-YOLOv5 96.43 2.14↑ 73.27 2.76↑ 37.17 6.89↑ 36.50 41.91
MSH-YOLOv8 98.49 \ 75.29 \ 39.73 \ 24.63 26.93

注:表中各指标提升率均以MSH-YOLOv8为基准,“\”表示无数据。

表5显示,MSH-YOLOv8在AP50,AP@50-95及APs三项指标上分别达到了98.49%,75.29%和39.73%。虽然参数量和浮点运算量有所上涨,但MSH-YOLOv8的AP50,AP@50-95及APs比YOLOv5分别提高了2.80%,5.85%和9.39%;比YOLOv8分别提高了2.34%,4.06%和8.55%;比TPH-YOLO分别提高了2.14%,2.76%和6.89%;比Swin Transformer分别提高了2.28%,3.79%和8.64%;比Vision Transformer分别提高了2.52%,4.63%和9.09%。结果表明MSH-YOLOv8在Fungi数据集上相较其他优秀模型具有更好的小目标检测能力,具有较强竞争力。

3.5 模型融合实验

3.5.1 分辨率动态训练

为合理分配模型权重以获得更优融合效果,在集成实验前应用分辨率动态训练方法获得7个子模型,即(MSH-YOLOv8-1,MSH1)至(MSH-YOLOv8-7,MSH7),性能结果如表6所示。
表6 MSH-YOLOv8子模型的训练结果

Table 6 Training results of sub-models in MSH-YOLOv8

子模型 处理/输入尺寸 AP50/% APs/%
MSH-YOLOv8-1(MSH1) 480 96.76 37.16
MSH-YOLOv8-2 512 97.90 38.82
MSH-YOLOv8-3 640 98.49 39.73
MSH-YOLOv8-4 768 98.13 39.37
MSH-YOLOv8-5 800 97.95 38.73
MSH-YOLOv8-6 960 97.71 38.65
MSH-YOLOv8-7 1 024 96.82 37.31
观察表6发现,虽然输入到相应子模型中的图像内容相同,但由于图像尺寸不同得到的结果有明显差异。其中MSH2-MSH6的性能优于MSH1和MSH7。这种现象可能是由于两者处理的图像采样倍率较大影响了原有的语义信息。尽管如此,与YOLOv8s相比,MSH1和MSH7的AP50和APs仍然有提高,证明了本研究方法的有效性。
由于融合模型用于检测多尺寸图像,单一尺寸下的训练结果不足以作为参考。以分辨率像素尺寸640×640的图像为例,将其输入到7个子模型得验证结果如图12所示。
图12 尺寸为640的图像在各子模型的验证结果曲线

Fig. 12 Validation result curves of various sub-models with image size 640

观察图12发现,相同尺寸的图像输入到不同子模型的结果不同。本例中,输入分辨率尺寸为640×640,MSH3子模型由于处理尺寸与其匹配,在PR曲线上表现出色,其他子模型则呈现不同的性能。因此,为了让融合模型在处理不同尺寸的图像时更稳定,采用MST方法,将不同尺寸的图像输入到各子模型中测试,以更客观、全面的视角评估各子模型的综合性能,从而获取融合权重分配的依据,提高融合模型在多尺寸图像输入时的表现。
对所有子模型应用MST并以阈值为0.5时的F 1值作为评价标准,得到结果如表7所示。每个模型在不同输入尺寸下的综合性能以“A”表示,“A”越多性能越好,融合分配的权重也越大。
表7 MSH-YOLOv8子模型的多尺度测试及评价结果

Table 7 Multi-scale testing and evaluation results of various sub-models in MSH-YOLOv8

模型 输入尺寸 F 1平均值/%
480 F 1/% 512 F 1/% 640 F 1/% 768 F 1/% 800 F 1/% 960 F 1/% 1 024 F 1/%
MSH1 A 98.22 95.76 95.63 93.74 96.22 92.01 94.73 96.59
MSH2 AAAA 96.75 98.52 93.25 95.88 87.05 92.16 90.77 97.12
MSH3 AAAAA 95.88 96.92 98.49 97.32 96.94 98.33 97.84 97.45
MSH4 AAA 96.73 95.50 96.77 98.78 97.97 96.27 95.42 97.08
MSH5 AAAA 95.87 96.76 97.26 97.04 98.25 96.35 94.09 97.14
MSH6 AAA 94.83 96.37 96.93 96.65 97.09 98.22 96.94 97.07
MSH7 AA 96.08 95.13 97.28 97.92 96.86 97.11 98.31 96.90

注: “A”越多性能越好,融合分配的权重也越大。

表7显示,子模型在与图像处理尺寸相匹配的输入尺寸下表现最佳。而处理其他尺寸的图像时,随着图像采样倍率的变化,F 1值有明显下降,如图13所示。
图13 MSH-YOLOv8的子模型MST结果曲线

Fig. 13 Result curves of sub-model MST in MSH-YOLOv8

3.5.2 融合实验

模型融合过程分为两个主要阶段:子模型的MST结果融合和多个子模型间的结果融合。为了评估这两个阶段对小型目标检测性能的提升,设计了融合实验,其结果如表8所示。
表8 MSH-YOLOv8的融合研究实验结果

Table 8 Experimental results of fusion research in MSH-YOLOv8

模型 AP50/% AP50(Soft-NMS) /% APs/% APs(Soft-NMS) /%
MSH1 96.76 96.94(0.19↑) 37.16 37.68(1.40↑)
MSH2 97.90 98.26(0.37↑) 38.82 39.36(1.39↑)
MSH3 98.49 98.63(0.14↑) 39.73 40.23(1.26↑)
MSH4 98.13 98.48(0.36↑) 39.37 39.82(1.14↑)
MSH5 97.95 98.05(0.10↑) 38.73 39.25(1.34↑)
MSH6 97.71 97.92(0.21↑) 38.65 39.16(1.32↑)
MSH7 96.82 97.38(0.58↑) 37.31 37.81(1.34↑)
平均值 97.63 97.95(0.33↑) 38.54 39.05(1.31↑)
Ensemble(WBF) 98.85 99.14 40.13 40.59
表8显示,Soft-NMS方法有效提高了子模型对小目标的检测性能。具体而言,7个子模型在使用Soft-NMS后AP50平均提高0.33%,APs平均提高1.31%。WBF方法使得融合模型的小目标检测性能显著提高:Ensemble(WBF)的AP50和APs分别比集成前子模型的平均值提高了1.25%和4.13%;相较于最佳子模型MSH3,分别提高了0.37%和1.01%。同时引入Soft-NMS和WBF方法后,集成模型MSH-YOLOv8-ensemble在AP50及APs两项指标上分别达到99.14%和40.59%,与集成前子模型AP50及APs各自平均值97.63%和38.54%相比,分别提高了1.55%和5.32%。与最佳子模型MSH3的两项指标值98.49%和39.73%相比,则分别提高了0.66%和2.16%。实验结果表明,模型融合方法能够充分利用不同模型之间的互补性,提高小目标检测的准确性和鲁棒性。

3.6 跨数据集泛化性实验

最后,本研究采用阿里云天池数据库中的两个包含大量小目标的开放数据集“Tomato Detection-番茄检测”和“苹果”,用上述改进方法得到用于检测番茄与苹果的模型MSH-YOLOv8-t和MSH-YOLOv8-a(以下简称为MSH-YOLOv8),用于评估本方法的泛化性。其中,“Tomato Detection-番茄检测”数据集包含895张图像,目标标注为“tomato”;而“苹果”数据集包含614张图像,目标标注为“apple”。通过Mosaic和随机拼接方法进行2倍的数据增强,得3 018张图像。将数据按照8∶2的比例划分为训练集和验证集,其中验证集包含604张图像,训练集包含2 414张图像。
可视化结果如图14所示,对比发现,相较YOLOv8,MSH-YOLOv8在(B4,A2),(B4,A3)和(B3,A1)处的检测框数量明显增加,对密集且模糊的小尺度番茄和苹果的识别能力明显提高。这表明MSH-YOLOv8方法具有较强的跨数据集泛化能力,能有效识别小尺度目标。
图14 MSH-YOLOv8的跨数据集泛化实验可视化结果

Fig. 14 Visualization of cross-dataset generalization experimental results in MSH-YOLOv8

然而,进一步观察图14也发现了一些问题。预测框的增加由两个因素引起。首先,模型成功识别到了先前未被检测到的小目标。例如,在位置(B2,A3)和(B4,A3)处的底部小番茄的检测中,由于番茄可见区域较小,检测难度较大,更易区分模型小目标检测能力的优劣。其次,个别目标被错误地识别为多个目标。不过该现象主要分布在光线条件不良的图像中。鉴于本研究未使用亮度调整等相关预处理方法增强模型对光照变化的敏感度,考虑到小目标检测能力的显著提升,因此该情况可以接受。

4 结论与分析

针对图像尺寸变化与目标尺度变化给小目标检测带来的挑战,本研究基于YOLOv8模型提出了一种新的检测模型——MSH-YOLOv8。得到以下结论。
(1)在YOLOv8的基础上增加一个新的检测头并将Swin Transformer的检测结构引入到头部网络,提高对小目标的敏感度;引入全新的C2f_DCNv4和Swin Transformer的编码器重构YOLOv8主干网络,增强特征提取能力;添加注意力模块NAM优化网络检测速度和准确度;以WIoU Loss代替原损失函数,提高收敛速度和训练效果。在开放数据集Fungi上测试发现,MSH-YOLOv8在AP50,AP@50-95及APs三项指标上分别达到了98.49%,75.29%和39.73%。与YOLOv8相比,MSH-YOLOv8的三项指标分别提高了2.34%,4.06%和8.55%,有效缓解了蘑菇小目标检测精度低的问题。
(2)应用DRT、MST、Soft-NMS和WBF模型融合等方法将7个处理特定图像尺寸的子模型集成为MSH-YOLOv8-ensemble。在AP50及APs两项指标上分别达到99.14%和40.59%,与集成前子模型AP50及APs各自的平均值97.63%和38.54%相比,分别提高了1.55%和5.32%;与最佳子模型MSH3的两项指标98.49%和39.73%相比,分别提高了0.66%和2.16%。有效缓解了图像尺寸变化和目标尺度变换共存给小目标检测带来的负面影响,提高了小目标检测能力。
(3)在阿里云天池数据集“Tomato Detection-番茄检测”和“苹果”上采用相同的改进方法得到模型:MSH-YOLOv8-t(用于番茄检测)和MSH-YOLOv8-a(用于苹果检测)。结果显示,这两个模型能够有效识别景深模糊的小目标,凸显了本方法的通用性。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
LIU J Z, LI Z G, LI P P. History and present situations of robotic harvesting technology: A review[M]// Springer Tracts in Mechanical Engineering. Cham: Springer Singapore, 2021.

2
刘雨婷. 基于特征融合的小目标检测算法研究[D]. 徐州: 中国矿业大学, 2023.

LIU Y T. Research on the small object detection algorithm based on feature fusion[D].Xuzhou: China University of Mining and Technology, 2023.

3
ZHU X K, LYU S C, WANG X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]// 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). Piscataway, New Jersey, USA: IEEE, 2021: 2778-2788.

4
PHAM M T, COURTRAI L, FRIGUET C, et al. YOLO-fine: One-stage detector of small objects under various backgrounds in remote sensing images[J]. Remote sensing, 2020, 12(15): ID 2501.

5
MATHEW M P, MAHESH T Y. Leaf-based disease detection in bell pepper plant using YOLO v5[J]. Signal, image and video processing, 2022, 16(3): 841-847.

6
GAI R L, CHEN N, YUAN H. A detection algorithm for cherry fruits based on the improved YOLO-v4 model[J]. Neural computing and applications, 2023, 35(19): 13895-13906.

7
JI S J, LING Q H, HAN F. An improved algorithm for small object detection based on YOLO v4 and multi-scale contextual information[J]. Computers and electrical engineering, 2023, 105: ID 108490.

8
LIU M, WANG X, ZHOU A, et al. UAV-YOLO: Small object detection on unmanned aerial vehicle perspective[J]. Sensors (basel), 2020, 20(8): ID E2238.

9
LI Y J, LI S S, DU H H, et al. YOLO-ACN: Focusing on small target and occluded object detection[J]. IEEE access, 2020, 8: 227288-227303.

10
ZHANG W Z, HAN Y L, HUANG C, et al. Recognition method for seed potato buds based on improved YOLOv3-tiny[J]. INMATEH agricultural engineering, 2022, 67(2): 364-373.

11
ZHANG J, MENG Y Z, YU X H, et al. MBAB-YOLO: A modified lightweight architecture for real-time small target detection[J]. IEEE access, 2023, 11: 78384-78401.

12
LI R H, SHEN Y. YOLOSR-IST: A deep learning method for small target detection in infrared remote sensing images based on super-resolution and YOLO[J]. Signal processing, 2023, 208: ID 108962.

13
LIU Q, FANG M, LI Y S, et al. Deep learning based research on quality classification of shiitake mushrooms[J]. LWT, 2022, 168: ID 113902.

14
MA H, MA H G, JI J T, et al. FES-YOLOv5s: A lightweight model for agaricus bisporus detection[J]. IEEE access, 2024, 12: 71219-71231.

15
LU C P, LIAW J J. A novel image measurement algorithm for common mushroom caps based on convolutional neural network[J]. Computers and electronics in agriculture, 2020, 171: ID 105336.

16
RETSINAS G, EFTHYMIOU N, MARAGOS P. Mushroom segmentation and 3D pose estimation from point clouds using fully convolutional geometric features and implicit pose encoding[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, New Jersey, USA: IEEE, 2023: 6263-6270.

17
张银萍, 朱双杰, 徐燕, 等. 基于机器视觉的猴头菇品质快速无损检测与分级[J]. 现代食品科技, 2023, 39(3): 239-246.

ZHANG Y P, ZHU S J, XU Y, et al. Rapid non-destructive testing and grading of hericium erinaceus based on machine vision[J]. Modern food science and technology, 2023, 39(3): 239-246.

18
YANG Y M, LIAO Y R, CHENG L F, et al. Remote sensing image aircraft target detection based on GIoU-YOLO v3[C]// 2021 6th International Conference on Intelligent Computing and Signal Processing (ICSP). Piscataway, New Jersey, USA: IEEE, 2021: 474-478.

19
WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, New Jersey, USA: IEEE, 2020: 1571-1580.

20
LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2021.

21
XIONG Y W, LI Z Q, CHEN Y T, et al. Efficient deformable ConvNets: Rethinking dynamic and sparse operator for vision applications[EB/OL]. arXiv: 2401.06197, 2024.

22
LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017: 936-944.

23
HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]// European Conference on Computer Vision. Cham, Germany: Springer, 2014: 346-361.

24
LIU Y, SHAO Z, TENG Y, ET AL. NAM: Normalization-based attention module[EB/OL]. arXiv: 2111.12419, 2021.

25
WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]// Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

26
LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 8759-8768.

27
CHEN C Y, LIU M Y, TUZEL O, et al. R-CNN for small object detection[C]// Asian Conference on Computer Vision. Cham, Germany: Springer, 2017: 214-230.

28
HU D A, YU M, WU X Y, et al. DGW-YOLOv8: A small insulator target detection algorithm based on deformable attention backbone and WIoU loss function[J]. IET image processing, 2024, 18(4): 1096-1108.

Outlines

/