Welcome to Smart Agriculture 中文
Technology and Method

Lightweight Daylily Grading and Detection Model Based on Improved YOLOv10

  • JIN Xuemeng 1, 2 ,
  • LIANG Xiyin , 1, 2 ,
  • DENG Pengfei 1, 2
Expand
  • 1. Department of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, China
  • 2. Gansu Province Intelligent Information Technology and Application Engineering Research Center, Lanzhou 730070, China
LIANG Xiyin, E-mail:

JIN Xuemeng, E-mail:

Received date: 2024-07-27

  Online published: 2024-10-16

Supported by

>Gansu Provincial Higher Education Institutions Industry Support Program for 2023(2023CYZC-19)

>Gansu Provincial Education Science and Technology Innovation Project(2021CYZC-22)

Copyright

copyright©2024 by the authors

Abstract

[Objective] In the agricultural production, accurately classifying dried daylily grades is a critical task with significant economic implications. However, current target detection models face challenges such as inadequate accuracy and excessive parameters when applied to dried daylily grading, limiting their practical application and widespread use in real-world settings. To address these issues, an innovative lightweight YOLOv10-AD network model was proposed. The model aims to enhance detection accuracy by optimizing the network structure and loss functions while reducing parameters and computational costs, making it more suitable for deployment in resource-constrained agricultural production environments. [Methods] The dried daylilies selected from the Qingyang region of Gansu province as the research subject. A large number of images of dried daylilies, categorized into three grades superior, medium, and inferior, were collected using mobile phones under varying lighting conditions and backgrounds. The images were carefully annotated and augmented to build a comprehensive dataset for dried daylily grade classification. YOLOv10 was chosen as the base network, and a newly designed backbone network called AKVanillaNet was introduced. AKVanillaNet combines AKConv (adaptive kernel convolution) with VanillaNet's deep learning and shallow inference mechanisms. The second convolutional layer in VanillaNet was replaced with AKConv, and AKConv was merged with standard convolution layers at the end of the training phase to optimize the model for capturing the unique shape characteristics of dried daylilies. This innovative design not only improved detection accuracy but also significantly reduced the number of parameters and computational costs. Additionally, the DysnakeConv module was integrated into the C2f structure, replacing the Bottleneck layer with a Bottleneck-DS layer to form the new C2f-DysnakeConv module. This module enhanced the model's sensitivity to the shapes and boundaries of targets, allowing the neural network to better capture the shape information of irregular objects like dried daylilies, further improving the model's feature extraction capability. The Powerful-IOU (PIOU) loss function was also employed, which introduced a target-size-adaptive penalty factor and a gradient adjustment function. This design guided the anchor box regression along a more direct path, helping the model better fit the data and improve overall performance. [Results and Discussions] The testing results on the dried daylily grade classification dataset demonstrated that the YOLOv10-AD model achieved a mean average precision (mAP) of 85.7%. The model's parameters, computational volume, and size were 2.45 M, 6.2 GFLOPs, and 5.0 M, respectively, with a frame rate of 156 FPS. Compared to the benchmark model, YOLOv10-AD improved mAP by 5.7% and FPS by 25.8%, while reducing the number of parameters, computational volume, and model size by 9.3%, 24.4%, and 9.1%, respectively. These results indicated that YOLOv10-AD not only improved detection accuracy but also reduced the model's complexity, making it easier to deploy in real-world production environments. Furthermore, YOLOv10-AD outperformed larger models in the same series, such as YOLOv10s and YOLOv10m. Specifically, the weight, parameters, and computational volume of YOLOv10-AD were only 31.6%, 30.5%, and 25.3% of those in YOLOv10s, and 15.7%, 14.8%, and 9.8% of YOLOv10m. Despite using fewer resources, YOLOv10-AD achieved a mAP increase of 2.4% over YOLOv10s and 1.9% over YOLOv10m. These findings confirm that YOLOv10-AD maintains high detection accuracy while requiring significantly fewer resources, making it more suitable for agricultural production environments where computational capacity may be limited. The study also examined the performance of YOLOv10-AD under different lighting conditions. The results showed that YOLOv10-AD achieved an average accuracy of 92.3% in brighter environments and 78.6% in darker environments. In comparison, the YOLOv10n model achieved 88.9% and 71.0% in the same conditions, representing improvements of 3.4% and 7.6%, respectively. These findings demonstrate that YOLOv10-AD has a distinct advantage in maintaining high accuracy and confidence in grading dried daylilies across varying lighting conditions. [Conclusions] The YOLOv10-AD network model proposed significantly reduces the number of parameters and computational costs without compromising detection accuracy. This model presents a valuable technical reference for intelligent classification of dried daylily grades in agricultural production environments, particularly where resources are constrained.

Cite this article

JIN Xuemeng , LIANG Xiyin , DENG Pengfei . Lightweight Daylily Grading and Detection Model Based on Improved YOLOv10[J]. Smart Agriculture, 2024 , 6(5) : 108 -118 . DOI: 10.12133/j.smartag.SA202407022

0 引 言

黄花菜(Hemerocallis citrina)是一种常见的食用花卉,具有丰富的营养价值及药用价值。在中国,经过干制处理的黄花菜(又称金针菜)是餐桌上的常见食材。干制黄花菜在加工和储存过程中,由于受到环境、处理方法等多种因素的影响,品质参差不齐1。因此,对干制黄花菜进行科学、有效的分级检测,确保产品的质量和市场竞争力,已成为重要课题。
传统的干制黄花菜分级检测主要依赖于人工经验,通过视觉、触觉等感官手段进行评判,不仅耗时费力,而且容易受到主观因素的影响,导致检测结果不稳定和不准确。此外,人工操作在处理黄花菜时,可能会导致不同程度的物理损伤,从而影响黄花菜的外观品质和市场价值。因此,开发自动化、高效且可靠的黄花菜分级技术已成为行业迫切需求。利用计算机视觉和机器学习技术进行自动化分级能够提供更为一致和客观的分拣结果,同时显著提高处理速度,减少人力成本,正逐渐成为一种前沿的解决方案2
基于深度学习的目标检测算法,如Faster Region Convolutional Neural Networks(FasterR-CNN)、Single Shot MultiBox Detector(SSD)和YOLO系列等经典模型,在农业领域展现出显著的效果。蔡静敏3对改进的Faster R-CNN模型进行了改进,其中主干网络被替换为ResNet50,实现了苹果外观无损检测,准确率达到86.4%。Wang等4提出了一种基于改进的具有注意力机制的Faster R-CNN的近色背景番茄幼果检测方法,改进后的模型在精确度和效率上都有显著提升。虽然Faster R-CNN包含区域建议网络(Region Proposal Network, RPN),在精度上通常优于其他模型,但其复杂的二阶网络架构需要较多的计算资源,不适合于智能终端的轻量化部署。
在一阶段算法中,SSD在检测速度上优于Faster R-CNN。Wang等5利用MobileNetV3+预测块微型化Prediction Block Miniaturization(RPBM)使SSD网络实现对柑橘蚜虫的准确检测,平均精度(Mean Average Precision, mAP)高达86.10%,平均延迟低至185 ms。Ding等6针对苹果检测存在遮挡和小物体检测困难的问题,提出了一种基于SSD的改进模型,改进后的算法将遮挡和小物体检测的准确率分别提高3.4%和3.9%。然而,SSD算法需要较多的训练调整,调试过程依赖于丰富的经验。YOLO系列则以简洁的架构和高速处理能力而著称,是目前目标检测算法中应用最广、性能较好的算法,特别适用于实时检测和轻量化部署。例如,姚涛等7提出了一种基于改进YOLOv7-seg的黄花菜目标检测与实例分割算法模型,通过引入卷积块注意力模块(Convolutional Block Attention Module, CBAM)注意力机制和PConv模块等改进,有效解决了复杂环境下黄花菜检测和分割的难题,为智能化采摘提供了技术支持。吴利刚等8提出了一种基于改进YOLOv5的轻量级黄花成熟度检测算法(SSH-YOLOv5),结合了轻量级网络ShuffleNet V2和通道注意力机制SE Net(Squeeze-and-Excitation Network),实现了模型的轻量化和高精度检测,为智能化黄花采摘提供了技术支持。
综上所述,众多算法已在农作物识别领域取得显著成果。然而,目前针对黄花菜的识别研究主要集中于其智能采摘和成熟度检测,而干制黄花菜的分级研究相对较少。干制后的黄花菜通常卷曲且形状不规则,整体呈长条状,与常见果蔬相比,其外接矩形框的长宽比较大,这使得传统的目标检测算法难以有效适应其形状特征。此外,现有的目标检测模型在部署过程中也面临许多挑战,包括高参数量、大计算需求,以及模型权重占用较多内存等问题,这些限制因素影响了模型在实际应用中的有效性和效率9
针对上述问题,本研究将深度学习的目标检测算法引入到干制黄花菜的分级领域,提出了一种轻量级的黄花菜分级检测模型YOLOv10-AD。该模型旨在提高黄花菜分级检测的准确性和效率,同时降低计算资源的消耗。在模型设计方面,设计了一种新的骨干网络AKVanillaNet,该网络不仅提高了模型精度,还显著减少了参数量,使得模型更加轻量化和高效。为了进一步提升模型的性能,引入了Powerful-IOU(PIOU)损失函数10作为边界框损失函数,以期更好地拟合数据,提升模型性能。

1 数据集构建

1.1 图像获取

以产自甘肃省庆阳市的干制黄花菜为研究对象,在室内使用vivo S16手机原相机(分辨率像素为3 456×4 608)拍摄了1 172张黄花菜图像。拍摄环境包含了从明亮到昏暗的多种光照条件,以及白色、灰色等多种背景设置,以确保数据的多样性和广泛分布,符合真实场景需求。根据现行地方标准11和行业标准12,将黄花菜分为优等(Good)、中等(Average)和次等(Poor)3个等级,同时保证各等级样本数量相对均衡。图1展示了部分黄花菜分级数据集图像。
图1 部分黄花菜分级数据集图像

Fig. 1 Part images from the daylily grading dataset

1.2 数据集标注

使用Labelme进行标注,标注格式为JSON。Labelme软件如图2所示。图像标签基于以下原则:1)遮挡面积超过4/5的黄花菜不进行标注;2)黄花菜图像模糊,但黄花菜面积较大的,进行标注;3)贴标签时,确保标签和黄花菜区域最大限度的重叠。随后,这些带有标注信息的图像从JSON格式转换为*.txt格式,以便于后续处理。根据此标注原则,最终得到了1 071张带有标注的图像。
图2 Labelme软件标注界面

Fig. 2 Labelme software annotation interface

1.3 数据扩充

数据扩充具有节省标注时间、防止模型过度拟合和提高模型泛化能力等优点13图3展示了一些数据扩充方法,包括水平翻转、垂直翻转、随机旋转、高斯噪声、亮度变化和随机遮挡。对每张标注图像随机应用这些扩充方法,将原有的1 071张图像扩充8倍至8 568张。随后,根据标注标准对扩充后的图像进行了筛选,最终生成了8 535张有效图像。将这些图像按照8∶1∶1的比例划分为训练集、验证集和测试集。
图3 黄花菜数据集图像扩充

Fig. 3 Daylily dataset image augmentation

2 YOLOv10-AD算法

YOLOv1014是YOLO系列最新的模型,具备识别精度高和识别速度快的优点。其Backbone部分包含多层Conv模块、C2f模块和SCDown模块,这些模块优化了网络的学习效率和特征识别能力。然而,多层不同尺度的卷积操作会产生大量冗余特征图,可能对模型的检测速度造成一定影响8。此外,在干制黄花菜的等级分类任务中,YOLOv10算法还面临着外接矩形框长宽比例较大的挑战,这使得检测算法难以有效适应黄花菜独特的形状特征,导致检测精度较低。因此,本研究在YOLOv10的基础上,结合干制黄花菜的独特形状特征,对Backbone部分进行了改进,简化了网络结构,设计了针对黄花菜特征提取的网络——AKVanillaNet。该网络不仅显著提高了检测精度,还减少了模型参数量,实现了模型的轻量化。通过在C2f结构中嵌入DysnakeConv模块,进一步增强了对干制黄花菜特征的提取能力。在颈部和头部网络中,本研究保留了YOLOv10的原有模块,充分利用其在多尺度特征融合方面的优势。YOLOv10-AD网络如图4所示。
图4 YOLOv10-AD模型结构

Fig. 4 Structure of YOLOv10-AD model

2.1 AKVanillaNet模块设计

VanillaNet15的网络结构如图5所示。该网络仅包含基本的卷积层和池化层,避免了复杂的连接或跳跃连接,从而有效地减少了模型的计算量和参数量。在训练初期,VanillaNet使用两个带有激活函数的卷积层来代替单个卷积层。随着训练周期的增加,这些激活函数逐渐简化为身份映射。在训练结束时,可以轻松地将这两个卷积层合并为一个卷积层,从而减少推理时间。这种设计不仅优化了训练过程,还显著提高了推理效率。
图5 VanillaNet网络结构图

Fig. 5 VanillaNet architecture diagram

然而,VanillaNet在干制黄花菜的分级识别中存在一定的不足。干制黄花菜形状不规则,总体呈长条状,而VanillaNet的卷积核大小固定为1×1的正方形,卷积操作局限于局部窗口,无法获取其他位置信息,且其采样形状是固定的。因此,VanillaNet中固定样本形状和正方形卷积核无法很好地适应干制黄花菜的检测。
AKConv16(可变核卷积)提供了一种灵活的卷积机制,允许卷积核具有任意数量的参数。这意味着卷积核不再局限于标准的方形网格,而是可以根据图像特征和任务需求,采用多样化和灵活的形状。在处理不同图像和目标时,AKConv的卷积核能够通过引入一种新的坐标生成算法自动调整其采样形状。该算法可以为不同大小和形状的卷积核生成初始采样坐标,如图6所示,提供了不规则卷积核的初始采样形状,从而更好地匹配和覆盖干制黄花菜的不规则长条区域。通过这种设计,AKConv能够更有效地适应复杂和多样的图像特征。
图6 AKConv任意卷积核大小的初始采样坐标

Fig. 6 Initial sampling coordinates for arbitrary kernel size in AKConv

此外,AKConv通过其独特设计有效减少了模型参数和计算开销。与传统卷积网络中参数数量随着卷积核尺寸平方级增长不同,AKConv允许卷积核的参数数量根据需要进行线性调整。这使得AKConv能够根据任务需求和硬件能力灵活地调节模型的复杂度。在硬件资源有限的环境中,AKConv通过减少不必要的参数来优化性能,不仅减轻了对存储和计算资源的需求,还加快了模型的推理速度。
受VanillaNet的深度训练和浅层推理思想启发,以及AKConv独特卷积机制的启示,本研究设计了AKVanillaNet模块。如图7所示,将VanillaNet中的第2层卷积替换为AKConv,并在训练结束时将AKConv与标准卷积层合并。这种设计不仅增强了对干制黄花菜特征的提取能力,还显著减少了模型的参数和计算开销。优化后的模型在保证识别效果的前提下,显著降低了训练和推理过程中的计算资源需求,从而提高了模型的整体效率和实用性。
图7 VanillaNet和AKVanillaNet卷积层结构

Fig.7 The convolutional layer structures of VanillaNet and AKVanillaNe

2.2 C2f-DysnakeConv模块设计

C2f模块是YOLOv10中用于特征提取的一种模块。通过级联特征,C2f模块提升了模型的表达能力和检测精度。其主要思想是通过两次前向传播获得更丰富的特征表示,并通过连接操作将这些特征融合。然而,在黄花菜分级检测任务中,C2f模块存在一些不足。例如,黄花菜在实际检测中可能会以不同的角度和形态出现,C2f模块在处理这种变形和旋转情况时的鲁棒性不够,影响了分级效果。
动态蛇形卷积(Dynamic Snake Convolution)17的设计灵感来源于蛇形的形状,旨在改善对目标形状和边界的敏感性。该卷积能够帮助神经网络更好地捕捉目标的形状信息,特别适用于干制黄花菜这种不规则形状的目标。
结合C2f模块的思想和动态蛇形卷积的优势,本研究在原有C2f结构的基础上引入了动态蛇卷积模块。具体来说,本研究将C2f模块中的Bottleneck层替换为Bottleneck-DS层,从而构建了新的C2f-DysnakeConv模块(图8)。
图8 C2f-DysnakeConv模块

Fig. 8 C2f-DysnakeConv module

Bottleneck-DS模块的设计如图9所示。本研究将传统Bottleneck层中的Conv替换为具有动态机制的DysnakeConv卷积,从而形成Bottleneck-DS模块。这个改进旨在利用动态蛇形卷积的特性,增强模型对目标形状和边界的敏感性,提高特征提取的精度和效率。
图9 Bottleneck-DS模块

Fig. 9 Bottleneck-DS module

2.3 Powerful-IOU(PIOU)损失函数

边界框回归(Bounding Box Regression, BBR)是目标检测中的核心任务之一,其损失函数对性能有着显著影响。YOLOv10模型在优化边界框预测时采用了Complete Intersection over Union(CIOU)18损失。而PIOU损失函数,通过结合目标尺寸自适应的惩罚因子和基于锚框质量的梯度调整函数,进一步优化了这一过程。
在损失函数性能方面,PIOU通过引入目标尺寸自适应的惩罚因子和梯度调整函数,引导锚框沿更直接的路径回归,从而更精确地拟合数据。相比之下,尽管CIOU在传统IOU的基础上有所改进,但其性能仍不及PIOU。

3 实验结果与分析

3.1 训练环境与方法

为了验证YOLOv10-AD算法在检测性能上的显著提升,对包含8 535个干制黄花菜样本的数据集进行了实验。实验环境的硬件和软件配置如下:Python 3.10.12、PyTorch 2.0.1、Cuda 11.8.89,GPU为NVIDIA GeForce RTX 4090。输入图片尺寸为640×640,采用Mosaic方式进行数据增强。初始学习率设为0.01,Batchsize设为16,优化器选择AdamW,训练轮数设为200。
为了确保实验结果的公平性,在相同的硬件环境和初始训练参数下,对所有模型进行了统一训练。

3.2 评价指标

在评估网络模型的大小时,通常考虑两个关键指标:参数量和权重文件的大小。参数量代表模型中需要训练的参数总数,而权重文件的大小则表示经过训练后得到的权重文件的尺寸。参数量和权重文件越小,模型越容易部署到移动终端上。此外,计算量(GFLOPs)用于量化模型的计算效率,其数值越低,表示模型在执行任务时所需的计算资源越少,效率越高。帧率FPS(Frames Per Second)表示模型在单位时间内处理图像的数量,FPS值越高,意味着模型的实时性能越好。通过综合考虑参数量、权重文件大小、计算量和FPS,本研究可以全面评估模型的部署和运行效率。
精确率P、召回率R、平均精度(Average Precision, AP)和mAP用于评估目标检测方法的准确性。
P表示在预测的阳性样本中成为阳性样本的比率,如公式(1)所示。
P = T P / ( T P + F P )
R表示正确预测的阳性样本与标记的阳性样本的比率,如公式(2)所示。
R =   T P / ( T P + F N )
PR这两个指标呈负相关。因此,为了全面评估算法的质量,通常以召回率为横轴、精确率为纵轴绘制PR曲线。以召回率为横轴,精确率为纵轴,绘制出PR曲线。PR曲线下方的区域为AP值,如公式(3)所示。而mAP代表多个类别AP的平均值。
AP = 0 1 p ( r ) d r

3.3 消融实验分析

消融实验的目的是验证AKVanillaNet模块、C2f-DysnakeConv模块和PIOU损失函数在YOLOv10-AD网络中的作用。表1展示了在消融实验中,不同配置对3种等级黄花菜检测结果的影响。
表1 YOLOv10-AD网络消融实验结果

Table 1 The ablation study results of the YOLOv10-AD network

模型 AKVanillaNet C2f_DySnakeConv PIOU Good AP/%

Average

AP%

Poor

AP/%

权重/MB 参数量/M 计算量/GFLOPs mAP@0.5/% FPS
× × × 88.6 73.0 78.4 5.5 2.70 8.2 80.0 124
× × 91.4 76.4 79.2 4.0 1.92 5.8 82.3 163
× × 87.2 74.6 77.5 7.0 3.45 8.8 79.7 114
× × 87.4 71.3 77.1 5.5 2.70 8.2 78.6 126
× 87.9 74.9 78.3 7.0 3.45 8.8 80.4 108
× 91.7 76.0 79.9 4.0 1.92 5.8 82.5 151
× 92.2 80.4 82.2 5.0 2.45 6.2 84.9 148
92.8 81.6 82.8 5.0 2.45 6.2 85.7 156

注:表中加粗数据表示最优结果;“×”表示未使用相应模块;“√”表示采用了该模块。

根据表1的消融实验结果,在基准网络YOLOv10n(模型①)中引入AKVanillaNet模块后,模型②的权重从基准的5.5 M降至4.0 M,减少了1.5 M;参数量从基准的2.70 M降至1.92 M,减少了0.78 M;计算量从基准的8.2 GFLOPs降至5.8 GFLOPs,减少了2.4 GFLOPs,FPS从基准模型的124提升至163,提升了31.5%。同时显著提升了优等、中等和次等黄花菜的检测精度。AKVanillaNet仅包含基本的卷积层和池化层,避免了复杂的分支结构,同时能够更好地匹配和覆盖干制黄花菜的不规则长条区域。因此,引入AKVanillaNet模块可以在实现轻量化的同时提高不同等级黄花菜的检测精度。
单独引入C2f-DySnakeConv模块后,模型③相较于基准模型,其权重、参数量和计算量分别增加了1.5 M、0.75 M和0.6 GFLOPs,平均精度下降了0.3%,FPS下降了8%。类似地,单独引入PIOU损失函数后,模型④相较于基准模型精度下降了1.4%,但FPS提升了1.6%。模型⑤和模型⑥分别在C2f_DySnakeConv模块和AKVanillaNet模块的基础上引入PIOU损失函数,相较于未引入PIOU损失函数的模型③和模型②,在不改变模型权重、参数量和计算量的同时,模型平均精度有略微提升,分别提升了0.7%和0.2%,但FPS略有下降,分别下降了5.3%和7.4%。
这些结果表明,在黄花菜分级任务中,单独引入某个模块或损失函数并不能有效提升模型性能,反而可能导致性能下降。这说明仅依靠单一改进并不足以优化模型,需要综合考虑多种因素以实现性能提升。
在同时引入AKVanillaNet模块和C2f-DySnakeConv模块后,模型⑦的权重、参数量和计算量相较于基准模型分别降低了0.5 M、0.25 M和2.0 GFLOPs,FPS提升了19.4%,mAP提升了4.9%,对优等、中等和次等黄花菜的检测精度均有显著提升。在AKVanillaNet模块的基础上添加C2f-DySnakeConv模块虽然略微增加了计算量,但利用动态蛇形卷积的特性,增强了模型对干制黄花菜形状和边界的敏感性,进一步提升了检测精度。
最终模型YOLOv10-AD(模型⑧)同时引入了AKVanillaNet模块、C2f-DySnakeConv模块和PIOU损失函数,使得模型的mAP达到最高85.7%,比基准模型提升了5.7%;FPS到达了156,比基准模型提升了25.8%,各个等级的识别精度也达到了最高。其中优等和次等黄花菜的检测精度分别由基准的88.6%和78.4%提升至92.8%和82.8%,分别提高了4.2%和4.4%,中等提升最为显著,由基准的73.0%提升至81.6%,提高了8.6%。同时,最终模型也保持了较低的权重、参数量和计算量,相比基准模型分别下降了9.1%、9.3%和24.4%。
综上所述,本研究提出的黄花菜分级检测模型相比基准模型,显著提高了对不同等级黄花菜的检测精度,同时有效降低了模型的复杂度。

3.4 与当前主流YOLO算法的对比

本研究在干制黄花菜分级数据集上对YOLOv10-AD网络模型与YOLOv10系列不同大小的模型,以及其他主流YOLO模型进行了对比实验,结果如表2所示。
表2 YOLOv10-AD网络与当前主流YOLO算法在黄花菜分级检测中的对比试验结果

Table 2 Comparison test results of YOLOv10-AD network and current mainstream YOLO algorithms in daylily grading detection

模型 权重/MB 参数量/M 计算量/ GFLOPs mAP@0.5/% FPS
YOLOv3-tiny 23.2 12.10 18.9 82.7 88
YOLOv5n 5.0 2.50 7.1 82.5 120
YOLOv6n 8.3 4.23 11.8 82.8 97
YOLOv8n 6.3 3.00 8.1 85.0 104
YOLOv9t 4.4 2.01 7.9 84.0 135
YOLOv9-AD 5.2 2.56 8.1 84.4 116
YOLOv10n 5.5 2.70 8.2 80.0 124
YOLOv10s 15.8 8.04 24.5 83.3 84
YOLOV10m 31.9 16.5 63.4 83.8 52
YOLOv10-AD 5.0 2.45 6.2 85.7 156

注:表中加粗数据表示最优结果。

根据表2的实验结果,本研究提出的干制黄花菜分级算法YOLOv10-AD在mAP和计算效率方面明显优于主流的YOLO算法。相较于前代轻量化模型YOLOv9t19,YOLOv10-AD仅增加了0.6 M的模型大小和0.44 M的参数量,却带来了1.7%的平均精度提升,同时FPS提升了15.6%。由于本次改进仅针对模型的骨干网络,因此将改进应用于YOLOv9t后的YOLOv9-AD模型其整体性能不及YOLOv10-AD。相较于基准模型YOLOv10n,YOLOv10-AD的mAP提升了5.7%,同时模型权重、参数量和计算量分别减少了0.5 M、0.25 M和2.0 GFLOPs,FPS提升了25.8%。
此外,即使与同系列中更大型的模型YOLOv10s和YOLOv10m相比,YOLOv10-AD也展现出显著的优势,其权重、参数量和计算量仅为YOLOv10s的31.6%、30.5%、25.3%和YOLOv10m的15.7%、14.8%、9.8%,但mAP却分别比YOLOv10s和YOLOv10m提高了2.4%和1.9%,同时FPS分别提升了85.7%和200%。
综上所述,本研究提出的YOLOv10-AD算法在提升检测精度的同时,具备模型体积小、计算量低和检测速度快的优势,能够满足黄花菜分级检测的实际需求,便于在终端检测设备上部署。
为了更直观地展示各个模型的性能,根据测试集中的所有类别绘制了9个网络模型的PR曲线,如图10所示,横轴和纵轴分别代表召回率和查准率。PR曲线与坐标轴所围成的面积表示模型的mAP值,面积越大,模型性能越好。从图中可以看出,本研究提出的YOLOv10-AD算法的PR曲线与坐标轴所围成的区域面积最大。因此,YOLOv10-AD作为一种轻量化模型,与其他先进的主流YOLO模型相比,在干制黄花菜分级任务中依然具有显著的优势。
图10 YOLOv10-AD模型与主流YOLO模型对比实验各模型PR曲线

Fig. 10 Comparison experiment of YOLOv10-AD model and mainstream YOLO models PR curves of each model

3.5 与轻量化改进模型对比

本研究在干制黄花菜分级数据集上,对YOLOv10-AD网络模型与基于Mobileone20、ShuffleNetV221、Mobilenetv322和vanillaNet等轻量化网络改进的YOLOv10n模型进行了对比实验,结果如表3所示。
表3 YOLOv10-AD模型与轻量化改进模型在黄花菜分级检测中的对比实验结果

Table 3 Comparison experiment results of YOLOv10-AD model and lightweight improved model in daylily grading detection

模型 权重/MB 参数量/M 计算量/GFLOPs mAP@0.5/% FPS
YOLOv10n-Mobileone 6.1 2.94 8.6 78.5 114
YOLOv10n-ShuffleNetV2 5.7 2.80 9.8 78.6 102
YOLOv10n-Mobilenetv3 2.8 1.30 3.2 81.0 149
YOLOv10n-vanillaNet 4.3 2.09 5.4 80.8 135
YOLOv10-AD 5.0 2.45 6.2 85.7 156

注:表中加粗数据表示最优结果。

根据表3的实验结果,本研究提出的干制黄花菜分级算法YOLOv10-AD实现了85.7%的最高识别精度和156的最高FPS。相比YOLOv10n-Mobileone和YOLOv10n-ShuffleNetV2,YOLOv10-AD的权重、参数量和计算量均有所减少,同时分别提升了7.2%和7.1%的精度。与最轻量化的YOLOv10n-Mobilenetv3相比,虽然YOLOv10-AD的权重、参数量和计算量分别增加了2.2 M、1.15 M和3.0 GFLOPs,但模型精度提高了4.7%。这种适度的计算量和参数量的增加,换来了显著的精度提升,显示了YOLOv10-AD在性能和资源消耗之间的良好平衡。YOLOv10n-vanillaNet是未引入AKConv的vanillaNet模型,由表1的模型②可知,引入AKConv后权重、参数量分别减少了0.3 M和0.17 M,计算量虽然有0.4 GFLOPs的增加,但FPS提升了20.7%。由于AKConv能更好地匹配和覆盖干制黄花菜的不规则长条区域,能进行更有效的预处理和特征提取,虽然增加了一些前期的计算量,但使得模型能更快地处理后续的计算任务,从而在整体上提高了FPS。

3.6 不同损失函数对比

为了验证PIOU损失函数在黄花菜分级检测任务中的性能提高,将完全交并比(Complete Intersection over Union, CIOU)、高效交并比(Efficient Intersection over Union, EIOU)、软交并比(Soft Intersection over Union, SIOU)和基于形状的交并比(Shape-based Intersection over Union, Shape-IOU)分别做为YOLOv10模型的损失函数,在本研究数据集上训练并做对比实验,训练曲线如图11所示。
图11 不同损失函数对比实验Loss损失曲线

Fig. 11 Comparison experiment of different loss functions of loss curve

图11的实验结果可以看出,在本研究的数据集中,EIOU、SIOU和Shape-IOU损失函数在训练过程中的loss值均高于YOLOv10原始的CIOU损失函数。然而,PIOU损失函数的loss值低于CIOU损失函数,显示出更好的数据拟合能力,从而表现出更优越的性能。

3.7 检测效果可视化分析

本研究在不同光照条件下对干制黄花菜进行了测试,分别选取了585张较亮场景和455张较暗场景的图像。实验结果表明,YOLOv10n模型在较亮环境下的平均精度为88.9%,而在较暗环境下为71.0%。相较之下,YOLOv10-AD模型在较亮环境下的平均精度达到了92.3%,在较暗环境下则为78.6%,较YOLOv10n模型分别提升了3.4%和7.6%。这些数据展示了YOLOv10n模型对黄花菜目标检测精度不足,在较暗环境下更为明显,而YOLOv10-AD模型在处理不同光照条件下的图像时表现出更优越的性能。图12中,展示了YOLOv10n和本研究提出的YOLOv10-AD算法在黄花菜分级检测中的可视化对比,可以清晰地看到两种算法在不同环境下的表现差异。
图12 黄花菜分级检测可视化效果图

Original annotation YOLOv10n YOLOv10-AD

Fig. 12 Visualization effects for daylily grade detection

在较亮环境下的目标检测中,YOLOv10n算法表现出了一些局限性。例如,在图12a中,YOLOv10n算法检测出的黄花菜目标出现了两个重叠的检测框,导致目标类别的不确定性增加;图12b中,虽然 YOLOv10n 算法能够识别出黄花菜的等级,但出现了误检现象,将3个黄花菜错误地识别成了4个。相比之下,YOLOv10-AD算法能够精确识别出黄花菜的等级,且不存在误检现象,表明其在相同环境下具有更高的检测准确率。
在较暗环境下的多目标检测中,YOLOv10n算法的误检现象更加明显。如图12c所示,YOLOv10n算法虽然识别出了黄花菜的等级,但将4个黄花菜错误地识别成了6个。与此相对,YOLOv10-AD算法不仅准确地识别出了4个黄花菜的等级,而且其置信度也明显高于YOLOv10n算法,进一步证明了YOLOv10-AD算法在低光照条件下的优越性能。由此可以明显看出YOLOv10n算法由于对黄花菜目标检测精度不够,直接影响了分级检测精度,而YOLOv10-AD算法在提高黄花菜分级检测的准确性和置信度方面具有显著优势。

4 结 论

本研究针对干制后黄花菜的等级分类领域,建立了一个包含丰富样本的黄花菜等级分类数据集,并提出了一种高效、轻量的YOLOv10-AD网络模型。本研究设计了全新的骨干网络AKVanillaNet,显著减少了模型的参数量和模型大小,同时提升了模型的精度。将DysnakeConv模块嵌入C2f结构中,进一步增强了对干制黄花菜特征的提取能力,提高了识别精度。此外,使用PIOU损失函数,使模型更好地拟合数据,提升了模型性能。
相较于原始YOLOv10n模型,YOLOv10-AD模型的mAP@0.5提升了5.7%,同时网络的参数量、计算量及模型大小分别下降了9.3%、24.4%和9.1%,FPS提升了25.8%。与主流YOLO模型、同系列中更大型的模型以及其他基于YOLOv10n的轻量化改进模型相比,YOLOv10-AD在黄花菜等级分类任务中均展现出了高检测精度、低模型参数和检测速度快的优势,具备优异的综合性能,能够满足黄花菜等级分类的要求。
未来会借助一种特殊的自动化装置,利用气泵将单个或2~4个少量黄花菜精准地吹入特定容器内,并通过高速摄像头进行抓拍,以实现更为精准的自动化分级,从而满足实际生产需求。同时,也将在现有模型的基础上继续研究密集场景中黄花菜的分级识别技术,提升检测精度,加快处理速度,并对模型进行移植和优化,确保其在边缘移动平台上的高效运行,使模型体积更小、部署更为便捷。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
武珍珍, 洪沙沙, 吕虹瑞, 等. 黄花菜保鲜贮藏及后处理加工技术研究进展[J]. 食品与发酵工业, 2023, 49(22): 334-340.

WU Z Z, HONG S S, LYU H R, et al. Research progress in fresh-keeping, storage and post-processing technology of daylily[J]. Food and fermentation industries, 2023, 49(22): 334-340.

2
王思丽, 张伶, 杨恒, 等. 深度学习语言模型的研究综述[J]. 农业图书情报学报, 2023, 35(8): 4-18.

WANG S L, ZHANG L, YANG H, et al. Review of deep learning for language modeling[J]. Journal of library and information science in agriculture, 2023, 35(8): 4-18.

3
蔡静敏. 基于深度学习的苹果外观无损检测系统研究与实现[D]. 呼和浩特: 内蒙古农业大学, 2020.

CAI J M. Research and implementation of apple appearance nondestructive inspection system based on deep learning[D]. Hohhot: Inner Mongolia Agricultural University, 2020.

4
WANG P, NIU T, HE D J. Tomato young fruits detection method under near color background based on improved faster R-CNN with attention mechanism[J]. Agriculture, 2021, 11(11): ID 1059.

5
WANG L H, SHI W P, TANG Y H, et al. Transfer learning-based lightweight SSD model for detection of pests in citrus[J]. Agronomy, 2023, 13(7): ID 1710.

6
DING X, LI Q, WANG X, et al. Apple detection algorithm based on an improved SSD [J]. The Journal of the institute of internet, broadcasting and communication, 2021, 21(3): 81-89.

7
姚涛, 谈志鹏, 程娥, 等. 基于改进YOLOv7-seg的黄花菜检测与分割方法[J]. 农业工程学报, 2024, 40(9): 146-153.

YAO T, TAN Z P, CHENG E, et al. Method for daylily detection and segmentation based on improved YOLOv7-seg[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(9): 146-153.

8
吴利刚, 吕媛媛, 周倩, 等. 基于改进YOLOv5的轻量级黄花成熟检测方法[J]. 中国农机化学报, 2024, 45(7): 235-242, 268.

WU L G, LYU Y Y, ZHOU Q, et al. Lightweight method for maturity detection of Hemerocallis citrina Baroni based on improved YOLOv5[J]. Journal of Chinese agricultural mechanization, 2024, 45(7): 235-242, 268.

9
MENGHANI G. Efficient deep learning: A survey on making deep learning models smaller, faster, and better[J]. ACM computing surveys, 2023, 55(12): 1-37.

10
LIU C, WANG K G, LI Q, et al. Powerful-IoU: More straightforward and faster bounding box regression loss with a nonmonotonic focusing mechanism[J]. Neural networks, 2024, 170: 276-284.

11
地理标志产品 庆阳黄花菜: DB62/T 4487—2021 [S]. 兰州: 甘肃省市场监督管理局, 2021.

12
NY/T 4333—2023. 脱水黄花菜加工技术规范 [S]. 北京: 中华人民共和国农业农村部, 2023.

13
CHEN J Q, MA A Q, HUANG L X, et al. GA-YOLO: A lightweight YOLO model for dense and occluded grape target detection[J]. Horticulturae, 2023, 9(4): ID 443.

14
WANG A, CHEN H, LIU L H, et al. YOLOv10: Real-time end-to-end object detection[EB/OL]. arXiv: 2405.14458, 2024.

15
CHEN H, WANG Y, GUO J, et al. Vanillanet: The power of minimalism in deep learning[EB/OL]. arXiv:2305.12972, 2023, 36.

16
ZHANG X, SONG Y, SONG T, et al. AKConv: Convolutional kernel with arbitrary sampled shapes and arbitrary number of parameters[EB/OL]. arXiv: 2311.11587, 2023.

17
QI Y L, HE Y T, QI X M, et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2023: 6070-6079.

18
ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: Faster and better learning for bounding box regression[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12993-13000.

19
WANG C Y, YEH I H, LIAO H Y M. YOLOv9: Learning what you want to learn using programmable gradient information[EB/OL]. arXiv: 2402.13616, 2024.

20
VASU P K A, GABRIEL J, ZHU J, et al. MobileOne: An improved one millisecond mobile backbone[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023.

21
MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018: 122-138.

22
HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2019.

Outlines

/