Welcome to Smart Agriculture 中文

Grading Asparagus officinalis L. Using Improved YOLOv11

  • YANG Qilang 1, 2, 3 ,
  • YU Lu 1, 2, 3 ,
  • LIANG Jiaping , 1, 2, 3
Expand
  • 1. Faculty of Modern Agricultural Engineering, Kunming University of Science and Technology, Kunming 650500, China
  • 2. Yunnan Key Laboratory of Efficient Utilization and Intelligent Control of Agricultural Water Resources, Kunming 650500, China
  • 3. Yunnan International Joint Laboratory of Intelligent Agricultural Engineering Technology and Equipment, Kunming 650500, China
LIANG Jiaping, E-mail:

YANG Qiliang, E-mail:

Received date: 2025-01-24

  Online published: 2025-06-03

Supported by

China National Funds for Distinguished Young Scientists(52209055)

Yunnan Fundamental Research Projects(202501AW070013)

Yunnan Province "Xing Dian Ying Talent Support Program" Young Talent Special Project(KKXX202423032)

Yunnan Key Laboratory of Efficient Utilization and Intelligent Control of Agricultural Water Resources(202449CE340014)

Yunnan International Joint Laboratory of Intelligent Agricultural Engineering Technology and Equipment(202403AP140007)

Copyright

copyright©2025 by the authors

Abstract

[Objective] Asparagus officinalis L. is a perennial plant with a long harvesting cycle and fast growth rate. The harvesting period of tender stems is relatively concentrated, and the shelf life of tender stems is very short. Therefore, the harvested asparagus needs to be classified according to the specifications of asparagus in a short time and then packaged and sold. However, at this stage, the classification of asparagus specifications basically depends on manual work, and it is difficult for asparagus of different specifications to rely on sensory grading, which requires a lot of money and labor. To save labor costs, an algorithm based on asparagus stem diameter classification was developed using deep learning and computer vision technology. This method selected YOLOv11 as the baseline model and makes several improvements, aiming to study a lightweight model for accurate grading of post-harvest asparagus. [Methods] This dataset was obtained by cell phone photography of post-harvest asparagus using fixed camera positions. In order to improve the generalization ability of the model, the training set was augmented with data by increasing contrast, mirroring, and adjusting brightness. The data-enhanced training set includes a total of 2 160 images for training the model. And the test set and validation set include 90 and 540 images respectively for inference and validation of the model. In order to enhance the performance of the improved model, the following four improvements were made to the baseline model, respectively. First, the efficient channel attention (ECA) module was added to the twelfth layer of the YOLOv11 backbone network. The ECA enhanced asparagus stem diameter feature extraction by dynamically adjusting channel weights in the convolutional neural network and improved the recognition accuracy of the improved model. Second, the bi-directional feature pyramid network (BiFPN) module was integrated into the neck network. This module modified the original feature fusion method to automatically emphasize key asparagus features and improved the grading accuracy through multi-scale feature fusion. What's more, BiFPN dynamically adjusted the importance of each layer to reduce redundant computations. Next, the slim-neck module was applied to optimize the neck network. The slim-neck Module consisted of GSConv and VOVGSCSP. The GSConv module replaced the traditional convolutional. And the VOVGSCSP module replaced the C2k3 module. This optimization reduced computational costs and model size while improving the recognition accuracy. Finally, the original YOLOv11 detection head was replaced with an EfficientDet Head. EfficientDet Head had the advantages of light weight and high accuracy. This head co-training with BiFPN to enhance the effect of multi-scale fusion and improve the performance of the model. [Results and Discussions] In order to verify the validity of the individual modules introduced in the improved YOLOv11 model and the superiority of the performance of the improved model, ablation experiments and comparison experiments were conducted respectively. The results of the comparison test between different attentional mechanisms added to the baseline model showed that the ECA module had better performance than other attentional mechanisms in the post-harvest asparagus grading task. The YOLOv11-ECA had higher recognition accuracy and smaller model size, so the selection of the ECA module had a certain degree of reliability. Ablation experiments demonstrated that the improved YOLOv11 achieved 96.8% precision (P), 96.9% recall (R), and 92.5% mean average precision (mAP), with 4.6 GFLOPs, 1.67 × 10⁶ parameters, and a 3.6 MB model. The results of the asparagus grading test indicated that the localization frames of the improved model were more accurate and had a higher and higher confidence level. Compared with the original YOLOv11 model, the improved YOLOv11 model increased the precision, recall, and mean average precision by 2.6, 1.4, and 2.2 percentage points, respectively. And the floating-point operation, parameter quantity, and model size were reduced by 1.7 G, 9.1 × 105, and 2.2 MB, respectively. Moreover, various improvements to the model could increase the accuracy of the model while ensuring that the model was light weight. In addition, the results of the comparative tests showed that the performance of the improved YOLOv11 model was better than those of SSD, YOLOv5s, YOLOv8n, YOLOv11, and YOLOv12. Overall, the improved YOLOv11 had the best overall performance, but still had some shortcomings. In terms of the real-time performance of the model, the inference speed of the improved model was not optimal, and the inference speed of the improved YOLOv11 was inferior to that of YOLOv5s and YOLOv8n. On this basis, to evaluate the inference speed of improved YOLOv11 and YOLOv11 used the aggregate test. The results of the Wilcoxon signed-rank test showed that the improved YOLOv11 had a significant improvement in inference speed compared to the original YOLOv11 model. [Conclusions] The improved YOLOv11 model demonstrated better recognition, lower parameters and floating-point operations, and smaller model size in the asparagus grading task. The improved YOLOv11 provided a theoretical foundation for intelligent post-harvest asparagus grading. Deploying the improved YOLOv11 model on asparagus grading equipment enables fast and accurate grading of post-harvest asparagus.

Cite this article

YANG Qilang , YU Lu , LIANG Jiaping . Grading Asparagus officinalis L. Using Improved YOLOv11[J]. Smart Agriculture, 2025 : 1 -11 . DOI: 10.12133/j.smartag.SA202501024

0 引 言

芦笋(Asparagus officinalis L.),学名石刁柏、龙须菜,富含维生素、蛋白质、矿物质等,是一种兼具营养与经济价值的高档蔬菜1。中国是世界上第一大芦笋生产国和出口国。近年来,中国芦笋产业快速发展,逐渐成为促进农民增收、农业增效,以及农村经济发展的重要支柱之一2。由于芦笋为多年生植物,具有采收周期长、生长速度快、嫩茎采收期比较集中且嫩茎保质期短的特点3。采收后的芦笋需要在短时间内根据芦笋的规格进行分级后包装售出。目前,芦笋规格的分级基本依赖于人工,且不同规格的芦笋依靠感官分级比较困难,需要耗费大量的资金与劳动力。随着对智慧农业的大力推广以及深度学习与计算机视觉领域的不断发展,基于深度学习的图像检测技术为芦笋自动化分级提供了新的解决方案,能有效地节约人工成本,提升采后芦笋的分级效率。
近年来,深度学习图像检测技术在农业领域有着广泛的应用,涵盖成熟度检测、病虫害监测、障碍物检测、采收点定位、农作物分级等多个方面4。任秋晶等5提出的基于改进YOLOv8n网络的番茄成熟度检测算法在YOLOv8网络中引入通道嵌入位置注意力模块和改进大核卷积块注意力模块,实现了模型的轻量化部署,但该算法在复杂光照条件下的识别精度仍有提升空间。袁杰等6提出一种改进的YOLOv7的苹果叶片病害检测方法,通过特征金字塔替代原有融合方式、采用通道注意力机制及SIoU(Structured Intersection over Union)损失函数,有效提升了模型性能,但单幅图像处理时间尚未达到最优水平。杨昊霖等7提出一种基于改进YOLOv5的田间复杂环境障碍物检测方法,通过K-means聚类优化先验锚框、引入卷积块注意力机制(Convolutional Block Attention Module, CBAM)注意力机制及Ghost卷积,在提升精度的同时降低了参数量,但准确率仍具改进空间。张立杰等8采用改进单次多框检测器(Single Shot Multibox Detector, SSD)算法实现了对苹果的精准定位与分级,该方法用分离卷积模块替换了原SSD网络主干特征提取网络中部分标准卷积,实现了对苹果果径和果形的分级的精确率达到94.89%。但该方法在减少功耗与用时的同时精度有所降低。Zhao等9提出一种YOLOv8x-SPPCSPC-CBAM模型实现对新鲜茶叶品质的精准分级,该模型集成空间金字塔池化跨阶段部分连接(Spatial Pyramid Pooling with Channel Spatial Pooling, SPPCSPC)模块并引入CBAM注意力机制,实现散落及堆叠的茶叶的检测的准确率分别为98.2%和99.1%,但该模型的准确率仍有一定提升空间。Fan等10提出了一种基于YOLOv5的轻量级模型,用于在清洁或复杂场景中检测和识别粗细品种水果并在线分级,结合C3Ghostv2模块和Wise IoU损失函数,在复杂场景中实现了93.6%的mAP,但仍存在漏检现象。汪小旵等11提出一种改进的YOLACT(You Only Look At Coefficients)++算法获取芦笋的掩膜,经过骨架拟合之后评估芦笋的长度和基部直径,分级之后进行采收,该方法通过添加CBAM注意力机制和SPP结构使得改进后的YOLACT++算法芦笋判别准确率达到95.24%,并且在检测时间上相较于其他算法优势显著。
综上,深度学习图像检测技术在农业实际应用中,特别是针对芦笋采后分级场景,仍面临以下挑战:1)部分深度模型存在模型架构复杂、推理延迟高的问题,影响了实际应用效率;2)现有模型在精度与速度、精度与模型体积的平衡上仍有改进空间;3)目前研究多聚焦于采前与采收过程中的芦笋检测,而专门针对采后芦笋进行分级的方法相对稀缺。
针对上述问题,本研究提出了一种基于改进YOLOv11的采后芦笋分级模型,重点实现采后芦笋的高精度分级,确保其满足低算力设备的部署需求,旨在为采后芦笋分级提供一种轻量化、精准且高效的检测方案。

1 试验数据

1.1 图像采集

本实验所采用的数据集拍摄于云南省昆明市呈贡区昆明理工大学现代农业工程学院307实验室,拍摄对象为采收后的绿芦笋。图像采集流程如下:首先,于2024年4—6月采笋期内每日16∶00采收芦笋,采收的芦笋长度在23 cm以上;其次,将采收后的芦笋首先使用游标卡尺测量芦笋基部茎粗并按照国家标准12将芦笋分为3个等级,分别为细笋(Fine)、中笋(Mid)、粗笋(Thick),细笋茎粗大于等于3 mm且小于10 mm、中笋茎粗大于等于10 mm且小于17 mm、粗笋茎粗大于等于17 mm;最后,将测量分级后的芦笋进行拍摄。芦笋等级见表1。采后芦笋数据集采样过程中的芦笋采收场景、采后的芦笋以及3种等级的芦笋数据集图像如图1所示。
表1 芦笋等级表

Table 1 Asparagus grade table

等级 细笋(Fine) 中笋(Mid) 粗笋(Thick)
规格/mm >=3, <10 >=10, <17 >=17
图1 芦笋数据采样过程

a.芦笋采收场景 b.采收后陈列在实验台上的芦笋 c.3种等级的芦笋数据集图像

Fig. 1 Asparagus data sampling process

考虑采收后芦笋的株高与茎粗,不断调试固定机位的高度,最终设计固定机位高度为距离芦笋30 cm。拍摄时将芦笋置于黑色吸光布上,拍摄环境为自然光,拍摄设备为手机Honor 80 Pro,拍摄的每张图像的分辨率都为2 736×3 648,保存为JPG格式。图像采集装置示意图如图2所示。
图2 芦笋图像采集装置示意图

注:1.台面;2.吸光布;3.芦笋;4.手机。

Fig. 2 Schematic of asparagus image acquisition device

1.2 芦笋数据集制作

对拍摄的芦笋图像进行筛选,除去成像模糊的图像,保留3种等级的芦笋图像各300张,将共计900张图像作为原始数据集。使用LabelImg标注软件对900张芦笋图像进行标注,标注范围为芦笋植株的最小外接矩形,3种等级的芦笋按照测量的茎粗由细到粗分别标注为分别为“Fine”“Mid”“Thick”3种标签,标注后自动生成带有芦笋标签、矩形框位置信息的xml文件。
对标注后的数据集进行划分,划分后的训练集为540张,测试集与验证集分别为90张和270张。为了增加数据的多样性和泛化能力,采用镜像、提高对比度、调节亮度的方式对540张芦笋训练集进行扩充,最终扩充至2 160张,扩充后的数据集如图3所示。
图3 芦笋数据集示例图

a. 原图 b. 提高对比度 c. 调节亮度 d. 镜像

Fig. 3 Example diagram of a asparagus dataset

1.3 试验平台

本研究采用64位Windows 10操作系统,处理器为Intel Core i7,显卡型号为NVIDIA GeForce RTX 4090 24210 MiB,CUDA版本为11.3,编程平台为Visual Studio Code,编译语言为Python3.8.10,迭代次数为200次、学习率为0.01、batch_size为16。本研究中所有对比试验和消融试验等均在此环境下进行。

2 试验方法

2.1 改进的YOLOv11目标检测算法

本研究采用YOLOv1113为基础模型,在此基础上进行改进。YOLOv11是Ultralytics公司于2024年提出的单目标检测算法,YOLOv11采用经典的目标检测3阶段结构,包括主干网络(Backbone)、颈部网络(Neck)、检测头(Head)。与YOLOv8相比,YOLOv11采用C3k2模块代替传统的C2f结构,在浅层网络中通过动态调整卷积核形状增强特征提取能力同时减少参数量;引入了C2PSA模块,该模块在C2模块中嵌入金字塔空间注意力(Positional Self-Attention, PSA)14;在分类检测头处加入了两个深度可分离卷积,从而减少了计算复杂度和参数量,达到提升模型的推理速度效果。
采用原始的YOLOv11算法对芦笋数据集进行训练,3种等级的芦笋的识别效果并不理想并且模型的大小与参数量等性能有待提升。由于芦笋的茎粗特征在分级区间的边界点处不够明显,无法准确地将中等芦笋与粗笋、细笋区别开,为了加强对茎粗特征的提取,减少模型冗余的计算,提高检测精度,基于YOLOv11算法进行改进,以提高芦笋的识别效果以及模型的性能。
为了增强芦笋的特征提取效果,并优化模型的评估效果,首先,在Backbone主干网络的第十二层添加高效通道注意力机制(Efficient Channel Attention, ECA)模块;其次,融入双向特征金字塔网络(Bi-directional Feature Pyramid Network, BiFPN),同时引入slim-neck模块;最后,将检测头替换为EfficientDet Head。改进后的YOLOv11模型图如图4所示。
图4 改进的YOLOv11网络模型图

注: Conv为卷积操作;Concat为特征连接模块;Unsample为上采样模块;Maxpool2d为最大池化操作。

Fig. 4 Improved YOLOv11 network model diagram

2.1.1 ECA模块

ECA模块是一种轻量级的通道注意力模块,通过自适应卷积核和局部跨通道交互提升模型性能,同时保持计算效率15。芦笋茎粗分级需识别细微的茎粗差异,ECA通过动态加权机制增强关键的芦笋基部茎粗的通道特征,抑制冗余信息,提高模型对局部茎粗特征的敏感度,ECA结构设计如图5所示。首先,对大小为C×H×W的特征图进行全局平均池化GAP操作,从而得到1×1×C的特征图;其次,进行通道特征学习,ECA使用动态的卷积核来完成一维卷积操作,全局学习不同通道之间的重要性,输出1×1×C的特征图,卷积核大小k通过如公式(1)确定;最后,使用Sigmoid激活函数得到各个通道的权重,将这些权重与原始输入特征图对应元素相乘,得到最终输出特征图16。ECA通过局部跨通道交互和一维卷积操作能有效实现冗余压缩和精度提升,因此,为了加强对芦笋茎粗这一表型特征的提取,在YOLOv11的Backbone主干网络的第12层添加ECA注意力机制模块,以改善芦笋数据集的识别效果。
图5 ECA注意力机制结构图

Fig. 5 Structure of efficient channel attention

k = ψ ( C ) = l o g 2 C γ + b γ o d d
式中:C为通道数;γ为超参数,用来控制通道数对注意力权重的贡献程度;b为偏置项,用来调整整体表达式的偏移量。

2.1.2 双向特征金字塔网络

为了提高模型在芦笋分级任务中的精度和多尺度特征融合能力,在YOLOv11原始模型中引入BiFPN,其核心原理是通过双向连接和自适应特征调整机制,以实现多尺度特征的高效融合17,其结构如图6所示。本研究改变YOLOv11模型中原始的特征融合方式为BiFPN具有以下优势:BiFPN通过多尺度特征融合,能够自动强化芦笋的关键特征、更准确地捕捉芦笋的尺寸差异,提高分级精度;BiFPN可以动态调整各层的重要性,减少冗余,提升模型的效率。
图6 BiFPN结构图

注: P3、P4、P5、P6、P7均为Backbone主干网络的输出层。

Fig. 6 BiFPN structure diagram

2.1.3 轻量级slim-neck模块

Slim-neck是一种用于优化颈部(Neck)网络的架构,主要包括GSConv(Global Sparse Convolution)和VoVGSCSP(Voice of Voter-group Shuffle Cross Stage Partial Network)模块18
GSConv-[19]是一种轻量级的卷积神经网络,它融合了标准卷积(Standard Convolution, SC)、深度可分离卷积(Depth-wise Separable Convolution, DSC),以及通道混洗(Channel Shuffle)技术。GSConv首先输入初始通道数为C1特征图通过一个标准卷积层处理,其输出特征图的通道数减半至C2/2。紧接着,该输出被送入深度可分离卷积(DWConv)模块,该模块对每个通道独立进行卷积操作,以生成新的特征。DWConv的优势在于能够显著减少卷积运算所需的参数数量和计算复杂度,同时保持特征图的通道数不变20。随后,将标准卷积层的输出与DWConv的输出进行拼接,从而得到通道数为C2的特征图。紧接着,对该特征图执行通道混洗(Shuffle)操作,即重新排列通道的顺序,该操作促进了信息在不同通道间的流动,增强了跨通道的信息融合能力。最后,GSConv输出通道数为C2的特征图,GSConv操作既实现了运算效率的提升,又保证了模型的高表达能力。因此,将颈部网络中的传统卷积替换为GSConv,其结构如图7所示。
图7 GSConv结构图

Fig. 7 GSConv structure diagram

VoVGSCSP模块21能够充分提取浅层网络与深层网络的特征信息并进一步融合从而使输出的特征图同时具备丰富的位置信息和语义信息。VoVSCSP模块中输入的特征图先经过1×1的经典卷积操作进行降维,然后输入到两层GSConv后与卷积操作的结果做拼接Concat操作,最后经过一次卷积操作输出特征图。VoVGSCSP模块结构如图8所示。
图8 VoVGSCSP结构图

Fig. 8 VoVGSCSP structure diagram

因此,为了提升芦笋的识别效果、实现模型轻量化的设计,在YOLOv11网络的颈部网络中引入slim-neck模块。

2.1.4 EfficientDet Head

EfficientDet Head是EfficientDet目标检测模型的核心组件之一,主要由ClassNet和BoxNet两部分组成,其中,ClassNet负责类别预测,BoxNet负责边界框预测,能保持低计算复杂度的同时实现高精度。在采后芦笋的分级任务中,替换原始的YOLOv11检测头为EfficientDet Head具有以下优势:EfficientDet Head与BiFPN联合训练,能够充分利用多尺度特征;EfficientDet Head的Focal Loss强化了对难样本的分类能力,有助于模型精度的提升;EfficientDet Head采用参数共享和深度可分离卷积降低计算量,同时所有层级的特征图共享同一检测头权重,能有效避免冗余参数,满足轻量化的设计目标。

2.2 评价指标

本研究主要有平均精度均值(Mean Average Precision, mAP)、精确度(Precision, P)、召回率(Recall, R)、平均精度(Average Precision, AP)、模型大小(Model Size)、参数量(Parameters)、推理时间(Interference Time)几个评估指标对模型进行评估。将样本根据其真实类别与预测类别的组合划分为真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)、假反例(False Negative, FN)4种情形22,则有精确度P与召回率R分别定义为公式(2)公式(3)
P = T P T P + F P
R = T P T P + F N
式中:TP表示正样本预测出来正确的框的数量;FP表示负样本预测出正样本的框的数量;FN表示从正样本预测出负样本的数量;TP+FP表示正样本预测出来正确的框加上负样本预测出来正样本的框,也就是表示预测框的个数;TP+FN表示正样本预测出来正确的框加上正样本预测出负样本的数量也就是标注框的个数23
平均精度为PR曲线下的面积。mAP的计算方法是将预测框按照置信度进行排序,然后根据阈值计算精确度P和召回率R,最后计算出不同类别的精确度24

3 结果与分析

3.1 不同注意力机制的性能比较

为了分析不同注意力机制在芦笋数据集上的性能表现,在YOLOv11原始模型的主干Backbone网络的同一位置分别添加SimAM25、ECA、SE263种注意力机制,并采用测试集进行测试评价。表2为上述3种注意力机制应用于YOLOv11的性能表现。
表2 3种注意力机制的性能

Table 2 Performance of three attention functions

模型 精确率/% 召回率/% 平均精度均值/% 模型大小/MB
YOLOv11 94.2 95.5 90.3 5.2
YOLOv11-SimAM 94.6 97.0 91.0 5.5
YOLOv11-ECA 95.5 98.1 90.8 5.2
YOLOv11-SE 95.0 96.1 90.5 5.5
分析表2可得,与原始的YOLOv11模型相比,添加了SimAM、ECA、SE注意力机制的YOLOv11模型在精确率、召回率、平均精度均值上均有一定程度的提升。对比YOLOv11-SimAM、YOLOv11-SE、YOLOv11-ECA这3种模型的性能,添加了ECA注意力机制模块的YOLOv11具有更佳的性能,精确率、召回率、模型大小分别达到了95.5%、98.1%、5.2 MB。
综上可得,在YOLOv11原始模型上添加注意力机制在芦笋数据集上有一定的有效性,对比SimAM、SE、ECA这3种注意力机制,添加了ECA注意力机制的YOLOv11有更好的表现效果,因此选择ECA注意力机制引入YOLOv11模型中,以提高改进模型的性能。

3.2 消融试验结果分析

为验证本研究提出的模型改进针对芦笋分级数据集是否有效,设计消融实验,对比以下几项进行分析:1)原始YOLOv11模型;2)在YOLOv11原始模型的基础上,在Backbone主干的第12层上添加ECA注意力机制模块;3)在YOLOv11原始模型的基础上,在Neck颈部引入BiFPN结构;4)在YOLOv11原始模型的基础上,替换颈部网络为slim-neck;5)在YOLOv11原始模型的基础上,替换检测头为EfficientDet Head;6)在YOLOv11原始模型的基础上,在颈部引入BiFPN结果并替换检测头为EfficientDet Head;7)在YOLOv11原始模型的基础上,在颈部引入BiFPN结构并优化颈部网络为slim-neck、替换检测头为EfficientDet Head;8)在YOLOv11原始模型的基础上,在Backbone主干的第12层上添加ECA注意力机制模块、在Neck颈部引入BiFPN结构、替换颈部网络为slim-neck并替换检测头为EfficientDet Head。在相同试验条件下,在本研究芦笋数据集上进行试验,结果如表3所示。
表3 基于YOLOv11模型的采后芦笋分级研究消融试验

Table 3 Ablation experiment for postharvest asparagus grading study based on YOLOv11

模型 +ECA +BiFPN +slim-neck +EfficientDet Head 精确率/% 召回率/% 平均精度均值/% 模型大小/MB 浮点运算量/G 参数量×106
YOLOv11 × × × × 94.2 95.5 90.3 5.2 6.3 2.58
× × × 95.5 98.1 90.8 5.2 6.3 2.58
× × × 94.6 97.0 91.4 4.0 6.3 1.92
× × × 95.0 97.3 90.8 5.2 5.9 2.57
× × × 97.0 96.7 90.7 4.7 5.1 2.31
× × 95.1 98.0 90.7 3.9 5.2 1.73
× 94.8 96.3 91.6 3.6 4.6 1.67
96.8 96.9 92.5 3.6 4.6 1.67

注:×表示无此模块;√表示有此模块。

分析表3可以得到,原始的YOLOv11模型精确率为94.2%、召回率为95.5%、平均精度均值为90.3%、模型大小为5.2 MB、浮点运算量为6.3 G、参数量为2.58×106。在主干网络的第12层添加了ECA注意力机制后,精确率、召回率、平均精度均值分别提升了1.3、2.6、0.5个百分点,模型的大小、浮点运算量、参数量没有变化,ECA模块的引入能够有效地提升特征提取的能力。在neck颈部中融入BiFPN之后,精确率、召回率、平均精度均值分别提高0.4、2.5、1.1个百分点,模型大小、参数量分别下降1.0 MB和0.62×106。BiFPN模块的融合,通过双向特征融合和自适应分配权重,能有效提升模型的识别精度并减少冗余计算、降低计算成本。优化颈部网络为slim-neck之后,精确率、召回率、平均精度均值分别提高0.8、1.8、0.5个百分点,而浮点运算量减少0.4 G,由此可得,slim-neck模块的引入能够有效提升芦笋数据集的识别效果并减少参数量。替换检测头为EfficientDet Head之后,精确率达到最高为97.0%,召回率和平均精度均值分别提升1.2和0.4个百分点、模型大小减少了0.5 MB、浮点运算量减少1.2 G,参数量减少0.27×106,检测头的替换能更好地整合多尺度特征,采用轻量化卷积技术,进一步提升芦笋的检测精度并实现轻量化的设计目标。EfficientDet Head的轻量化设计使得模型的参数量和大小降低。在颈部网络中融入BiFPN并替换检测头为EfficientDet Head后,精确率、召回率、平均精度均值分别提升了0.9、2.5、0.4个百分点,模型大小、浮点运算量和参数量均有下降,BiFPN的冗余消除与EfficientDet Head的轻量化设计共同降低了模型参数量和计算需求。在颈部网络中融入BiFPN、引入slim-neck并替换检测头为EfficientDet Head后,精确率、召回率、平均精度均值分别提升了0.6、0.8、1.3个百分点,模型大小、浮点运算量和参数量有明显下降。同时改进以上4个模块的YOLOv11在性能上最优,在平均精度均值、模型大小、浮点运算量和参数量上有最优的表现,识别的准确率提高了2.6个百分点,达到了96.8%;召回率提高了1.4个百分点,达到96.9%;同时,平均精度均值提高了2.2个百分点,达到了92.5%;模型大小下降了2.2 MB,达到了3.6MB;浮点运算量下降了1.7 G,达到了4.6 G;参数量下降了9.1×105,达到了1.67×106,改进后的模型具有较高的精度同时具有较少的计算量和较小的模型大小。
为了直观地比较模型的效果,图9和图10分别展示芦笋分级检测结果和mAP@50迭代200次的结果。以图9中的3种等级的芦笋的识别情况为例,观察检测图的边界框可以发现与置信度,改进后的YOLOv11模型的边界框能够精准定位到芦笋植株,具有较好的识别和定位能力。以图10中YOLOv11和改进的YOLOv11两个模型的mAP值迭代200次结果为例,改进的YOLOv11模型的mAP@50值的效果更好。因此,改进后的YOLOv11模型具有较好的识别和定位效果。
图9 芦笋测试集检测结果对比

Fig. 9 Comparison of asparagus test set test results

图10 YOLOv11与改进的YOLOv11迭代200次的mAP@50值对比

Fig. 10 Comparison of mAP@50 values for 200 iterations of YOLOv11 and improved YOLOv11

综上可得,本研究基于原始YOLOv11模型改进的模型在芦笋数据集上有很好的表现效果,其各个模块的改进均有一定的有效性。

3.3 改进YOLOv11与其他模型性能的对比试验

为了更全面客观地评价改进的YOLOv11模型对芦笋茎粗分级的检测效果以及模型的性能,设计改进的YOLOv11模型与YOLO数字系列模型、SSD间的对比试验,对比试验中包含的模型有SSD、YOLOv5s、YOLOv8n、YOLOv11、YOLOv12网络模型。所有试验在相同的条件下进行。表4为上述5种网络模型对比试验的结果。
表4 采后芦笋分级对比试验结果

Table 4 Results of a comparative postharvest asparagus grading test

模型 精确率/% 召回率/% 平均精度均值/% 模型大小/MB 参数量×106 浮点运算量/G 推理速度FPS
SSD 90.6 91.6 87.4 95.5 24.9 31.4 171.5
YOLOv5s 92.4 96.9 74.9 14.4 7.03 16.0 244.1
YOLOv8n 95.6 97.1 85.8 6.2 3.01 8.2 271.4
YOLOv11 94.2 95.5 90.3 5.8 2.58 6.3 194.1
YOLOv12 94.7 96.3 91.0 5.4 2.52 6.0 195.2
改进的YOLOv11 96.8 96.9 92.5 3.6 1.67 4.6 204.0
表4可知,改进的YOLOv11模型具有较好的性能表现。整体来看,改进的YOLOv11模型在精确率、召回率、平均精度均值、模型大小、参数量、浮点运算量上均有最好的表现,能够更好地捕捉特征、减少模型参数量和模型大小,更好地完成芦笋分级任务,具有一定的优越性,但在推理时间上,改进的YOLOv11的推理速度逊于YOLOv5s和YOLOv8n,仍有一定的提升空间。

3.4 统计检验

为了进一步评估模型改进效果,本研究采用统计检验的方法对YOLOv11改进前后的性能指标进行对比分析。选择Wilcoxon符号秩检验进行配对样本差异分析,将改进模型与原始模型在相同环境、相同测试集上独立的20次获得的FPS值作为观测样本。统计结果如表5所示,分析下表可得,p值计算结果为0.003 8,效应量为0.53,达到中等效应,改进模型的FPS提升幅度在8.5~14.7 FPS的可信度达95%,因此,改进模型在实时性指标上取得统计学显著提升。
表5 统计检验结果

Table 5 Statistical test results

检验方法 p 显著性判断(α=0.05) 效应量 95%置信区间
Wilcoxon符号秩检验 0.003 8 显著 0.53 [8.5, 14.7]

4 结 论

本研究以绿芦笋为研究对象,采用原始的YOLOv11模型,通过添加ECA注意力机制、融入BiFPN、在颈部引入slim-neck模块、修改检测头为EfficientDet Head进行改进,以提升芦笋3种等级分级的结果,实现基于芦笋茎粗的精准分级的任务。其中主要结论如下:
在相同的试验条件下,通过在原始的YOLOv11模型上分别添加SimAM、ECA、SE注意力机制对比试验可得:添加ECA注意力机制的YOLOv11模型比添加SimAM、SE注意力机制的YOLOv11模型在召回率、参数量、模型大小、浮点运算量上均有更优异的表现,整体性能更佳。因此,在原始的YOLOv11模型上添加ECA注意力机制有一定的有效性,且相较于添加其他注意力机制有更好的表现。
在相同的试验条件下,通过消融试验可知,本研究的改进在芦笋数据集上芦笋分级取得较好的试验结果,各个模块的改进均有一定的有效性,相较于原始的YOLOv11模型,识别的准确率提高了2.6个百分点,达到了96.8%;召回率提高了1.4个百分点,达到96.9%;同时,平均精度均值提高了2.2个百分点,达到了92.5%。因此,本研究的改进有一定的有效性,能解决芦笋在区间边界处出现的误检问题、提高检测精度、减少模型参数量,提高芦笋分级的效果。
在相同的试验条件下,通过分析与YOLOv5s、YOLOv8n、YOLOv11、YOLOv12、SSD的对比试验结果可知,改进后的YOLOv11模型对比其他深度模型在模型大小、参数量、平均精度均值、精确率、召回率、浮点运算量上均有较好的表现,但在推理速度上仍有欠缺。在此基础上,根据FPS推理结果作为样本进行Wilcoxon符号秩检验,结果表明,改进的YOLOv11相较于原始的YOLOv11模型在推理速度上有显著提升。因此,本研究所提出的改进的YOLOv11模型能够保证模型轻量化的同时实现绿芦笋的准确高效分级。
需要指出的是,本研究在芦笋分级任务中仍存在以下局限性:1)在模型实时性方面,当前推理速度尚未达到工业级部署的理想水平,仍存在可优化的空间可以通过优化模型结构或者修改训练策略,提高模型推理速度;(2)采用了轻量化模型设计策略,但在模型压缩率与检测精度的平衡优化上仍存在改进余地,可以通过剪枝实验和量化优化操作控制压缩率并最大限度保留检测精度。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
祁复蓉, 王福国, 周亚婷, 等. 设施芦笋高质高效栽培技术要点[J]. 农业科技与信息, 2024(7): 10-14.

QI F R, WANG F G, ZHOU Y T, et al. Key points of high quality and efficient cultivation techniques of Asparagus in facilities[J]. Agricultural science-technology and information, 2024(7): 10-14.

2
CHEN Q, XIA C, SHI Y Y, et al. A novel approach for Asparagus comprehensive classification based on TOPSIS evaluation and SVM prediction[J]. Agronomy, 2024, 14(6): ID1175.

3
俞风娟, 王继涛, 汪洋, 等. 芦笋生育特性及高产栽培技术[J]. 宁夏农林科技, 2021, 62(3): 8-11.

YU F J, WANG J T, WANG Y, et al. Growth characteristics and high-yield cultivation techniques of Asparagus [J]. Ningxia journal of agriculture and forestry science and technology, 2021, 62(3): 8-11.

4
朱德明, 程香平, 邱伊健, 等. 基于深度学习的农作物图像识别技术研究进展[J]. 江西科学, 2025, 43(1): 154-161.

ZHU D M, CHENG X P, QIU Y J, et al. Research progress on crop image recognition alg orithm based on deep learning[J]. Jiangxi science, 2025, 43(1): 154-161.

5
张润池, 周云成, 侯玉涵, 等. 基于超深掩蔽与改进YOLOv8的不同成熟度番茄计数方法[J]. 农业工程学报, 2024, 40(24): 146-156.

ZHANG R C, ZHOU Y C, HOU Y H, et al. Counting tomatoes with different maturities using ultra-depth masking and improved YOLOv8[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(24): 146-156.

6
袁杰, 谢霖伟, 郭旭, 等. 基于改进YOLO v7的苹果叶片病害检测方法[J]. 农业机械学报, 2024, 55(11): 68-74.

YUAN J, XIE L W, GUO X, et al. Apple leaf disease detection method based on improved YOLO v7[J]. Transactions of the Chinese society for agricultural machinery, 2024, 55(11): 68-74.

7
杨昊霖, 王其欢, 李华彪, 等. 基于改进YOLOv5的田间复杂环境障碍物检测[J]. 中国农机化学报, 2024, 45(6): 216-222, 256, 2.

YANG H L, WANG Q H, LI H B, et al. Obstacle detection in complex farmland environment based on improved YOLOv5[J]. Journal of Chinese agricultural mechanization, 2024, 45(6): 216-222, 256, 2.

8
李扬, 张萍, 苑进, 等. 白芦笋采收机器人视觉定位与采收路径优化方法[J]. 智慧农业(中英文), 2020, 2(4): 65-78.

LI Y, ZHANG P, YUAN J, et al. Visual positioning and harvesting path optimization of white Asparagus harvesting robot[J]. Smart agriculture, 2020, 2(4): 65-78.

9
ZHAO X Y, HE Y X, ZHANG H T, et al. A quality grade classification method for fresh tea leaves based on an improved YOLOv8x-SPPCSPC-CBAM model[J]. Scientific reports, 2024, 14: ID 4166.

10
FAN Y R, CAI Y L, YANG H J. A detection algorithm based on improved YOLOv5 for coarse-fine variety fruits[J]. Journal of food measurement and characterization, 2024, 18(2): 1338-1354.

11
汪小旵, 李为民, 王琳, 等. 基于改进YOLACT++的成熟芦笋检测-判别-定位方法[J]. 农业机械学报, 2023, 54(7): 259-271.

WANG X C, LI W M, WANG L, et al. Method of detection-discrimination-localization for mature Asparagus based on improved YOLACT + + algorithm[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(7): 259-271.

12
中华人民共和国农业部. 芦笋等级规格: NY/T 1585—2008 [S]. 北京: 中国农业出版社, 2008.

Ministry of Agriculture of the PRC. Grades and specifications of asparagus: NY/T 1585—2008 [S]. BeiJing: China agriculture press, 2008.

13
KHANAM R, HUSSAIN M. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 2410.17725, 2024.

14
LIAO Y, LI L R, XIAO H Q, et al. YOLO-MECD: Citrus detection algorithm based on YOLOv11[J]. Agronomy, 2025, 15(3): ID 687.

15
WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA. IEEE, 2020: 11531-11539.

16
LI L T, ZHAO Y D. Tea disease identification based on ECA attention mechanism ResNet50 network[J]. Frontiers in plant science, 2025, 16: ID1489655.

17
HE J J, WANG Y C, WANG Y T, et al. A lightweight road crack detection algorithm based on improved YOLOv7 model[J]. Signal, image and video processing, 2024, 18(1): 847-860.

18
WANG J L, QIN C C, HOU B B, et al. LCGSC-YOLO: A lightweight apple leaf diseases detection method based on LCNet and GSConv module under YOLO framework[J]. Frontiers in plant science, 2024, 15: ID1398277.

19
LI H, LI J, WEI H, et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles[EB/OL]. arXiv: 2206.02424, 2022.

20
SHI P, ZHANG Y Y, CAO Y Q, et al. DVCW-YOLO for printed circuit board surface defect detection[J]. Applied sciences, 2025, 15(1): ID 327.

21
张荣华, 白雪, 樊江川. 复杂场景下害虫目标检测算法: YOLOv8-Extend[J]. 智慧农业(中英文), 2024, 6(2): 49-61.

ZHANG R H, BAI X, FAN J C. Crop pest target detection algorithm in complex scenes: YOLOv8-extend[J]. Smart agriculture, 2024, 6(2): 49-61.

22
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

ZHOU Z H. Machine learning[M]. BeiJing: Tsinghua university press, 2016.

23
俞建峰. 深度学习: 智能机器人应用的理论与实践[M]. 北京: 化学工业出版社, 2024.

YU J F. Deep learning : Theory and practice of intelligent robot applications[M]. BeiJing: Chemical industry press, 2024.

24
孙玉林. 计算机视觉从入门到进阶实战: 基于PyTorch[M]. 北京: 化学工业出版社, 2024.

SUN Y L. Computer vision from entry to advanced practice : Based on PyTorch[M]. BeiJing: Chemical industry press, 2024.

25
YANG L, ZHANG R, LI L, et al. SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks[C]// Proceedings of the International Conference on Machine Learning. New York, USA: PMLR, 2021: 11863-11874.

26
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA. IEEE, 2018: 7132-7141.

Outlines

/