Welcome to Smart Agriculture 中文

Appearance Defect Detection Algorithm of Euryale Ferox Based on Improved YOLOv11n

  • ZHANG Kun 1 ,
  • ZHANG Chunyu , 1 ,
  • CHEN Longmei 2 ,
  • LIU Qicheng 1 ,
  • LI Yongkang 1 ,
  • LIU Kai 1 ,
  • ZENG Wenhao 1
Expand
  • 1. College of Intelligent Manufacturing, Anhui University of Science and Technology, Chuzhou 239000, China
  • 2. Gaoyou Secondary Professional School, Gaoyou 225600, China
ZHANG Chunyu, E-mail:

ZHANG Kun, E-mail:

Received date: 2026-02-04

  Online published: 2026-05-22

Supported by

Anhui Provincial Department of Education Natural Science Major Project(2025AHGXZK20066)

Anhui Provincial Department of Industry and Information Technology Manufacturing Challenge Project(JB25116)

Copyright

copyright©2026 by the authors

Abstract

[Objective] To address the problems of high labor cost, low efficiency, and poor consistency in manual sorting during the post-harvest processing of Euryale ferox, and to develop a high-precision, lightweight, and real-time sorting model to provide technical support for intelligent processing, an appearance defect detection algorithm based on an improved YOLOv11n model is proposed. [Methods] YOLOv11n was improved from three aspects: feature extraction, downsampling mechanism, and loss function. First, the Universal Perception Large‑Kernel ConvNet Block (UniRepLKNetBlock) was integrated into the C3k2 structure of the neck network to construct a novel feature extraction module named CURK (C3k2‑UniRepLKNetBlock). This module used a depthwise large‑kernel convolution as the main branch, with four parallel convolutional branches. After training, these branches were merged into a single convolutional layer via structural re‑parameterization, which significantly enlarged the effective receptive field and enhanced the model's representation capability. Second, a Depth Lightweight Adaptive Extraction module (DLAE) replaced the standard convolutional downsampling layer in the 8th layer of the backbone. DLAE adopted a parallel two‑branch design: a feature extraction branch based on depthwise separable convolution (DWConv) to capture local texture details, and an attention branch that generated spatial attention weights through global average pooling and 1×1 DWConv, followed by Softmax normalization. The attention weights were then multiplied channel‑wise with the features, reducing computational load while adaptively enhancing key defect regions and suppressing background noise. Third, the Scale Dynamic IoU Loss (SDIoU) was introduced to replace the original loss function. In the BBox branch, SDIoU calculated a dynamic coefficient based on the ratio of the target bounding box area to the preset maximum target area, combined with the feature map compression ratio (ROC), and a threshold δ=0.5was used for clipping, automatically adjusting the weights of scale loss and location loss. A similar mechanism was applied in the Mask branch. A self‑built Euryale ferox appearance defect image dataset was constructed. A total of 2 537 original images were collected, and after data augmentation, the dataset was expanded to 5 354 images covering five categories: qualified, surface scratch, broken, dark (overripe), and shell. The dataset was randomly divided into training, validation, and test sets in a 7:1:2 ratio. [Results and Discussions] Ablation experiments showed that the combination of CURK, DLAE, and SDIoU achieved the best overall performance while maintaining lightweight advantages: precision was 95.4%, recall was 92.8%, and mAP50 reached 97.4%. Compared with the baseline YOLOv11n, recall increased by 2.9 percentage points and mAP50 by 0.4 percentage points. The model weight file size was reduced to 4.9 MB, parameters to 2.31 M, and computational cost to 6.1 GFLOPs. The inference speed reached 189.2 f/s, meeting real‑time detection requirements. In comparative experiments with mainstream models, the proposed model achieved the highest mAP50 (97.4%) and the lowest parameter count and computational cost. Heatmap visualization analysis indicated that after integrating CURK, DLAE, and SDIoU, the model's focus on Euryale ferox target regions became more concentrated, background interference was significantly suppressed, and missed and false detections were effectively reduced. A physical visual detection validation platform was built, and 402 samples each from Tianchang city and Funan county were tested. The overall accuracy was 94.5% for Tianchang samples and 90.0% for Funan samples, with an average of 92.25%, confirming the model's good generalization capability and engineering adaptability under different imaging conditions and geographical origins. [Conclusions] Through the synergistic effects of the CURK large‑kernel re‑parameterization module, the DLAE lightweight adaptive downsampling module, and the SDIoU scale‑dynamic loss function, the improved YOLOv11n model maintains high detection accuracy while balancing model lightweighting and real‑time performance, demonstrating good engineering application potential. It provides an efficient, accurate, and lightweight technical reference for intelligent sorting of Euryale ferox.

Cite this article

ZHANG Kun , ZHANG Chunyu , CHEN Longmei , LIU Qicheng , LI Yongkang , LIU Kai , ZENG Wenhao . Appearance Defect Detection Algorithm of Euryale Ferox Based on Improved YOLOv11n[J]. Smart Agriculture, 2026 : 1 -13 . DOI: 10.12133/j.smartag.SA202602012

0 引 言

芡实(Euryale ferox),俗称“鸡头米”,是一种兼具高营养价值与药用价值的水生经济作物1,在食品加工2、保健食品开发3,以及医药领域有着广泛应用4。随着芡实产业的持续发展,其采后加工品质与分选效率已成为影响产品价值和市场竞争力的重要因素。芡实为一年生植物,具有采收周期集中且采收后保质期短的特点5。采收后的芡果需在短时间内完成去皮、分选、包装与冷藏等工序,以最大限度保持品质、降低损耗。在芡实加工流程中,分选环节直接关系到产品等级划分、后续加工方式及最终销售收益,是采后处理中的关键步骤之一。
目前,尽管芡实加工的部分工序已实现机械化,但在分选环节仍依赖人工完成6。人工分选虽然具有一定的灵活性,但普遍存在劳动强度大、效率低下、主观性强等问题,难以满足规模化、标准化生产需求。尤其对于表面存在轻微破损、色泽异常、老果或其他细微缺陷的芡实,人工分选往往难以实现稳定、快速且精细的识别,进而影响后续商品化处理和市场销售。因此,研究面向芡实外观缺陷的高效、准确、轻量化智能检测方法,对于提升芡实加工自动化水平和产业装备智能化水平具有重要现实意义。
近年来,随着计算机视觉与人工智能技术的快速发展,基于图像分析处理的农产品品质检测方法已经是智慧农业和食品工程领域的一个重要的研究方向7。LI等8系统地总结了新一代光学成像与光谱技术在谷物真实性、营养品质和危害因子评估中的应用进展,通过对比不同方法指出深度学习驱动的视觉检测技术在农产品外观缺陷识别上具有明显优势,并且模型轻量化、跨场景泛化与工程部署能力将会是未来的重要发展方向。在目标检测算法方面9,基于深度学习的目标检测模型10已广泛应用于农产品的检测领域11。主流算法主要有区域卷积神经网络(Region-based Convolutional Neural Network,R-CNN)12、快速区域卷积神经网络(Faster Region-based Convolutional Neural Network,Faster R-CNN)13和掩码区域卷积神经网络(Mask Region-based Convolutional Neural Network,Mask R-CNN)14等二阶段检测模型,以及单次多框检测器 (Single Shot Multibox Detector, SSD)15和YOLO(You Only Look Once)16等一阶段检测模型。其中,YOLO系列因为能够很好地在速度与精度之间达到良好平衡,因此被成功应用于农产品表面缺陷检测17、成熟度检测18和病虫害检测19等任务中。
在芡实的相关研究中,陈龙梅等20提出了一种基于改进YOLOv8的芡种成熟度检测方法,通过引入挤压-激励(Squeeze-and-Excitation, SE)注意力模块并采用明智交并比损失(Wise Intersection over Union Loss, WIoU)函数来优化边界框回归,在芡实数据集上取得了较高的检测精度,同时也验证了深度学习模型在芡实视觉识别任务中的可行性。YU等21通过将近红外、中红外和拉曼光谱与智能算法结合的方式,实现了芡实产地与品种的高精度追溯,原产地可追溯性准确率为94.74%,品种可追溯性准确率达到100%。常永雷等22提出了一种基于深度学习的芡实遥感识别方法,通过融合多时相光学与雷达遥感数据构建了一种卷积神经网络模型,能够实现大范围芡实种植区域的自动化识别与分类。以上这些研究为芡实智能识别的发展打下了基础,但他们的研究对象主要还是集中在芡实的成熟度、产地或种植区域等宏观层面,还没有充分覆盖采摘后加工分选过程中更现实和迫切的外观缺陷检测问题。
从农产品表面缺陷检测的研究进展来看,针对梨、马铃薯、小麦、玉米等对象已经取得了一些不错的成果。修贤超等23提出了改进的Mamba-YOLO模型,通过动态上采样与多尺度特征增强机制,改进后模型的平均精度均值达95.1%,检测速度72帧/s,有效提升了砀山梨表面小缺陷的检测精度。朱然辉等24提出了YOLOv11-MML(Multimodule Lightweight)模型,用多尺度边缘信息选择机制替代C3k2(Cross Stage Partial with kernel size 2)模块,并且结合精准下采样与轻量检测头设计,改进后模型平均精度达96.7%,参数量减少26.9%,推理速度达171.3帧/s,在实际分选应用中整体检测准确率达94.0%。SUN等25提出了一种YOLOv8-SCSA(YOLOv8-Spatial-Channel Reconstruction Convolution and Shuffle Attention)的轻量化实例分割模型,融合了空间与通道重构卷积以及Shuffle Attention机制,在对小麦霉变、破损、发芽等多类缺陷籽粒的精准检测与分割的同时,能够保持11.0 GFLOPs的低计算量与105帧/s的实时检测速度。XIA等26针对玉米种子表面缺陷,设计了融合高效通道注意力 (Efficient Channel Attention, ECA) 机制与MobileNet的轻量化YOLOv5模型,将模型体积压缩至8.8 MB,为种子自动化分级提供了可行方案。上述研究表明,针对细小缺陷和复杂背景,采用多尺度特征增强、轻量化骨干网络和优化检测头等策略,能够有效提升检测精度与部署效率。然而,芡实表面缺陷具有缺陷尺度小、纹理细微,以及受光照与背景影响明显等特点,且分选设备对模型实时性和轻量化有较高要求,现有通用模型直接迁移应用时,往往难以同时兼顾检测精度、计算效率与部署性能。
综上所述,现有芡实相关研究主要集中于成熟度判别、产地溯源,以及大范围遥感识别等宏观层面,针对芡实外观缺陷检测的研究仍相对有限。为此,本研究以安徽省天长市采集的芡实图像为对象,提出一种基于改进YOLOv11n的外观缺陷检测算法。该算法设计C3k2-通用感知大核卷积块(C3k2-UniRepLKNetBlock,CURK)以增强对芡实细密纹理与背景干扰的感知能力;采用深度轻量化自适应提取(Depth Light-weight Adaptive Extraction,DLAE)模块在保持精度的同时降低计算开销;引入尺度动态交并比损失(Scale Dynamic Intersection over Union Loss,SDIoU)函数提升多尺度目标的定位精度与回归稳定性;并搭建视觉检测平台验证模型实际性能。上述改进在保证较高检测精度的同时,兼顾轻量化与实时性,具有良好的工程应用潜力,为芡实智能化分选提供了技术参考。

1 研究材料

本研究芡实图像数据集采集于安徽省天长市铜城镇天长市庆宏农民芡实专业合作社。芡实可分为刺芡和苏芡。本研究主要针对苏芡,其种仁较大且圆整,糯性,品质较好27,主要用于食用。
采集时,将芡实样本随机放置在蓝色或白色传送带上,采集设备为荣耀Magic6Pro手机后置摄像头,分别在不同角度和环境下随机拍摄,共采集不同种类芡实图像3 011张。芡实外观缺陷图像样例如图1所示。图像分辨率像素为3 072×3 072,筛选掉模糊、阴影、重复等无效图像后,最终构建了包含2 537张图像的原始数据集。本研究按照7:1:2的比例将数据集随机划分为训练集(1 775张)、验证集(254张)和测试集(508张)。为了丰富训练样本并且平衡芡实缺陷目标类别,对原始数据集采用随机数据增强策略,具体包括添加高斯噪声、调整亮度与饱和度、随机翻转与旋转等5种方式,来提升数据的多样性并且抑制过拟合。经数据增强后,共获得5 354张图像,其中合格品图像1 080张、表面划痕图像1 084张、破损图像1 106张、老果图像1 050张、果皮图像1 034张。由于拍摄的图像没有进行标注,因此本研究通过Labelme软件进行人工标注,标注类别涵盖合格品(qualified)、表面划痕(surface scratch)、破损(broken)、老果(dark)及果皮(shell)共5类外观状态。标注好的标签保存为YOLO格式的TXT文件,以供模型训练与评估使用。
图1 芡实外观缺陷图像

Fig. 1 Image of appearance defect of Euryale ferox

2 研究方法

2.1 改进YOLOv11n的芡实外观缺陷检测模型

2.1.1 YOLOv11n目标检测模型

YOLOv11n是Ultralytics公司2024年发布的最新YOLO检测模型。和YOLOv8n相比,YOLOv11n的核心改进有:在主干网络和颈部网络里用C3k2模块替代了原来的C2f结构;在快速空间金字塔池化模块(Spatial Pyramid Pooling Fast,SPPF)块后增加了并行空间注意力卷积模块(Convolutional Block with Parallel Spatial Attention,C2PSA)模块,利用并行空间注意力来突出特征图中的重要区域;在分类检测头处加入了两个深度可分离卷积,从而减少了计算量和参数量28。这些改进使得模型在特征提取和推理速度上更有优势,特别适用于农业场景中的小目标、多类别和复杂背景的视觉检测任务。
虽然YOLOv11n在整体架构上极为高效,但在面对芡实细微裂纹等小目标缺陷时,其标准卷积和常规下采样操作容易导致空间细粒度信息的不可逆丢失,使得特征提取的适应性受限;此外,其轻量化程度对于部署在低成本嵌入式设备上仍有优化空间。因此,本研究以YOLOv11n为基础,从特征提取、下采样机制和损失函数三个层面进行改进。首先,设计CURK模块,将具有大感受野的UniRepLKNetBlock融入C3k2结构中,以增强对细密缺陷与复杂纹理的建模能力;其次,使用轻量化下采样模块DLAE替代部分标准卷积层,在降低计算负载的同时保持对关键特征的提取;最后,采用SDIoU损失函数,通过尺度自适应机制提升多尺度目标边界框的回归稳定性与定位精度。改进后的YOLOv11n网络整体结构如图2所示。
图2 YOLOv11n改进后的网络结构

Fig. 2 Improved network architecture of YOLOv11n

2.1.2 网络模型改进

2.1.2.1 C3k2-UniRepLKNetBlock模块

芡实存在表面破损、划痕等缺陷,形态不规则,表面纹理细密且与正常种皮纹理在局部上高度相似等问题。YOLOv11n主干网络虽然依赖小核卷积来提取细粒度纹理,但受限于其较小的感受野对大范围上下文及光照不均造成的背景干扰特征提取不足,容易导致小型瑕疵目标的定位不稳定。有研究表明,将大核卷积(Large Kernel Convolution)与多尺度并行小核卷积组合使用,能够同时兼顾全局依赖与高分辨率局部细节,对小目标物体具有显著优势29。基于此,本研究将UniRepLKNetBlock引入到YOLOv11n中,并与颈部网络的C3k2模块融合,构建新型CURK特征提取结构,其整体示意如图3所示。
图3 CURK模块结构图

Fig. 3 Structure diagram of the CURK module

原C3k2模块由多层Bottleneck结构组成,具备良好的局部特征表达能力,但是感受野提升有限。UniRepLKNetBlock提供的可重参数化大核卷积结构,能够将多尺度卷积分支等效合并为单一的大核卷积,在增强模型对芡实表面纹理与光照变化的建模能力同时,保持较高的计算效率。在训练过程中,UniRepLKNetBlock采用9×9主干大核卷积,并设置多个并行卷积分支,卷积核大小为(5,5,3,3),对应膨胀率为(1,2,3,4)。这个设计能够让模型在多个尺度上同时捕获表面细微纹理与广域背景信息。训练完成后,这5个带BatchNorm的卷积层通过重参数化技术合并为等效的9×9单卷积层,能够显著扩大有效感受野。此外,UniRepLKNetBlock基于深度可分离卷积在嵌入YOLOv11后不会产生太大的计算负担,其整体示意如图4所示。通过结合C3k2的强局部编码能力与UniRepLKNetBlock的大范围语义建模优势,CURK模块能够更有效地增强网络对芡实缺陷小目标的识别能力,在存在反光、复杂纹理背景的条件下仍能保持更高的检测稳定性与分类精度。
图4 UniRepLKNetBlock结构图

Fig. 4 Structural diagram of UniRepLKNetBlock

2.1.2.2 轻量化下采样结构DLAE

为降低模型的计算负担并保持下采样过程中对关键特征的有效提取,本研究采用DLAE模块30。该模块以更低的计算代价获得更具判别性的下采样特征,使网络在处理芡实数据集中、大小不一、光照差异明显的目标时具备更强的自适应特征表达能力。DLAE模块采用并行双分支结构,特征提取分支基于轻量级深度可分离卷积(Depthwise Convolution,DWConv)技术,高效提取局部纹理细节,如表面划痕、破损边缘等,最大限度地减少参数量与计算开销。注意力分支则通过平均池化与1×1 DWConv获取全局响应分布,并利用Softmax函数生成归一化的空间注意力权重图,其数学表达式为公式(1)
s o f t m a x ( x i ) = e x i j = 1 n e x j
式中: x i为第 i个输入节点的数值; e x i为指数函数,用于将输入映射为非负值; n为类别总数。
Softmax将多通道响应映射为概率分布形式,使/注意力权重满足归一化约束,增强了加权融合过程中对显著性区域的区分能力,从而自动强化芡实表面关键区域、抑制背景噪声。在具体实现中,将YOLOv11n主干网络中第8层的标准卷积模块替换为DLAE模块,用于下采样操作,以实现整体结构的轻量化改进。如图5所示,DLAE首先通过分组卷积与重排Rearrange操作完成4倍空间下采样,在降低特征分辨率的同时保持较低的计算成本。随后,注意力分支输出的权重图与特征提取分支获得的下采样特征采用逐通道乘法形式进行融合,通过“特征×注意力”的加权方式使模型重点关注表面划痕、浅裂、破损等关键区域,在保持必要空间结构的同时,增强了输出特征的判别表达能力。
图5 DLAE结构

Fig. 5 DLAE structure

将DLAE替换主干网络中的Conv下采样层后,模型具有如下优势:更强的自适应性,能够根据芡实不同表面纹理模式自动调整关注区域,有利于识别表面划痕、破损等细微缺陷类别;计算效率更高,借助DWConv和轻量化注意力机制降低计算量和参数量。因此,将DLAE作为下采样替代结构嵌入YOLOv11n主干网络不仅在理论上具备可行性,并且在实际的芡实类别检测中也验证有效。

2.1.2.3 SDIoU损失函数

由于拍摄距离、果实体积差异,以及不同姿态造成的光照反射变化,模型在预测多个芡实目标时常会出现尺度差异明显、框体大小波动较大的问题。当采用传统IoU类损失,如完整交并比损失(Complete IoU Loss,CIoU)、距离交并比损失(Distance IoU Loss,DIoU)进行边界框回归时,小尺度目标的IoU波动更为剧烈,容易导致回归不稳定,进而影响模型对表面划痕、破损、老果等弱纹理类别的检测精度。SDIoU正是针对小目标检测中标注噪声、尺度敏感性等问题而提出的一类动态加权损失函数31。传统IoU变体多采用固定权重对重叠区域误差与位置误差进行约束,而芡实数据集中,目标边界框标注普遍存在轻微偏移,尤其在表面划痕类中,小目标IoU对标注抖动尤为敏感。因此,若仍使用固定权重的CIoU,会进一步放大小目标的标签噪声,使回归过程更易受到扰动。为解决上述问题,SDIoU引入尺度自适应动态权重机制,根据目标尺寸自动调整Scale Loss与Location Loss之间的权重,从而提升模型在多尺度目标上的回归稳定性。
在SDIoU的BBox分支尺度动态边界框损失(Scale Dynamic Box Loss,SDB Loss)中,以目标边界框面积 B g t与设定的最大目标尺度 B g t m a x之比结合特征图的缩放比例(Ratio of Compression,ROC),计算目标的动态系数 β B。为了避免尺度权值过度放大,系数的范围通过阈值 δ进行截断控制,本研究中 δ = 0.5。最终分别得到Sloss与Lloss的动态权重,如公式(2)公式(3)所示。
β L B S = 1 - δ + β Β
β L B L = 1 + δ - β B
式中: β B为目标边界框的动态系数; β L B S为BBox分支Sloss的动态权重; β L B L为BBox分支Lloss的动态权重。图6a展示了 β B随目标边界框面积变化时,Sloss与Lloss权重值的对应关系。
在mask分支尺度动态掩码损失(Scale Dynamic Mask Loss,SDM Loss)中,同样根据目标mask面积计算动态系数 β M,并赋予Sloss与Lloss各自的权重,如公式(4)公式(5)所示。
β L M S = 1 + β M
β L M L = 1 - β M
式中: β M为目标掩码的动态系数; β L M S为mask分支Sloss的动态权重; β L M L为mask分支Lloss的动态权重。图6b展示了 β M随目标mask面积变化时,Sloss与Lloss权重值的对应关系。
图6 SDIoU参数示意图

Fig. 6 SDIoU Parameter Diagram

SDIoU原理思想:1)当目标较小或标签偏移容易导致IoU剧烈波动时,自动降低Sloss的占比,增强对中心点位置的惩罚,使模型在小面积芡实目标上更稳定。2)当目标尺寸较大或超过阈值时,SDIoU会退化为标准CIoU,从而保持大目标检测的一致性。3)整体计算过程基于线性加权,避免了尺度自适应适应度(Scale Adaptive Fitness,SAFit)、归一化高斯瓦瑟斯坦距离(Normalized Gaussian Wasserstein Distance,NWD)损失中复杂的指数运算,更适合实时应用分级部署场景。引入SDIoU,模型不仅显著提升了对小目标的适应性,还增强了对光照不均、表面纹理差异等复杂情况的鲁棒性,使回归过程更稳定、预测框定位更精确。

2.2 模型训练与评价

2.2.1 实验环境与超参数配置

为顺利进行实验,并获取可靠结果,所有实验均在相同环境配置下进行。实验环境和模型训练参数配置如表1所示。
表1 芡实缺陷检测模型训练的实验环境与超参数配置

Table 1 Experimental environment and hyperparameter configuration for Euryale ferox defect detection model training

参数 参数值 参数 参数值
操作系统 Ubuntu22.04 输入大小 640×640
运行内存 90 GB 轮数 100
显卡 GeForceRTX5090 批次大小 16
显存 32 GB 学习率 0.01
CPU 25vCPUIntel(R)Xeon(R)Platinum8470Q 动量 0.937
Pytorch框架 2.7.0 权重衰减 0.000 5
CUDA版本 12.8 线程数 16
Python版本 3.12.3

2.2.2 评价指标

为综合评价模型性能,本研究采用准确率(Precision, P)、召回率(Recall, R)和平均精度均值(Mean Average Precision, mAP)评价模型检测精度;参数量(Parameters, M)、浮点运算量(Floating point operations, FLOPs)和权重文件大小(Weight Size, MB)评价模型计算复杂度和轻量化程度;帧率(Frames Per Second, FPS)评价模型检测的实时性。各指标具体计算方式见公式(6)~公式(8)
P = T P T P + F P
R = T P T P + F N
m A P = 1 N f A P
式中:FP表示错误预测为正类的样本数,个;TP表示正确预测为正类的样本数,个;FN表示实际为正类但被错误预测为负类的样本数,个; f A P为特征平均精度,针对单个类别计算。

3 结果与分析

3.1 消融实验

为了验证本研究提出的CURK模块、DLAE模块与SDIoU损失函数在芡实缺陷检测中的有效性,本研究以YOLOv11n为基准模型开展消融实验。主要从检测精度和模型轻量化程度两个方面进行对比分析,结果如表2所示。
表2 不同改进模块组合对芡实缺陷检测性能的消融实验结果

Table 2 Ablation experiment results of different improvement module combinations on Euryale ferox defect detection performance

CURK DLAE SDIoU 准确率/% 召回率/% 平均精度均值/% 参数量/M 权重文件/MB 计算量/GFLOPs
× × × 95.4 89.9 97.0 2.58 5.5 6.3
× × 95.9 94.7 97.3 2.60 5.5 6.4
× × 92.7 87.4 94.0 2.29 4.9 6.1
× × 94.8 94.2 97.7 2.58 5.5 6.3
× 94.5 92.3 97.1 2.31 4.9 6.1
95.4 92.8 97.4 2.31 4.9 6.1
表2的结果表明,加入CURK模块后,召回率大幅提升4.8个百分点,准确率与平均精度均值也有小幅提升,模型复杂度基本保持不变。这说明,CURK中的大核卷积增强了模型对芡实表面纹理和光照变化的感知能力,从而提升了缺陷召回效果。单独使用DLAE模块,模型的轻量化效果明显,参数量、权重文件大小与计算量分别降低了11.2%、10.9%和3.2%。但所有检测精度指标都出现下降,召回率下降了2.5个百分点。这是因为DLAE模块虽然通过深度卷积与轻量化注意力机制有效降低了计算负担,但特征提取能力弱于原来的下采样模块,丢失了一部分细粒度缺陷信息。单独将损失函数替换为SDIoU后,召回率和mAP50分别提升了4.3和0.7个百分点,模型复杂度不变。这说明SDIoU函数的尺度自适应动态权重机制,有效缓解了小目标边界框回归不稳定的问题,改善了模型对多尺度芡实目标的定位精度与召回能力。同时采用CURK、DLAE与SDIoU三个模块,在保持相同轻量化的基础上,实现了最优的综合检测性能:准确率为95.4%,召回率为92.8%,mAP50为97.4%。与基线YOLOv11n相比,召回率提升了2.9个百分点,mAP50提升了0.4个百分点,同时模型权重文件大小、参数量与计算量分别降低了10.9%、10.5%与3.2%。由此可见改进模型在几乎不增加计算开销的前提下,实现了检测精度与召回率的均衡提升,达成了轻量化与高精度的设计目标。

3.2 不同模型的性能对比试验

为评估本研究提出的改进模型在芡实外观缺陷检测任务中的性能,本研究选取了YOLOv8n-Worldv232、YOLOv9t33、YOLOv10n34、YOLOv11n、YOLOv12n35、YOLOv13n36、Faster R-CNN和SSD模型在相同条件下进行对比试验,结果如表3所示。
表3 芡实缺陷检测研究不同算法在数据集上的结果对比

Table 3 Comparison of results of different algorithms on the dataset for Euryale ferox defect detection research

模型 准确率/% 召回率/% 平均精度均值 /% 参数量/M 权重文件/MB 计算量/GFLOPs 帧率/(帧/s)
YOLOv8n-Worldv2 94.3 92.1 97.2 2.58 7.3 9.8 232.3
YOLOv9t 94.9 92.2 97.2 2.60 4.6 7.6 142.1
YOLOv10n 92.7 91.4 96.8 2.29 5.7 6.5 235.7
YOLOv11n 95.4 89.9 97.0 2.58 5.5 6.3 273.2
YOLOv12n 93.4 91.7 96.6 2.58 5.5 6.3 169.5
YOLOv13n 92.5 92.8 96.9 2.31 5.4 6.2 133.5
Faster R-CNN 92.7 92.9 96.1 136.77 108.3 401.7 66.3
SSD 93.8 89.3 95.7 4.08 16.3 6.3 157.4
改进YOLOv11n 95.4 92.8 97.4 2.31 4.9 6.1 189.2
表3结果可知,不同模型在本数据集上的检测性能总体较高,但在检测精度、召回率、轻量化程度及实时性方面存在明显差异。Faster R-CNN和SSD虽然具有一定检测能力,但是参数规模和计算成本较高,不利于实际在线分选系统的部署。相比之下,YOLO系列模型在精度和实时性之间表现出更好的平衡,更适合作为芡实外观缺陷检测的基础模型。选取YOLOv11n作为基线模型,一方面是YOLOv11n属于当前较新的轻量化检测框架,在主干网络结构、注意力机制和检测头设计方面具有代表性;另一方面,其参数规模、计算量和推理速度都更适合农业边缘部署场景。本研究提出的改进模型在对比试验中表现最优,mAP50为97.4%,相较于基线模型YOLOv11n提升了0.4个百分点;在召回率指标上,改进模型达到92.8%,高于基线模型2.9个百分点;准确率保持95.4%的高水平。在轻量化方面,改进模型的参数量2.31 M与模型权重文件大小4.9 MB都是所有对比模型中最低或并列最低,分别较基线模型降低了10.5%和10.9%。计算量6.1 GFLOPs也处于最低水平,较基线模型降低3.2%。尽管因结构改进导致前向传播路径增加,模型推理速度有所下降,但其仍能以189.2帧/s的速度运行,满足实际检测的实时性需求。综上所述,本研究提出的改进YOLOv11n模型并非仅在单一精度指标上优化,而是在召回率、模型规模和计算复杂度等多个关键指标上同步改善,实现了检测精度与模型轻量化之间的更优平衡。

3.3 模型检测效果可视化分析

3.3.1 检测结果可视化

本研究将改进的YOLOv11n算法与YOLOv8n-Worldv2、原始YOLOv11n及YOLOv12n算法对芡实检测结果的对比图展示出来,如图7所示。在不同分类和整体检测的场景下,所选取的算法都能完成对芡实的识别,但在整体对比检测的场景下,原始的YOLOv11n算法存在错检,YOLOv12n算法存在误检的现象,本研究所改进的YOLOv11n算法无错检、误检的情况,检测更为完整准确。
图7 芡实缺陷检测研究不同模型检测效果可视化对比结果

Fig. 7 Visual comparison of detection performance of different models in Euryale ferox defect detection research

3.3.2 热力图可视化分析

为了直观验证改进模型在特征提取与目标聚焦方面的有效性,本研究采用梯度加权类激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)37方法,对消融实验中各模型生成的目标检测热力图进行对比分析。如图8所示,热力图通过颜色深浅反映模型对图像不同区域的关注程度,其中红色亮度越高,表明该区域对模型预测结果的贡献越大。由图8可知,基线模型YOLOv11n存在漏检和错误聚焦背景区域的问题,模型难以准确聚焦芡实区域(图8b);引入CURK模块后,模型对芡实区域的关注范围有所扩大,但是背景干扰仍较明显(图8c);引入DLAE模块后,模型对背景区域的响应有所抑制,但是存在漏检的问题(图8d);同时引入CURK模块和DLAE模块后,模型对芡实目标的响应进一步增强,同时背景响应有所下降(图8f);最后,同时引入CURK、DLAE与SDIoU三个模块后,发现先通过CURK模块聚焦芡实区域,再通过DLAE模块有效抑制背景干扰并进一步提升芡实目标响应,最后由SDIoU进一步优化特征关注,成功实现了对芡实目标的准确检测(图8g)。因此,从特征响应角度看,本研究提出的改进方法不仅在定量指标上提升了检测性能,也在定性层面增强了模型对芡实缺陷区域的有效关注能力,为模型性能提升提供了可解释性支持。
图8 芡实缺陷检测研究不同改进模块热力图分析结果

Fig. 8 Heatmap analysis results of different improvement modules in Euryale ferox defect detection research

3.4 改进模型验证试验

为验证改进后的YOLOv11n模型在实际芡实分拣环境中的检测性能与鲁棒性,本研究搭建了一套简易视觉检测验证平台。该平台主要由工业相机(迈德威视MV-GED130C)、可调LED条形光源、蓝色与白色背景传送带及计算机组成,如图9所示。模型训练阶段采用手机采集图像构建数据集,验证阶段采用工业相机采集图像,两类设备在分辨率、色彩响应、曝光控制、镜头成像特性及噪声分布等方面存在差异。这一设计基于两方面考虑:手机拍摄便于在数据集构建阶段快速获取多样化样本;工业相机更符合实际在线分选装备的部署条件。因此,该验证方案本质上属于跨设备泛化测试。为弱化成像差异带来的影响,训练阶段已采用多角度采集及数据增强策略,以提升模型对成像条件变化的适应能力。
图9 基于改进YOLOv11n的芡实外观缺陷模型检测验证平台

注:1.控制板;2.可调条形光源;3半封闭箱体;4.工业相机;5.计算机;6.传送带;7.待检测芡实。

Fig. 9 Detection and validation platform for the improved YOLOv11n-based appearance defect detection model of Euryale ferox

验证试验分别采集了来自安徽省天长市(模型训练采集地)与阜南县两地的芡实样本,每个地区各选取402个样本,涵盖合格品及表面划痕、破损、老果、果皮四类缺陷。样本中合格芡实200个,缺陷芡实202个。试验过程中,将芡实随机平铺于传送带,通过工业相机在动态条件下采集图像,并实时输入至改进YOLOv11n模型进行推理检测。最终根据模型输出的分类结果,统计各项性能指标。试验结果如表4所示。
表4 不同地区芡实缺陷检测结果统计

Table 4 Statistical results of defect detection in Euryale ferox across different regions

地区 合格芡实总数/个 正检数1/个 缺陷芡实总数/个 正检数2/个 缺陷查准率/% 缺陷查全率/% 总体准确率/%
天长市 200 188 202 192 94.1 95.1 94.5
阜南县 200 178 202 184 89.3 91.1 90.0

注:正检数1表示正确检测出的合格芡实数量;正检数2表示正确检测出的缺陷芡实数量;缺陷查准率表示被检测为缺陷的样本中实际为缺陷的比例;缺陷查全率表示实际缺陷样本中被检测为缺陷的比例;总体检测准确率表示所有检测样本中被正确分类为缺陷或正常样本的比例。

对于天长市样本,改进模型在合格芡实中正确检出188个,在缺陷芡实中正确检出192个,总体识别准确率为94.5%。其中缺陷查准率与查全率分别为94.1%和95.1%。受不同地区水质、生长气候等因素影响,芡实外观特征存在一定差异,阜南县样本的检测结果相对偏低,但总体准确率仍达90.0%,两地平均总体准确率达92.25%。上述结果表明,尽管训练数据与验证数据存在成像设备差异,改进模型在跨设备条件下仍取得了较高的检测准确率,具备良好的泛化能力与工程应用潜力。图10展示了改进模型在验证平台上的部分检测结果对比图。
图10 基于改进YOLOv11n的芡实外观缺陷检测研究验证平台检测结果对比

注:a. 天长市样本检测结果 b. 阜南县样本检测结果箭头表示缺陷错检的位置。

Fig. 10 Comparison of detection results on the validation platform for the improved YOLOv11n-based appearance defect detection research of Euryale ferox

4 结 论

针对芡实加工分选过程中人工分拣效率低、主观性强以及检测模型轻量化的问题,提出了一种基于改进YOLOv11n的芡实外观缺陷检测模型,并得到以下结论。
1)从特征提取、下采样结构和损失函数三个方面对YOLOv11n进行了改进,构建了C3k2-UniRepLKNetBlock的特征提取模块,引入了DLAE下采样模块,在增强关键区域的自适应学习能力的同时减少计算量,最后采用尺度自适应的SDIoU损失函数代替原损失函数,在保持高精度的同时实现了模型的轻量化设计。
2)改进模型的mAP50为97.4%,召回率为92.8%,相较于基线模型YOLOv11n分别提高了0.4和2.9个百分点;模型权重文件大小为4.9 MB,模型参数量为2.31 M,浮点运算量为6.1 GFLOPs,较基线模型分别降低了10.9%、10.7%和3.2%;模型的推理速度达到189.2帧/s,满足实时性要求。
3)在实际搭建的视觉检测验证平台上,改进模型在不同地区样本与跨设备成像条件下都表现良好,天长市与阜南县样本的总体检测准确率分别为94.5%和90.0%,均值达92.25%,说明模型具备良好的泛化能力与工程应用潜力。
本研究提出的模型目前存在一定的局限性:数据集主要来源于单一品种和有限采集环境,后续研究将补充不同品种、不同成熟状态和复杂光照条件下的样本数据,为芡实智能化分选提供更高效和精准的技术支持。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
杨校, 王新宇, 朱恒岳, 等. 重构本草——芡实[J]. 吉林中医药, 2024, 44(5): 576-578.

YANG X, WANG X Y, ZHU H Y, et al. Reconstruction of Chinese materia Medica-Gordon Euryale seed[J]. Jilin Journal of Traditional Chinese Medicine, 2024, 44(5): 576-578.

[2]
徐旭, 刘娴, 李良俊. 芡实研究进展[J]. 长江蔬菜, 2017(18): 62-68.

XU X, LIU X, LI L J. Research progress on Euryale ferox[J]. Journal of Changjiang Vegetables, 2017(18): 62-68.

[3]
陆娴, 雷根平, 杨东, 等. 芡实化学成分及现代药理研究进展[J]. 新乡医学院学报, 2026, 43(5): 410-416.

LU X, LEI G P, YANG D, et al. Research progress on chemical composition and modern pharmacology of Euryale ferox Salisb[J]. Journal of Xinxiang Medical University, 2026, 43(5): 410-416.

[4]
JIANG J H, OU H Y, CHEN R Y, et al. The ethnopharmacological, phytochemical, and pharmacological review of Euryale ferox salisb.: a Chinese medicine food homology[J]. Molecules, 2023, 28(11): 4399.

[5]
潘复生, 鲍忠洲, 谢贻格. 苏芡优质高效精准栽培管理技术[J]. 长江蔬菜, 2016(10): 29-32.

[6]
张良. 浅议芡实生产和初加工的机械化[J]. 农业装备技术, 2024, 50(6): 38-39.

[7]
唐彦嵩, 徐锐豪, 王夙加. 机器视觉在食品无损检测中的应用研究进展[J]. 中国食品学报, 2024, 24(12): 13-27.

TANG Y S, XU R H, WANG S J. Research progress in the application of machine vision in food nondestructive detection[J]. Journal of Chinese Institute of Food Science and Technology, 2024, 24(12): 13-27.

[8]
LI Q L, WANG Z J, WANG M Y, et al. Next-generation optical imaging and spectroscopy: AI and chemometrics in assessing authenticity, nutrition, and hazard factors in cereals[J]. Comprehensive Reviews in Food Science and Food Safety, 2025, 24(5): e70248.

[9]
贾志鑫, 杨霖, 史策, 等. 农产品品质在线感知技术应用研究进展[J]. 农业机械学报, 2025, 56(6): 17-32.

JIA Z X, YANG L, SHI C, et al. Research progress on application of online perception technology for agricultural product quality[J]. Transactions of the Chinese Society for Agricultural Machinery, 2025, 56(6): 17-32.

[10]
成军虎, 曾弘, 郭鸿樟, 等. 机器学习在生鲜农产品质量与安全快速无损智能检测中的应用与展望[J]. 现代食品科技, 2025, 41(12): 334-345.

CHENG J H, ZENG H, GUO H Z, et al. Non-destructive intelligent testing of the quality and safety of fresh agricultural products based on machine learning: principles, challenges, and applications[J]. Modern Food Science & Technology, 2025, 41(12): 334-345.

[11]
山显英, 张琳, 李泽慧. 深度学习驱动下的目标检测研究进展综述[J]. 计算机工程与应用, 2025, 61(1): 24-41.

SHAN X Y, ZHANG L, LI Z H. Review of research progress in object detection driven by deep learning[J]. Computer Engineering and Applications, 2025, 61(1): 24-41.

[12]
LI J J, ZHU Z F, LIU H X, et al. Strawberry R-CNN: Recognition and counting model of strawberry based on improved faster R-CNN[J]. Ecological Informatics, 2023, 77: 102210.

[13]
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[14]
MACÍAS-MACÍAS M, SÁNCHEZ-SANTAMARIA H, GARCÍA ORELLANA C J, et al. Mask R-CNN for quality control of table olives[J]. Multimedia Tools and Applications, 2023, 82(14): 21657-21671.

[15]
LIU Q P, BI J J, ZHANG J W, et al. B-FPN SSD: an SSD algorithm based on a bidirectional feature fusion pyramid[J]. The Visual Computer, 2023, 39(12): 6265-6277.

[16]
BADGUJAR C M, POULOSE A, GAN H. Agricultural object detection with You Only Look Once (YOLO) Algorithm: A bibliometric and systematic literature review[J]. Computers and Electronics in Agriculture, 2024, 223: 109090.

[17]
YUAN W Q, XU W Q. RFE-YOLO: A more accurate YOLO for distinguishing high-quality and defective apples[J]. Journal of Food Measurement and Characterization, 2025, 19(11): 9124-9135.

[18]
叶秉良, 丰睿, 唐涛, 等. 基于改进YOLOv10n的自然环境下莲蓬成熟度检测方法[J]. 农业工程学报, 2025, 41(22): 145-153.

YE B L, FENG R, TANG T, et al. Ripeness detection of Lotus seedpod in natural environment based on improved YOLOv10n[J]. Transactions of the Chinese Society of Agricultural Engineering, 2025, 41(22): 145-153.

[19]
黎祖胜, 唐吉深, 匡迎春. 基于改进YOLOv10n的轻量化荔枝虫害小目标检测模型[J]. 智慧农业(中英文), 2025, 7(2): 146-159.

LI Z S, TANG J S, KUANG Y C. A lightweight model for detecting small targets of Litchi pests based on improved YOLOv10n[J]. Smart Agriculture, 2025, 7(2): 146-159.

[20]
陈龙梅, 张春雨. 改进YOLOv8模型的芡种成熟度检测[J]. 安徽科技学院学报, 2025, 39(1): 70-76.

CHEN L M, ZHANG C Y. Maturity detection of Euryale ferox seeds based on YOLOv8 modeling[J]. Journal of Anhui Science and Technology University, 2025, 39(1): 70-76.

[21]
YU D X, DAI C Y, QU C, et al. Rapid classification and quantification of Euryales semen (Euryale ferox Salisb.) from different origins and varieties using multispectral fingerprints combined with machine learning methods[J]. Journal of Food Composition and Analysis, 2025, 140: 107239.

[22]
常永雷, 张熔龙, 惠振阳, 等. 一种基于深度学习的芡实中药材遥感识别方法: CN121354094A[P]. 2026-01-16.

[23]
修贤超, 费士祺, 黄文倩, 等. 基于轻量化Mamba-YOLO模型的梨表面缺陷检测方法[J]. 智慧农业(中英文), 2026, 8(2): 147-157.

XIU X C, FEI S Q, HUANG W Q, et al. A lightweight method for pear surface defect detection based on improved mamba-YOLO architecture[J]. Smart Agriculture, 2026, 8(2): 147-157.

[24]
朱然辉, 王相友, 吴海涛, 等. 基于YOLOv11-MML的马铃薯表面缺陷实时检测方法[J]. 农业工程学报, 2025, 41(15): 117-126.

ZHU R H, WANG X Y, WU H T, et al. Real-time detection method for potato surface defects based on YOLOv11-MML[J]. Transactions of the Chinese Society of Agricultural Engineering, 2025, 41(15): 117-126.

[25]
SUN D Y, LAN W J, ZHAO K X, et al. Real-time imaging quantification of mixed defective wheat kernels using a lightweight You Only Look Once version 8 instance-segmentation model[J]. Microchemical Journal, 2026, 221: 116820.

[26]
XIA Y, CHE T C, MENG J W, et al. Detection of surface defects for maize seeds based on YOLOv5[J]. Journal of Stored Products Research, 2024, 105: 102242.

[27]
徐君, 孙芳芳, 尹渝来, 等. 江苏省芡实冻鲜米产业发展现状与对策[J]. 农村经济与科技, 2025, 36(15): 88-90.

[28]
KHANAM R, HUSSAIN M. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 2410.17725, 2024.

[29]
DING X H, ZHANG Y Y, GE Y X, et al. UniRepLKNet: A universal perception large-kernel ConvNet for audio, video, point cloud, time-series and image recognition[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2024: 5513-5524.

[30]
YU Z W, GUAN Q, YANG J M, et al. LSM-YOLO: a compact and effective ROI detector for medical detection[EB/OL]. arXiv: 2408.14087, 2024.

[31]
YANG J N, LIU S L, WU J J, et al. Pinwheel-shaped convolution and scale-based dynamic loss for infrared small target detection[C]// Proceedings of the Thirty-ninth AAAI Conference on Artificial Intelligence and Thirty-seventh Conference on Innovative Applications of Artificial Intelligence and Fifteenth Symposium on Educational Advances in Artificial Intelligence. New York, USA: ACM, 2025: 9202-9210.

[32]
CHENG T H, SONG L, GE Y X, et al. YOLO-world: real-time open-vocabulary object detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2024: 16901-16911.

[33]
YANG G M, WANG Y B, LI X Y, et al. YOLOv9t-DM: A lightweight multi-target detection method for walnut shell kernel materials[J]. Signal, Image and Video Processing, 2025, 19(7): 591.

[34]
WANG Q, YAN N, QIN Y S, et al. BED-YOLO: An enhanced YOLOv10n-based tomato leaf disease detection algorithm[J]. Sensors, 2025, 25(9): 2882.

[35]
JIANG S, CHEN X, LI Z M, et al. Detecting tassels in UAV imagery with Tassel-YOLOv12n model: A case study of adapted maize varieties in the Huaibei Plain, China[J]. Smart Agricultural Technology, 2025, 12: 101397.

[36]
JIA H J, ZHANG L J, LIANG X M, et al. DPDB-YOLO: A lightweight YOLOv13 cherry tomato ripeness detection method with adaptive extraction module and multi-scale feature fusion architecture[J]. Industrial Crops and Products, 2025, 238: 122419.

[37]
SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020, 128(2): 336-359.

Outlines

/