Welcome to Smart Agriculture 中文
Information Processing and Decision Making

Chilli-YOLO: An Intelligent Maturity Detection Algorithm for Field-Grown Chilli Based on Improved YOLOv10

  • SI Chaoguo 1, 2 ,
  • LIU Mengchen 2, 3 ,
  • WU Huarui 2, 4 ,
  • MIAO Yisheng 2, 4 ,
  • ZHAO Chunjiang , 2
Expand
  • 1. College of Information Technology, Shanghai Ocean University, Shanghai 201306, China
  • 2. National Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China
  • 3. School of Automation, Beijing Information Science& Technology University, Beijing 100096, China
  • 4. Key Laboratory of Digital Village Technology, Ministry of Agriculture and Rural Affairs, Beijing 100097, China
ZHAO Chunjiang, E-mail:

SI Chaoguo, E-mail:

Received date: 2024-10-27

  Online published: 2025-03-24

Supported by

National Key Research and Development Program Project(2023YFD2001205)

National Modern Agricultural Industry Technology System(CARS-23-D07)

Beijing Position Expert Task(BAIC10-2024-E10)

Copyright

copyright©2025 by the authors

Abstract

[Objective] In modern agriculture, the rapid and accurate detection of chillies at different maturity stages is a critical step for determining the optimal harvesting time and achieving intelligent sorting of field-grown chillies. However, existing target detection models face challenges in efficiency and accuracy when applied to the task of detecting chilli maturity, which limit their widespread use and effectiveness in practical applications. To address these challenges, a new algorithm, Chilli-YOLO, was proposed for achieving efficient and precise detection of chilli maturity in complex environments. [Methods] A comprehensive image dataset was collected, capturing chillis under diverse and realistic agricultural conditions, including varying lighting conditions, camera angles, and background complexities. These images were then meticulously categorized into four distinct maturity stages: Immature, transitional, mature, and dried. Data augmentation techniques were employed to expand the dataset and enhance the model's generalization capabilities. To develop an accurate and efficient chili maturity detection system, the YOLOv10s object detection network was chosen as the foundational architecture. The model's performance was further enhanced through strategic optimizations targeting the backbone network. Specifically, standard convolutional layers were replaced with Ghost convolutions. This technique generated more feature maps from fewer parameters, resulting in significant computational savings and improved processing speed without compromising feature extraction quality. Additionally, the C2f module was substituted with the more computationally efficient GhostConv module, further reducing redundancy and enhancing the model's overall efficiency. To improve the model's ability to discern subtle visual cues indicative of maturity, particularly in challenging scenarios involving occlusion, uneven lighting, or complex backgrounds, the partial self-attention (PSA) module within YOLOv10s was replaced with the second-order channel attention (SOCA) mechanism. SOCA leverages higher-order feature correlations to more effectively capture fine-grained characteristics of the chillis. This enabled the model to focus on relevant feature channels and effectively identify subtle maturity-related features, even when faced with significant visual noise and interference. Finally, to refine the precision of target localization and minimize bounding box errors, the extended intersection over union (XIoU) loss function was integrated into the model training process. XIoU enhances the traditional IoU loss by considering factors such as the aspect ratio difference and the normalized distance between the predicted and ground truth bounding boxes. By optimizing for these factors, the model achieved significantly improved localization accuracy, resulting in a more precise delineation of chillis in the images and contributing to the overall enhancement of the detection performance. The combined implementation of these improvements aimed to construct an effective approach to correctly classify the maturity level of chillis within the challenging and complex environment of a real-world farm. [Results and Discussion] The experimental results on the custom-built chilli maturity detection dataset showed that the Chilli-YOLO model performed excellently across multiple evaluation metrics. The model achieved an accuracy of 90.7%, a recall rate of 82.4%, and a mean average precision (mAP) of 88.9%. Additionally, the model's computational load, parameter count, model size, and inference time were 18.3 GFLOPs, 6.37 M, 12.6 M, and 7.3 ms, respectively. Compared to the baseline model, Chilli-YOLO improved accuracy by 2.6 percent point, recall by 2.8 percent point and mAP by 2.8 percent point. At the same time, the model's computational load decreased by 6.2 GFLOPs, the parameter count decreased by 1.67 M, model size reduced by 3.9 M. These results indicated that Chilli-YOLO strikes a good balance between accuracy and efficiency, making it capable of fast and precise detection of chilli maturity in complex agricultural environments. Moreover, compared to earlier versions of the YOLO model, Chilli-YOLO showed improvements in accuracy of 2.7, 4.8, and 5 percent point over YOLOv5s, YOLOv8n, and YOLOv9s, respectively. Recall rates were higher by 1.1, 0.3, and 2.3 percent point, and mAP increased by 1.2, 1.7, and 2.3 percent point, respectively. In terms of parameter count, model size, and inference time, Chilli-YOLO outperformed YOLOv5. This avoided the issue of YOLOv8n's lower accuracy, which was unable to meet the precise detection needs of complex outdoor environments. When compared to the traditional two-stage network Faster RCNN, Chilli-YOLO showed significant improvements across all evaluation metrics. Additionally, compared to the one-stage network SSD, Chilli-YOLO achieved substantial gains in accuracy, recall, and mAP, with increases of 16.6%, 12.1%, and 16.8%, respectively. Chilli-YOLO also demonstrated remarkable improvements in memory usage, model size, and inference time. These results highlighted the superior overall performance of the Chilli-YOLO model in terms of both memory consumption and detection accuracy, confirming its advantages for chilli maturity detection. [Conclusions] The proposed Chilli-YOLO model optimizes the network structure and loss functions, not only can significantly improve detection accuracy but also effectively reduce computational overhead, making it better suites for resource-constrained agricultural production environments. The research provides a reliable technical reference for intelligent harvesting of chillies in agricultural production environments, especially in resource-constrained settings.

Cite this article

SI Chaoguo , LIU Mengchen , WU Huarui , MIAO Yisheng , ZHAO Chunjiang . Chilli-YOLO: An Intelligent Maturity Detection Algorithm for Field-Grown Chilli Based on Improved YOLOv10[J]. Smart Agriculture, 2025 , 7(2) : 160 -171 . DOI: 10.12133/j.smartag.SA202411002

0 引 言

中国辣椒产量位居世界首位,近年来,随着辣椒产业的迅速发展,传统的人工筛选方式因效率低、成本高,已难以适应智慧化、精准化农业需求。市面上的辣椒收获机多采用强捋式采摘方法,导致辣椒成熟度单一、损坏率高,并伴有大量杂物 1。随着人们生活水平的提高,传统人工和机械式的采摘方式已难以满足消费者对辣椒成熟度和品质的多样化需求。因此,将人工智能与自动化设备相结合成为智能采摘的当务之急 2。尤其在现代农业中,通过智能化技术对辣椒果实成熟度进行精准检测,选择最佳采摘时机,并区分不同辣椒成熟度进行智能分拣,不仅能够提高作业效率,还能够提高辣椒收获的产品质量。
传统的果实成熟度机器学习方法多依靠简单的颜色、大小、纹理等浅层特征来判定。Dhakshina Kumar等 3开发了一种三阶段无损番茄分选和分级系统,用于识别成熟和未成熟番茄,但通过级联多个支持向量机(Support Vector Machine, SVM)分类器会导致计算复杂度过大。Karki等 4采用Gaussian Naïve Bayes(GNB)、SVM和feed-forward artificial neural networks(FANN)三种机器学习模型和四种颜色空间(RGB、HLS、CIELab、YCbCr)并结合生物特征来识别草莓的成熟度,其中CIELab颜色空间下的FANN准确率最高。然而,传统方法易受环境变量的影响,尤其是在非结构化环境中,环境要素的波动、水果表面颜色和特征的变化均会对检测准确性产生负面影响 5, 6,模型稳健性差。
深度学习技术通过自主学习标注数据集中的隐含规律和结构,能够高效地挖掘图像深层特征,在处理复杂场景下的目标检测与分类任务时,展现出高精度和快速响应的特性,为自然环境下果实成熟度等级判别提供了新思路。目前,深度学习技术已广泛应用于各种果实的成熟度检测任务。常文龙等 7提出了一种改进的YOLOv5s模型,用于识别复杂背景下成熟、半成熟和未成熟的番茄,其识别准确率达到94.2%。Chen等 8基于YOLOv7模型,提出了一种名为MTD-YOLOv7的多任务深度卷积神经网络(Deep Convolution Neural Network, DCNN)检测模型,该模型能同时检测樱桃番茄果实、串、果实成熟度,以及串成熟度,并在多任务中取得了86.6%的整体平均准确率,平均推理时间为4.9 ms。苗荣慧等 9提出了一种改进的YOLO v7网络模型(YOLO v7-ST-ASFF),该模型在苹果图像测试集上的检测速度和准确率均有显著提高。黄威等 10对YOLOX-S检测算法进行了改进,结果表明,改进后的模型相比原算法,平均精度均值(Mean Average Precision, mAP)提高约1.97%,苹果的三种成熟度的平均精度(Average Precision, AP)值分别为90.85%、95.10%和80.50%。Cong等 11提出了一种改进的Mask RCNN(Mask Region-Based Convolutional Neural Network)模型,该模型在复杂场景下检测不同类别甜椒的AP和平均召回率(Average Recall, AR)分别为98.1%和99.4%,平均每秒帧数(Frames Per Second, FPS)为5(0.20 s)。Zhu等 12提出了一种新的Olive-EfficientDet模型,用于检测复杂照明、遮挡和重叠果园环境中多品种橄榄果实的成熟度,该模型检测四种橄榄果实的mAP分别达到94.60%、95.45%、93.75%和96.05%,平均检测时间为每张图像337 ms;且模型大小为32.4 MB。Chen等 13提出了一种CES-YOLOv8草莓成熟度检测模型,该模型在保证实时性的前提下实现复杂环境四种草莓成熟度的精确识别,其识别准确率达92.1%。Xu等 14聚焦多尺度特征提取和轻量化设计提出一种YOLO-RFEW模型,实现温室环境下五种成熟度甜瓜果实的准确检测,以1.5 ms的实时速度达到了90.82%的mAP。蒋瑜和王灵敏 15以香蕉为研究对象,对Alexnet进行轻量化设计,并进行移动端部署,结果表明模型判别香蕉成熟度准确率为97.76%,移动端mAP为80%。Li等 16结合Mask RCNN网络和注意力机制,提出一种改进的葡萄串分割与成熟度评估模型,平均准确率达94.4%。陈锋军等 17提出改进的EfficientDet检测模型,用于成熟度差异不明显以及复杂遮挡等情况下检测不同成熟度的油橄榄果实,该方法的mAP为94.6%。李旭等 18提出了一种基于YOLOX的改进辣椒果实检测模型(YOLOX_Pepper),该模型能够准确快速地检测自然环境不同光照和遮挡条件的辣椒果实,平均检测精度达到93.30%,该方法所检测辣椒类型相对单一,仅限于绿椒和红椒。而Viveros Escamilla等 19虽然基于甜椒不同颜色(绿色、黄色、橙色和红色)来区分其成熟度,并在此基础上对YOLOv5模型进行了改进,以实现温室环境中甜椒的检测和跟踪,但其检测准确性仍需进一步提高。
综合来看,虽然上述研究提高了果实不同成熟度的检测速度和精度,但针对露地辣椒果实的成熟度检测仍面临以下问题亟待解决。首先,在露地环境中,受自然光变化的影响较大,容易导致检测算法识别精度下降。其次,辣椒在成长过程中存在异步成熟等特点,现有算法在区分成熟度阶段时仍存在混淆的可能。最后,Mask R-CNN和EfficientDet等虽然具有较高的检测精度,但模型计算复杂度高,检测速度慢;相对而言,YOLO等检测模型计算复杂度低,检测速度快,而检测精度却有待提高,这在实际农业应用中限制了其普及性。鉴于YOLO系列算法具有快速准确的目标检测能力 20- 22,本研究针对以上问题,以露地辣椒为研究对象,在YOLOv10 23目标检测网络改进的基础上,提出了一种新的露地辣椒成熟度检测算法Chilli-YOLO,旨在实现轻量化和高精度识别的双重优化。

1 材料与方法

1.1 数据集构建

1.1.1 样本采集

本研究构建了一个包含未成熟、过渡期、成熟期和干辣椒四个阶段的辣椒成熟度数据集,四种辣椒成熟度的分类标准如 表1所示。数据采集于北京市昌平区国家精准农业基地。辣椒品种为京研-国塔613。拍摄时间在2024年9月下旬中每天的10∶00至12∶00和13∶30至17∶00。所有图片均在距辣椒0.2~1 m的不同角度处拍摄。采集设备为华为P60和iQOO Neo8 Pro,像素为4 000×3 000和4 096×3 072,焦距为6 mm,图像为JPG格式。为了减少计算资源需求和加快训练速度,同时保证图片像素的一致性,像素统一预处理为800×600。如 图1所示,其中包含不同光照强度、重叠、遮挡等复杂环境。最终共采集了580张自然图像。
表1 划分4级辣椒成熟度的特征描述

Table 1 Characteristics for dividing the 4 levels of chilli maturity

级别 成熟度 描述 RGB图像
1 未熟期(immature) 整体呈绿色,形态饱满,表面光滑
2 过渡期(transitional) 局部呈茶褐色,果皮变硬
3 成熟期(harvestable) 整体呈亮红色,表皮中的叶绿素完全消失,表面光滑
4 干辣椒(dried) 逐渐脱水呈干辣椒状态,砖红色与白色相间,表面皱褶,含水量极低
图1 不同场景下所采集的辣椒样本

Fig. 1 Chillies samples collected in different scenarios

1.1.2 样本增强

由于辣椒成熟度数据集的样本量不足,为了提升深度学习模型的训练效果、增强其泛化能力,并避免因训练样本不足而导致的过拟合问题,本研究采用了翻转、平移和亮度调整、高斯噪声,以及随机裁剪四种数据增强方式对数据集进行扩充。每种方法均将样本数量扩充一倍,最终共获得2 900张图像。为确保数据集中图像的质量和目标的有效性,通过人工审核剔除了未包含目标辣椒的图像。最终,共获得有效图像2 899张,部分数据增强样本如 图2所示。随后,使用LabelImg( https://github.com/HumanSignal/labelImg)对增强后的图像进行目标标注。考虑到辣椒的生长特性,本研究按照7∶2∶1的比例将数据集随机划分为训练集(2 029张)、验证集(580张)和测试集(290张)。
图2 辣椒数据集数据增强后的样本效果图

Fig. 2 Sample effects of the chilli dataset after data augmentation

1.2 模型构建

1.2.1 骨干网络的优化

传统卷积神经网络通常包含多个卷积模块,在图像处理过程中生成大量冗余的特征图,导致计算量和参数数量的双重增加。尽管现有的轻量级神经网络采用较小的卷积核构建CNN,但卷积层仍然占用了大量参数。针对这一问题,Han等 24提出了一种轻量级网络模型GhostNet,该方法通过非线性卷积先压缩输入特征层,再进行线性卷积逐层处理,生成另一组特征图,最后将这两组特征图合并得到新的特征图。该方法在保持良好性能的同时,有效地降低了计算复杂度和模型参数数量,Ghost的卷积过程如 图3所示,其中 Φ i为线性变换。
图3 Ghost Conv模块

Fig. 3 Ghost Conv module

YOLOv10采用传统的卷积层提取特征信息,虽然特征信息全面,但包含了大量冗余信息,模型参数量大。而Ghost模块采用线性变换机制,能够利用较少的标准卷积生成大量特征信息,有效降低了模型复杂度。因此为了实现模型轻量化,本研究借鉴Ghost卷积的概念,将YOLOv10中的Backbone部分卷积层替换为GhostConv。并引入优化后的C2f结构,将bottleneck block中的传统卷积替换为GhostConv,优化后的结构为C2f_Ghost,如 图4所示。使模型学习到更丰富的特征表示的同时,保留了Ghost模块复杂度低、计算量小的优势。
图4 C2f_Ghost模块

Fig. 4 C2f_Ghost module

1.2.2 SOCA二阶注意力机制

在露地辣椒成熟度判断任务中,辣椒的成熟度特征具有多样性和复杂性,要求模型能够有效地捕捉不同成熟阶段的细微差异。在传统的YOLOv10模型中,PSA(Partial Self-Attention)模块用于增强模型的全局表示能力,但仍存在一定的局限性。PSA模块原理如 图5所示。具体而言,PSA模块首先通过卷积将特征在具体而言,PSA模块首先通过卷积将特征在通道维度上均匀划分为两部分,然后将其中一部分输入到由多头自注意力模块(MHSA)和前馈网络(Feed-Forward Network, FFN)组成的NPSA模块中。最后,通过卷积将处理后的特征与另一部分进行融合,从而有效提取全局特征。然而,仅依赖PSA模块仍不足以充分捕捉特征间的复杂关联性。辣椒的成熟度不仅依赖于单一尺度的特征,还涉及特征之间的高度关联及其变化规律。为了解决这一问题,本研究引入了SOCA(Second-Order Channel Attention)模块替代PSA模块。
图5 PSA注意力机制

Fig. 5 PSA attention mechanism

SOCA 25包括协方差归一化和通道注意力两个部分。不同于传统通道注意力方法,SOCA能够灵活地利用高阶特征统计量来对特征进行重新缩放,充分挖掘特征图中各元素间的协同和相关性信息。不仅使得网络学习更多的重要信息并增强判别性学习能力,加强特征之间的关联性 26
图6所示,对于输入尺寸为 C × H × W的特征图   y i,首先使用全局协方差池化获得归一化协方差矩阵   y c,然后对 C个通道求取均值获得通道描述符 Z c,如 公式(1)所示,在此过程中,全局协方差池化不仅探索了特征分布,还捕获了高于一阶的特征统计量,从而获得更具区分性的表示。随后,通过卷积层对通道维度进行降维和还原,以学习高阶信息,借助sigmoid门控机制来充分利用全局协方差池聚合信息中的特征相互依赖性,获得二阶通道注意力向量 w,如 公式(2)所示。最终,将 w与输入特征按照通道相乘,得到新的特征图 y o
Z c = H G C P ( y c ) = 1 C i C y c ( i )
w = f ( W U δ ( W D z ) )
式中: H G C P为全局协方差池化函数; y c为第 c个通道的特征向量; y c ( i )为第 c个通道中第 i个元素的特征值。 f为sigmoid函数; δ为RELU函数; W D W U为卷积层的权重集。
图6 SOCA注意力机制

Fig. 6 SOCA attention mechanism

1.2.3 损失函数优化

损失函数是一种衡量模型预测结果与实际结果之间差异的指标。选择合适的损失函数对目标检测模型的性能至关重要,尤其是在复杂场景下(如小目标检测 27、目标密集的环境 28等)。YOLOv10采用了CIoU(Complete IoU)作为边界框的损失函数。虽然CIoU在解决GIoU退化问题时增加了宽高损失,避免了DIoU在中心点重合时无法区分交并比的情况 8,但其使用的反正切函数对异常值较为敏感,导致损失值波动较大,并引入了额外的归一化步骤,增加了计算复杂度 29, 30。而在辣椒的检测中,由于目标密集场景的存在,辣椒果实之间经常发生遮挡或紧密排列。此外,辣椒具有一定的弯曲和方向性,CIoU主要处理重叠面积、中心点距离和长宽比,但并未对预测框与真实框在方向性上的不一致进行特别处理 31。因此,针对辣椒这类具有特定姿态的物体,CIoU可能无法精确对齐限制了其在处理这些复杂场景时的效果。CIoU的计算如公式(3)~ 公式(5)所示。
L C I o U = 1 - I o U + ρ 2 ( b , b g t ) l 2 + α v
α = v ( 1 - I o U ) + v
v = 4 π 2 ( a r c t a n w g t h g t - a r c t a n w h ) 2
式中: ρ b , b g t为预测框   b  与真实框   b g t  中心点之间的欧氏距离; l为包含 b b g t的最小矩形的对角线长度; α为权重参数; v为长宽比; w g t h g t w h分别为真实框和预测框的宽、高。
相比之下,XIoU能够有效避免CIoU退化问题,采用指数函数替代CIoU中的反正切函数,从而更精确地计算目标框和预测框的长宽比 32。由于指数函数对极值的敏感性较低,XIoU有助于减少异常值的影响,提升模型的鲁棒性。此外,XIoU将函数值限制在(0,1)范围内,省去了归一化步骤,简化了计算过程。XIoU的计算如公式(6)~ 公式(7)所示。因此,本研究使用XIoU损失函数替换原损失函数,以改进模型性能,提升了对不同成熟度辣椒的识别准确性。
L X I o U = 1 - I o U + ρ 2 ( b , b g t ) l 2 + α ' ν '
α ' = v ' ( 1 - I o U ) + v '
v ' = ( 1 1 + e - w g t h g t - 1 1 + e - w h ) 2
式中: α '  为更新后的权重参数; v '  为更新后长宽比。

1.2.4 Chilli-YOLO模型构建

YOLOv10 23是相对先进的单阶段目标检测算法之一,其引入NMS-Free(Non-Maximum Suppression-Free)并进行模型优化设计,从而解决以往版本在目标检测中的后处理和模型架构方面的不足,实现真正的端到端检测。YOLOv10的检测模型由三部分组成:主干网络、颈部网络和头部网络。主干网络包括CBS(Conv卷积层,Bath Normalization批归一化层,SiLU激活函数)模块、SCDown模块、C2f模块、C2fCIB模块和PSA自注意机制,主要负责从输入图像中提取特征 33。颈部网络采用FPN-PAN结构,将来自主干网络的特征信息整合在一起。Head采用轻量级解耦Head,将分类、回归和置信度任务分开处理,汇聚输出,旨在实现统一的双重分配策略,解决YOLO在后处理中对NMS的依赖问题 34, 35
本研究引入GhostNet网络,利用GhostConv和C2fGhost分别替代Backbone部分的普通卷积模块和C2f模块,以减少模型的参数。将PSA模块替换为SOCA注意力机制,引入高阶特征,提升模型识别准确率。最后,采用XIoU损失函数优化定位精度,得到改进后的Chilli-YOLO模型。其结构如 图7所示。
图7 Chilli-YOLO网络结构

注:橙色虚线框的标示为本研究主要改进部分。

Fig.7 Chilli-YOLO network structure

2 模型训练与评价

2.1 实验平台及超参数配置

本实验环境配置如下。使用 Intel(R)Xeon(R)Gold 6248R @ 3.00 GHz 处理器和NVIDIA GeForce RTX3090显卡。深度学习模型框架使用Pytorch 2.0.0和Python 3.8,CUDA版本11.7,操作系统选择Windows 10。
考虑到不同深度和宽度网络的参数量、计算量和占用显存情况,统一设定批次大小(Batch Size)为16,优化器为随机梯度下降法(Stochastic Gradient Descent, SGD),初始学习率0.01,训练轮次(Epochs)统一设置为100,输入图像分辨率为640×640,数据集选用自建的辣椒成熟度数据集,并采用迁移学习方法提高训练速度和模型精度。

2.2 评价指标

为了评价Chilli-YOLO模型的性能,本研究评价标准采用准确率(Precision, P)、召回率(Recall, R)、mAP,各评价指标的计算见公式(9)~ 公式(12)
P = T P T P + F P × 100 %
R = T P T P + F N × 100 %
A P = 0 1 P ( R ) d r × 100 %
m A P = 1 n i = 1 n A P × 100 %
式中:TP(True Positive)为实际是正类的样本被正确地预测为正类样本的数量;FP(False Positive)为实际是负类的样本被错误地预测为正类样本的数量;FN(False Negative)为实际为正类的样本被错误地预测为负类样本的数量。此外,本研究还考虑了计算量(GFLOPs)、模型参数量(Params)、模型大小和推理时间(Inference Time)作为模型的量级评判标准。较低的计算量、参数量、模型大小和推理时间意味着模型在执行任务时所需的计算资源更少,能够更容易地部署到移动终端上,并且具有更好的实时处理性能。

3 结果与讨论

3.1 损失函数性能验证

损失函数的选择对模型的训练效果和性能具有决定性影响。为提升YOLOv10模型的目标定位精度,本研究采用XIoU损失函数进行模型训练,并与CIoU、DIoU和GIoU等先进的IoU变体在自建的辣椒成熟度数据集上进行对比实验。 图8展示了6种损失函数在模型训练过程中验证集上的损失曲线,可以看出,在前30轮训练中,损失值迅速下降。随着迭代次数增加,损失下降速度逐渐减缓,曲线趋于平稳,模型逐步收敛并维持在较低损失值。其中,XIoU和SIoU的损失值下降最快且整体波动最小,表现出最佳性能。
图8 不同损失函数在Chilli-YOLO模型上的验证损失对比

Fig.8 Comparison of validation loss on Chilli-YOLO model with different loss functions

模型训练完成后,在测试集上评估了6种损失函数在YOLOv10中的性能表现。 表2展示了这些损失函数的具体性能指标。通过对6种损失函数的性能进行分析可以得出,EffiCIoU表现最差,其mAP@50和mAP@50:95,比XIoU分别低2.8和3.0个百分点,因此不适合辣椒成熟度检测任务。与CIoU相比,使用XIoU损失函数模型的mAP@50、 PR分别高1、2.9和0.5个百分点。与SIoU相比,使用XIoU损失函数模型的mAP@50、 PR分别高0.9、1.3和0.4个百分点。使用GIoU损失函数比使用XIoU在mAP@50、 PR上分别低1.8、1.9和2.2个百分点。与DIoU相比,使用XIoU损失函数模型的mAP@50、 PR分别高1.4、4.4和0.6个百分点。综上所述,XIoU损失在函数进行模型训练中表现最佳,获得了最高的mAP和 P,其综合优势最为明显,检测精度最高。
表2 不同损失函数在Chilli-YOLO模型上的对比实验结果

Table 2 Comparison of experiment results on Chilli-YOLO model with different loss functions

Loss P/% R/% mAP@50/% mAP@50:95/%
CIoU 88.1 79.6 86.1 67.5
SIoU 89.7 79.7 86.2 65.6
GIoU 89.1 77.9 85.3 67.6
DIoU 86.6 79.5 85.7 68.7
EffiCIoU 84.0 78.4 84.3 65.6
XIoU 91.0 80.1 87.1 68.6

3.2 消融实验

为验证在原始YOLOv10算法中引入SOCA模块、GhostConv优化和XIoU损失函数替换的有效性,本研究以YOLOv10网络模型为基线模型进行消融实验。为确保实验结果的可靠性,所有训练过程均采用相同参数设置。实验在自建的辣椒成熟度数据集上进行,并在测试集上对各个模块的性能指标进行验证。实验结果如 表3所示。
表3 Chilli-YOLO消融实验结果

Table 3 Ablation study results of Chilli-YOLO

模型名称 P/% R/% mAP/% 计算量/GFLOPs 模型大小/M 参数量/M
YOLOv10s 88.1 79.6 86.1 24.5 16.5 8.04
YOLOv10s+Ghost 89.4 79.4 85.6 19.4 15.1 7.31
YOLOv10s+SOCA 90.1 82.2 88.1 23.7 14.7 7.12
YOLOv10s+XIoU 91.0 80.1 87.1 24.5 16.5 8.04
YOLOv10s+Ghost+SOCA 89.7 80.4 86.9 18.3 12.6 6.37
YOLOv10s+Ghost+XIoU 90.2 79.8 86.8 19.4 15.1 7.31
YOLOv10s+SOCA+XIoU 90.5 82.5 88.3 23.7 14.7 7.12
Chilli-YOLO 90.7 82.4 88.9 18.3 12.6 6.37
从总体的实验结果上来看,单独使用Ghost卷积优化Backbone相比基线模型mAP降低了0.5个百分点,但计算量和模型大小分别降低了5.1 GFLOPs和1.4 M,在精度轻微损失的基础上实现模型体量的大幅降低。仅将PSA模块替换为SOCA模块时,模型的 PR和mAP分别提升了2.0、2.6和2.0个百分点,模型大小降低了1.8 M。当仅引入XIoU损失函数时,模型在不改变计算量、模型大小和参数量的情况下,模型的 PR和mAP却分别提高了2.9、0.5和1.0个百分点。此外,同时使用Ghost卷积和SOCA注意力机制时,相较于基准模型和单独使用Ghost卷积的情况,模型在各项指标上均表现出更好的性能。然而,与仅替换SOCA模块相比,尽管模型的计算量、模型大小和参数量得到了优化, PR和mAP分别下降了0.4、1.8和1.2个百分点。在Ghost模块和SOCA模块的基础上分别引入XIoU损失函数后,相较于未引入XIoU损失函数,在不改变模型计算量、权重和参数量计算量的情况下, PR和mAP均有略微提升。这些结果表明,在辣椒成熟度检测任务中,单独引入某个模型或损失函数并不能显著提升模型性能,反而可能导致性能下降。也进一步表明,单一改进方案并不足以全面优化模型,需要综合考虑多种因素,才能有效提升整体性能。
最终模型Chilli-YOLO同时引入了Ghost模块、SOCA模块和XIoU损失函数后,达到了最佳性能。 P和mAP均达到最高,分别为90.7%和88.9%,相较于基线模型YOLOv10s准确率提升了2.6个百分点, R和mAP均提高了2.8个百分点。此外,计算量上减少了6.2 GFLOPs,模型大小降低了3.9 M,模型的参数量减少了1.67 M。因此,Chilli-YOLO在各个指标上均优于基线模型,在保证精度和泛化能力的同时,大幅降低了计算量。

3.3 Chilli-YOLO训练结果分析

在训练Chilli-YOLO模型的过程中,记录模型在验证集上的 PR、mAP@50和mAP@50:95。这些指标的相应曲线如 图9所示,可以看出,各指标在训练初期上升速度较快,整体波动较小。训练到40轮后,各指标基本完成收敛。最终模型的 P为90.7%, R为82.4%,mAP@50为88.9%,mAP@50:95为69.4%。训练过程中 PR和mAP等指标随迭代次数变化。
图9 Chilli-YOLO模型训练过程中各指标的变化曲线

Fig.9 The change curves of various metrics during the training of the Chilli-YOLO model

3.4 不同算法检测能力对比

为验证改进后Chilli-YOLO模型的先进性,本研究在保证相同迭代次数的前提下,使用自建的辣椒成熟度数据集对Chilli-YOLO与当前主流的目标检测网络进行了实验对比。对比的网络包括传统的Faster RCNN和SSD,以及YOLO系列的多个版本,包括YOLOv5s、YOLOv8n、YOLOv9s和不同大小的YOLOv10系列模型,实验结果如 表4所示。
表4 不同模型检测辣椒成熟度整体性能对比结果

Table 4 Comparison of the overall performance of different models in detecting chilli maturity

模型名称 P/% R/% mAP/% 计算量/GFLOPs 参数量/M 模型大小/M 推理时间/ms
YOLOv5s 88.0 81.3 87.7 15.8 7.02 14.40 13.8
YOLOv8n 85.9 82.1 87.2 8.2 3.01 6.20 9.1
YOLOv9s 85.7 80.1 86.6 38.7 19.37 9.60 16.6
YOLOv10n 85.8 76.6 84.4 8.2 2.70 5.80 8.1
YOLOv10s 88.1 79.6 86.1 24.5 8.04 16.50 10.3
YOLOv10m 88.4 81.5 87.7 63.4 16.50 33.50 18.2
Faster RCNN 80.4 78.7 80.4 68.5 85.90 157.20 72.9
SSD 74.1 70.3 72.1 15.2 38.90 25.80 26.0
Chilli-YOLO 90.7 82.4 88.9 18.3 6.37 12.60 7.3
结果表明,本研究提出的露地辣椒成熟度检测算法Chilli-YOLO在 PR和mAP上均表现出色,分别达到90.7%、82.4%和88.9%。且推理时间最快仅7.3 ms,展示了其在检测准确性和检测速度上的双重优势。同时,Chilli-YOLO也保持了较低的计算量、参数量和模型大小,分别为18.3 GFLOPs、6.37和12.6 M。相较于前几代YOLO模型,Chilli-YOLO的 P分别比YOLOv5s、YOLOv8n和YOLOv9s高出2.7、4.8和5个百分点, R分别高出1.1、0.3和2.3个百分点,mAP分别高出1.2、1.7和2.3个百分点。虽然计算量略高于YOLOv5,但Chilli-YOLO在参数量、模型大小和推理时间上均具有更优的性能。尽管YOLOv8n在计算量、参数量和模型大小方面表现更优,但 P较低,难以满足复杂露地环境中的精准检测需求。YOLOv9s虽然模型稍小,但在 P和其他关键指标上均表现不佳。
相比之下,在不同大小的YOLOv10系列模型中,Chilli-YOLO也展现出显著的优势。具体而言,Chilli-YOLO的 P分别比YOLOv10s、YOLOv10n和YOLOv10m高出2.6、4.9和2.3个百分点, R分别高出2.8、5.8和0.9个百分点,mAP分别高出2.8、4.5和1.2个百分点。此外,YOLOv10s和YOLOv10m的计算量分别减少了6.2和45.1 GFLOPs,参数量分别减少了1.67和10.13 M,模型大小分别减少了3.9和20.9 M,推理时间也分别减少了3.0和10.9 ms。而YOLOv10n虽然在计算量、参数量和模型大小上表现最优,但Chilli-YOLO在这些方面仍保持可接受范围内,并在 PR等关键指标上表现更为突出。
与传统的二阶段网络Faster RCNN相比,Chilli-YOLO在所有评估指标上均有显著提升。而与一阶段网络SSD相比,Chilli-YOLO虽然在计算量上稍高,但在 PR和mAP等性能上实现了大幅跃升,分别高出16.6、12.1和16.8个百分点。同时,Chilli-YOLO在参数量、模型大小和推理时间上的提升也呈几何倍数。综上所述,Chilli-YOLO模型在内存占用和检测精度方面均表现出最佳的综合性能,证明了其在辣椒成熟度检测中的优越性。

3.5 检测效果可视化分析

将Chilli-YOLO与当前主流的目标检测网络YOLOv10s、YOLOv5s、YOLOv8n、Faster RCNN和SSD对测试集辣椒图像进行检测,不同模型的检测结果如 图10所示。SSD模型在实际识别场景中不仅检测置信度偏低,而且普遍存在漏检现象。相比之下,Faster RCNN和YOLOv8n虽然检测效果有所提升,但在绿色多目标和重叠果实的情况下仍会出现漏检。 图10第一行表明,针对大量叶片干扰下的冠层辣椒,两个模型的检测框拟合效果均不佳。从YOLOv5s的识别结果可知,该模型可以有效识别辣椒成熟度,但 图10第二行显示,当存在其他作物(如杂草)干扰时,模型会出现背景识别错误。同时, 图10第三行显示,模型对露地大田背景下外层生长的干辣椒置信度不高。Chilli-YOLO的检测结果表明,该算法能够在一定程度上克服背景和重叠果实的干扰,较好地实现辣椒成熟度分级。虽然 图10第四行由于辣椒倒伏而引起的叶片遮挡产生漏检,但仍在可接受范围内。本研究提出的基于YOLOv10s的Chilli-YOLO算法,通过使用GhostConv优化骨干网络,并引入SOCA模块和XIoU损失函数,使模型在保持适中体量的同时,能够充分利用高阶特征,细化检测效果。
图10 不同模型辣椒成熟度识别效果

Fig.10 Effectiveness of different model for chilli maturity recognition

3.6 Chilli-YOLO模型试验结果

为验证Chilli-YOLO模型的泛化性能,本研究采集了独立于辣椒数据集的50张辣椒图像进行测试评估, 图11展示了本研究算法在不同辣椒成熟阶段的 PR和mAP值。与YOLOv10s相比,Chilli-YOLO在各阶段的mAP值均有显著提升,未熟期提升0.6个百分点,过渡期提升5.3个百分点,成熟期提升0.7个百分点,干辣椒时期提升2.5个百分点。过渡期和成熟期的 R提升尤为显著,分别提高了4.6和3.8个百分点。由于这两个阶段的辣椒颜色和形态处于快速变化过程中,传统检测模型往往难以有效区分,而Chilli-YOLO能够更好地捕捉过渡期和成熟期的细微特征,从而显著提升了 R
图11 辣椒多级成熟度检测结果分析

Fig.11 Analysis of the results of multi-stage maturity testing of chilli fruits

相较于过渡期,辣椒在未熟期和成熟期的检测 P更高,这是因为随着辣椒的发育,其在未熟期和成熟期的形状特征更加鲜明,因此模型能够更准确地区分这两个阶段。为了准确捕捉辣椒的最佳采摘时机,本研究的数据采集主要集中在辣椒由未成熟向成熟的过渡阶段。在这一阶段,干辣椒的形态变化较为复杂,涉及完全干燥、半干燥和少部分干燥等多种状态。此外,病虫害等因素导致部分辣椒因死亡而干枯,其外观与正常成熟的辣椒存在差异。因此,干辣椒的检测 PR相较于其他阶段略显不足,但这一结果在预期范围内。尽管如此,四个阶段中成熟期的准确性依然保持在较高水平,为辣椒的自动化管理与采摘提供了更可靠的技术支持。

4 结 论

本研究针对辣椒采摘中的关键问题,提出了一种基于YOLOv10s改进的Chilli-YOLO算法。该算法在自主构建的辣椒成熟度数据集进行训练,通过引入GhostConv优化骨干网络以减少网络参数,采用SOCA模块增强特征捕捉能力,并使用XIoU损失函数提升定位精度,有效解决了传统方法在识别精度不足、模型体量较大,以及复杂场景中重果干扰等难题。实验结果表明,Chilli-YOLO模型在准确率和模型体量上均优于原始模型。与当前主流目标检测网络相比,Chilli-YOLO在精度和计算量之间达到了较好的平衡。具体实验数据显示,其 P为90.7%, R为82.4%,mAP达88.9%,且计算量为18.3 GFLOPs,参数量为6.37 M,模型大小为12.6 M,推理时间7.3 ms。该模型能够在复杂背景下有效识别辣椒的不同成熟阶段,尤其在重果和遮挡场景中表现出良好的鲁棒性。
尽管Chilli-YOLO在辣椒成熟度检测中取得了良好的检测效果,但检测的准确度仍有进一步提升的空间。未来的模型开发将引入更大规模的数据集,并对辣椒的不同成熟度进行更细致的分级,以缓解个别阶段辣椒个体的特殊表型对检测结果的影响。目前基于较小数据集的研究可视为辣椒成熟度检测的初步探索,为后续针对更大规模的数据集研究和方法精度的提升奠定了基础。此外,将继续致力于优化网络结构、提高模型效率,并进一步增强辣椒成熟度检测的精度,从而为辣椒智能化采摘提供更高效和精准的技术支持。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
黄华成. 基于高光谱技术的鲜椒成熟度及其损伤识别研究[D]. 贵阳: 贵州大学, 2022.

HUANG H C. Study on maturity and damage identification of fresh pepper based on hyperspectral technology[D]. Guiyang: Guizhou University, 2022.

2
PAUL A, MACHAVARAM R, AMBUJ, et al. Smart solutions for Capsicum harvesting: Unleashing the power of YOLO for detection, segmentation, growth stage classification, counting, and real-time mobile identification[J]. Computers and electronics in agriculture, 2024, 219: ID 108832.

3
DHAKSHINA KUMAR S, ESAKKIRAJAN S, BAMA S, et al. A microcontroller based machine vision approach for tomato grading and sorting using SVM classifier[J]. Microprocessors and microsystems, 2020, 76: ID 103090.

4
KARKI S, BASAK J K, PAUDEL B, et al. Classification of strawberry ripeness stages using machine learning algorithms and colour spaces[J]. Horticulture, environment, and biotechnology, 2024, 65( 2): 337- 354.

5
YUAN K, WANG Q, MI Y L, et al. Improved feature fusion in YOLOv5 for accurate detection and counting of Chinese flowering cabbage (Brassica campestris L. ssp. chinensis var. utilis tsen et lee) buds[J]. Agronomy, 2024, 14( 1): ID 42.

6
YUE X, QI K, NA X Y, et al. Improved YOLOv8-seg network for instance segmentation of healthy and diseased tomato plants in the growth stage[J]. Agriculture, 2023, 13( 8): ID 1643.

7
常文龙, 谭钰, 周立峰, 等. 基于改进YOLOv5s的自然环境下番茄成熟度检测方法[J]. 江西农业大学学报, 2024, 46( 4): 1025- 1036.

CHANG W L, TAN Y, ZHOU L F, et al. Tomato ripening detection in natural environment based on improved YOLOv5s[J]. Acta agriculturae universitatis jiangxiensis (natural sciences edition), 2024, 46( 4): 1025- 1036.

8
CHEN W B, LIU M C, ZHAO C J, et al. MTD-YOLO: Multi-task deep convolutional neural network for cherry tomato fruit bunch maturity detection[J]. Computers and electronics in agriculture, 2024, 216: ID 108533.

9
苗荣慧, 李港澳, 黄宗宝, 等. 基于YOLOv7-ST-ASFF的复杂果园环境下苹果成熟度检测方法[J]. 农业机械学报, 2024, 55( 6): 219- 228.

MIAO R H, LI G A, HUANG Z B, et al. Maturity detection of apple in complex orchard environment based on YOLO v7-ST-ASFF[J]. Transactions of the Chinese society for agricultural machinery, 2024, 55( 6): 219- 228.

10
黄威, 刘义亭, 李佩娟, 等. 基于改进 YOLOX-S 的苹果成熟度检测方法[J]. 中国农机化学报, 2024, 45( 3): 226- 232

HUANG W, LIU Y T, LI P J, et al. Apple maturity detection method based on improved YOLOX-S[J]. Journal of Chinese agricultural mechanization, 2024, 45( 3): 226- 232.

11
CONG P C, LI S D, ZHOU J C, et al. Research on instance segmentation algorithm of greenhouse sweet pepper detection based on improved mask RCNN[J]. Agronomy, 2023, 13( 1): ID 196.

12
ZHU X Y, CHEN F J, ZHANG X W, et al. Detection the maturity of multi-cultivar olive fruit in orchard environments based on Olive-EfficientDet[J]. Scientia horticulturae, 2024, 324: ID 112607.

13
CHEN Y K, XU H B, CHANG P Y, et al. CES-YOLOv8: Strawberry maturity detection based on the improved YOLOv8[J]. Agronomy, 2024, 14( 7): ID 1353.

14
XU D F, REN R, ZHAO H M, et al. Intelligent detection of muskmelon ripeness in greenhouse environment based on YOLO-RFEW[J]. Agronomy, 2024, 14( 6): ID 1091.

15
蒋瑜, 王灵敏. 基于改进Alexnet的轻量化香蕉成熟度检测[J]. 食品与机械, 2024, 40( 5): 128- 136.

JIANG Y, WANG L M. Lightweight banana ripeness detection based on improved Alexnet[J]. Food & machinery, 2024, 40( 5): 128- 136.

16
LI Y N, WANG Y, XU D Y, et al. An improved mask RCNN model for segmentation of 'kyoho' ( Vitis labruscana) grape bunch and detection of its maturity level[J]. Agriculture, 2023, 13( 4): ID 914.

17
陈锋军, 张新伟, 朱学岩, 等. 基于改进EfficientDet的油橄榄果实成熟度检测[J]. 农业工程学报, 2022, 38( 13): 158- 166.

CHEN F J, ZHANG X W, ZHU X Y, et al. Detection of the olive fruit maturity based on improved EfficientDet[J]. Transactions of the Chinese society of agricultural engineering, 2022, 38( 13): 158- 166.

18
李旭, 刘青, 匡敏球, 等. 基于改进YOLOX的自然环境下辣椒果实检测方法[J]. 农业工程学报, 2024, 40( 21): 119- 126.

LI X, LIU Q, KUANG M Q, et al. Detecting chili pepper fruits in a natural environment using improved YOLOX[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40( 21): 119- 126.

19
VIVEROS ESCAMILLA L D, GÓMEZ-ESPINOSA A, ESCOBEDO CABELLO J A, et al. Maturity recognition and fruit counting for sweet peppers in greenhouses using deep learning neural networks[J]. Agriculture, 2024, 14( 3): ID 331.

20
WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 7464- 7475.

21
YASEEN M. What is YOLOv8: An in-depth exploration of the internal features of the next-generation object detector[EB/OL]. arXiv: 2408.15857, 2024.

22
WANG C Y, YEH I H, LIAO H M. YOLOv9: Learning what you want to learn using programmable gradient information[EB/OL]. arXiv: 2402.13616, 2024.

23
WANG A, CHEN H, LIU L H, et al. YOLOv10: Real-time end-to-end object detection[EB/OL]. arXiv: 2405.14458, 2024.

24
HAN K, WANG Y H, TIAN Q, et al. GhostNet: More features from cheap operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 1577- 1586.

25
DAI T, CAI J R, ZHANG Y B, et al. Second-order attention network for single image super-resolution[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 11057- 11066.

26
苏炅, 曾志高, 刘强, 等. 重参数化大核卷积的光学黑色素瘤图像检测算法[J]. 半导体光电, 2023, 44( 5): 788- 795.

SU G J, ZENG Z G, LIU Q, et al. Optical melanoma image detection algorithm based on heavy parameterized large kernel convolution[J]. Semiconductor optoelectronics, 2023, 44( 5): 788- 795.

27
XU B, GAO B, LI Y. Improved small object detection algorithm based on YOLOv5[J]. IEEE intelligent systems, 39( 5): 57- 65.

28
LI C, WANG J. Remote sensing image location based on improved YOLOv7 target detection[J]. Pattern analysis and applications, 2024, 27( 2): ID 50.

29
YANG Y H, LI D Y, GUO Y C, et al. Research on coal gangue recognition method based on XBS-YOLOv5s[J]. Measurement science and technology, 2024, 35( 1): ID 015404.

30
LYU D, ZHAO C, YE H, et al. GS-YOLO: A lightweight SAR ship detection model based on enhanced GhostNetV2 and SE attention mechanism[J]. IEEE access, 2024, 12: 108414- 108424.

31
LI R J, HE Y T, LI Y D, et al. Identification of cotton pest and disease based on CFNet- VoV-GCSP-LSKNet-YOLOv8s: A new era of precision agriculture[J]. Frontiers in plant science, 2024, 15: ID 1348402.

32
XIAO M, GONG Y F, WANG H D, et al. Defect detection of light guide plate based on improved YOLOv5 networks[J]. Optoelectronics letters, 2024, 20( 9): 560- 567.

33
高立鹏, 周孟然, 胡锋, 等. 基于REIW-YOLOv10n的井下安全帽小目标检测算法[J/OL]. 煤炭科学技术, 2024: 1- 13. ( 2024-09-20)[ 2024-10-10].

GAO L P, ZHOU M R, HU F, et al. Small target detection algorithm of underground safety helmet based on REIW-YOLOv 10n[J/OL]. Coal science and technology, 2024: 1- 13. ( 2024-09-20)[ 2024-10-10].

34
QIU X Y, CHEN Y J, CAI W H, et al. LD-YOLOv10: A lightweight target detection algorithm for drone scenarios based on YOLOv10[J]. Electronics, 2024, 13( 16): ID 3269.

35
GUAN S T, LIN Y M, LIN G Y, et al. Real-time detection and counting of wheat spikes based on improved YOLOv10[J]. Agronomy, 2024, 14( 9): ID 1936.

Outlines

/