Welcome to Smart Agriculture 中文

Lightweight Tomato Leaf Disease and Pest Detection Method Based on Improved YOLOv10n

  • WU Liuai ,
  • XU Xueke
Expand
  • School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China
XU Xueke, E-mail:

Received date: 2024-10-20

  Online published: 2025-01-23

Supported by

National Natural Science Foundation of China(51567014)

Gansu Science and Technology Plan Project(22JR5RA797)

Abstract

Objective To address the challenges in detecting tomato leaf diseases and pests, such as complex environments, small goals, low precision, redundant parameters, and high computational complexity, a novel lightweight, high-precision, real-time detection model was proposed called YOLOv10n-YS. This model aims to accurately identify diseases and pests, thereby providing a solid scientific basis for their prevention and management strategies. Methods The dataset was collected using mobile phones to capture images from multiple angles under natural conditions, ensuring complete and clear leaf images. It included various weather conditions and covered nine types: early blight, leaf mold, mosaic virus, septoria, spider mites damage, yellow leaf curl virus, late blight, leaf miner disease, and healthy leaves, with all images having a resolution of 640×640 pixels. In the proposed YOLOv10n-YS model, firstly, the C2f in the backbone network was replaced with C2f_RepViTBlock, thereby reducing the computational load and parameter volume and achieving a lightweight design. Secondly, through the introduction of a sliced operation SimAM attention mechanism, the Conv_SWS module was formed, which enhanced the extraction capability of small target features. Additionally, the DySample lightweight dynamic up sampling module was used to replace the up sampling module in the neck network, concentrating sampling points on target areas and ignoring backgrounds, thereby effectively identifying defects. Finally, the efficient channel attention (ECA) was improved by performing average pooling and max pooling on the input layer to aggregate features and then adding them together, which further enhanced global perspective information and features of different scales. The improved module, known as efficient channel attention with cross-channel interaction (EMCA) attention, was introduced, and the pyramid spatial attention (PSA) in the backbone network was replaced with the EMCA attention mechanism, thereby enhancing the feature extraction capability of the backbone network. Results and Discussions After introducing the C2f_RepViTBlock, the model's parameter volume and computational load were reduced by 12.3% and 9.7%, respectively, with mAP@0.5 and F1-Score each increased by 0.2 percentage and 0.3 percentage. Following the addition of the Conv_SWS and the replacement of the original convolution, mAP@0.5 and F1-Score were increased by 1.2 percentage and 2 percentage, respectively, indicating that the Conv_SWS module significantly enhanced the model's ability to extract small target features. After the introduction of DySample, mAP@0.5 and F1-Score were increased by 1.8 percentage and 2.6 percentage, respectively, but with a slight increase in parameter volume and computational load. Finally, the addition of the EMCA attention mechanism further enhanced the feature extraction capability of the backbone network. Through these four improvements, the YOLOv10n-YS model was formed. Compared with the YOLOv10n algorithm, YOLOv10n-YS reduced parameter volume and computational load by 13.8% and 8.5%, respectively, with both mAP@0.5 and F1-Score increased. These improvements not only reduced algorithm complexity but also enhanced detection accuracy, making it more suitable for industrial real-time detection. The detection accuracy of tomato diseases and pests using the YOLOv10n-YS algorithm was significantly better than that of comparative algorithms, and it had the lowest model parameter volume and computational load. The visualization results of detection by different models showed that the YOLOv10n-YS network could provide technical support for the detection and identification of tomato leaf diseases and pests. To verify the performance and robustness of the YOLOv10n-YS algorithm, comparative experiments were conducted on the public Plant-Village-9 dataset with different algorithms. The results showed that the average detection accuracy of YOLOv10n-YS on the Plant-Village dataset reaches 91.1%, significantly higher than other algorithms. Conclusions The YOLOv10n-YS algorithm is not only characterized by occupying a small amount of space but also by possessing high recognition accuracy. On the tomato leaf dataset, excellent performance was demonstrated by this algorithm, thereby verifying its broad applicability and showcasing its potential to play an important role in large-scale crop pest and disease detection applications. Deploying the model on drone platforms and utilizing multispectral imaging technology can achieve real-time detection and precise localization of pests and diseases in complex field environments.

Cite this article

WU Liuai , XU Xueke . Lightweight Tomato Leaf Disease and Pest Detection Method Based on Improved YOLOv10n[J]. Smart Agriculture, 2025 : 1 -10 . DOI: 10.12133/j.smartag.SA202410023

0 前 言

番茄作为全球重要蔬菜作物,其产量和品质影响农业经济和食品安全。番茄易受晚疫病、早疫病和花叶病毒病等侵袭,导致产量下降和品质受损。快速准确检测病害对保障产业可持续发展至关重要。传统检测方法依赖人工,耗时且易误判。生物学检测准确,但操作复杂且可能误判。分子生物学,如聚合酶链式反应(Polymerase Chain Reaction, PCR),虽精确度高,但成本高昂。光谱传感器检测无损快速,但数据解析难,精度待提升。传统机器学习特征工程依赖性强,识别精度相对较低。因此,利用深度学习进行病虫害识别已成为研究焦点。目标检测技术能准确识别和定位图像中的目标。
目前,研究人员已通过新网络结构、模块化设计等多策略提升检测性能。现有模型分R-CNN(R-Convolutional Neural Network)和Faster R-CNN)等二阶段和YOLO(You Only Look Once)和SSD(Single Shot Multi‐Box Detector))等一阶段两类。李就好等1提出了一种改进Faster R-CNN的苦瓜叶片病虫害检测模型,能对4种病害及健康叶片准确识别,检测准确率达86.93%。然而,此类模型往往体积庞大,检测时间较长,不适合实时检测需求。Luo等2提出了轻量化Light-SA YOLOV8模型,在测试数据集上达到92.6%的平均准确率和92.5%的平均识别精度(Mean Average Precision, mAP@0.5),检测速度快且内存占用低。杨锋和姚晓通3提出的YOLOv8-SS模型,采用改进的ShuffleNet V2网络,并增加了小目标检测层与SEnet注意力机制,显著提升识别精度及小目标特征提取能力,适用于农作物病虫害检测。Prabhakar等4使用ResNet测量番茄叶片早疫病的严重程度,准确率达到94.6%,但该方法只能判断是否感染,而不能精确定位病害位置,主要适用于近距离拍摄的少量图像目标识别,难以在实际中广泛应用。时雷等5提出了一种改进YOLOv8的小麦小穗赤霉病检测模型,引入改进Efficient RepGFPN特征融合网络,并采用EIoU损失函数,提高小麦小穗赤霉病检测的准确率和速度,该方法在处理复杂背景下的实际小麦种植环境时仍面临挑战。
虽然现有的叶片病害检测算法在简单背景下取得了显著进展,但在处理复杂田间环境中的番茄叶片病虫害检测任务时仍存在不足。首先,部分番茄病虫害目标区域较小,增加了识别难度,导致检测精度不高。其次,大多数研究仅限于实验室环境,图片背景简单,较少考虑在实际番茄种植环境中的性能。此外,一些模型的计算复杂度和参数数量较高,不利于其在无人机等硬件设备上的部署。为此,本研究基于YOLOv10n提出轻量级目标检测模型YOLOv10n-YS,通过4个方面改进优化大田环境下番茄病虫害检测:采用C2f_RepViTBlock 模块减少模型的计算量和参数量,引入Conv_SWS模块增强模型小目标特征提取,使用DySample 模块实现模型的有效缺陷识别并使用EMCA(EfficientChannel Attention With Cross-Channel Interaction)注意力机制提升模型的特征提取能力。

1 材料与方法

1.1 数据采集与数据集建立

1.1.1 数据采集

本研究的目标检测对象为番茄叶片病虫害图像。数据集于2024年3月1日—7月1日间在安徽省合肥市巢湖市罗巷番茄生产基地采集,使用小米智能手机在自然环境下多角度、多距离拍摄,确保每片叶子图像完整清晰。为确保数据集的完整性和多样性,采集涵盖晴天、阴天和雨后等不同天气条件,以及各个时间段的数据。该数据集包括早疫病、叶霉病、花叶病毒病、斑枯病、红蜘蛛损伤病、黄化曲叶病毒病、晚疫病、潜叶虫病,以及健康叶片共9种类型的图像。为了更好地将算法应用于实际环境中,对部分番茄病虫害图像进行了适当的裁剪处理,以确保所有样本图像的像素一致性。经过图像调整后,所有图像分辨率像素均为640×640。经过筛选去除模糊和重复图像后,最终获得1 380张有效图像。

1.1.2 数据集构建

为了增强病虫害数据集的多样性和模型的鲁棒性,首先对番茄叶片样本进行分类,并对图像实施旋转、翻转、局部放大、亮度及暗度调整等数据增强操作。随后,使用LabelImg对增强后的4 126张图像进行人工标注,用矩形框标记病虫害位置,并将类别信息和位置信息保存为XML文件,再转换为YOLOv10所需的txt格式。最终,随机抽样并按7.5∶1.5∶1比例将数据集划分为训练集(3 095张)、测试集(632张)和验证集(399张)。数据集详情见表1
表1 番茄叶片病虫害数据集

Table 1 Tomato leaf disease and pest data set

病虫害类别 训练集/张 验证集/张 测试集/张 合计/张
合计 3 095 399 632 4 126
早疫病 349 46 71 466
叶霉病 329 42 67 438
花叶病毒病 340 44 69 453
斑枯病 315 40 64 419
红蜘蛛损伤病 332 43 68 443
黄化曲叶病毒病 327 41 67 435
晚疫病 340 44 69 453
潜叶虫病 366 48 75 489
健康 397 51 82 530

2 模型与训练

2.1 基于改进 YOLOv10 算法的病虫害检测模型构建

YOLOv106是一种实时目标检测算法,其架构包括主干网络、颈部网络和特征检测输出层。该算法关键创新之一是无需非最大抑制(Nonmaxi‐ mum Suppression, NMS)的双重分配机制,显著减少推理延迟,适合实时应用与边缘部署。模型设计包括轻量级分类头和空间通道解耦下采样等技术,共提供5个版本以适应不同计算需求。鉴于YOLOv10n具有参数少和计算量小的优势,选择此版本为研究对象,以确保算法的实时性与模型可控性。尽管YOLOv10专注于实时目标检测,但在复杂场景中,尤其是对细小目标的检测精度、计算效率、特征融合能力和收敛速度等方面仍有进一步改进的空间。
为提升番茄叶片病虫害检测精度并优化模型轻量化,本研究在YOLOv10n基础上提出YOLOv10n-YS模型(图1)。首先,将主干网络的C2f替换为C2f_RepViTBlock,以降低计算量和参数量,实现轻量化。其次,引入带切片操作的SimAM注意力机制,形成Conv_SWS模块,以增强小目标特征提取能力。再次,采用DySample轻量动态上采样模块替换颈部网络的上采样模块,使采样点集中于目标区域,忽略背景,有效识别缺陷。最后,用EMCA注意力机制替代主干网络中的PSA,提升主干网络的特征提取能力。
图1 本研究提出的YOLOv10n-YS网络结构图

Fig. 1 The Network architecture of proposed YOLOv10n-YS

2.1.1 C2f_RepViTBlock

在资源有限的移动设备上,轻量级视觉变压器(Lightweight Vision Transformers, ViTs)相对于轻量级卷积神经网络(Convolutional Neural Networks,CNNs)展现了更优的性能和更低的延迟。
ViTs的优势主要源自其通用令牌混频器和通道混频器架构,即MetaFormer,而非特定令牌混频器。通过对MobileNetV3-L的令牌混频器和通道混频器进行拆分,模拟现有轻量级ViTs。例如,图2a中显示,原始的MobileNetV3块采用1×1扩展卷积和投影层实现通道间交互(即通道混频器),再通过1×1扩展卷积和3×3深度卷积进行空间信息融合(即令牌混频器)。这种设计将令牌混频器和通道混频器耦合在一起。为了将它们分离,将DW(Depth-wise)卷积上移,SE(Squeeze-and-Excitation)层也随之移动。进一步地,对DW层应用了一种广泛使用的结构重参数化技术7, 8,以增强训练过程中的模型学习。使用结构重参数化技术增强训练,可以消除推理过程中相关的计算和内存开销。RepViTBlock如图2b中所示,它是RepViT的基本结构,并将MobileNetV3-L的延迟降低至0.81 ms。在传统的ViTs中,通道混频器中的扩展比通常设置为4,这使得前馈网络(Feed-Forward Network, FFN)模块的隐藏维度是输入维度的4倍。因此,RepViTBlock采用了更窄的FFN。在RepViTBlock中,所有阶段的通道混频器扩展比被设置为2,这使得延迟从1.01 ms减少至0.65 ms。本研究将C2f_RepViTBlock模块替换主干网络中的C2f模块,不仅减少了模型的计算量和参数量,还使模型在轻量化的同时提升了检测精度。
图2 RepViTBlock设计

a. MobileNetBlock b. RepViT Block

Fig. 2 RepViTBlock design

2.1.2 Conv_SimAM

SimAM无需额外增加参数即可推断特征图的三维注意力权重。SimAM通过优化能量函数来评估每个神经元的重要性,并推导出该能量函数的快速封闭形式解,从而实现了一种简单高效的处理过程9
与传统的一维或二维注意力机制不同,SimAM生成三维注意力权重,能够同时考虑通道和空间维度,全面提升网络性能。然而,在计算整张特征图像素差的平均值时,可能忽略小目标,并且与整体平均值相比,小目标的背景信息可能较为相似,从而导致加权增强效果较弱,使得SimAM对小目标的增强能力较差。为此,设计了SWS(SimAM With Slicing)模块,该模块引入了切片操作,如图3所示。当特征图被切成不同块时,大目标由于其明显的纹理特征会影响所在块的平均值,从而减少其获得的额外加权,而在特征图合并后,大目标仍能保持较高的可识别度,甚至获得进一步增强。而小目标特征与局部平均值差异大,因此获得更多的加权,从而增强了小目标的特征,即SWS模块确保了大、小目标都得到公平的关注和增强。本研究在YOLOv10n中引入了带切片操作的注意力机制SimAM,并结合原有卷积形成了Conv_SWS模块。这一改进提升了模型对小目标的特征提取能力,从而有效改善漏检和误检的情况。
图3 SimAM特征图切片

a.特征图切片和合并 b.特征图切片位置

Fig. 3 SimAM Feature map slices

2.1.3 DySample

DySample10是一个超轻量且有效的动态上采样器。DySample基于采样的动态上采样流程如图4所示,输入特征、上采样特征、生成偏移量和原始网格分别用 X X ' D G表示。给定大小为 H 1 × W 1 × C的特征映射 X,以及大小为 H 2 × W 2 × 2 g的采样集 δ,其中第1维的 2 g表示 x y坐标,网格样本函数使用点采样集 δ中的位置将假设的双线性插值 X重新采样到大小为 H 2 × W 2 × C X '中,如公式(1)所示。
X ' = g r i d _ s a m p l e ( X , δ )
图4 DySample模块动态上采样

Fig. 4 DySample module dynamically upsamples

点采样集 δ由采样点生成器生成,输入特征通过网格采样函数重新采样,如图5所示。为基于动态范围因子的点采样集生成,首先给定上采样比例因子 s和大小为 H × W × C的特征映射 X,使用输入和输出通道号分别为 C 2 g s 2的线性层生成大小为 H × W × 2 g s 2的偏移量 D,然后通过像素变换将其重塑为 s H × s W × 2 g的高分辨率原始采样网格 G 11,采样集 δ是生成的偏移量 D与原始网格位置 G之和,如公式(2)公式(3)所示。
D = l i n e a r ( X )
δ = D + G
图5 基于动态范围因子的点采样

Fig.5 Point sampling based on dynamic range factor

采用DySample轻量动态上采样模块替换颈部网络的上采样模块,使采样点集中于目标区域,忽略背景,有效识别缺陷。

2.1.4 EMCA注意力机制

通道注意机制是提升深度卷积神经网络性能的重要手段,但当前研究大多在如何设计更复杂的注意力模块来提升性能,导致模型复杂性增加12。通过对SENet13中信道注意模块的分析,了解到避免降维对于学习信道注意是重要的,适当的跨信道交互可以在保证系统性能的前提下,有效降低模型的复杂度。据此提出不降维局部跨通道交互策略,通过1D卷积实现。给定由全局平均池化(Global Average Pooling, GAP)获得的聚合特征,ECA(Efficient Channel Attention)通过执行大小为k的快速1D卷积来生成通道权重14,有效解决复杂度与性能间的矛盾,仅用少量参数即可显著提升性能。
为了进一步提高ECA的特征聚合能力,本研究对ECA升级优化,对输入层分别进行平均池和最大池来实现聚合特征,然后再进行相加操作,这进一步增强全局视角信息和不同尺度大小的特征。改进后的模块称为跨通道交互的高效率通道注意力。本研究将EMCA注意力机制替换主干网络中的PSA,进一步提高了主干网络的特征提取能力。

2.2 模型训练与评价指标

2.2.1 训练平台

本实验环境采用Pytorch框架,在Windows 11系统上进行模型训练和测试,实验平台的主要参数如表2所示。
表2 番茄病虫害检测研究的计算机训练环境

Table 2 Computer training environment for Tomato disease and pest detection

环境 环境项 环境规格
硬件环境 CPU AMD Ryzen 97940 H w/ Radeon 780M Graphics
GPU NVIDIA GeForce RTX 4060 Laptop GPU
内存 16 GB
显存 8 GB
软件环境 操作系统 Windows 11
深度学习框架 Pytorch 2.0.1
CUDA 11.7
编程语言 Python 3.9

2.2.2 训练参数

在本研究模型训练时,所有训练集的图像分辨率像素为640×640。训练参数设置如表3所示。
表3 YOLOv10n模型训练参数

Table 3 Training parameters of YOLOv10n model

参数 数值 参数 数值
epochs 300 optimizer Adam
patience 30 weight-decay 0.000 5
batch 16 momentum 0.937
imgsz 640 workers 8
lrf 0.001 close-mosaic 10

2.2.3 评价指标

本研究采用mAP@0.5、精确度(Precision, P)、召回率(Recall, R),以及参数量、F 1分数(F 1-Score)和衡量模型复杂度的计算量(GFLOPs)作为模型评估的主要指标。这些指标共同构成了评估算法综合性能的标准,如公式(4)~公式(8)所示。
P = T P T P + F P
R = T P T P + F N
A P = 0 1 P ( R ) d R
m A P @ 0.5 = i = 1 C A P i C
F 1 - S c o r e = 2 × P × R P + R
式中: T P为真正例; F P为假正例; F N为假负例; A P i为第 i类别的平均准确率;在 P - R曲线中, P - R曲线与坐标轴围成的面积等于 A P值的大小; i为检测次数,次; C为图像的数量,张。

3 结果与分析

3.1 加入C2f_RepViTBlock对模型的影响

为验证C2f_RepViTBlock模块在不同位置对模型性能的影响,设计了3组实验:分别在主干网络、Neck网络中单独替换该模块,以及同时在两者中替换,如表4所示。当在主干网络中引入C2f_RepViTBlock模块时,其mAP@0.5指标明显优于仅在Neck网络或同时替换两者的情况。改进后的算法mAP@0.5仅提升0.2个百分点,但参数量显著减少13%。然而,在Neck网络或同时替换时,尽管有效降低了参数量,mAP@0.5却出现下降,这表明改进后的模型降低了Neck网络的特征提取能力。主干网络负责从输入图像中提取基础特征,是整个网络的核心部分,能够更有效地捕捉图像的特征信息,从而提升整个网络的性能。相比之下,颈部网络主要负责特征的融合和进一步处理,对特征的依赖性较高。在颈部网络中引入C2f_RepViTBlock模块,降低模型的特征提取能力,增加了漏检和误检的情况,进而影响整个网络的性能。实验结果表明,C2f_RepViTBlock模块在主干网络中提升了特征提取能力,降低了参数量并提升了mAP@0.5,因此,在主干网络中替换C2f_RepViTBlock模块可获得最佳性能。
表4 C2f_RepViTBlock模块优化位置对算法的影响

Table 4 Influence of optimization position of C2f_RepViTBlock module on algorithm

模块 优化位置 mAP@0.5/% P/% R/% 参数量/M
YOLOv10n 88.3 85.9 77.9 2.76
C2f_RepViTBlock Backbone 88.5 85.3 79.0 2.40
Neck 87.8 82.8 78.6 2.35
Backbone+Neck 88.2 85.4 78.7 2.30

注:“‒”表示未加入模块优化。

3.2 消融实验

为探究改进对YOLOv10n性能的影响,设计了5组消融实验:第1组为原始YOLOv10n;第2组加入C2f_RepViTBlock(记为YOLOv10n+A);第3组再加入Conv_SWS(记为YOLOv10n+A+B);第4组再加入DySample轻量动态上采样(记为YOLOv10n+A+B+C);第5组再加入ECACI注意力机制(记为YOLOv10n+A+B+C+D)。由表5可知,引入C2f_RepViTBlock后,模型的参数量和计算量分别减少12.3%和9.7%,mAP@0.5和F 1分数分别提高0.2个和0.3个百分点,使模型轻量化的同时提升了检测精度。加入Conv_SWS并替换原有卷积后,mAP@0.5和F 1分数分别提升1.2个和2个百分点。从可视化图像中可以看出改进的模型可以检测到其他模型未检测到的小目标,Conv_SWS模块显著增强了模型对小目标特征的提取能力。引入DySample后,mAP@0.5和F 1分数分别提升1.8个和2.6个百分点,但参数量和计算量略有增加。最后加入EMCA注意力机制,进一步提升了主干网络的特征提取能力。通过这4种改进形成了YOLOv10n-YS模型,其mAP@0.5、PR分别达到了92.1%、89.2%和82.1%。相较于原模型,这些指标分别提升了3.8个、3.3个和4.2个百分点。YOLOv10n-YS的参数量和计算量分别减少13.8%和8.5%。YOLOv10n-YS模型在降低算法复杂度的同时提升了检测精度,适用于农业实时检测。
表5 自建数据集的YOLOv10n-YS模型的消融实验

Table 5 Ablation experiment of YOLOv10n-YS model with self-built data set

实验 mAP@0.5/% P/% R/% 参数量/M F 1分数/% 计算量/GFLOPs
YOLOv10n 88.3 85.9 77.9 2.76 81.7 8.2
YOLOv10n+A 88.5 85.3 79.0 2.42 82.0 7.4
YOLOv10n+A+B 89.5 87.5 80.2 2.42 83.7 7.4
YOLOv10n+A+B+C 90.1 87.4 81.3 2.43 84.3 7.5
YOLOv10n+A+B+C+D 92.1 89.2 82.1 2.38 85.5 7.5
优化前后网络的P-R曲线结果如图6所示。由YOLOv10n-YS算法与YOLOv10n算法的P-R曲线结果可知,使用优化后的网络整体的mAP@0.5得到了提升,提升了3.8个百分点。其中潜叶虫病的mAP@0.5提升效果较低,仅为0.9个百分点,黄叶曲化病毒的mAP@0.5提升最大,为7.2个百分点。
图6 YOLOv10n检测病虫害优化前后的P-R结果对比

Fig.6 Comparison of P-R results of YOLOv10n detection before and after optimization

3.3 不同模型对比试验

为评估YOLOv10n-YS模型的性能,本研究采用mAP@0.5、PR、参数量、F 1分数和计算量等多项评价指标。将YOLOv10n-YS与FasterR-CNN、SSD、YOLOv5s、YOLOX、YOLOv7-tiny、YOLOv8n及YOLOv10n在相同条件下进行对比实验。结果如表6所示,二阶段目标检测算法FasterR-CNN的mAP@0.5较低,且参数量和计算量大,不符合轻量化需求。YOLOv10n-YS在参数量和计算量最少的前提下,各方面性能均优于其他单阶段网络。与FasterR-CNN、SSD、YOLOv5s、YOLOX、YOLOv7-tiny、YOLOv8n和YOLOv10n模型相比,其mAP@0.5分别提高了13.2个、15.1个、4.0个、4.9个、6.1个、4.3个和3.8个百分点;F 1分数分别提升了12.4个、14.2个、3.6个、6.1个、6.7个、2.6个和3.8个百分点;参数量分别降低了91.8%、90.2%、66.1%、73.4%、60.0%、20.9%和13.8%;计算量则分别减少了94.6%、91.7%、52.5%、72.0%、43.2%、7.4%和8.5%。YOLOv10n-YS在番茄病虫害检测中,精度更高且模型更小,为番茄病虫害快速检测提供了方法支持。
表6 不同网络模型的番茄叶病虫害检测实验结果

Table 6 Experimental results of tomato leaf insect and disease detection with different network models

模型 mAP@0.5/% P/% R/% 参数量/M F 1分数/% 计算量/GFLOPs
Faster R-CNN 78.9 75.8 70.7 29.12 73.1 141.3
SSD 77.0 72.8 69.9 24.31 71.3 90.8
YOLOv5s 88.1 85.9 78.4 7.03 81.9 15.8
YOLOX 87.2 83.0 76.1 8.93 79.4 26.8
YOLOv7-tiny 86.0 83.4 74.8 6.00 78.8 13.2
YOLOv8n 87.8 84.4 78.7 3.01 82.9 8.1
YOLOv10n 88.3 85.9 77.9 2.76 81.7 8.2
YOLOv10n-YS 92.1 89.2 82.1 2.38 85.5 7.5
为评估FasterR-CNN、YOLOv8n、YOLOv10n及YOLOv10n-YS的性能,对8种番茄叶片病虫害进行了检测,并进行了特征可视化,结果如图7所示。从对早疫病、叶霉病、花叶病毒病、斑枯病这4种病虫害检测结果的对比中可以看出,YOLOv10n-YS在病害识别的精确度和边界框回归性能上均高效,同时,在对红蜘蛛损伤病、黄化曲叶病毒病、晚疫病、靶斑病这4种病虫害的检测对比中,YOLOv10n-YS模型展现出更为准确的目标位置定位能力,有效减少了漏检和误检的情况。YOLOv10n-YS成功解决了现有模型在复杂大田背景中对番茄叶片小目标病虫害识别不佳的问题,使模型的计算量和参数量降低,有利于其在农业生产中的实际应用。
图7 不同网络模型的番茄叶病虫害可视化结果

Fig. 7 Comparison of visual results of tomato leaf pests and diseases with different network models

3.4 不同数据集算法对比

为了验证YOLOv10n-YS算法的泛化能力,本研究在Plant-Village15数据集上将该算法与Faster R-CNN、SSD、YOLOv5s、YOLOX、YOLOv7-tiny、YOLOv8n和YOLOv10n算法进行了对比实验。鉴于该数据集中包含多种类型的病虫害且数量庞大,因此,从中提取了早疫病、晚疫病、靶斑病、叶霉病、花叶病毒病、斑枯病、红蜘蛛损伤病、黄化曲叶病毒病共8种番茄病害图像和健康图像,并对其进行了整理与标注,命名为Plant-Village-9。实验结果如表7所示,YOLOv10n-YS在8种病虫害类别上均实现了最高的检测精度,其平均检测精度达到了91.1%,显著高于其他算法。这表明YOLOv10n-YS在Plant-Village数据集上具有较高性能,证明该算法在番茄病虫害检测方面具有广泛的适用性。
表7 Plant-Village-9数据集番茄病害不同算法对比

Table 7 Comparison of different tomato disease algorithms in Plant-Village-9 dataset

病害类型 不同算法的mAP@0.5/%
Faster R-CNN SSD YOLOv5s YOLOX YOLOv7-tiny YOLOv8n YOLOv10n YOLOv10n-YS
所有 77.0 75.4 87.2 85.8 84.0 86.6 87.4 91.1
早疫病 60.3 72.7 85.9 88.3 87.1 90.1 87.3 91.3
健康 78.5 68.7 87.6 85.4 80.6 81.5 89.7 88.7
晚疫病 75.4 81.6 90.2 87.0 88.7 88.0 90.2 93.9
靶斑病 83.3 81.8 92.9 94.2 92.6 94.8 94.3 98.5
叶霉病 74.4 75.0 85.6 83.3 80.5 83.6 87.1 88.7
花叶病毒病 87.7 86.8 90.8 90.4 85.6 91.2 90.7 91.2
斑枯病 76.9 74.1 84.6 84.0 85.8 83.9 88.5 90.1
红蜘蛛损伤病 80.6 74.4 87.4 90.2 92.0 87.2 88.0 96.6
黄化曲叶病毒病 76.2 63.6 80.3 69.0 62.0 73.0 70.7 80.7

4 讨论与结论

4.1 讨论

本研究针对复杂环境中番茄病虫害小目标快速检测问题,基于YOLOv10n模型进行了改进。该模型采用C2f_RepViTBlock模块替换主干网络中的C2f模块,不仅减少了模型的计算量和参数量,还使模型在轻量化的同时提升了检测精度。Sun等16为了进一步提高番茄叶片病虫害检测模型的轻量化程度,采用了一种新颖高效的通用倒瓶颈(Universal Inverted Bottleneck, UIB)模块,取代了YOLOv8n模型中的瓶颈模块。这种方法有效简化了模块结构,实现了模型的轻量化,但图像背景较为简单,模型的检测精度较低且泛化性较差。此外,本研究在YOLOv10n中引入了带切片操作的注意力机制SimAM,并结合原有卷积形成了Conv_SWS模块。这一改进提升了模型对小目标的特征提取能力,从而有效改善了漏检和误检的情况。刘诗怡等17为了提高YOLOv7对叶片病害小目标的特征提取能力,在YOLOv7主干特征提取网络中,将最后一个特征层的二维卷积(Conv2D)替换为可变形二维卷积(DCNv2)。这种方法虽然能够实现细小特征的提取,但相对于本研究的方法,增加了模型的计算量和参数量。另外,本研究在颈部网络中引入了DySample轻量动态上采样模块,使采样点集中于目标区域,而不关注背景部分,从而实现对缺陷的有效识别。最后,将EMCA注意力机制替换主干网络中的PSA,进一步提高了主干网络的特征提取能力。

4.2 结论

针对番茄叶片病虫害检测中面临的环境复杂、目标小、精度低、参数冗余和计算复杂度高等问题,本研究提出了一种新型轻量化、高精度、实时的YOLOv10n-YS检测模型。具体改进包括将主干网络的C2f替换为C2f_RepViTBlock以实现轻量化,引入Conv_SWS模块增强小目标特征提取能力,采用DySample轻量动态上采样模块优化颈部网络的上采样,以及使用EMCA注意力机制提升主干网络的特征提取能力。改进后的YOLOv10n-YS模型在自建番茄病虫害数据集上的mAP@0.5提高了3.8个百分点,参数量和计算量分别降低13.8%和8.5%。通过实验验证,YOLOv10n-YS在自建番茄病虫害数据集和Plant-Village-9数据集上均表现出优异的检测性能和鲁棒性。综上所述,本研究通过多方面的改进,不仅实现了模型的轻量化,还显著提升了模型对复杂环境中番茄病害小目标的检测精度和泛化能力。然而,考虑到病害种类繁多,未来研究将丰富病害样本种类和数量,增加其他农作物种类,如小麦、玉米、和水稻等,进一步优化模型以提升模型准确性和泛化性。同时,结合多光谱或多模态数据,可提升对高相似度病害的识别准确率,解决单一视觉特征难以区分的问题。此外,将YOLOv10n-YS模型部署于无人机平台,并利用多光谱成像技术,可实现复杂大田环境下的病虫害实时检测与精准定位,通过研究高空视角下的多尺度特征融合算法,进一步增强对远距离小目标的检测能力,以满足大规模农田监测需求。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
李就好, 林乐坚, 田凯, 等. 改进Faster R-CNN的田间苦瓜叶部病害检测[J]. 农业工程学报, 2020, 36(12): 179-185.

LI J H, LIN L J, TIAN K, et al. Detection of leaf diseases of balsam pear in the field based on improved Faster R-CNN[J]. Transactions of the Chinese society of agricultural engineering, 2020, 36(12): 179-185.

2
LUO D H, XUE Y J, DENG X R, et al. Citrus diseases and pests detection model based on self-attention YOLOV8[J]. IEEE access, 2023, 11: 139872-139881.

3
杨锋, 姚晓通. 基于改进YOLOv8的小麦叶片病虫害检测轻量化模型[J]. 智慧农业(中英文), 2024, 6(1): 147-157.

YANG F, YAO X T. Lightweighted wheat leaf diseases and pests detection model based on improved YOLOv8[J]. Smart agriculture, 2024, 6(1): 147-157.

4
PRABHAKAR M, PURUSHOTHAMAN R, AWASTHI D P. Deep learning based assessment of disease severity for early blight in tomato crop[J]. Multimedia tools and applications, 2020, 79(39): 28773-28784.

5
时雷, 杨程凯, 雷镜楷, 等. 基于改进YOLOv8s的小麦小穗赤霉病检测研究[J]. 农业机械学报, 2024, 55(7): 280-289.

SHI L, YANG C K, LEI J K, et al. Wheat spikelet detection of Fusarium head blight based on improved YOLOv8s[J]. Transactions of the Chinese society for agricultural machinery, 2024, 55(7): 280-289.

6
WANG A, CHEN H, LIU L H, et al. YOLOv10: Real-time end-to-end object detection[EB/OL]. arXiv: 2405.14458, 2024.

7
CHU X X, LI L, ZHANG B. Make RepVGG greater again: A quantization-aware approach[EB/OL]. arXiv: 2212.01593, 2022.

8
DING X H, ZHANG X Y, MA N N, et al. RepVGG: Making VGG-style ConvNets great again[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021: 13733-13742.

9
YANG L, ZHANG R Y, LI L, et al. Simam: A simple, parameter-free attention module for convolutional neural networks[C]// International conference on machine learning. New York, USA: PMLR, 2021: 11863-11874.

10
LIU W Z, LU H, FU H T, et al. Learning to upsample by learning to sample[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2023: 6027-6037.

11
李淇, 石艳, 范桃. 改进YOLOv8n的O型密封圈表面缺陷检测算法研究[J]. 计算机工程与应用, 2024, 60(18): 126-135.

LI Q, SHI Y, FAN T. Research on O-ring surface defect detection algorithm based on improved YOLOv8n[J]. Computer engineering and applications, 2024, 60(18): 126-135.

12
刘雅楠, 李维乾. 融合ECA机制的轻量化YOLOv4检测模型[J]. 计算机技术与发展, 2023, 33(7): 146-153.

LIU Y N, LI W Q. Lightweight YOLOv4 detection model incorporating ECA mechanism[J]. Computer technology and development, 2023, 33(7): 146-153.

13
宋鹏飞, 吴云. DenseNet和SeNet融合残差结构的DR分类方法[J]. 计算机应用研究, 2024, 41(3): 928-932, 950.

SONG P F, WU Y. DR classification methods for DenseNet and SeNet fusion residue structures[J]. Application research of computers, 2024, 41(3): 928-932, 950.

14
方汀, 刘艺超, 唐哲, 等. 基于高效通道注意力模块(ECA)和YOLOv5的图像检测方法研究[J]. 科学技术创新, 2023(8): 88-91.

FANG T, LIU Y C, TANG Z, et al. An image detection method based on ECA and YOLOv5[J]. Scientific and technological innovation, 2023(8): 88-91.

15
MOHAMETH F, CHEN B C, SADA K A. Plant disease detection with deep learning and feature extraction using plant village[J]. Journal of computer and communications, 2020, 8(6): 10-22.

16
SUN H, NICHOLAUS I T, FU R, et al. YOLO-FMDI: A lightweight YOLOv8 focusing on a multi-scale feature diffusion interaction neck for tomato pest and disease detection[J]. Electronics, 2024, 13(15): ID 2974.

17
刘诗怡, 胡滨, 赵春. 基于改进YOLOv7的黄瓜叶片病虫害检测与识别[J]. 农业工程学报, 2023, 39(15): 163-171.

LIU S Y, HU B, ZHAO C. Detection and identification of cucumber leaf diseases based improved YOLOv7[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(15): 163-171.

Outlines

/