Crop Pest Target Detection Algorithm in Complex Scenes:YOLOv8-Extend

ZHANG Ronghua; BAI Xue; FAN Jiangchuan

doi:10.12133/j.smartag.SA202311007

Smart Agriculture >

2024 , Vol. 6 >Issue 2: 49 - 61

DOI: https://doi.org/10.12133/j.smartag.SA202311007

Special Issue--Agricultural Information Perception and Models

Crop Pest Target Detection Algorithm in Complex Scenes:YOLOv8-Extend

ZHANG Ronghua ¹ ,
BAI Xue ¹ ,
FAN Jiangchuan ^,²^,³

Expand

^1. Jinghang Chuangzhi (Beijing) Technology Co. Ltd. , Beijing 102404, China
^2. National Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China
^3. Beijing Key Laboratory of Digital Plants, Beijing 100097, China

FAN Jiangchuan, E-mail: fanjc@nercita.org.cn

ZHANG Ronghua, E-mail: zhangronghua@pku.org.cn

Received date: 2023-11-02

Online published: 2024-03-04

Supported by

Beijing Nova Program(Z211100002121065;Z20220484202)

National Key Research and Development Program(2022YFD2002302-02)

Copyright

Fold

Abstract

[Objective] It is of great significance to improve the efficiency and accuracy of crop pest detection in complex natural environments, and to change the current reliance on expert manual identification in the agricultural production process. Targeting the problems of small target size, mimicry with crops, low detection accuracy, and slow algorithm reasoning speed in crop pest detection, a complex scene crop pest target detection algorithm named YOLOv8-Entend was proposed in this research. [Methods] Firstly, the GSConv was introduecd to enhance the model's receptive field, allowing for global feature aggregation. This mechanism enables feature aggregation at both node and global levels simultaneously, obtaining local features from neighboring nodes through neighbor sampling and aggregation operations, enhancing the model's receptive field and semantic understanding ability. Additionally, some Convs were replaced with lightweight Ghost Convolutions and HorBlock was utilized to capture longer-term feature dependencies. The recursive gate convolution employed gating mechanisms to remember and transmit previous information, capturing long-term correlations. Furthermore, Concat was replaced with BiFPN for richer feature fusion. The bidirectional fusion of depth features from top to bottom and from bottom to top enhances the transmission of feature information acrossed different network layers. Utilizing the VoVGSCSP module, feature maps of different scales were connected to create longer feature map vectors, increasing model diversity and enhancing small object detection. The convolutional block attention module (CBAM) attention mechanism was introduced to strengthen features of field pests and reduce background weights caused by complexity. Next, the Wise IoU dynamic non-monotonic focusing mechanism was implemented to evaluate the quality of anchor boxes using "outlier" instead of IoU. This mechanism also included a gradient gain allocation strategy, which reduced the competitiveness of high-quality anchor frames and minimizes harmful gradients from low-quality examples. This approach allowed WIoU to concentrate on anchor boxes of average quality, improving the network model's generalization ability and overall performance. Subsequently, the improved YOLOv8-Extend model was compared with the original YOLOv8 model, YOLOv5, YOLOv8-GSCONV, YOLOv8-BiFPN, and YOLOv8-CBAM to validate the accuracy and precision of model detection. Finally, the model was deployed on edge devices for inference verification to confirm its effectiveness in practical application scenarios. [Results and Discussions] The results indicated that the improved YOLOv8-Extend model achieved notable improvements in accuracy, recall, mAP@0.5, and mAP@0.5:0.95 evaluation indices. Specifically, there were increases of 2.6%, 3.6%, 2.4% and 7.2%, respectively, showcasing superior detection performance. YOLOv8-Extend and YOLOv8 run respectively on the edge computing device JETSON ORIN NX 16 GB and were accelerated by TensorRT, mAP@0.5 improved by 4.6%, FPS reached 57.6, meeting real-time detection requirements. The YOLOv8-Extend model demonstrated better adaptability in complex agricultural scenarios and exhibited clear advantages in detecting small pests and pests sharing similar growth environments in practical data collection. The accuracy in detecting challenging data saw a notable increased of 11.9%. Through algorithm refinement, the model showcased improved capability in extracting and focusing on features in crop pest target detection, addressing issues such as small targets, similar background textures, and challenging feature extraction. [Conclusions] The YOLOv8-Extend model introduced in this study significantly boosts detection accuracy and recognition rates while upholding high operational efficiency. It is suitable for deployment on edge terminal computing devices to facilitate real-time detection of crop pests, offering technological advancements and methodologies for the advancement of cost-effective terminal-based automatic pest recognition systems. This research can serve as a valuable resource and aid in the intelligent detection of other small targets, as well as in optimizing model structures.

Key words： YOLOv8; pest detection; attention mechanism; edge computing; CBAM; BiFPN; VoVGSCSP; GSConv

Cite this article

ZHANG Ronghua , BAI Xue , FAN Jiangchuan . Crop Pest Target Detection Algorithm in Complex Scenes:YOLOv8-Extend[J]. Smart Agriculture, 2024 , 6(2) : 49 -61 . DOI: 10.12133/j.smartag.SA202311007

0 引言

通过虫害检测可以了解害虫的分布规律和季节性变化规律制定合理的防治方案，为农业管理提供科学依据，以提高农作物的产量和质量^［1］。早期的虫害检测主要是靠有经验的专家通过对农作物叶片的感官识别来判定，耗时费力^{［2, 3］}，且判定结果准确率低下。近几年计算机视觉检测技术与深度学习卷积神经网络的蓬勃发展，为农作物虫害检测提供了新的解决方案^［4］。深度学习卷积神经网络（Convolutional Neural Networks, CNN）的出现，相比传统图像检测算法具有更丰富的特征提取能力，提高了检测准确率和精度。具有代表性的有AlexNet^［5］、VGGNet^［6］、GoogLeNet^［7］、ResNet^［8］、DenseNet^［9］、Faster RCNN^［10］和YOLO（You Only Look Once）系列^［11-15］等算法。随着深度学习的快速发展，正在逐渐应用于农作物害虫检测的识别研究。王建和徐闯^［16］使用YOLOv5s目标检测算法进行脐橙虫害检测，对9类虫害检测的均值平均精度（Mean Average Precision, mAP）值达到81.46%。Fuentes等^［17］在番茄病虫害中使用不同元架构和深度学习特征提取相结合的方法设计检测网络。何颖^［18］采用加权双向特征融合技术修改自适应Anchor计算方法优化YOLOv5网络模型，在20种林业虫害的图像上测试平均精度均值mAP达到92.3%。Reza等^［19］结合迁移学习和数据增强的策略训练模型实现害虫种类识别。Chen等^［20］使用多种深度学习目标检测算法对害虫进行基于边缘计算平台的检测研究，YOLOv4取得了最高的检测精度。魏陈浩等^［21］提出了一种YOLOv8n_T方法，构建了基于可变形卷积的D_C2f块，增加了双层路由注意力模块，在BDD100K数据集上的平均精度比原始YOLOv8n提升6.8%，比YOLOv5n提升了11.2%。Li等^［22］提出基于CNN的从粗到细的网络（Coarse-Fine NetWork, CFN）对微小和密集分布的蚜虫进行识别检测，使用细粒度卷积神经网络（Fully Connected Neural Network, FCNN）来细化检测群中的蚜虫区域。上述研究通过优化深度学习目标检测网络结构，解决了常规视觉检测模型针对害虫识别率不高、特征提取难的问题，在农业生产中区分害虫种类精准施药有较好的应用前景，但其方法存在耗时长、成本高、技术难度大、复杂场景识别困难等问题，不利于推广应用。

为了实现复杂自然环境下的农作物害虫的识别检测，提升检测效率和准确率，针对农作物生长环境与害虫特征相似和害虫具有体型微小的特点，本研究提出了一种改进的YOLOv8模型强化害虫目标检测算法，通过引入GSConv^［23］提高模型的感受野，使用轻量化的幻影卷积^［24］（Ghost Convolution），并采用HorBlock^［25］捕捉更长期的特征依赖关系，融入BiFPN^［26］更加丰富特征，使用VoVGSCSP模块提升微小目标检测，引入CBAM（Convolutional Block Attention Module）^［27］注意力机制来强化田间虫害目标特征，为农作物害虫自动化检测和算法开发提供理论基础。

1 实验数据

1.1　数据获取

全国农业技术推广服务中心建立了农作物病虫实时监控物联网，有38种害虫样本库，约18万张图像。本研究针对常见的水稻虫害选取蝽卵（Nezara Egg）、稻螟蛉（Naranga aenescens Moore）、大螟幼虫（Sesamia inferens）、红白蝙蝠蛾（Ghost Moth）、黄肩型稻绿椿（Yellow Shoulder Type Nezara viridula）、点斑型稻绿蝽（Spotted Pattern Nezara viridula）、全绿型稻绿蝽（All Green Nezara viridula）、蝗虫（Locusts）8种共计2 613张图像。分辨率像素为2 000×1 325，部分害虫图像数据样本如图1所示。分别对每张图像数据做水平反转和垂直反转将数据扩充到7 839张，图像反转增强及在模型训练时使用马赛克增强等方式增加训练数据的多样性，有助于计算机视觉检测模型更好地学习和泛化，提高模型的鲁棒性。

显示原图|下载原图ZIP|生成PPT

图1 虫害图像数据样本

Fig. 1 Samples of insect pest image data

1.2　数据集构建

首先对获取的虫害图像样本数据使用LabelImg软件按照矩形框目标检测的方式进行数据标注，按照VOC2012的数据格式创建XML类型标注数据文件，标注的XML文件名称和图像名称保持一致。LabelImg提供了一个直观的用户界面，能够轻松地在图像上绘制边界框，并为每个边界框分配相应的类别标签。LabelImg支持多种常见的图像格式，如JPEG、PNG等，还提供了一些实用的功能，如快捷键操作、自动保存标注结果等，以提高标注的效率和准确性。

按照2∶3的比例随机选取5 226个样本作为训练集，剩下的2 613个样本按照1∶1比例划分为验证集和测试集。各类害虫检测数据集目标统计如表1所示。

表1 各类害虫检测数据集目标统计

Table 1 Target statistics of various pest detection datasets

类别	训练集	验证集	测试集	总计
蝽卵	748	111	110	969
稻螟蛉	1 586	128	180	1 894
大螟幼虫	789	80	125	994
红白蝙蝠蛾	385	60	39	484
黄肩型稻绿椿	835	205	151	1 191
点斑型稻绿蝽	924	171	115	1 210
全绿型稻绿蝽	778	95	113	986
蝗虫	1 245	189	240	1 674

2 算法设计

2.1　YOLOv8-Extend网络结构

YOLO是基于深度学习的端到端的卷积神经网络，YOLOv8^［28］是YOLO系列模型的最新版本。本研究提出的YOLOv8-Extend继承了YOLOv8的计算流程，是对YOLOv8特征提取网络的一种改进。将待检测的图像输入到神经网络中，通过CNN进行前向传播，将输入图像转换为特征图。在特征图上进行多层特征提取，通过卷积和池化等操作，提取图像的高级语义特征。将不同层次的特征进行融合，以获取更全局和更局部的特征信息。在融合后的特征图上进行目标预测，使用标注数据监督反向传播更新参数进行模型训练。使用非极大值抑制算法，去除重叠的边界框，保留置信度最高的边界框。

基于YOLOv8优秀的特征提取能力和多尺度特征融合能力，本研究在Backbone和Head引入GSConv提高模型的感受野，并将Backbone部分Conv更换为轻量化的卷积模块GhostConv。SPPF前的C2f更换为HorBlock捕捉更长期的特征依赖关系。Neck所有的Concat更换为BiFPN更加丰富的特征融合，在SPPF后的Concat后引入CBAM注意力机制来强化田间虫害目标特征，在Neck还引入VoVGSCSP模块提升田间农作物害虫微小目标的检测。改进后的YOLOv8-Extend网络结构如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 YOLOv8-Extend网络结构

Fig. 2 Network architecture of YOLOv8-Extend

2.1.1　GSConv

GSConv和范式设计Slim-Neck在无人驾驶领域有非常好的表现。GSConv能够减轻模型的复杂度并保持准确性。由于本研究使用边缘计算设备部署，GSConv可以更好地平衡模型的准确性和速度。GSConv引入全局特征聚合机制，能够在节点级别和全局级别同时进行特征聚合。通过邻居采样和聚合操作，从每个节点的邻居节点中获取局部特征。将全局特征与局部特征进行融合，得到更丰富的节点表示，提高模型的感受野和语义理解能力。GSConv模块结构如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 GSConv模块结构

Fig. 3 GSConv module structure

2.1.2　GhostConv

随着卷积层的不断增加，模型复杂度越来越高。而深度学习逐渐向边缘计算迈进，更加轻量化的模型结构是未来发展的趋势。幻影卷积（Ghost Convolution）将卷积操作分解为两个子操作，主干卷积（Main Convolution）和幻影卷积（Ghost Convolution）。主干卷积通过一个标准的卷积操作进行处理，幻影特征图选用较小的卷积核进行处理。之后，主干卷积特征图和幻影特征图融合得到输出特征图，如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 GhostConv模块结构

Fig. 4 Module structure of GhostConv

2.1.3　HorBlock

HorBlock网络结构如图5所示。首先通过Layer Norm进行层归一化操作。层归一化与Batch Normalization（批归一化）不同，Layer Norm是在每个样本的特征上进行归一化，而不是在批次特征上归一化。层归一化之后通过HorBlock重要组成部分是

g n C o n v

（递归门控卷积），递归门控卷积引入了门控机制。该门控机制基于传统卷积运算来捕获输入数据的长期相关性。传统的卷积运算只能捕获局部特征，递归门卷积可以使用门控机制记忆和传输先前的信息，捕获长期相关性。

显示原图|下载原图ZIP|生成PPT

图5 HorBlock模块结构

Fig. 5 Module structure of HorBlock

2.1.4　BiFPN

在设计害虫实时目标检测模型时，充分考虑复杂多变的农作物生长的自然环境。为了融合更多的特征在YOLOv8网络结构的基础上，对其Neck网络进行优化，能有效提取图像的深层特征提高其精度以提高识别效率。多维特征融合的目的是以不同的分辨率组合特征，而以前的特征融合方法以相同的方式处理所有输入特征。然而由于不同的输入特征具有不同的分辨率，因此对特征融合的贡献往往也是不平等的。为了解决这一问题，本研究使用BiFPN层加权特征金字塔网络，实现了从上到下和从下到上的深浅特征的双向融合，增强不同网络层特征信息的传递^［29］。如图6所示BiFPN模块结构，蓝色箭头传递高层特征语义信息的自上而下；红色箭头是自下而上的路径，传递低层特征的位置信息；紫色箭头是输入节点和输出节点之间同一层的融合。双向尺度连接和加权特征的融合在准确性和效率之间有更好的平衡。针对本研究田间害虫检测识别，使得特征金字塔的各个层级能够更好地平衡，以提供更全局和更具语义的特征表示，有助于在复杂环境中准确地检测田间害虫，提高对不同尺度目标的检测能力。

显示原图|下载原图ZIP|生成PPT

图6 BiFPN模块结构

Fig. 6 Module structure of BiFPN

2.1.5　VoVGSCSP

为了提升田间害虫微小目标检测，本研究引入VoVGSCSP模块。该模块是基于GSConv和跨级部分的网络结构，在Neck网络中引入VoVGSCSP的网络，构成跨级部分网络是类似于ResNet残差块的结构，如图7a所示。拼接前一层的特征图和后一层的特征图，然后进行卷积的运算。可以避免深层网络结构的信息丢失以及梯度消失问题。使用VoVGSCSP代替Neck网络中的C2f结构，如图7b所示，连接不同比例的特征图以形成更长的特征图特征向量用于增加模型的多样性，而跨级别部分用于增加网络的深度和非线性，并整合结果以减少在保持计算复杂性的同时提高模型的准确性，更适合小目标检测。

显示原图|下载原图ZIP|生成PPT

图7 C2f与VoVGSCSP网络结构

Fig. 7 Network architectures of C2f and VoVGSCSP

2.1.6　CBAM注意力机制

田间农作物害虫检测往往检测目标比较密集，本研究融入CBAM注意力机制能够使得检测网络增加害虫的特征提取能力，降低繁杂的背景对目标特征提取的影响。CBAM是一种轻巧的卷积注意力模块，包括通道注意力模块（Channel Attention Module, CAM）和空间注意力模块（Spatial Attention Module, SAM），分别关注通道和空间。不仅节省了参数和计算能力，还确保可以作为即插即用模块集成到现有网络架构中。通道注意力模块保持通道维度，压缩空间维度，并关注输入图像中的显著特征信息。空间注意力模块具有固定的空间维度、压缩的信道维度，集中于目标位置信息的检测。该算法同时关注信道和空间特征，性能更好。输入Feature如公式（1）所示。

F' = M c (F) ⊗ F

（1）

其中：

F ϵ R C × H × W

，

M c ϵ R C × 1 × 1

是CAM输出的通道权重数据为1×1×C，

F'

是通道注意力输出，如公式（2）所示。

F'' = M s (F') ⊗ F'

（2）

其中：

M s ϵ R 1 × H × W

是SAM的权重数据为2×H×W，将通道注意力CAM输出结果

F'

与空间注意力SAM权重乘积之后得到CBAM输出结果

F''

。

2.2　损失函数

基于IoU（Intersection over Union）的损失函数被广泛用于对象检测和实例分割任务。YOLOv8自带了IoU方法，包括GIoU、DIoU和CIoU^［30］，其中默认选择的是CIoU。CIoU考虑目标框之间的位置、尺寸和角度差异，能够评估两个目标框的相似程度。计算定位损失，如公式（3）所示。

L C l o U = 1 - I o U + ρ 2 b A, b B c 2 + α v

（3）

式中：

b A

和

b B

分别为预测框和真实框的中心点；

ρ

为两点之间的欧式距离；

c

为预测框和真实框的最小外接矩形的对角线长度；

α

为平衡参数；

v

用于计算预测框和目标框高宽比的一致性，反映高、宽分别与其置信度的真实差异，它会阻碍模型对相似性的问题进行优化学习。CIoU使用的是单调聚焦机制。该机制致力于强化边界框损失的拟合能力，但当目标检测训练集中含有低质量示例时，如果一味地强化界框对低质量示例的回归，会危害模型检测性能的提升。Focal-EIoU v1 被提出以解决这个问题，但由于其聚焦机制是静态的，并未充分挖掘非单调聚焦机制的潜能。Wise-IoU（WIoU）^［31］动态非单调聚焦机制使用“离群度”替代IoU对锚框进行质量评估，并提供梯度增益分配策略。该策略在降低高质量锚框的竞争力的同时，也减小了低质量示例产生的有害梯度。这使得WIoU可以聚焦于普通质量的锚框，并提高检测器的整体性能。根据距离度量构建了距离注意力，得到了具有两层注意力机制的WIoU_v1，如公式（4）~公式（6）所示。

L W I o U v 1 = R W I o U L I o U

（4）

R W I o U = e x p (x - x g t 2 + y - y g t 2 W g 2 + H g 2 *)

（5）

L I o U = 1 - I o U

（6）

式中：

W I o U v 1

为具有两层注意力机制的损失函数；

R W I o U

为距离度量；

W g

、

H g

分别为最小包围框的宽和高；

X g t

、

Y g t

分别为真实框的中心点。WIoU_v3作为边界框回归损失，包含一种动态非单调机制，并设计一种合理的梯度增益分配，减少极端样本中出现的大梯度或有害梯度。该损失方法计算更多地关注普通质量的样本，进而提高网络模型的泛化能力和整体性能。如公式（7）~公式（9）所示。

L W I o U v 3 = r × L W I o U v 1

（7）

r = β δ α β

（8）

β = L I o U * L ¯ I o U ∈ [0, + ∞)

（9）

式中：

r

为非单调聚焦系数；

β

为描述针框质量的离群度；

L I o U *

为单调聚焦系数；

L ¯ I o U

为动量为

m

的滑动平均值。利用

β

构造一个非单调聚焦系数并将其应用于WIoU_v1就得到具有动态非单调FM（Focusing Mechanism）的WIoU_v3。利用动态非单调FM的明智的梯度增益分配策略，WIoU_v3获得了优越的性能。模型更加关注锚定普通质量的框，并提高了模型定位对象的能力。

2.3　软硬件试验环境

本试验使用Windous 11操作系统，基于Pytorch深度学习框架和Python程序编码实现，在ultralytics框架下改进，具体软硬件配置如表2所示。

表2 模型训练软硬件环境配置

Table 2 Configuration of software and hardware environment for model training

名称	试验配置
编程语言	Python3.9
深度学习框架	Pytorch2.0.1
CPU	Intel（R）Core（TM）i9-10900X CPU @3.70 GHz
内存	128 GB
GPU	NVIDIA GeForce RTX 3090
CUDA	11.7
开发平台	Pycharm 2022.2

2.4　模型训练过程

在农作物害虫检测模型训练过程中，应用ultralytics框架提供的YOLOv8n权重参数作为模型学习初始化参数和超参数调优，实现整个网络的最佳检测性能。超参数设置如表3所示。

表3 模型训练超参数配置

Table 3 Configuration of model training hyperparameter

名称	试验配置
Epochs	200
Batch_size	64
Momentum	0.937
Weight decay	0.000 5
Learn rate	0.01
Optimizer	Adam
Workers	4
Imgsz	640

2.5　试验评价指标

计算机视觉检测中，先决条件和实际条件之间的分类有4种不同的组合。TP为模型预测为正类的正样本；TN为模型预测为负类的负样本；FP为模型预测为正类的负样本；FN为模型预测为负类的正样本。精确率（Precision）是指预测结果为正例中实际真实为正例的份额，如公式（10）所示。召回率（Recall）是指实际真实为正例中预测结果为正例的份额，如公式（11）所示。准确率是指模型预测正确的结果（包括正例和负例）所占的份额，如公式（12）所示。

P r e c i s i o n = T P T P + F P

（10）

R e c a l l = T P T P + F N

（11）

A c c u r a c y = T P + T N T P + T N + F P + F N

（12）

精确率和召回率两者相互限制、相互影响，追求高准确率会导致低召回率；高召回率通常会影响准确性。这需要全面考虑这些因素，最常见的方法就是F ₁-Score，如公式（13）所示。

F 1 - S c o r e = 2 T P 2 T P + F N + F P = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l

（13）

在视觉识别问题中，每个图像可能包括多个类别的目标，并且需要评估模型的目标分类和定位性能。图像分类问题的评价指标不能直接适用。mAP是多个分类任务的平均精度（Average Precision, AP）的平均值，mAP和AP值越大表明精度越高，计算如公式（14）和公式（15）所示。mAP@0.5是指IoU设为0.5时，计算每一类的所有图片的AP，然后所有类别求平均。mAP@0.5∶0.95表示在不同IoU阈值（0.5~0.95，步长0.05）上的平均mAP。

A P = ∫ 01 P (R) d R

（14）

m A P = ∑ i = 1 K A P i K

（15）

采用FPS（Frames Per Second）评估模型检测的速度。FPS越高表示实时性越好。

3 实验结果与分析

3.1　模型训练结果分析

经过200轮的模型训练迭代，模型得以收敛。在训练集和验证集上都取得不错的成绩。Box_loss为Wise-IoU损失函数均值，值越小检测预测越准确；cls_loss为分类损失函数均值，值越小分类越准确；dfl_loss自由形变损失是用于解决目标检测中由于目标形状和大小的变化而导致的性能下降，值越小预测越准确。mAP@0.5和mAP@0.5∶0.95值越大模型预测效果越好。YOLOv8-Extend模型训练评估结果如图8所示。

显示原图|下载原图ZIP|生成PPT

图8 YOLOv8-Extend模型训练评估结果

Fig. 8 Evaluation results of YOLOv8-Extend model training

PR曲线（Precision-Recall Curve）是评估模型性能的通用度量指标。以召回率（Recall）为横轴，精确率（Precision）为纵轴，绘制的曲线反映了在不同召回率下的精确率变化情况。可以直观地观察模型在不同召回率下的性能。曲线越靠近右上角，模型的准确性和召回率就越高，表明该模型具有良好的性能。如图9所示。

显示原图|下载原图ZIP|生成PPT

图9 YOLOv8-Extend模型训练PR曲线

Fig. 9 PR training curve of YOLOv8-Extend model

选取测试集中农作物与害虫特征相似、微小目标等具有代表的3张图片进行试验，如图10所示。其中，第1列图10a为原始图像，第2列图10b为YOLOv8原始模型的热力图，第3列图10c为改进后的YOLOv8-Extend模型的热力图，第4列图10d为改进后的YOLOv8-Extend模型的检测结果图。归一化后以热力图的方式表示，检测网络在颜色越红的地方分配的权重越大。改进后的YOLOv8-Extend模型的热力图农作物害虫检测目标的红色明显比YOLOv8原模型层次分明，尤其第2行稻螟蛉目标较小、颜色和背景更加接近，引入了VoVGSCSP和注意力机制后的模型可以更加精准地定位和识别微小目标，检测效果更优。

显示原图|下载原图ZIP|生成PPT

图10 YOLOv8模型改进前后特征热力图对比

a. 原图 b. 改进前热力图 c. 改进后热力图 d. 实际检测图

Fig. 10 Comparison of feature heat maps before and after the improvement of the YOLOv8 model

3.2　消融实验

为了探究使用CBAM注意力机制、BiFPN加权特征金字塔网络和GSConv模块的改进对YOLOv8模型带来的性能提升和验证各组件的有效性，进行消融实验。分析研究YOLOv5s、YOLOv8n、YOLOv8n-GSConv、YOLOv8n-BiFPN、YOLOv8n-CBAM和YOLOv8-Extend模型训练过程中在精确率、召回率、mAP@0.5和mAP@0.5∶0.95的实验数据。从图11a可以看出，YOLOv8-Extend模型在50个epochs后精确率相比YOLOv8原模型有明显提升，接近200个epochs时和YOLOv8-BiFPN精确率相差无几。图11b召回率消融实验反映了YOLOv8-Extend在50~100个epochs召回率明显高于其他模型，最终收敛过程中和YOLOv8-CBAM相交。这两个消融实验说明YOLOv8-Extend在精确率和召回率都取得良好的效果。图11cmAP@0.5和图11d mAP@0.5∶0.95均能明显反映在100个epochs以上YOLOv8-Extend都高于其他模型。

显示原图|下载原图ZIP|生成PPT

图11 YOLOv8n-Extend模型训练消融实验评估指标

Fig. 11 Evaluation metrics for the YOLOv8n-Extend model training ablation experiment

从表4可以看出，各种改进算法的Precision、Recall、mAP@0.5和mAP@0.5∶0.95均高于YOLOv8原模型，改进融入GSCONV模块后分别提升0.7%、1.5%、0.6%和0.2%，使用BiFPN代替Concat后分别提升2.4%、3.6%、1.1%和0.6%，引入CBAM注意力机制后分别提升1.7%、3.7%、1.8%和4.4%，YOLOv8n-Extend是融入了多个模块，结合多个模块的优势最终分别提升2.6%、3.6%、2.4%和7.2%。除了YOLOv8n-GSCONV模型中Neck网络中C2f全部更换了VoVGSCSP导致模型参数增大外其他改进模型参数量均与原模型相差无几。FPS是通过处理100张照片所用时间平均计算而来，改进前后FPS几乎无差别。

表4 YOLOv8n-Extend改进算法消融实验

Table 4 YOLOv8n-Extend improved algorithm ablation experiment

Methods	Precision	Recall	mAP@0.5	mAP@0.5∶0.95	Modelsize/M	FPS
YOLOv5s	0.959	0.91	0.947	0.721	13.70	66.7
YOLOv8n	0.958	0.939	0.964	0.739	5.93	72.6
YOLOv8n-GSCONV	0.965	0.954	0.970	0.741	20.20	56.4
YOLOv8n-BiFPN	0.982	0.975	0.975	0.745	5.93	68.5
YOLOv8n-CBAM	0.975	0.976	0.982	0.783	5.95	62.6
YOLOv8n-Extend	0.984	0.975	0.99	0.811	6.07	65.5

通过同一张图像对比改进后的YOLOv8-Extend和YOLOv8原模型的热力图直观地分析网络结构的各个模块学习效果。图12a列为YOLOv8模型的热力图输出，图12b列为改进后的模型热力图输出。第1行为Backbone网络Conv和改进为GhostConv的对比实验，可以看出在浅层网络结构中幻影卷积能够较丰富地提取特征。第2行为Backbone网络最后一个C2f和改进为HorBlock的消融实验，发现原网络中特征提取较为分散而HorBlock对每个样本的特征维度上进行归一化通过递归门控卷积能够更加集合特征。第3行为Neck网络中一个C2f和相同层改进为VoVGSCSP模块的对比实验，发现两者特征提取相差不大，VoVGSCSP通过拼接前一层的特征图和后一层的特征图，然后进行卷积运算得到，使得VoVGSCSP特征更加突出热力图颜色较深。第4行为Neck网络最后一个C2f和改进后的网络C2f后增加CBAM注意力机制，可以明显看出增加了注意力机制的网络结构对特征的提取能力和聚焦能力更强。第5行为改进前后模型对害虫的检测图，通过网络结构的改进和损失函数更改为WIoU动态非单调聚焦机制，具有更为丰富的特征提取和语义理解能力，通过对比试验原模型的置信度为0.72，改进后的YOLOv8-Extend为0.88，提高16%。

显示原图|下载原图ZIP|生成PPT

图12 YOLOv8模型改进前后不同阶段特征热力图

a. YOLOv8 b. YOLOv8-Extend

Fig. 12 Heat maps of different stages of YOLOv8 model before and after improvement

3.3　边缘计算实验

本研究目的是应用在边缘端实现农作物害虫检测，选择NVIDIA公司生产的JETSON ORIN NX 16 GB边缘计算设备。该设备搭载了32个Tensor Core的1 024、NVIDAI Ampere架构GPU和16 GB 128位LPDDR5显存，具有100TOPS（INT 8）AI性能，还配有2个NVDLA V2和8核Arm Cortex®-A78AEv8.2 64位CPU 2 MB L2+4 MB L3。

TensorRT是由NVIDIA开发的一个高性能推理引擎，在GPU上加速深度学习模型的推理。通过有效优化网络结构、降低计算量、融合网络层等方法，实现了对神经网络的高效推理。结合模型中大量的卷积模块和张量，卷积、BN层和激活层一次性融合计算，减少了计算步骤和提高了数据传输效率。将Pytorch框架下训练的农作物害虫检测模型的*.pt权重文件通过export工具转化为*.onnx中间件，再通过TensorRT的trtexec工具构建用于推理的引擎*.engine文件，使用推理引擎推理获得更快的推理速度，提高深度学习模型在实际应用中的效率和性能。与PC端Pytorch推理对比消融实验如表5所示。

表5 模型推理电脑端与边缘计算消融实验

Table 5 Model inference computer terminal and edge computing ablation experiment

Methods	mAP@0.5	FPS
YOLOv5s	0.947	66.7
YOLOv5s-Jetson	0.912	54.7
YOLOv8n	0.964	72.6
YOLOv8n-Jetson	0.922	62.8
YOLOv8n-Extend	0.990	65.5
YOLOv8n-Extend-Jetson	0.968	57.6

随机抽取了500张图片进行边缘计算与PC端Pytorch推理对比消融实验。YOLOv5s、YOLOv8n和YOLOv8n-Extend分别通过边缘计算和TensorRT加速后，mAP@0.5分别下降3.5%、4.2%和2.3%，FPS分别下降12、9.8和7.9帧。实验中，改进后通过边缘计算的YOLOv8n-Extend-Jetson相比原模型通过边缘计算的YOLOv8n-Jetson，mAP@0.5提升4.6%，FPS下降5.2帧。YOLOv8n-Extend-Jetson基本都保持在较高的准确率和检测效率。由于本试验最终运行的摄像头帧率仅为25帧，有40 ms的帧间隔，而YOLOv8n-Extend-Jetson检测帧率可达57.6帧，帧间隔为17.3 ms，完全可以运行摄像头40 ms的帧间隔中。结果表明本算法满足实时性检测要求。

3.4　实际采集数据推理验证分析

为了验证基于YOLOv8的改进模型在实际农作物害虫检测场景中的检测效果，使用在农田中实际采集的未经模型训练的视频作为图像输入源来模拟真实场景。视频为1 080 P，H.265编码，使用ffmpeg推送至RTMP流媒体。检测推理模型经过TensorRT加速，运行在NVIDIA JETSON ORIN NX 16 GB边缘计算设备上，使用DeepStream稳定高效的视频流读取分布式部署实现高吞吐量和低延迟的数据处理。改进前后的模型经过DeepStream部署对比FPS均约为60，满足农作物害虫检测实时性的需求。在微小害虫和与背景相似的害虫检测方面改进后的模型有明显优势，如图13所示。

显示原图|下载原图ZIP|生成PPT

图13 YOLOv8模型改进前后实采数据检测结果

a. YOLOv8 b. YOLOv8-Extend

Fig. 13 Real data detection results before and after improvement of YOLOv8 model

将采集的视频数据按照每秒抽取一帧并剔除没有害虫的数据保存。通过人工分类把目标在图像画面中大小、前后景差异、检测目标数量和干扰项综合分类分为简单（330张）、中等（420张）和困难（220张）3种类型。在边缘端模型移植后经过统计改进前后的检测准确率。结果表明，分类为简单的类型准确率相差不大，分类为中等的类型准确率稍高于改进前，分类为困难类型的数据准确率提高了11.9%，明显高于改进前。如表6所示。

表6 YOLOv8-Extend模型改进前后实采数据分类检测准确率

Table 6 The accuracy of YOLOv8-Extend model's classification and detection of actual data before and after improvement

Methods	简单（330张）	中等（420张）	困难（220张）
YOLOv8n	0.986	0.923	0.726
YOLOv8n-Extend	0.993	0.955	0.845

4 结论

针对农作物害虫目标检测具有目标小、背景与目标纹理类似、特征提取困难等问题，本研究提出的基于YOLOv8改进YOLOv8n-Extend实时目标检测算法。

通过试验证明GhostConv（幻影卷积）能够较丰富地提取特征，HorBlock网络中的递归门控卷积具有能捕捉到更长期的依赖关系的特征，BiFPN（加权特征金字塔）双向融合网络的深浅层特征，增强不同网络层之间特征信息的传递。VoVGSCSP跨级融合增加网络的深度和非线性，并整合结果以减少在保持计算复杂性的同时提高模型的准确性，适合小目标检测。引入CBAM注意力机制，增加了注意力机制的网络结构对特征的提取能力和聚焦能力。改进的算法使用Wise-IoU损失函数具有更多地关注普通质量的样本，进而提高网络模型的泛化能力和整体性能。相比原YOLOv8模型在模型参数量没有增加，没有损失检测速度的前提下，Precision、Recall、mAP@0.5和mAP@0.5∶0.95评价指标分别提升2.6%、3.6%、2.4%和7.2%。

研究对比了YOLOv5s，YOLOv8n-CBAM、YOLOv8n-BiFPN和YOLOv8-GSCONV等YOLO系列改进算法，消融实验发现，本实验提出的YOLOv8n-Extend改进算法表现最佳。选择了NVIDIA公司生产的JETSON ORIN NX 16GB边缘计算设备进行部署，改进前后的模型运行在边缘计算均通过TensorRT加速后相比mAP@0.5提升4.6%，FPS从62.8下降到57.6帧因为模型复杂度稍高略有下降，但满足实时性检测要求。通过改进算法，能够有效在田间农作物场景中实时进行害虫检测，验证了该算法在实际用于生产中的可行性和有效性。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	李健, 陈长明. 基于计算机视觉的农作物害虫自动检测研究综述[J]. 微型电脑应用, 2009, 25(12): 62-64, 78. LI J, CHEN C M. Research progress on automatic detection for crop pests based on computer vision[J]. Microcomputer applications, 2009, 25(12): 62-64, 78.

2	刁智华, 王欢, 宋寅卯, 等. 复杂背景下棉花病叶害螨图像分割方法[J]. 农业工程学报, 2013, 29(5): 147-152. DIAO Z H, WANG H, SONG Y M, et al. Segmentation method for cotton mite disease image under complex background[J]. Transactions of the Chinese society of agricultural engineering, 2013, 29(5): 147-152.

3	宋勇, 陈兵, 王琼, 等. 基于无人机多光谱影像的棉花黄萎病监测[J]. 棉花学报, 2023, 35(2): 87-100. SONG Y, CHEN B, WANG Q, et al. Monitoring of cotton Verticillium wilt based on unmanned aerial vehicle multispectral images[J]. Cotton science, 2023, 35(2): 87-100.

张楠楠, 张晓, 白铁成, 等. 基于CBAM-YOLO v7的自然环境下棉叶病虫害识别方法[J]. 农业机械学报, 2023, 54(S1): 239-244.

ZHANG

N N

, ZHANG

, BAI

T C

, et al. Identification method of cotton leaf pests and diseases in natural environment based on CBAM-YOLOv7[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(S1): 239-244.

5	YUAN Z W, ZHANG J. Feature extraction and image retrieval based on AlexNet[C]// Proceedings of Eighth International Conference on Digital Image Processing (ICDIP 2016. San Francisco,USA: SPIE, 2016, 10033: 65-69.

6	HE J, LI S, SHEN J M, et al. Facial expression recognition based on VGGNet convolutional neural network[C]// 2018 Chinese Automation Congress (CAC). Piscataway, New Jersey, USA: IEEE, 2018: 4146-4151.

7	AL-QIZWINI M, BARJASTEH I, AL-QASSAB H, et al. Deep learning algorithm for autonomous driving using GoogLeNet[C]// 2017 IEEE Intelligent Vehicles Symposium (IV). Piscataway, New Jersey, USA: IEEE, 2017: 89-96.

8	TARG S, ALMEIDA D, LYMAN K. Resnet in resnet: Generalizing residual architectures[EB/OL]. arXiv: 1603.08029, 2016.

9	ZHU Y, NEWSAM S. DenseNet for dense flow[C]// 2017 IEEE International Conference on Image Processing (ICIP). New York, USA: ACM, 2017: 790-794.

10	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

11	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 779-788.

12	REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017: 6517-6525.

13	REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv: 1804. 02767, 2018.

14	BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. arXiv: 2004.10934, 2020.

15	GE Z, LIU S, WANG F, et al. YOLOX: exceeding YOLO series in 2021[EB/OL]. arXiv: 2107. 08430, 2021.

16	王建, 徐闯. 基于YOLOv5s的脐橙虫害检测研究[J]. 工业控制计算机, 2023, 36(7): 105-106, 109. WANG J, XU C. Research on detection of navel orange pests based on YOLOv5s[J]. Industrial control computer, 2023, 36(7): 105-106, 109.

17	FUENTES A, YOON S, KIM S C, et al. A robust deep-learning-based detector for real-time tomato plant diseases and pests recognition[J]. Sensors, 2017, 17(9): 2022.

18	何颖. 基于改进YOLOv5模型的经济林木虫害目标检测算法研究[D]. 昆明: 云南农业大学, 2022. HE Y. Research on object detection algorithm of economic forestry pests based on improved YOLOv5[D]. Kunming: Yunnan Agricultural University, 2022.

REZA

M T

, MEHEDI

, TASNEEM

N A

, et al. Identification of crop consuming insect pest from visual imagery using transfer learning and data augmentation on deep neural network[C]// 2019 22nd International Conference on Computer and Information Technology (ICCIT). Piscataway, New Jersey, USA: IEEE, 2019.

20	CHEN J W, LIN W J, CHENG H J, et al. A smartphone-based application for scale pest detection using multiple-object detection methods[J]. Electronics, 2021, 10(4): ID 372.

21	魏陈浩, 杨睿, 刘振丙, 等. 具有双层路由注意力的YOLOv8道路场景目标检测方法[J]. 图学学报, 2023, 44(6): 1104-1111. WEI C H, YANG R, LIU Z B, et al. YOLOv8 with bi-level routing attention for road scene object detection[J]. Journal of graphics, 2023, 44(6): 1104-1111.

22	LI R, WANG R J, XIE C J, et al. A coarse-to-fine network for aphid recognition and detection in the field[J]. Biosystems engineering, 2019, 187: 39-52.

23	LI H L, LI J, WEI H B, et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles[EB/OL]. arXiv: 2206.02424, 2022.

24	HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 1577-1586.

25	RAO Y M, ZHAO W L, TANG Y S, et al. HorNet: Efficient high-order spatial interactions with recursive gated convolutions [EB/OL]. [2022-07-28].

26	TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 10778-10787.

27	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 3-19.

28	TERVEN J R, ESPARZA D M C. A comprehensive review of YOLO: From YOLOv1 to YOLOv8 and beyond[EB/OL]. arXiv:2304.00501, 2023.

29	高腾, 张先武, 李柏. 深度学习在安全帽佩戴检测中的应用研究综述[J]. 计算机工程与应用, 2023, 59(6): 13-29. GAO T, ZHANG X W, LI B. Review on application of deep learning in helmet wearing detection[J]. Computer engineering and applications, 2023, 59(6): 13-29.

30	REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: A metric and a loss for bounding box regression[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 658-666.

31	TONG Z, CHEN Y, XU Z, et al. Wise-IoU: Bounding box regression loss with dynamic focusing mechanism[EB/OL]. arXiv: 2301.10051, 2023.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引 言

1 实验数据

1.1 数据获取

图1 虫害图像数据样本

1.2 数据集构建

表1 各类害虫检测数据集目标统计

2 算法设计

2.1 YOLOv8-Extend网络结构

图2 YOLOv8-Extend网络结构

2.1.1 GSConv

图3 GSConv模块结构

2.1.2 GhostConv

图4 GhostConv模块结构

2.1.3 HorBlock

图5 HorBlock模块结构

2.1.4 BiFPN

图6 BiFPN模块结构

2.1.5 VoVGSCSP

图7 C2f与VoVGSCSP网络结构

2.1.6 CBAM注意力机制

2.2 损失函数

2.3 软硬件试验环境

表2 模型训练软硬件环境配置

2.4 模型训练过程

表3 模型训练超参数配置

2.5 试验评价指标

3 实验结果与分析

3.1 模型训练结果分析

图8 YOLOv8-Extend模型训练评估结果

图9 YOLOv8-Extend模型训练PR曲线

图10 YOLOv8模型改进前后特征热力图对比

3.2 消融实验

图11 YOLOv8n-Extend模型训练消融实验评估指标

表4 YOLOv8n-Extend改进算法消融实验

图12 YOLOv8模型改进前后不同阶段特征热力图

3.3 边缘计算实验

表5 模型推理电脑端与边缘计算消融实验

3.4 实际采集数据推理验证分析

图13 YOLOv8模型改进前后实采数据检测结果

表6 YOLOv8-Extend模型改进前后实采数据分类检测准确率

4 结论

利益冲突声明

References

0 引言

1.1　数据获取

1.2　数据集构建

2.1　YOLOv8-Extend网络结构

2.1.1　GSConv

2.1.2　GhostConv

2.1.3　HorBlock

2.1.4　BiFPN

2.1.5　VoVGSCSP

2.1.6　CBAM注意力机制

2.2　损失函数

2.3　软硬件试验环境

2.4　模型训练过程

2.5　试验评价指标

3.1　模型训练结果分析

3.2　消融实验

3.3　边缘计算实验

3.4　实际采集数据推理验证分析