多源场景下粘虫板小目标害虫轻量化检测识别模型

杨信廷; 胡焕; 陈晓; 李汶政; 周子洁; 李文勇

doi:10.12133/j.smartag.SA202410019

智慧农业 >

2025 , Vol. 7 >Issue 1: 111 - 123

DOI: https://doi.org/10.12133/j.smartag.SA202410019

专题--农业知识智能服务和智慧无人农场（下）

多源场景下粘虫板小目标害虫轻量化检测识别模型

杨信廷 ²^,³ ,
胡焕 ¹^,²^,³ ,
陈晓 ¹^,²^,³ ,
李汶政 ¹^,²^,³ ,
周子洁 ²^,³^,⁴ ,
李文勇 ^,²^,³

展开

^1. 上海海洋大学信息学院，上海 201306，中国
^2. 国家农业信息化工程技术研究中心，北京 100097，中国
^3. 北京市农林科学院信息技术研究中心，北京 100097，中国
^4. 吉林农业大学信息技术学院，吉林长春 130118，中国

李文勇，博士，研究员，研究方向为植保信息化。E-mail：liwy@nercita.org.cn

杨信廷，博士，研究员，研究方向为农业信息化关键技术研究。E-mail：yangxt@nercita.org.cn

收稿日期: 2024-10-21

网络出版日期: 2025-03-13

基金资助

国家重点研发计划项目(2022YFD2001801)

北京市农林科学院协同创新中心建设专项

收起

Lightweight Detection and Recognition Model for Small Target Pests on Sticky Traps in Multi-Source Scenarios

YANG Xinting ²^,³ ,
HU Huan ¹^,²^,³ ,
CHEN Xiao ¹^,²^,³ ,
LI Wenzheng ¹^,²^,³ ,
ZHOU Zijie ²^,³^,⁴ ,
LI Wenyong ^,²^,³

Expand

^1. Shanghai Ocean University, Shanghai 201306, China
^2. National Research Center for Information Technology in Agriculture, Beijing 100097, China
^3. Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
^4. Jilin Agricultural University, Changchun 130118, China

LI Wenyong, E-mail: liwy@nercita.org.cn

YANG Xinting, E-mail: yangxt@nercita.org.cn

Received date: 2024-10-21

Online published: 2025-03-13

Supported by

National Key Technology R&D Program of China(2022YFD2001801)

The Promotion and Innovation of Beijing Academy of Agriculture and Forestry Sciences

Copyright

Fold

摘要

【目的/意义】 为了解决多源场景下粘虫板图像中粉虱和蓟马两种害虫由于个体小难以精确检测以及设备计算资源受限的问题，本研究基于YOLOv5s提出了一种名为MobileNetV4+VN-YOLOv5s的小目标图像轻量化检测识别模型。 【方法】 模型框架结合MobileNetV4主干网络构建EM模块，实现特征提取网络结构的优化和精度的提升；在模型颈部引入轻量化模块GSConv和VoV-GSCSP，替代普通卷积，降低模型复杂度；最后添加NWD（Normalized Wasserstein Distance）损失函数，用于增强小目标的判别敏感度与定位能力。 【结果和讨论】 所提出模型在室内场景下对小目标害虫的检测性能最佳，平均检测精度为82.5%，较原始模型YOLOv5s提升了8.4%；模型参数量降低了3.0 M，帧率提升了6.0帧/s；在室外场景下，所提出模型的平均精度为70.8%，较YOLOv5s提升了7.3个百分点，参数量降低了3.0 M，帧率提升了5.5帧/s；在混合场景下，模型的平均精度为74.7%，较YOLOv5s提升了8.0个百分点，参数量降低了3.0 M，帧率提升了4.3帧/s。同时研究发现，对原始图像进行裁剪分割能够影响模型性能，在采用5×5的比率对原图进行分割下模型的检测识别性能最佳；利用室内场景数据训练的模型能够在所有场景下都获得最佳的检测性能。 【结论】 本研究提出的MobileNetV4+VN-YOLOv5s模型兼顾轻量化和精度，模型可部署到嵌入式设备，便于落地应用，可为各种多源场景下粘虫板图像中小目标害虫检测提供参考。

关键词： 小目标; 害虫检测; 轻量化; 粘虫板; 多源场景; MobileNetV4; YOLOv5s

本文引用格式

杨信廷 , 胡焕 , 陈晓 , 李汶政 , 周子洁 , 李文勇 . 多源场景下粘虫板小目标害虫轻量化检测识别模型[J]. 智慧农业, 2025 , 7(1) : 111 -123 . DOI: 10.12133/j.smartag.SA202410019

Abstract

[Objective] In crop cultivation and production, pests have gradually become one of the main issues affecting agricultural yield. Traditional models often focus on achieving high accuracy, however, to facilitate model application, lightweighting is necessary. The targets in yellow sticky trap images are often very small with low pixel resolution, so modifications in network structure, loss functions, and lightweight convolutions need to adapt to the detection of small-object pests. Ensuring a balance between model lightweighting and small-object pest detection is particularly important. To improve the detection accuracy of small target pests on sticky trap images from multi-source scenarios, a lightweight detection model named MobileNetV4+VN-YOLOv5s was proposed in this research to detect two main small target pests in agricultural production, whiteflies and thrips. [Methods] In the backbone layer of MobileNetV4+VN-YOLOv5s, an EM block constructed with the MobileNetV4 backbone network was introduced for detecting small, high-density, and overlapping targets, making it suitable for deployment on mobile devices. Additionally, the Neck layer of MobileNetV4+VN-YOLOv5s incorporates the GSConv and VoV-GSCSP modules to replace regular convolutional modules with lightweight design, effectively reducing the parameter size of the model while improving detection accuracy. Lastly, a normalized wasserstein distance (NWD)loss function was introduced into the framework to enhance the sensitivity for low-resolution small target pests. Extensive experiments including state-of-the-art comparison, ablation evaluation, performance analysis on image splitting, pest density and multi-source data were conducted. [Results and Discussions] Through ablation tests, it was concluded that the EM module and the VoV-GSCSP convolution module had significant effects in reducing the model parameter size and frame rate, the NWD loss function significantly improved the mean average precision (mAP) of the model. By comparing tests with different loss functions, the NWD loss function improves the mAP by 6.1, 10.8 and 8.2 percentage compared to the DIoU, GIoU and EIoU loss functions, respectively, so the addition of the NWD loss function achieved good results. Comparative performance tests were detected wiht different light weighting models, the experimental results showed that the mAP of the proposed MobileNetV4+VN-YOLOv5s model in three scenarios (Indoor, Outdoor, Indoor&Outdoor) was 82.5%, 70.8%, and 74.7%, respectively. Particularly, the MobileNetV4+VN-YOLOv5s model had a parameter size of only 4.2 M, 58% of the YOLOv5s model, the frame rate was 153.2 fps, an increase of 6.0 fps compared to the YOLOv5s model. Moreover, the precision and mean average precision reach 79.7% and 82.5%, which were 5.6 and 8.4 percentage points higher than the YOLOv5s model, respectively. Comparative tests were conducted in the upper scenarios based on four splitting ratios: 1×1, 2×2, 5×5, and 10×10. The most superior was the result by using 5×5 ratio in indoor scenario, and the mAP of this case reached 82.5%. The mAP of the indoor scenario was the highest in the low-density case, reaching 83.8%, and the model trained based on the dataset from indoor condition achieves the best performance. Comparative tests under different densities of pest data resulted in a decreasing trend in mAP from low to high densities for the MobileNetV4+VN-YOLOv5s model in the three scenarios. Based on the comparison of the experimental results of different test sets in different scenarios, all three models achieved the best detection accuracy on the IN dataset. Specifically, the IN-model had the highest mAP at 82.5%, followed by the IO-model. At the same time, the detection performance showed the same trend across all three test datasets: The IN model performed the best, followed by the IO-model, and the OUT-model performed the lowest. By comparing the tests with different YOLO improvement models, it was concluded that MobileNetV4+VN-YOLOv5s had the highest mAP, EVN-YOLOv8s was the second highest, and EVN-YOLOv11s was the lowest. Besides, after deploying the model to the Raspberry Pi 4B motherboard, it was concluded that the detection results of the YOLOv5s model had more misdetections and omissions than those of the MobileNetV4+VN-YOLOv5s model, and the time of the model was shortened by about 33% compared to that of the YOLOv5s model, which demonstrated that the model had a good prospect of being deployed in the application. [Conclusions] The MobileNetV4+VN-YOLOv5s model proposed in this study achieved a balance between lightweight design and accuracy. It can be deployed on embedded devices, facilitating practical applications. The model can provide a reference for detecting small target pests in sticky trap images under various multi-source scenarios.

Key words： small target; pest detection; lightweight; sticky trap; multi-source scenarios; MobileNetV4; YOLOv5s

0 引言

在农作物种植生产中，害虫是影响农业产量与质量的主要因素之一。其中，蓟马^［1］和粉虱^［2］是两种农业生产中广泛分布且危害非常严重的小型害虫，对此类小型害虫的实时监测至关重要。

黄色粘板是一种常用且有效的针对这两种小型害虫管理的监测工具，它通过粘板诱捕后人工统计的方式完成虫情信息的采集与评估，但这种监测方式不仅需要观察者具备较高的植保知识，而且劳动强度大且耗时，对于大面积田间害虫监测是一个巨大的挑战^［3］。为解决此问题，一些自动化的粘虫板害虫检测识别方法应运而生。例如，有学者改进了Faster R-CNN^［4］模型用以估算粘虫板图像上成虫的相对数量^［5］。同时，Li等^［6］基于粘虫板收集的害虫图像数据，采用光谱残差模型来定位候选目标，提取不同颜色特征以实现害虫检测。此外，基于YOLOv3^［7］的单阶段目标检测方法被用以提高粘虫板上害虫的检测精度和速度^［8］。Cheng等^［9］使用边缘设备捕捉粘虫板图像，提出一种基于卷积神经网络的方法精准检测黄板害虫。但当前大部分研究在分析田间多源粘虫板图像数据时，仍然呈现出小目标检测识别鲁棒性弱的问题。

同时，当前基于物联网的害虫监测终端的应用需求不断增加，如何减少远端服务器数据处理压力成为当前模型研究需要重点考虑的问题之一。因此，越来越多的学者针对害虫轻量化检测模型进行研究。例如，Zhang等^［10］开发了一个轻量级模型JutePest-YOLO，该模型有效提高了模型识别害虫的能力，但仅在室外场景进行了测试。Xiang等^［11］通过改进卷积残差结构，针对大体积害虫提出了一种轻量级的农业害虫检测方法。Li等^［12］提出了一种用于检测黄麻害虫的新模型YOLO-JD。Dong等^［13］开发了PestLite模型，该模型通过多层空间金字塔池化实现模型轻量化。Xue等^［14］提出了一种改进模型YOLO-Tea，将自注意力和注意力模块结合使模型轻量化，也表现出较好的检测效果。尽管上述轻量化检测方法已取得诸多进展，但在处理多源场景的粘虫板害虫图像时，轻量化模型的检测性能仍需进一步地提升与评估，用于增强模型在实际应用过程中的鲁棒性。

为解决以上问题，本研究提出了一种小目标轻量化害虫检测模型，以提升对多源粘虫板图像中粉虱与蓟马的检测精度，并对温室大棚（室内）和棉花田间（室外）不同场景数据进行了评估。在提出的小目标害虫检测识别模型中，结合轻量化MobileNetV4^［15］骨干网络来重新配置模型的Backbone层，以提高黄板图像中小型和高密度目标的特征提取性能；同时采用GSConv和VoV-GSCSP^［16］模块替换普通卷积模块，构建轻量卷积模块，进一步减少模型的参数量；此外还引入了NWD（Normalized Wasserstein Distance）^［17］损失函数，加强对低像素小目标的判别敏感度，从而显著提升对小型害虫的检测精度。最后针对不同场景的图像数据进行交叉验证，以评估模型的性能，为多源粘虫板图像中小目标害虫的轻量化检测提供参考。

1 材料与方法

1.1　数据采集

针对实际不同的应用场景，本研究利用虫情监测设备采集了来自温室大棚内与室外棉花大田的粘虫板图像。室内虫情监测设备安装在北京市农林科学院的种有黄瓜的温室内（39°56'56.648"N，116°17'31.466"E）（图1a），室外虫情监测设备安装在新疆喀什的棉田（39°27'2.320"N，76°01'5.780"E）（图1c）。这些害虫监测设备通过粘虫板诱捕蓟马与粉虱两类害虫，并使用高分辨率相机（4 000×3 000 pixels）拍摄粘虫板图像。图像拍摄时间跨度从2023年7月1日到12月31日。从采集的图像中按照害虫数量高、中、低三种密度各选取20张，共选取了60张室内和60张室外场景图像构建数据集（低密度是每块板上的害虫数量<100，中密度是每块板上的害虫数量在100~200之间，高密度是每块板上的害虫数量>200）。图1b和图1d分别展示了室内和室外条件的样本图像，图1b 中的椭圆圈表示室内图像中的非目标对象，图1d中的椭圆圈表示室外图像中的非目标对象，与室内图像相比，室外图像的质量相对较低且包含更多非目标对象。

显示原图|下载原图ZIP|生成PPT

图1 室内与室外图像的采集设备及样本示例

注：蓝圈表示除蓟马和粉虱外的非目标对象。

Fig. 1 Acquisition equipments and sample examples of indoor and outdoor images

1.2　数据集构建

在本研究中，首先所有图像都使用LabelImg（https://github.com/tzutalin/labelImg）进行人工精确标注，以生成对应目标名称和坐标的格式文件。在原始图像中，目标害虫的像素占比相对较小，例如粉虱为0.07%，蓟马为0.04%，且不同区域的特征和背景可能存在显著差异。因此，为提升多源场景下小目标害虫的检测精度，本研究将原始图像按5×5的分割比率切成小图，提升小目标在图像中的占比，分割后粉虱像素占比1.81%，蓟马为1.05%。如表1所示，60张室内原始图像被切割成1 500个小图，命名为IN-Dataset。60张户外图像按照相同比例切割，形成1 500个小图，命名为OUT-Dataset，此外，选取30张室内图像和30张户外图像组成混合数据集，切割形成1 500个小图，命名为IO-Dataset。这些数据集都按照8∶1∶1的比例分为训练集、验证集和测试集。

表1 5×5分割比下的数据集详情

Table 1 Dataset details under 5×5 segmentation ratio

场景	数据集	类型	图像数量/张	小图数量/张	小图大小/pixels	粉虱数量/只	蓟马数量/只
室内	IN-Dataset	训练集	48	1 200	800×600	5 567	3 743
		验证集	6	150	800×600	1 743	1 247
		测试集	6	150	800×600	623	2 096
室外	OUT-Dataset	训练集	48	1 200	800×600	10 713	2 845
		验证集	6	150	800×600	1 659	1 212
		测试集	6	150	800×600	1 545	1 176
混合	IO-Dataset	训练集	48	1 200	800×600	11 832	3 471
		验证集	6	150	800×600	1 936	1 517
		测试集	6	150	800×600	1 079	1 170

1.3　检测识别流程图

本研究的技术路线如图2所示，主要工作分为三个部分：数据集构建、模型改进和模型测试。在数据集构建阶段，首先进行图像收集，随后对图像进行标注，之后构建数据集。在模型改进阶段，通过对主干网络改进、颈部改进，以及添加损失函数对模型进行优化。最后，在模型测试阶段，使用不同数据集对训练完成的模型进行性能评估，包括：1）不同轻量化模型检测性能对比；2）不同改进模块对模型整体性能的影响；3）图像不同分割比率对模型性能的影响；4）不同密度害虫数据下模型的性能分析；5）不同场景下训练的模型在多个测试集上的交叉验证；6）不同YOLO改进模型对比试验；7）树莓派系统部署测试。

显示原图|下载原图ZIP|生成PPT

图2 粘虫板小目标害虫轻量化检测识别模型研究流程图

Fig. 2 Research flowchart for lightweight detection and recognition model of small target pests on sticky traps

2 小体积害虫检测识别模型构建

2.1　改进YOLOv5s模型

YOLOv5s是当前在模型稳定性与性能两个方面都表现优秀的目标检测模型，但当他被应用于田间粘虫板小体积害虫图像数据检测时，仍存在一些问题需要突破：一是原始的YOLOv5s模型参数众多，占用大量内存，因为需要大量计算能力，直接在边缘设备上部署原始模型不可行；二是YOLOv5s对于本研究中的小体积靶标害虫定位能力较弱。因此，为了解决上述问题，本研究提出了一种基于YOLOv5s网络框架的新型轻量化模型，命名为MobileNetV4+VN-YOLOv5s，其结构如图3所示。首先，在主干网络中，增加基于MobileNetV4主干网络进行网络重构而命名的EM块，旨在充分提取和优化特征信息。其次，在颈部结构中，引入了GSConv和VoV-GSCSP模块，用轻量化卷积模块替代了普通卷积模块。这些模块有效统一了颈部区域不同通道的局部特征信息融合，显著减少了模型参数，实现了轻量化结构。此外，引入了NWD损失函数，以增强对低分辨率小目标的敏感度，从而提高本研究中小目标害虫的识别和检测能力。以下部分将详细介绍上述要点。

显示原图|下载原图ZIP|生成PPT

图3 改进后的小目标害虫轻量化检测识别模型结构

Fig.3 Structure of improved lightweight model for small target pests lightweight detection and recognition model

2.2　主干网络改进

为了降低主干网络的复杂性，基于MobileNetV4骨干网络进行了轻量化改进。MobileNetV4的主要特点是深度卷积（Depthwise convolution, DW conv）^［18］和逐点卷积（Pointwise convolution）^［19］，以及通用倒瓶颈模块（Universal Inverted Bottleneck, UIB）^［20］，这也是其轻量化的主要因素。普通卷积通过对输入特征图进行空间和通道上的全连接处理，生成输出特征图，每个卷积核在所有输入通道上共同作用，通过权重和偏置参数捕捉空间和跨通道的特征关系。深度卷积用于提取空间特征，是一种轻量化操作，他对输入特征图的每个通道独立进行空间卷积，而不考虑通道间的关系。通过在每个通道上独立应用卷积核，提取空间特征，显著降低了计算量，同时保留局部特征提取能力，如图4a所示。而逐点卷积用于提取通道特征，主要作用在通道维度上，通过线性组合不同通道的特征信息实现通道间的交互，同时保持空间分辨率不变，用于整合和加权通道间的特征信息。如图4b所示。

显示原图|下载原图ZIP|生成PPT

图4 深度卷积与逐点卷积

Fig.4 Depthwise convolution and pointwise convolution

在MobileNetV4中，引入了一种新的结构单元，称为通用倒瓶颈模块，以增强模型的灵活性和性能。相比传统的倒瓶颈结构，UIB模块使用了两个可选的深度卷积，分别位于扩展层之前和扩展层与投影层之间，这种设计允许对特征提取过程进行更细致的调整，提升了特征提取的灵活性，以适应不同任务的需求。根据两个可选深度卷积形成了四种可能的UIB块实例化方式，分别为Extra dw、Inverted bottleneck、Conv next、FFN（Feed Forward Network）。通过两次深度卷积，Extra dw能够更深入地捕捉空间特征，并在不同层级上提取这些特征，同时能适应网络的输入输出需求，增加网络的深度和感受野。Inverted bottleneck在激活特征被扩展后执行空间层面的混合操作，增强了模型容量。Conv next在特征图被扩展之前，预先执行空间层面的信息混合，使得利用更大尺寸的卷积核进行空间混合变得更为高效。FFN由两个逐点卷积构成，并在这两层之间嵌入激活函数与归一化层，适用于网络后端的全局特征整合。UIB块旨在通过空间与通道信息的融合，自适应地调节感受野大小以及高效利用计算资源，最终实现模型性能的提升。四种可能的UIB模块实例如图5a所示。结合可能实例构建的UIB块如图5b所示。

显示原图|下载原图ZIP|生成PPT

图5 UIB块

Fig.5 UIB block

UIB块由多种操作组合而成，以高效特征提取为核心目标。首先，初始输入经过普通二维卷积（Conv2d）操作，用以捕获基础空间特征，紧接着通过批归一化（BatchNorm）对卷积后的特征进行规整化，消除内部协变量偏移，随后经过ReLU激活函数引入非线性表征能力。模块中还采用了深度卷积，即在每个通道分别执行卷积操作，再通过逐点卷积汇聚通道信息，大幅减少计算开销的同时细化局部特征提取。此外，模块设计中引入了跳跃连接（Skip connection），直接将输入特征引入输出，这种残差映射方式不仅便于深度网络的梯度传播，还增强了特征之间的融合，避免信息丢失，整体提升了模型训练的稳定性和表达能力。

此外，ConvBN是卷积神经网络中的一个基础模块，包括二维卷积、BatchNorm和ReLU激活函数。如图6所示。首先，Conv2d进行局部感知操作，通过卷积核提取输入特征的空间信息和局部模式；然后，BatchNorm对卷积输出进行归一化处理，避免因数据分布变化导致训练不稳定，同时加速收敛，最后，ReLU激活函数为网络引入非线性，使其能够拟合复杂的特征分布关系。该模块实现了有效特征提取与稳定训练的良好平衡。

显示原图|下载原图ZIP|生成PPT

图6 ConvBN结构

Fig.6 Structure of ConvBN

为了进一步减少卷积计算，在主干网络中结合UIB和ConvBN构建了EM块，如图7所示。首先，输入数据依次经过多个ConvBN进行卷积操作，初步建立空间模式和通道信息的表达。随后，引入了两个UIB块来捕获更精细的局部特征，结合跳跃连接保存原始输入信息并促进梯度流动，从而最大限度优化特征的表达能力。此外，ConvBN和UIB块通过分支设计实现了多路径的信息处理，增强特征融合能力，有效避免了信息丢失或退化问题。总的来看，EM block通过ConvBN实现基础特征提取，通过UIB精细化深度特征处理，促进了信息融合，提升了网络的表达效率和泛化能力。

显示原图|下载原图ZIP|生成PPT

图7 EM块

Fig.7 EM block

2.3　颈部轻量化结构

深度可分离卷积^［21］（Depthwise Separable Convolution, DSC）是一种普通卷积的变体，由深度卷积和逐点卷积组成，如图8a所示，在特征维度上执行组卷积，对每个通道进行独立的深度卷积，然后在输出前使用逐点卷积合并所有通道。为了使模型整体更加轻量化，同时保持精度，在颈部结构中引入轻量化网络结构GSConv，如图8b所示，其主要特点是DSC。首先，输入的特征图经过一个常规卷积层处理生成新的特征图。随后，这些特征图分别通过DSC层和常规卷积层进行处理，两部分的输出特征图通过拼接操作（Concat）结合在一起，形成更大的特征图集合。接下来，拼接后的特征图通过打乱层（shuffle），以加强特征混合和重组，最终生成输出特征图。这一系列步骤通过结合DSC和常规卷积，提高了计算效率，使颈部块瘦身后更加轻量化。

显示原图|下载原图ZIP|生成PPT

图8 轻量化结构

Fig.8 Lightweight structure

在GSConv的基础上继续采用一次聚合的方法设计了一项跨阶段部分网络模块，即VoV-GSCSP模块，如图8c所示。针对GSbottleneck模块，输入数据首先经过一个卷积层，然后经过两个顺序的GSConv操作。这两次的卷积层处理结果会在Concat层进行拼接，最终输出融合后的特征。VoV-GSCSP模块在结构上更为复杂。输入数据首先经过一个常规的卷积层（Conv）处理，同时原始输入数据也直接传入一个二叉分支。这个分支中，一个路径经过GSbottleneck处理，而另一个路径仅经过一个常规的卷积处理。然后将GSbottleneck和卷积层的输出结果通过Concat层进行拼接。最后，再经过一个卷积层进行进一步的处理，以产生最终输出特征。在颈部使用GSConv与VoV-GSCSP，使连接的特征图不需要压缩，冗余重复信息较少，获得更好的效率与性能。

2.4　损失函数

在针对小目标病虫害的检测任务中，合理地使用损失函数IoU^［22］（Intersection over Union）是可以使检测目标更加精细化，有助于提高模型收敛速度。基于IoU及其扩展，其对微小物体的位置偏差非常敏感，并且在用于基于锚的检测器时会大大降低检测性能。如图9，每个网格表示一个像素，框A表示真实边界框，框B、C表示预测的边界框，分别具有1像素和4像素对角线偏差。

显示原图|下载原图ZIP|生成PPT

图9 灵敏度分析

a.微小物体灵敏度分析 b.正常物体灵敏度分析

Fig. 9 Sensitivity analysis

对于微小物体，IoU如公式（1）所示。

I o U = A ⋂ B A ⋃ B = 0.53 I o U = A ⋂ C A ⋃ C = 0.06

（1）

对于正常物体，IoU如公式（2）所示。

I o U = A ⋂ B A ⋃ B = 0.90 I o U = A ⋂ C A ⋃ C = 0.65

（2）

可以看出IoU对不同尺度物体的敏感性差异很大，对于低像素的微小物体，发现IoU从0.53到0.06，可见微小的位置偏差会显著地导致IoU下降，从而导致标签分配不准确。对于一般像素的正常对象，发现IoU从0.90到0.65，IoU略有变化，位置偏差相同。所以IoU的敏感性使其很难找到一个好的阈值并提供高质量的微小物体检测器的样本，因此也不适应微小物体的度量。因此提出了一种新的评估指标，使用Wasserstein^［23］距离进行微小物体检测，总体上，即先将边界框建模为二维高斯分布，然后提出一种为归一化Wasserstein距离的新度量，称为NWD，通过对应的高斯分布计算他们之间的相似性。

首先进行边界框的高斯分布建模。对于微小的物体，边界框中往往会有一些背景像素，因为大多数真实物体不是严格的矩形。在这些边界框中，前景像素和背景像素分别集中在边界框的中心和边界上。为了更好地描述边界框中不同像素的权重，边界框可以建模为二维高斯分布，其中边界框的中心像素具有最高的权重，像素的重要性从中心到边界递减。

对于水平边界框R=（cx，cy，w，h），其中cx，cy，w，h分别为中心坐标、宽度和高度。二维高斯分布的概率密度函数如公式（3）所示。

f (x μ, Σ) = e x p - 12 (x - μ) T Σ - 1 (x - μ) 2 π | Σ | 12

（3）

式中：

x, μ, Σ

分别为高斯分布的坐标（x，y），均值向量和协方差矩阵，可以建模R=（cx，cy，w，h）水平边界框为二维高斯分布N=（

μ, Σ

），其中均值向量和协方差矩阵如公式（4）所示。

μ = c x c y, Σ = w 2 4 0 0 h 2 4

（4）

从而边界框之间的相似度可以转换为两个高斯分布之间的分布距离，完成边界框的高斯分布建模。使用最优传输理论的Wasserstein距离来计算分布距离，实现对高斯Wasserstein距离归一化。依据上述对应的归一化理论推断，对于两个假定范围内的二维高斯分布

μ 1 = (m 1, Σ 1), μ 2 = (m 2, Σ 2)

，其中二者之间的二阶Wasserstein距离定义后简化如公式（5）所示。

W 22 μ 1, μ 2 = m 1 - m 2 22 + Σ 1 1 / 2 - Σ 2 1 / 2 F 2

（5）

关于分布距离的计算公式本质是一种距离度量，不能直接用作相似度度量，对于边界框A，B分别表示为公式（6）。

A = (c x a, c y a, w a, h a) B = (c x b, c y b, w b, h b)

（6）

在依据最优传输理论的Wasserstein距离计算二阶Wasserstein距离定义后，对边界框建模为高斯分布后，

𝒩 a, 𝒩 b

分别为边界框A，B的高斯分布，将公式（6）化简为公式（7）。

𝒩 a, 𝒩 b = c x a, c y a, w a 2, h a 2 T, c x b, c y b, w b 2 ⋅ h b 2 T

（7）

因此使用它的指数形式归一化后称为归一化Wasserstein距离的新度量NWD，即公式（8）。

N W D 𝒩 a, 𝒩 b = e x p - W 22 𝒩 a, 𝒩 b C

（8）

式中：C是与数据集密切相关的常数，且C在一定范围内表现稳健。若预测的边界框为P和真实框为G，基于上式将NWD度量设计为损失函数为公式（9）。

ℒ N W D = 1 - N W D 𝒩 p, 𝒩 g

（9）

预测框P，G的高斯分布模型分别为

𝒩 p, 𝒩 g

。

3 结果与分析

3.1　试验设置

3.1.1　试验环境

试验环境包括 64位 Windows 11操作系统、i7-12700H CPU、GeForce RTX 3090 Laptop GPU、16 GB 内存和6 GB GPU 内存。相应使用的 Python 版本为3.9，深度学习框架为 PyTorch 1.12.1。在训练过程中，输入图像像素大小设置为 640×640，批量大小设置为16，训练次数设置为300。

3.1.2　评价指标

本研究主要使用精确度（Precision, P）、召回率（Recall, R）、平均精度均值（Mean Average Precision, mAP@0.5）、参数量（Params）、帧率（Frames Per Second, FPS）来展示模型的检测性能。精确度表示正确预测样本占所有预测样本的比例。召回率表示正确预测样本占所有正样本的比例。mAP@0.5表示所有类别精度的平均值。Params是衡量模型容量的重要指标。FPS用来评估模型检测速度。

3.2　消融实验

在本节中，基于IN-Dataset数据，通过消融实验对提出的MobileNetV4+VN-YOLOv5s模型进行进一步评估，以验证各模块的有效性和泛化性能。结果如表2所示。

表2 消融实验结果

Table 2 Results of ablation test

模型	EM block	VoV- GSCSP	Loss function	精确度/%	召回率/%	mAP@0.5/%	参数量/M	帧率/（帧/s）
YOLOv5s	—	—	—	74.1	71.3	74.1	7.2	147.2
E-YOLOv5s	√	—	—	77.3	76.9	78.2	6.8	148.1
V-YOLOv5s	—	√	—	73.8	72.7	74.5	5.4	152.9
N-YOLOv5s	—	—	√	77.2	77.5	78.7	7.2	142.7
EV-YOLOv5s	√	√	—	75.6	76.2	77.4	4.2	156.6
EN-YOLOv5s	√	—	√	79.4	79.7	81.2	6.8	146.5
VN-YOLOv5s	—	√	√	76.9	77.4	78.5	5.4	150.3
Our model	√	√	√	79.7	80.4	82.5	4.2	153.2

注：E表示EM模块；V表示VoV-GSCSP模块；N表示NWD损失函数；√表示使用该方法；—表示不使用该方法。

如表2所示，E-YOLOv5s网络中的EM模块不仅提高了模型的mAP@0.5，而且减少了模型的参数大小。此外，在YOLOv5s中添加VoV-GSCSP模块相比E-YOLOv5s模型mAP@0.5提升幅度小，因为添加VoV-GSCSP模块后模型有些许冗余，但显著地减少了参数量，体现了VoV-GSCSP模块在减小参数大小上比EM模块更具优越性。从N-YOLOv5s的结果来看，NWD损失函数略微提高了精确度和召回率，但显著提高了mAP@0.5，表明其可以增强小目标的检测和定位精度。当同时在YOLOv5s中引入EM模块和VoV-GSCSP模块时，参数大幅减少了约42%。EM和VoV-GSCSP模块都利用深度卷积与逐点卷积构建轻量卷积模块，与常规卷积相比，大大减少了参数大小和计算成本。在YOLOv5s中同时添加EM模块和NWD损失函数，mAP@0.5达到了81.2%，对模型精度有显著提升。在YOLOv5s中引入VoV-GSCSP模块和NWD损失函数，与EN-YOLOv5s模型相比mAP@0.5提升幅度略小，但参数量的减少幅度高于EN-YOLOv5s。

因此，通过分析和比较EV-YOLOv5s、EN-YOLOv5s和VN-YOLOv5s模型，可以看出EM模块和VoV-GSCSP卷积模块在减少模型参数大小方面效果更佳，在确保网络轻量化的同时扩展了网络的宽度、深度和分辨率。NWD损失函数显著提升了模型的mAP@0.5，注重空间和通道特征，尤其有助于提高小目标检测的准确性。MobileNetV4+VN-YOLOv5模型的参数大小仅为4.2 M，约为YOLOv5s模型的58%，计算帧率为153.2帧/s，较YOLOv5s模型提升了6.0帧/s。因此，结合这三个组件显著提高了mAP@0.5，并大幅减少了参数大小，也提升了速度。

3.3　对比试验

3.3.1　不同损失函数对比试验

为验证NWD损失函数在MobileNetV4+VN-YOLOv5s模型中的性能，通过在IN-Dataset数据上进行对比试验，对比损失函数GIoU^［24］、DIoU^［25］和EIoU^［26］对改进模型EV-YOLOv5s性能的影响，结果如表3所示。

表3 不同损失函数的对比结果

Table 3 Comparative results of different loss functions

损失函数	精确度/%	召回率/%	mAP@0.5/%	帧率/（帧/s）
DIoU	74.9	75.5	76.4	151.7
GIoU	70.6	70.2	71.7	152.3
EIoU	72.8	73.5	74.3	148.5
NWD	79.7	80.4	82.5	153.2

从表3可以看出，NWD损失函数不仅实现了最高的mAP@0.5，达到了82.5%，对整个网络的提升效果显著。特别地，与DIoU、GIoU和EIoU损失函数相比，NWD损失函数分别将mAP@0.5提高了6.1、10.8和8.2个百分点，且帧率较YOLOv5s提升最高。总体来看，针对小目标害虫的检测，引入NWD损失函数取得了不错效果。

3.3.2　不同轻量化模型检测性能对比试验

为了评估所提出的MobileNetV4+VN-YOLOv5s算法的有效性，使用了三种不同场景数据集：IN-Dataset、OUT-Dataset和IO-Dataset，以YOLOv5s网络为基础进行轻量化改进，分别使用ShuffleNetV2^［27］、GhostNet^［28］、MobileNetV3^［29］对YOLOv5s的骨干部分进行重构，与所提方法进行对比。具体试验结果如表4所示。

表4 不同轻量化模型的结果对比

Table 4 Comparison results of different lightweight models

模型	IN-Dataset			OUT-Dataset			IO-Dataset
模型	mAP@0.5/%	参数量/M	帧率/（帧/s）	mAP@0.5/%	参数量/M	帧率/（帧/s）	mAP@0.5/%	参数量/M	帧率/（帧/s）
YOLOv5s	74.1	7.2	147.2	63.5	7.2	134.8	66.7	7.2	139.9
ShuffleNetV2+YOLOv5s	72.6	4.7	153.7	64.6	4.7	139.6	64.9	4.7	146.4
GhostNet+YOLOv5s	74.8	5.5	144.6	62.2	5.5	131.5	65.8	5.5	142.3
MobileNetV3+YOLOv5s	75.6	5.3	143.8	68.1	5.3	133.1	69.4	5.3	136.5
Our model	82.5	4.2	153.2	70.8	4.2	140.3	74.7	4.2	144.2

根据表4的结果，在室内场景中，本研究所提出的方法MobileNetV4+VN-YOLOv5s表现最佳，其次是室内外混合场景，最后是室外场景。在室内场景中，所提出模型的精确度、mAP@0.5及帧率分别为79.7%、82.5%和153.2帧/s，相比YOLOv5s分别提升了5.6和8.4个百分点，比位列第二的MobileNetV3+YOLOv5s提升了6.9个百分点。在室外场景中，所提出模型的mAP@0.5达到70.8%，比YOLOv5s提高了7.3个百分点，比第二名MobileNetV3+YOLOv5s提高了2.7个百分点。在混合场景中，所提出模型的mAP@0.5达到74.7%，比原始YOLOv5s提升了8.0个百分点，比位列第二的MobileNetV3+YOLOv5s提升了5.3个百分点。在室内、室外以及混合场景下，所提出模型的参数量均为4.2 M，相比YOLOv5s和ShuffleNetV2+YOLOv5s模型分别减少了3.0和0.5 M，相比GhostNet+YOLOv5s和MobileNetV3+YOLOv5s模型分别减少了1.3和1.1 M。此外，在室内、室外、混合三种场景下，所提出模型MobileNetV4+VN-YOLOv5s的帧率较YOLOv5s分别提升了6.0、5.5和4.3帧/s，且该模型在室内场景下的帧率优于其他场景。显然，本研究所提出模型在提升平均精度值和检测速度的同时，显著减少了参数量，实现了轻量化。

3.3.3　不同分割比例的对比试验

为了分析原始图像不同分割比例对检测精度的影响，并选择最佳分割策略，本研究进行了对比测试，基于IN-Dataset、OUT-Dataset和IO-Dataset数据，将图片分割后拼接观察其效果。由于原始图像像素大小为4 000×3 000，为了获得整数数量的分块，本试验中设置的分割比例为：1×1、2×2、5×5、10×10。结果如表5所示。

表5 不同分割比例的结果对比

Table 5 Comparison results with different splitting ratios

分割比	图像数量/张	小图数量/张	小图大小/ pixels	室内（mAP@0.5/%）	室外（mAP@0.5/%）	混合（mAP@0.5/%）
1×1	60	60	4 000×3 000	68.9	56.7	64.4
2×2	60	240	2 000×1 500	65.6	54.1	63.5
5×5	60	1 500	800×600	82.5	70.8	74.7
10×10	60	6 000	400×300	73.2	64.9	71.3

根据表5中的测试结果可知，对原始图像采用5×5比例分割性能最佳，在室内、室外、混合三种场景下mAP@0.5都最高。主要原因是此情况下的分块大小最接近检测网络的输入要求（640×640像素）。此外，发现10×10分割比例的检测结果优于1×1和2×2分割的结果。原因是10×10比例的分块在输入检测网络时需要进行拉伸和放大，而1×1或2×2比例分割后，分块在输入检测网络时需要缩小。这种压缩会导致更多小目标信息的丢失，从而降低检测性能。图10选取了不同分割比例下的效果对比图。

显示原图|下载原图ZIP|生成PPT

图10 不同分割比例的效果图

注：黑圈代表未检测到的害虫，红圈代表检测错误的害虫，绿框代表检测的粉虱，红框代表检测的蓟马，GroudTruth代表准确的结果。

Fig. 10 Detection results of different splitting ratios

3.3.4　不同密度害虫数据下的对比试验

本试验研究了MobileNetV4+VN-YOLOv5s在三种不同密度下的检测性能，分别基于IN-Dataset数据、OUT-Dataset数据和IO-Dataset数据进行训练和验证。分别选择室内、室外和混合三种场景下低密度、中密度和高密度图像测试其性能。不同密度定义如下：低密度是每块板上的害虫数量<100，中密度是每块板上的害虫数量在100~200之间，高密度是每块板上的害虫数量>200。测试结果如表6所示。

表6 改进后小目标害虫轻量化检测识别模型在不同密度下的对比结果

Table 6 Comparison results of the improved lightweight detection and recognition model of small target pests at different densities

场景	密度	测试图数量/张	精确度/%	召回率/%	mAP@0.5/%
室内	低密度	50	81.9	82.2	83.8
	中密度	50	80.2	79.8	81.5
	高密度	50	73.7	74.2	75.4
室外	低密度	50	74.2	73.3	74.5
	中密度	50	71.6	70.5	72.4
	高密度	50	69.1	70.4	70.9
混合	低密度	50	76.5	75.8	77.1
	中密度	50	75.3	74.9	76.2
	高密度	50	70.2	70.6	71.8

MobileNetV4+VN-YOLOv5s模型在三种场景下的mAP@0.5从低密度到高密度呈下降趋势。因此，随着粘虫板上害虫数量的增加，检测受到的影响也越来越大。因此，在实际管理中应根据害虫数量及时更换粘虫板。同时，对于相同的害虫密度，室内场景的mAP@0.5优于其他两个场景。例如，在低密度情况下，室内场景的mAP@0.5达到83.8%，分别比室外和混合场景高出9.3和6.7个百分点。因此，图像获取环境对检测准确率也有很大影响。对于这三种场景，选取不同密度下的部分检测结果展现在图11中。

显示原图|下载原图ZIP|生成PPT

图11 改进后小目标害虫轻量化检测识别模型在不同密度下的效果图

a. 室内 b. 室外 c. 混合

注：①④⑦代表低密度，②⑤⑧代表中密度，③⑥⑨代表高密度。黑圈代表未检测到的害虫，红圈代表检测错误的害虫，绿框代表检测的粉虱，红框代表检测的蓟马，Prediction代表预测的结果，GroudTruth代表准确的结果。

Fig. 11 Detection results of the improved lightweight detection and recognition model for small target pests at different densities

3.3.5　不同测试场景的对比试验

为了比较在不同场景数据集上训练的模型性能，将本研究提出的模型分别使用室内、室外、室内&室外三种场景的数据集进行训练。将训练好的模型（分别命名为IN-Model、OUT-Model和IO-Model）分别在上述三种场景的数据集上进行测试。试验结果如表7所示。

表7 小目标害虫检测识别模型不同测试场景的结果对比

Table 7 Comparative results of the improved lightweight detection and recognition model in different test scenarios

模型	训练集	测试集（mAP@0.5/%）
模型	训练集	IN-Dataset-Test set	OUT-Dataset-Test set	IO-Dataset-Test set
IN-Model	IN-Dataset-Train set	82.5	77.2	80.5
OUT-Model	OUT-Dataset-Train set	75.7	70.8	74.3
IO-Model	IO-Dataset-Train set	78.4	75.1	74.7

如表7所示，三个模型在室内测试集（IN-Dataset-Test set）上均达到最佳检测精度。具体而言，IN-Model的mAP@0.5最高，为82.5%，其次是IO-Model。而在三个测试数据集上，检测性能均表现出相同的现象：IN-Model最优，IO-Model次之，OUT-Model最低。因此，面对多源数据集，使用室内环境数据训练的模型表现最佳。对于混合场景，IN-Model的mAP@0.5 达到80.5%，这表明MobileNetV4+VN-YOLOv5s模型在复杂应用领域下的稳定性，并为应用模型的构建提供了参考。不同测试集的可视化效果如图12所示。

显示原图|下载原图ZIP|生成PPT

图12 小目标害虫检测识别模型在不同测试场景的效果图

注： IN-Model代表室内数据训练，OUT-Model代表室外数据训练，IO-Model代表混合数据训练。IN-Dataset-Test set代表室内数据测试，OUT-Dataset-Test set代表室外数据测试，IO-Dataset-Test set混合数据测试。黑圈代表未检测到的害虫，红圈代表检测错误的害虫，绿框代表检测的粉虱，红框代表检测的蓟马，GroudTruth代表准确的结果。

Fig. 12 Detection results of the improved lightweight detection and recognition model in different test scenarios

3.3.6　不同YOLO改进模型对比试验

为了验证改进后模型的有效性，基于IN-Dataset数据选取YOLOv5s、YOLOv8s^［30］、YOLOv11s^［31］目标检测模型，分别添加本研究改进模块并命名为MobileNetV4+VN-YOLOv5s、EVN-YOLOv8s、EVN-YOLOv11s进行对比试验。试验结果如表8所示。

表8 不同YOLO改进模型对比结果

Table 8 Comparison results of different YOLO improved models

模型	参数量/M	mAP@0.5/%	帧率/（帧/s）	漏检率/%	错检率/%
YOLOv5s	7.2	74.1	147.2	11.1	8.4
EVN-YOLOv8s	8.6	78.2	150.5	6.8	4.6
EVN-YOLOv11s	6.9	76.5	148.8	7.4	4.3
Ours model	4.2	82.5	153.2	4.5	3.7

根据表中结果，MobileNetV4+VN-YOLOv5s的mAP@0.5最高，EVN-YOLOv8s次之，EVN-YOLOv11s最低；相较于EVN-YOLOv8s与EVN-YOLOv11s，MobileNetV4+VN-YOLOv5s模型的参数量降低了约51%和39%，帧率分别提高了约2%和3%。EVN-YOLOv8s的漏检率比EVN-YOLOv11s低0.6%，EVN-YOLOv11s的错检率比EVN-YOLOv8s低0.3个百分点，且MobileNetV4+VN-YOLOv5s的漏检率和错检率最低，漏检率为4.5%，错检率为3.7%。对比YOLOv5s，改进后模型的漏检率降低了6.6个百分点，错检率降低了4.7个百分点。体现了MobileNetV4+VN-YOLOv5s模型轻量且准确等优点，能更好地检测小目标害虫。

3.4　害虫计数结果回归

为进一步验证本研究所提出的MobileNetV4+VN-YOLOv5s模型在黄色粘虫板上的检测效果，基于室内数据使用MobileNetV4+VN-YOLOv5s绘制自动计数和人工计数之间的回归图，如图13所示。

显示原图|下载原图ZIP|生成PPT

图13 计数回归图

Fig. 13 Count regression diagram

虚线表示理想状态下自动计数与人工计数的关系，即y=x时。实线表示通过散点拟合出的回归线。若所有点都在虚线上，这意味着模型的计数结果与人工计数结果完全一致，没有误差。实线指模型的计数结果与人工计数结果的相关关系，实线的斜率为1.12，接近于1，表示模型的自动计数结果与人工计数的趋势非常吻合，显示了模型具有较高的精度，证明了模型的有效性和可靠性。

3.5　树莓派系统部署测试

为测试本研究提出的MobileNetV4+VN-YOLOv5s模型在边缘设备上的性能，将该模型部署到树莓派4B主板进行验证。该边缘计算模块是一款基于ARM结构的微型主板，内存4 GB，具备1.5 Ghz运行的64位四核处理器，以SD卡作为内存硬盘，具有多项丰富功能。首先安装树莓派4B系统Raspbian镜像文件，将镜像文件烧录到SD卡中，同时安装OpenCV和ONNX Runtime，将训练后的PyTorch模型文件转换为ONNX文件，最后树莓派通过ONNX Runtime读取ONNX格式文件，从而实现模型部署。模型在设备部署后检测效果如图14所示。

显示原图|下载原图ZIP|生成PPT

图14 模型在树莓派4B中检测对比图

注：黑圈代表未检测到的害虫，红圈代表检测错误的害虫，绿框代表检测的粉虱，红框代表检测的蓟马，GroudTruth代表准确的结果。

Fig.14 Comparison of the model detection in the Raspberry Pi 4B

a. GroudTruth b. YOLOv5s c. MobileNetV4+VN-YOLOv5s

根据图14所示，YOLOv5s模型的检测结果较MobileNetV4+VN-YOLOv5s模型有更多错检和漏检，因此MobileNetV4+VN-YOLOv5s 模型部署检测效果较YOLOv5s模型表现更优。同时，测试结果显示，YOLOv5s模型的单幅图像推理时间为0.57 s，MobileNetV4+VN-YOLOv5s模型的单幅图像推理时间为0.38 s，相较YOLOv5s模型时间缩短了约33%，加快了推理速度，提升了检测效率，表现了模型具有良好的应用部署前景，可为嵌入式虫害监测设备研发提供技术参考。

4 结论

为了实现在多源条件下小目标害虫的精准检测，本研究提出了一种新型轻量化目标检测模型。通过一系列试验，得出了以下结论。

1）与YOLOv5s模型相比，提出的MobileNetV4+VN-YOLOv5s模型在室内场景中的表现最佳，精确度和平均精度分别为79.7%和82.5%，分别提高了5.6和8.4个百分点，模型参数量降低了3.0 M，帧率为153.2帧/s，提升了6.0帧/s；在室外场景下，所提出模型的平均精度为70.8%，较YOLOv5s提升了7.3个百分点，参数量降低了3.0 M，帧率提升了5.5帧/s；在混合场景下，模型的平均精度为74.7%，较YOLOv5s提升了8.0个百分点，参数量降低了3.0 M，帧率提升了4.3帧/s。结果表明，所提方法更轻量并且更准确。

2）基于四种分割比例（1×1、2×2、5×5和10×10），在三种不同场景（室内、室外、室内&室外）进行了对比测试。5×5的分割比例在不同场景中都表现最优，为粘虫板图像害虫检测识别性能的提升提供参考。

3）在室内、室外和混合三种不同场景中，随着害虫密度从低到高，mAP@0.5在不同程度上下降。因此，可以根据害虫发生情况，动态调整粘虫板的更换频率。

4）基于不同场景中测试集的试验结果对比， IN-Model、OUT-Model和IO-Model在室内数据（IN-Dataset）上都实现了最佳检测准确性。具体来说，IN-Model的mAP@0.5最高，达到82.5%，其次是IO-Model。同时，三种测试数据集上的检测性能表现出相同的趋势：IN-Model表现最佳，其次是IO-Model，而OUT-Model表现最差。因此，对于多源数据集，基于室内环境数据训练的模型能实现最佳性能，为实际应用中构建模型提供了参考。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

1	吕秀英. 农业小虫蓟马的危害与综合防控技术[J]. 现代农村科技, 2023(9): 31-32. LYU X Y. Hazards of agricultural insect thrips and integrated prevention and control technology[J]. Modern Rural Science and Technology, 2023, (9): 31-2.

2	罗宏伟, 冯钦, 王建波, 等. 小巢粉虱的危害程度调查[J]. 农业科技通讯, 2022(1): 137-139. LUO H W, FENG Q, WANG J B, et al. Investigation on the damage degree of whitefly in nest[J]. Bulletin of agricultural science and technology, 2022(1): 137-139.

3	QI J T, LIU X N, LIU K, et al. An improved YOLOv5 model based on visual attention mechanism: Application to recognition of tomato virus disease[J]. Computers and electronics in agriculture, 2022, 194: ID 106780.

4	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 39(6): 1137-1149.

5	LI W Y, WANG D J, LI M, et al. Field detection of tiny pests from sticky trap images using deep learning in agricultural greenhouse[J]. Computers and electronics in agriculture, 2021, 183: ID 106048.

6	LI W Y, YANG Z K, LV J W, et al. Detection of small-sized insects in sticky trapping images using spectral residual model and machine learning[J]. Frontiers in plant science, 2022, 13: ID 915543.

7	ZHANG H B, QIN L F, LI J, et al. Real-time detection method for small traffic signs based on YOLOv3[J]. IEEE access, 2020, 8: 64145-64156.

8	WANG D J, WANG Y Z, LI M, et al. Using an improved YOLOv4 deep learning network for accurate detection of whitefly and Thrips on sticky trap images[J]. Transactions of the ASABE, 2021, 64(3): 919-927.

9	CHENG Z K, HUANG R Q, QIAN R, et al. A lightweight crop pest detection method based on convolutional neural networks[J]. Applied sciences, 2022, 12(15): ID 7378.

10	ZHANG S, WANG H, ZHANG C, et al. JutePest-YOLO: A deep learning network for jute pest identification and detection[J]. IEEE access, 2024, 12: 72938-72956.

11	XIANG Q C, HUANG X N, HUANG Z X, et al. YOLO-Pest: An insect pest object detection algorithm via CAC3 module[J]. Sensors, 2023, 23(6): ID 3221.

12	LI D W, AHMED F, WU N L, et al. YOLO-JD: A deep learning network for jute diseases and pests detection from images[J]. Plants, 2022, 11(7): ID 937.

13	DONG Q, SUN L N, HAN T X, et al. PestLite: A novel YOLO-based deep learning technique for crop pest detection[J]. Agriculture, 2024, 14(2): ID 228.

14	XUE Z Y, XU R J, BAI D, et al. YOLO-tea: A tea disease detection model improved by YOLOv5[J]. Forests, 2023, 14(2): ID 415.

15	QIN D F, LEICHNER C, DELAKIS M, et al. MobileNetV4: universal models for the mobile ecosystem[C]// Computer Vision – ECCV 2024. Cham, Germany: Springer Nature Switzerland, 2024: 78-96.

16	LI H, LI J, WEI H, et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles[EB/OL]. arXiv: 220602424, 2022.

17	WANG J W, XU C, YANG W, et al. A normalized gaussian wasserstein distance for tiny object detection[EB/OL]. arXiv: 211013389, 2023.

18	张博, 张苗辉, 陈运忠. 基于空间金字塔池化和深度卷积神经网络的作物害虫识别[J]. 农业工程学报, 2019, 35(19): 209-215. ZHANG B, ZHANG M H, CHEN Y Z. Crop pest identification based on spatial pyramid pooling and deep convolution neural network[J]. Transactions of the Chinese society of agricultural engineering, 2019, 35(19): 209-215.

19	朱德利, 文瑞, 熊俊逸. 融合坐标注意力机制的轻量级玉米花丝检测[J]. 农业工程学报, 2023, 39(3): 145-153. ZHU D L, WEN R, XIONG J Y. Lightweight corn silk detection network incorporating with coordinate attention mechanism[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(3): 145-153.

20	FU Z L, YIN L F, CUI C, et al. A lightweight MHDI-DETR model for detecting grape leaf diseases[J]. Frontiers in plant science, 2024, 15: ID 1499911.

21	王泽钧, 马凤英, 张瑜, 等. 基于注意力机制和多尺度轻量型网络的农作物病害识别[J]. 农业工程学报, 2022, 38(Z): 176-183. WANG Z J, MA F Y, ZHANG Y, et al. Crop disease recognition using attention mechanism and multi-scale lightweight network [J]. Transactions of the Chinese society of agricultural engineering, 2022,38(Z): 176-83.

22	TIAN Y J, SU D, LAURIA S, et al. Recent advances on loss functions in deep learning for computer vision[J]. Neurocomputing, 2022, 497(C): 129-158.

23	PANARETOS V M, ZEMEL Y. Statistical aspects of Wasserstein distances[J]. Annual review of statistics and its application, 2019, 6: 405-431.

24	REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: A metric and a loss for bounding box regression[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 658-666.

25	ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: Faster and better learning for bounding box regression[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12993-13000.

26	YANG Z M, WANG X L, LI J G. EIoU: An improved vehicle detection algorithm based on VehicleNet neural network[J]. Journal of physics: Conference series, 2021, 1924(1): ID 012001.

27	MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design[C]// Computer Vision-ECCV 2018. Cham, Germany: Springer International Publishing, 2018: 122-138.

28	HAN K, WANG Y H, TIAN Q, et al. GhostNet: More features from cheap operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 1580-1589.

29	KOONCE B. Convolutional neural networks with swift for tensorflow: Image recognition and dataset categorization[M]. Berkeley, CA: Apress, 2021

30	REIS D, KUPEC J, HONG J, et al. Real-time flying object detection with YOLOv8[EB/OL]. arXiv: 230509972, 2023.

31	RAHIMA KHANAM M H. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 241017725, 2024.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 材料与方法

1.1 数据采集

图1 室内与室外图像的采集设备及样本示例

1.2 数据集构建

表1 5×5分割比下的数据集详情

1.3 检测识别流程图

图2 粘虫板小目标害虫轻量化检测识别模型研究流程图

2 小体积害虫检测识别模型构建

2.1 改进YOLOv5s模型

图3 改进后的小目标害虫轻量化检测识别模型结构

2.2 主干网络改进

图4 深度卷积与逐点卷积

图5 UIB块

图6 ConvBN结构

图7 EM块

2.3 颈部轻量化结构

图8 轻量化结构

2.4 损失函数

图9 灵敏度分析

3 结果与分析

3.1 试验设置

3.1.1 试验环境

3.1.2 评价指标

3.2 消融实验

表2 消融实验结果

3.3 对比试验

3.3.1 不同损失函数对比试验

表3 不同损失函数的对比结果

3.3.2 不同轻量化模型检测性能对比试验

表4 不同轻量化模型的结果对比

3.3.3 不同分割比例的对比试验

表5 不同分割比例的结果对比

图10 不同分割比例的效果图

3.3.4 不同密度害虫数据下的对比试验

表6 改进后小目标害虫轻量化检测识别模型在不同密度下的对比结果

图11 改进后小目标害虫轻量化检测识别模型在不同密度下的效果图

3.3.5 不同测试场景的对比试验

表7 小目标害虫检测识别模型不同测试场景的结果对比

图12 小目标害虫检测识别模型在不同测试场景的效果图

3.3.6 不同YOLO改进模型对比试验

表8 不同YOLO改进模型对比结果

3.4 害虫计数结果回归

图13 计数回归图

3.5 树莓派系统部署测试

图14 模型在树莓派4B中检测对比图

4 结 论

利益冲突声明

参考文献

0 引言

1.1　数据采集

1.2　数据集构建

1.3　检测识别流程图

2.1　改进YOLOv5s模型

2.2　主干网络改进

2.3　颈部轻量化结构

2.4　损失函数

3.1　试验设置

3.1.1　试验环境

3.1.2　评价指标

3.2　消融实验

3.3　对比试验

3.3.1　不同损失函数对比试验

3.3.2　不同轻量化模型检测性能对比试验

3.3.3　不同分割比例的对比试验

3.3.4　不同密度害虫数据下的对比试验

3.3.5　不同测试场景的对比试验

3.3.6　不同YOLO改进模型对比试验

3.4　害虫计数结果回归

3.5　树莓派系统部署测试

4 结论