欢迎您访问《智慧农业(中英文)》官方网站! English

基于改进YOLOv10n的轻量化荔枝虫害小目标检测模型

  • 黎祖胜 , 1, 2 ,
  • 唐吉深 2 ,
  • 匡迎春 , 1
展开
  • 1. 湖南农业大学 信息与智能科学技术学院,湖南 长沙 410128,中国
  • 2. 河池学院 大数据与计算机学院,广西 河池 546300,中国
匡迎春,博士,教授,研究方向为智能农业、人工智能。E-mail:

黎祖胜,研究方向为农业信息化、目标检测。E-mail:

收稿日期: 2024-12-02

  网络出版日期: 2025-01-24

基金资助

国家自然科学基金(61972147)

A Lightweight Model for Detecting Small Targets of Litchi Pests Based on Improved YOLOv10n

  • LI Zusheng , 1, 2 ,
  • TANG Jishen 2 ,
  • KUANG Yingchun , 1
Expand
  • 1. College of Information and Intelligence, Hunan Agricultural University, Changsha 410128, China
  • 2. School of Big Data and Computer, Hechi University, Hechi 546300, China
KUANG Yingchun, E-mail:

LI Zusheng, E-mail:

Received date: 2024-12-02

  Online published: 2025-01-24

Supported by

The National Natural Science Foundation of China(61972147)

Copyright

copyright©2025 by the authors

摘要

[目的/意义] 荔枝虫害的精准识别有助于实施有效的防治策略,推动农业的可持续发展。为提高荔枝虫害的识别效率,本研究提出一种基于改进YOLOv10n的轻量化目标检测模型YOLO-LP(YOLO-Litchi Pests)。 [方法] 首先,优化主干网络(Backbone)的C2f模块,使用全局到局部空间聚合模块(Global-to-Local Spatial Aggregation, GLSA)构建C2f_GLSA模块,实现对小目标的高效聚焦,增强目标与背景的区分能力,同时减少参数量和计算量。其次,在颈部网络(Neck)引入频率感知特征融合模块(Frequency-Aware Feature Fusion, FreqFusion),设计频域感知路径聚合网络(Frequency-Aware Path Aggregation Network, FreqPANet),有效解决目标边界模糊和偏移的问题,并进一步轻量化模型。最后,使用SCYLLA-IoU(SIoU)损失函数替代Complete-IoU(CIoU)损失函数,优化目标定位精度并加速模型训练收敛过程。为了评估模型性能,本研究在自然环境和实验室环境的四种场景中,构建自建的荔枝虫害小目标数据集并进行测试。 [结果和讨论] YOLO-LP在AP50、AP50:95、AP-Small50:95分别达到了90.9%、62.2%和59.5%,较基线模型分别提高了1.9个百分点、1.0个百分点和1.2个百分点。同时,模型的参数量和计算量分别减少13%和17%。 [结论] YOLO-LP在精度和轻量化方面表现优越,为荔枝虫害检测的实际应用提供了有效的参考。

本文引用格式

黎祖胜 , 唐吉深 , 匡迎春 . 基于改进YOLOv10n的轻量化荔枝虫害小目标检测模型[J]. 智慧农业, 2025 : 1 -14 . DOI: 10.12133/j.smartag.SA202412003

Abstract

[Objective] The accuracy of identifying litchi pests is crucial for implementing effective control strategies and promoting sustainable agricultural development. However, the current detection of litchi pests is characterized by a high percentage of small targets, which makes target detection models challenging in terms of accuracy and parameter count, thus limiting their application in real-world production environments. To improve the identification efficiency of litchi pests, this study proposed a lightweight target detection model, YOLO-LP (YOLO-Litchi Pests), based on YOLOv10n. The model aimed to enhance the detection accuracy of small litchi pest targets in multiple scenarios by optimizing the network structure and loss function, while also reducing the number of parameters and computational costs. [Methods] Two classes of litchi insect pests (cocoon and gall) images were collected as datasets for modeling in natural scenarios (sunny, cloudy, post-rain) and laboratory environments. The original data were expanded through random scaling, random panning, random brightness adjustments, random contrast variations, and Gaussian blurring to balance the category samples and enhance the robustness of the model, generating a richer dataset named the CG dataset (cocoon and gall dataset). The YOLO-LP model was constructed after the following three improvements. Specifically, (1) the C2f module of the backbone network (Backbone) in YOLOv10n was optimized and the C2f_GLSA module was constructed using the Global-to-Local Spatial Aggregation (GLSA) module to focus on small targets and enhance the differentiation between the targets and the backgrounds, while simultaneously reducing the number of parameters and computation. (2) A frequency-aware feature fusion module (FreqFusion) was introduced into the neck network (Neck) of YOLOv10n and a frequency-aware path aggregation network (FreqPANet) was designed to reduce the complexity of the model and address the problem of fuzzy and shifted target boundaries. (3) The SCYLLA-IoU (SIoU) loss function replaced the Complete-IoU (CIoU) loss function from the baseline model to optimize the target localization accuracy and accelerate the convergence of the training process. [Results and Discussions] YOLO-LP achieved 90.9%, 62.2%, and 59.5% for AP50, AP50:95, and AP-Small50:95 in the CG dataset, respectively, and 1.9%, 1.0%, and 1.2% higher than the baseline model. The number of parameters and the computational costs were reduced by 13% and 17%, respectively. These results suggested that YOLO-LP had a high accuracy and lightweight design. Comparison experiments with different attention mechanisms validated the effectiveness of the GLSA module. After the GLSA module was added to the baseline model, AP50, AP50:95, and AP-Small50:95 achieved the highest performance in the CG dataset, reaching 90.4%, 62.0%, and 59.5%, respectively. Experiment results comparing different loss functions showed that the SIoU loss function provided better fitting and convergence speed in the CG dataset. Ablation test results revealed that the validity of each model improvement and the detection performance of any combination of the three improvements was significantly better than the baseline model in the YOLO-LP model. The performance of the models was optimal when all three improvements were applied simultaneously. Compared to several mainstream models, YOLO-LP exhibited the best overall performance, with a model size of only 5.1 MB, 1.97 million parameters (Params), and a computational volume of 5.4 GFLOPs. Compared to the baseline model, the detection of the YOLO-LP performance was significantly improved across four multiple scenarios. In the sunny day scenario, AP50, AP50:95, and AP-Small50:95 increased by 1.9%, 1.0 %, and 2.0 %, respectively. In the cloudy day scenario, AP50, AP50:95, and AP-Small50:95 increased by 2.5%, 1.3%, and 1.3%, respectively. In the post-rain scenario, AP50, AP50:95, and AP-Small50:95 increased by 2.0%, 2.4%, and 2.4%, respectively. In the laboratory scenario, only AP50 increased by 0.7% over the baseline model. These findings indicated that YOLO-LP achieved higher accuracy and robustness in multi-scenario small target detection of litchi pests. [Conclusions] The proposed YOLO-LP model could improve detection accuracy and effectively reduce the number of parameters and computational costs. It performed well in small target detection of litchi pests and diseases and demonstrated strong robustness across different scenarios. These improvements made the model more suitable for deployment on resource-constrained mobile and edge devices. The model provided a valuable technical reference for small target detection of litchi pests in various scenarios.

0 引 言

中国是荔枝的原产地,也是全球荔枝栽培面积最大、产量最高的国家1。2024年,全国荔枝种植总面积达5 234.20 km2,其中广东和广西的种植面积占总面积的87.99%2。荔枝主要生长在亚热带和热带气候区,湿热的气候有利于虫害滋生,导致荔枝频繁遭受虫害侵袭。因此,准确识别荔枝虫害有助于实现精准防治,从而提升荔枝品质,减少经济损失。
目前,农作物病虫害的识别主要依靠农业生产经验进行人工识别为主,这种方法效率较低。而基于仪器设备的方法对技术条件要求较高,设备的维护成本较大,限制了其在农业中的推广应用3。随着传统机器学习技术的发展,研究人员通过提取病斑区域的颜色、纹理和形状等特征,手动构建病害识别模型,实现对病虫害的识别分类。白荻等4在YOLOv5中分别引入全局注意力模块(Global Attention Mechanism, GAM)和卷积注意力模块(Convolutional Block Attention Module, CBAM)得到两个改进模型,采用基于集成学习的方法,集成两个改进模型来对复杂茶园环境下的茶树叶枯病和绿盲蝽进行识别,并将预测结果使用加权边界框融合算法(Weighted Boxes Fusion, WBF)处理融合框,实验结果表明集成后的模型在平均精确率上达72.2%,较两个改进模型分别提升了3.0%和3.7%。牛冲等5提出一种基于图像灰度直方图特征的草莓病虫害识别方法。该方法首先计算草莓叶片灰度图像的直方图,并从中提取8个特征(平均灰度、标准偏差、三阶中心矩、平滑度、均匀性、平均信息量、最大概率灰度级、灰度范围)和进行归一化处理,进而分别使用支持向量机(Support Vector Machine, SVM)、K-近邻(K-Nearest Neighbor, KNN)及朴素贝叶斯3种识别方法进行训练,最终构建相应的病虫害识别分类器。实验结果表明,SVM分类器的分类正确率超过90%,优于其他两种分类器。
随着人工智能技术的崛起,基于深度学习方法在农作物病虫害识别领域得到广泛应用。例如,Xie等6提出了一种用于荔枝叶片病虫害检测的改进型全卷积单级对象检测网络FCOS-FL(FCOS for Litch),采用G-GhostNet-3.2作为主干网络进行轻量化,引入中心矩集合注意力(The Central Moment Pooling Attention, CMPA)机制增强特征提取,利用真实目标的宽度和高度信息改进了模型的中心采样和中心损失提高模型泛化能力,最终模型实现了91.3%的准确率。欧国善等7搭建了荔枝病虫害识别平台,利用网络爬虫收集病虫害图像,采用Spark ML卷积神经网络算法对病虫害进行训练,成功实现了荔枝病虫害的识别和预警功能。叶进等8提出了一种多特征融合的荔枝虫害识别方法,使用OpenCV的中值滤波法进行特征提取,并通过皮尔逊相关系数剔除冗余特征,采用BP(Back Propagation)神经网络算法进行模型训练,最终模型的识别准确度超过95%。Xiao等9提出一种轻量级的荔枝病虫害检测网络YOLOv7-MGPC(YOLOv7-Mosaic-GhostNet-Pruning-CBAM),采用GhostNetV1作为骨干网络实现轻量化,引入卷积注意力模块(Convolutional Block Attention Module, CBAM)10来提高检测的准确性,最终模型达到了88.6%的准确率。彭红星等11提出了改进的ShuffleNetV2荔枝病虫害识别方法SHTNet,其通过引入SimAM注意力机制来强化特征提取,采用Hardswish激活函数,并使用迁移学习进行训练,最终识别准确率达到84.9%,较基线模型提高了8.8%。谢家兴等12提出了一种基于改进ShuffleNet V2的荔枝叶片病虫害图像识别方法,通过嵌入轻量型通道注意力模块(Efficient Channel Attention, ECA)强化特征图的依赖关系,删减冗余层和通道数以实现轻量化,最终模型的识别准确率达到99.04%,比基线模型提高了2.55%。王卫星等13提出了一种基于改进YOLOv4的荔枝病虫害检测模型,该模型使用GhostNet作为Backbone进行特征提取,使用轻量化卷积Ghost Module代替Neck中的传统卷积,融合CBAM注意力机制提高精度,最终改进的YOLOv4-GCF模型在测试集上的平均精度达到了89.76%,较基线模型提升了4.13个百分点。
尽管在荔枝虫害的识别方面已有诸多成果,但现有研究仍存在一些不足之处。首先,荔枝虫害的场景复杂,现有研究多集中在实验室场景或自然环境中复杂场景的其中之一,未能全面考虑多场景的检测需求。其次,对荔枝虫害小目标识别和模型轻量化的现有研究仍显不足。因此,本研究提出了一种改进YOLOv10n的多场景荔枝虫害小目标检测轻量化模型,旨在识别多种场景下的荔枝虫害目标,通过全局到局部空间聚合模块(Global-to-Local Spatial Aggregation, GLSA)强化主干网络对关键特征的提取,引入频率感知特征融合模块(FreqFusion)优化特征融合策略,采用SCYLLA-IoU(SIoU)损失函数提高目标定位精度和训练收敛速度。该方法可为荔枝虫害识别提供算法依据,有助于各地果农对荔枝虫害做好预防和管理。

1 材料与方法

1.1 荔枝虫害图像采集

荔枝虫害图像数据采集地点位于广西壮族自治区桂平市麻垌镇。采集设备为HONOR 7X和iPhone15 Pro Max,图像分辨率像素为3 024×3 024、3 120×4 160、4 160×3 120、4 032×3 024和3 024×4 032,保存为JPG格式。数据采集时间为2024年5月,拍摄距离为15 cm至50 cm。拍摄场景包括自然环境中的晴天、阴天、雨后,以及实验室单一背景,共采集2 239张荔枝虫害图像,其中包括荔枝虫害卵囊(cocoon)和虫瘿(gall)两类。从场景上分析,在自然环境下晴天、阴天和雨后分别采集了732张、716张和433张图像,而在实验室环境下采集了358张。从目标数上分析,共采集了9 869个虫害目标,其中包括1 685个卵囊和8 184个虫瘿。采集的荔枝虫害图像样例如图1所示。
图1 四种场景下的两种荔枝虫害图像样例

Fig. 1 Sample images of two types of litchi pests in four scenarios

1.2 数据预处理与数据集构建

为了加快模型训练并便于分析目标尺寸大小,首先将采集的图像分辨率像素压缩为640×640、480×640和640×480。然后,使用LabelImg软件(https://github.com/HumanSignal/labelImg)对图像数据进行目标标注。为减少同类别样本之间的差异,采用6∶2∶2的比例将荔枝病虫害数据随机划分为训练集、验证集和测试集,分别包含1 341张、450张和448张图像。为丰富训练样本并平衡荔枝病虫害目标类别,训练集进行了随机缩放、随机平移、随机亮度、随机对比度和高斯模糊的数据增强处理,验证集和测试集则不进行数据增强。图像增强样例如图2所示。增强后的荔枝虫害数据集命名为CG数据集(Cocoon and Gall Dataset)。CG数据集各分类目标数的分析如表1所示。结果表明,CG数据集的训练集类别样本较为均衡,有助于提高模型性能。
图2 荔枝虫害数据增强样例

Fig. 2 Samples of augmented data on litchi pests

表1 CG数据集类别目标数分析

Table 1 Analysis of the number of targets for the CG dataset category

类别 数据增强前训练集目标数/个 数据增强后训练集目标数/个 验证集目标数/个 测试集目标数/个
cocoon 1 005 7 981 347 333
gall 5 009 7 528 1 598 1 577

1.3 数据集分析

为了评估模型在小目标检测上的性能,本研究采用COCO数据集对目标大小定义14,将小于32×32像素的目标定义为小目标。对CG数据集及其训练集、验证集和测试集的小目标占比进行分析,如图3所示。结果显示,CG数据集中的小目标占比超过80%,这对荔枝虫害的精准检测提出了挑战。
图3 CG数据集小目标占比分析

Fig. 3 Analysis of the proportion of small targets in the CG dataset

1.4 网络模型及改进

1.4.1 YOLOv10模型

YOLOv1015是一种实时端对端的单阶段目标检测算法。YOLOv10通过多种策略优化了YOLO模型的主干网络(Backbone)、颈部网络(Neck)和检测头(Head)。在主干网络部分,YOLOv10提出了一种高效的部分注意力模块(Partial Self-Attention, PSA)。该模块将输入特征在通道维度(Channel)上均匀划分为F1和F2两个部分,使用多头自注意力模块(Multi-Head Self-Attention Module, MHSA)和前馈网络(Feed-Forward Network, FFN)对F1进行处理,再与F2进行特征融合,从而以较低的计算负荷捕获全局依赖关系,提升模型的特征表示能力。为了优化主干网络和颈部网络结构,YOLOv10提出了一种基于秩引导的模块替换策略。通过计算模块的内在秩来衡量冗余度,秩越低表示模块的参数利用率越低,计算冗余度越高。因此,将内在秩较低的模块替换为大核卷积优化的轻量化紧凑反向模块(Compact Inverted Block, CIB),既能保持性能,又能降低计算开销并提升参数利用率。此外,YOLOv10提出了一种空间通道解耦下采样方法(SCDown)。该方法将传统的下采样过程解耦为空间下采样和通道变换两个独立步骤,在最大限度保留信息的同时,减少检测延迟。为了实现实时端对端网络架构功能,YOLOv10在检测头部分采用了双重标签分配和一致性匹配度量策略。双重标签分配引入了双分支结构的检测头,包括“One-to-Many Head”和“One-to-One Head”。One-to-One Head使用一对一标签分配策略,避免了非极大值抑制(Non-Maximum Suppression, NMS)等后处理操作;One-to-Many Head采用一对多标签分配策略进行训练,以优化检测性能。在训练阶段,One-to-One Head和One-to-Many Head同时优化,并通过一致性匹配度量最小化两个分支之间的监督差距;在推理阶段,仅采用One-to-One Head进行预测,从而实现了实时端到端的网络架构。COCO数据集上的试验结果表明15,YOLOv10在检测性能和推理延迟方面优于传统目标检测器。
基于上述改进,YOLOv10具有高效的模型性能和实时端对端检测特性。YOLOv10有多个版本,其中YOLOv10n参数量和计算量最小,是荔枝虫害目标检测任务中实现轻量级实时端对端检测的理想方案。然而,由于荔枝虫害场景的复杂性和目标特征的特点,YOLOv10n在荔枝虫害目标检测中仍面临以下挑战:1)荔枝虫害场景复杂,目标和背景容易混淆,导致模型训练效果不佳。且CG数据集中超过80%的目标为小目标,这要求模型更加关注局部细节特征。然而,随着网络层次的增加,低级的局部细节和小目标特征可能会丢失。2)小目标的特征信息较少,颈部网络中的深层特征进行标准上采样与浅层特征融合时,容易引发目标边界模糊和偏移问题。3)由于移动设备和边缘设备资源受限,模型需要具备轻量化特性,以提高实际应用价值。

1.4.2 改进YOLOv10n的YOLO-LP模型

为了解决上述问题,本研究了提出一种改进YOLOv10n的多场景轻量化荔枝虫害小目标检测模型——YOLO-LP(YOLO-Litchi Pest)。首先,YOLO-LP采用GLSA注意力机制优化了Backbone的C2f模块,构建了C2f_GLSA模块。C2f_GLSA模块能够有效平衡局部和全局信息,增强对荔枝虫害小目标的关注,并提高模型对多场景中目标与背景的区分能力,同时降低参数量和计算开销。其次,YOLO-LP引入FreqFusion特征融合模块,优化了YOLOv10n的路径聚合网络(Path Aggregation Network,PANet),设计了轻量化的频域感知路径聚合网络(FreqPANet)。FreqPANet有效改善了目标边界模糊和偏移的问题。最后,YOLO-LP使用SIoU损失函数替代了CIoU(Complete-IoU)损失函数,提高了对小目标定位的精确度,并加快了模型训练的收敛速度。YOLO-LP的模型结构如图4所示。
图4 YOLO-LP网络架构

Fig. 4 YOLO-LP network architecture

1.4.3 C2f_GLSA模块

YOLOv10n中的C2f模块通过BottleNeck实现跨阶段特征融合,增强了多尺度信息的聚合能力,并提高了不同层次特征的捕捉能力。然而,该结构设计也存在一些局限性。在荔枝虫害检测的多场景和小目标任务中,目标与背景容易混淆,跨阶段特征融合时可能引入无关噪声信息,从而导致特征图中关键信息的模糊,降低模型性能,并增加参数量和计算成本。因此,精确提取特征对提高模型性能至关重要。为解决这一问题,本研究将主干网络中C2f模块的BottleNeck模块替换为全局到局部的空间聚合模块GLSA16(the Global-to-Local Spatial Aggregation Module),并构建了轻量化的C2f_GLSA模块,如图5所示。
图5 C2f_GLSA模块结构

注:GLSA模块首先将输入特征 XCHW)进行通道分割,得到大小为(C/2,HW)的 X 0 X 1,这种通道分割的做法旨在平衡性能与计算资源的需求。然后,将 X 0 X 1分别送入GSA和LSA中,分别用于捕获全局和局部的关键特征信息,得到与输入 XCHW)大小一致的两个注意力输出 G S A X 0 L S A X 1。接着,为增强特征表达能力,将两个注意力输出进行通道拼接,得到大小为(C×2,HW)且同时包含局部和全局的信息特征。最后,使用一个1×1卷积融合局部和全局特征,得到维度大小为(CHW)的最终输出 Y。GLSA的计算如公式(1)和公式(2)所示。

Fig 5 Structure of the C2f_GLSA

在跨阶段特征融合过程中,C2f_GLSA模块采用了全局到局部的空间聚合操作。GLSA模块集成了局部空间注意力(Local Spatial attention, LSA)和全局空间注意力(Global Spatial attention, GSA)。LSA有助于增强小目标的细粒度特征提取,解决局部细节和小目标特征丢失的问题;GSA则通过关注全局上下文信息,增强模型在目标与背景之间的区分能力,从而提高在复杂场景中的鲁棒性。GLSA模块的结构如图5所示。
X 0 , X 1 = S p l i t X
Y = C o n v 1 × 1 C o n c a t G S A X 0 , L S A X 1
GSA旨在捕捉每个像素在空间中的长距离依赖关系,从而补充局部特征中缺失的全局上下文关键信息。具体而言,输入 X 0首先进行1×1卷积和进行维度变换操作,并使用 S o f t m a x计算 X 0在空间中的反应全局特征重要程度的概率分布 A t t G X 0。随后, A t t G X 0 X 0通过矩阵相乘操作提取全局上下文关键信息。最后通过多层感知机(Multilayer Perceptron, MLP)将特征恢复至输入 XCHW)相同的维度,并使用残差连接得到全局空间注意力特征 G S A X 0。GSA的计算如公式(3)公式(4)所示。
A t t G X 0 = S o f t m a x T r a n s p o s e C o n v 1 × 1 X 0
G S A X 0 = M L P A t t G X 0 X 0 + X 0
LSA旨在给定的特征图的空间维度上有效提取局部细粒度信息和小目标的精细特征,从而提高小目标检测性能。具体而言,输入 X 1首先通过由1×1卷积和3×3深度卷组成的三个级联模块,并使用1×1卷积和残差连接捕获局部特征。随后,使用 S i g m o i d函数计算 X 1在空间中的反应局部特征重要程度的概率分布 A t t L X 1。最后, A t t L X 1 X 1通过矩阵点乘操作提取局部细节信息和小目标特征,并通过残差连接得到局部空间注意力特征 L S A X 1。LSA的计算如公式(5)公式(6)所示。
A t t L X 1 = S i g m o i d C o n v 1 × 1 D W C o n v 3 × 3 C o n v 1 × 1 X 1 × 3 + X 1
L S A X 1 = A t t L X 1 X 1 + X 1
为验证GLSA在荔枝虫害目标检测中的性能,使用Grad-CAM17生成类激活热力图,如图6所示。在热力图中,红色区域的亮度越高,表示该位置的像素对模型的重要性越大,通过观察高亮区域与特征重叠程度,可以评估模型对荔枝病虫害特征的提取能力。生成的热力图显示,使用C2f_GLSA模块优化YOLOv10n的主干网络后,模型能够更准确和全面地提取目标特征。
图6 GLSA有效性研究的热力图效果对比

Fig. 6 Heatmap effect comparison in GLSA effectiveness study

1.4.4 频域感知路径聚合网络FreqPANet

YOLOv10n的颈部(Neck)采用PANet18思想进行多尺度特征融合。PANet中的深层特征通常通过标准上采样后再与浅层特征进行融合,如图7a所示。然而,在荔枝虫害的多场景小目标检测中,随着网络层数的增加,导致深层的特征中的边缘和纹理等局部细节和低级信息丢失。因此,深层特征经过标准上采样后,常引发目标边界模糊和偏移问题,且与浅层特征图融合后,问题更为加剧。此外,标准上采样还存在较高参数量和计算复杂度的问题,给模型的性能和实际应用带来挑战。
图7 PANet和FreqPANet结构

Fig. 7 Structure of the PANet and the FreqPANet

为了解决这一问题,本研究采用频率感知特征融合模块FreqFusion19对PANet进行优化,设计了更轻量化的频域感知路径聚合网络(FreqPANet),如图7b所示。为降低计算成本的并提高特征融合效率,FreqPANet首先使用三个1×1卷积对不同层次深度的特征图进行通道对齐。然后,使用FreqFusion模块对不同深度特征进行融合,避免了标准上采样引发的目标边界模糊和偏移问题,从而提高了目标边界的清晰度,并进一步实现了模型的轻量化。最后,结合PANet的思想,通过自顶向下和自底向上的特征融合,将目标信息传递到检测头。FreqFusion模块的结构如图8所示。
图8 FreqFusion结构

Fig. 8 Structure of the FreqFusion

FreqFusion模块集成了自适应低通滤波器生成器(Adaptive Low-Pass Filter Generator, ALPF Generator)、偏移生成器(Offet Generator)和自适应高通滤波器生成器(Adaptive High-Pass Filter Generator, AHPF Generator)。该模块接受两个输入特征,即浅层特征 X n和深层特征 Y n + 1。例如,假设图7b中的P4特征为浅层特征 X n,则P5特征为深层特征 Y n + 1。浅层特征 X n通过ALPF Generator减少深层特征 Y n + 1在上采样过程中对象内部的高频成分,从而降低类别内的不一致性,提高特征融合的准确性。Offet Generator通过对深层特征和浅层特征的初始融合进行重采样,纠正两者的不一致性,细化目标边界信息,有效解决目标偏移问题。AHPF Generator增强了浅层特征在下采样过程中丢失的高频详细边界信息,有效解决目标边界模糊的问题。FreqFusion模块经过初始融合(Initial Fusion)和最终融合(Final Fusion)两个阶段的处理,显著增强了特征提取的准确性,提升目标边界的精准度和清晰度。FreqFusion模块的计算可以表示为公式(7)~公式(9)
Y i , j n = y i + u , j + v n + 1 + x i , j n
y n + 1 = F U P F L P Y n + 1  
x n = F H P X n + X n
式中: F L P为代表由ALPF Generator预测的低通滤波器;(uv)表示Offet Generator对(ij)处特征坐标预测的偏移量值; F U P为上采样操作; F H P为由AHPF Generator预测的高通滤波器; X n为第n层特征; Y n + 1为第n+1层特征; Y n Y n + 1 X n进行特征融合后得到的特征。

1.4.5 SIoU损失函数

YOLOv10n使用CIoU20损失函数,该函数同时考虑了预测框与真值框的重叠度、相互包含关系和长宽比。如图9a所示,CIoU的计算如公式(10)所示。
L C I o U = 1 - I o U + ρ 2 b , b g t c 2 + α v
式中: I o U为预测框与真值框交集和并集之比; ρ 2 b , b g t为预测框和真值框中心点的欧式距离; c为同时包含预测框和真值框的最小闭包区域D的对角线距离; α为权重系数; v为预测框和真值框的长宽比。 α v的计算如公式(11)公式(12)所示。
v = 4 π 2 a r c t a n w g t h g t - a r c t a n w h 2
α = v 1 - I o U + v
式中: w h分别表示预测框的宽和高; w g t h g t分别表示真值框的宽和高;IoU表示预测框和真值框面积交集与并集的比值。
图9 CIoU及其存在的问题

a. CIoU示意图 b. CIoU存在的问题

Fig. 9 CIoU and its problems

然而,CIoU在实际应用中存在一些局限性。当预测框和真值框的长宽比和中心点位置相同,但长宽值不同时,CIoU退化为IoU21,如图9b所示。在这种情况下,CIoU仍计算重叠面积、中心点距离和宽高比,增加了额外的计算负荷。此外,CIoU尚未考虑预测框与真值框之间的匹配方向,这导致模型训练收敛速度较慢,效率较低。
因此,本研究在YOLO-LP模型中采用SIoU损失22替代CIoU损失,该损失函数考虑了预测框和真值框之间的向量角度。如图10所示,SIoU损失由角度损失(Angle cost)、距离损失(Distance cost)、形状损失(Shape cost)、IoU损失(IoU cost)组成。
图10 SIoU示意图

Fig 10 Illustration of the SIoU

1)定义角度损失Λ,如公式(13)所示。
Λ = 1 - 2 s i n 2 a r c s i n c h σ - π 4
式中: σ为真值框和预测框中心点的距离; c h为真值框和预测框中心点的高度差。
2)定义距离损失 Δ,如公式(14)所示。
Δ = t = x , y 1 - e - γ ρ t = 2 - e - γ ρ x - e - γ ρ y
式中: ρ x ρ y分别为宽度和高度的差值平方, γ为角度损失的调整因子,如公式(15)
ρ x = b c x g t - b c x c w 2 , ρ y = b c y g t - b c y c h 2 , γ = 2 - Λ
式中:( b c x g t b c y g t)为真值框的中心点 b g t坐标;( b c x b c y)为预测框 b的中心点坐标; c h为真值框和预测框中心点的高度差, c w为真值框和预测框中心点的宽度差。
3)定义形状损失 Ω,如公式(16)所示。
  Ω = t = w , h 1 - e - ω t θ = 1 - e - ω w θ + 1 - e - ω h θ
式中: θ为控制形状损失关注程度的参数; ω w ω h分别表示预测框与真值框的宽度差异和高度差异,如公式(17)所示。
ω w = w - w g t m a x w , w g t , ω h = h - h g t m a x h , h g t
4)定义交并比 I o U,如公式(18)所示。
I o U = B   B g t B   B g t
式中: B为预测框; B g t为真值框。最终得到SIoU损失函数如公式(19)所示。
L S I o U = 1 - I o U + Δ + Ω 2

1.5 试验环境和评价指标

1.5.1 试验环境设置

本研究使用的试验环境为Windows11操作系统(CPU:13th Gen Intel® Core™ i9-13900处理器,显卡:NVDIA GeForce RTX 3090 24 GB,内存大小:64 GB),模型构建采用了Pytorch 2.1.2、Python 3.11.9和CUDA12.3等相关工具,其他相关超参数设置参见表2
表2 荔枝虫害小目标检测模型的超参数设置

Table 2 Hyperparameter settings of small target detection model for litchi pests

参数名 参数值
训练轮次/Epoch 200
训练图像尺寸/DPI 640×640
批次尺寸 8
优化器 SGD
初始学习率 0.01
权重衰减 0.000 5

1.5.2 评价指标

为评估改进模型在荔枝虫害多场景小目标检测中的检测速度和精度,本研究采用了COCO评价指标。主要指标包括参数量(Params)、浮点运算次数(Giga Floating-point Operations Per Second, GFLOPs)、平均精度(Average Precision, AP)、每秒帧数(Frames Per Second, FPS)和模型大小(MB)等。根据真实分类检测结果和预测结果进行对比,将所有样本分为真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)四种类型。相关指标计算如公式(20)~公式(22)所示。
P = T P T P + F P × 100 %
R = T P T P +   F N × 100 %
A P = 0 1 P R d R
式中:P为精确率(Precision);R为召回率(Recall)。AP综合了PR的信息,通过计算不同IoU阈值下精确率-召回率曲线(PR曲线)的面积来衡量模型性能。此外,AP50和AP50:95分别表示IoU=0.5和IoU=0.5:0.95时的平均精度,AP-Small50:95表示在IoU=0.5-0.6字0.95时小目标的平均精度。

2 结果与分析

2.1 与不同注意力机制对比

将多维协同注意力(Multidimensional Collaborative Attention, MCA10)、卷积注意力(Convolutional Block Attention Module, CBAM23)、自适应细粒度通道注意力(Adaptive Fine-Grained Channel Attention, FCA24)、并行补丁感知注意力(Parallelized Patch-Aware Attention, PPA25)和蒙特卡洛注意力(Monte Carlo attention, MCAttention26)集成到主干的每个C2f中,并与GLSA模块的引入进行比较。对比结果如表3所示。在检测准确率方面,加入GLSA模块的AP50,AP50:95和AP-Small50:95在CG数据集上最高,分别达到90.4%、62.0%和59.5%。具体而言,PPA注意力模型的检测精度略高于融合了MCA、CBAM、FCA和MCAttention的模型,但其参数量、计算量和模型大小(Model Size)增加较多,每秒处理图片数显著降低。而集成了GLSA模块的模型在检测性能上明显优于PPA注意力模型,且其参数量、计算量和模型体积更小,每秒处理图片数更高。综上分析,YOLOv10n在主干网络的C2f模块引入GLSA后在检测性能和轻量化之间达到了较好的平衡。
表3 采用不同注意机制改进YOLOv10n模型在CG数据集的对比试验结果

Table 3 Comparison results of improving the YOLOv10n model in the CG dataset using different attention mechanisms

Model Model Size/MB AP50/% AP50:95/% AP-Small50:95/% GFLOPs Params/M FPS
YOLOv10n+C2f_MCA 4.56 89.3 61.1 58.4 5.1 1.78 162.2
YOLOv10n+C2f_CBAM 4.56 89.3 61.1 58.3 5.1 1.78 204.1
YOLOv10n+C2f_FCA 4.59 89.2 61.1 58.4 5.1 1.81 200.7
YOLOv10n+C2f_PPA 6.37 89.6 61.5 58.6 7.5 2.68 108.3
YOLOv10n+C2f_MCAttention 4.57 89.0 60.9 58.1 5.1 1.79 233.9
YOLOv10n+C2f_GLSA 5.33 90.4 62.0 59.5 5.7 2.11 153.2

2.2 消融试验

为了验证YOLO-LP模型的各项改进的有效性,本研究在CG数据集的测试集上进行了消融试验。每个试验均使用相同的超参数和训练设置,不同的改进组合均对基线模型的性能进行了有效提升,试验结果如表4所示。
表4 YOLO-LP模型的消融试验结果

Table 4 The ablation results of the YOLO-LP model

Baseline C2f_GLSA FreqPANet SIoU AP50/% AP50:95/% AP-Small50:95 /% GFLOPs Params/M FPS
YOLOv10n × × × 89.0 61.2 58.3 6.5 2.27 259.3
× × 90.4 62.0 59.5 5.7 2.11 153.2
× × 89.4 61.3 58.4 6.2 2.12 169.5
× × 89.8 61.9 59.2 6.5 2.27 257.1
× 90.3 61.8 59.3 5.4 1.97 121.9
× 89.7 61.5 58.7 5.7 2.11 150.7
× 90.2 62.0 59.4 6.2 2.12 168.8
90.9 62.2 59.5 5.4 1.97 122.6
消融试验结果表明,将YOLOv10n主干的C2f模块替换为所构建的C2f_GLSA模块,显著提高了模型的性能。C2f_GLSA模块通过局部和全局聚合操作,使主干在提取图像特征时,能够同时关注局部小目标和细节特征,并保留全局关键上下文信息,从而增强了目标和背景之间的区分度。此改进使模型的AP50和AP50:95分别提高1.4个百分点和0.8个百分点,小目标的AP-Small50:95提高了1.2个百分点,同时参数量和计算量分别下降了7.0%和12.3%。FreqPANet有效解决了小目标边界模糊和偏移问题,增强了目标定位精度,使模型的AP50、AP50:95和AP-Small50:95分别提高了0.4个百分点、0.1个百分点和0.1个百分点,同时参数量和计算量分别下降了6.6%和4.6%。SIoU提高了目标定位的精确度,使模型的AP50、AP50:95和AP-Small50:95分别提高了0.8个百分点、0.7个百分点和0.9个百分点。当任意两个改进点同时引入时,模型的整体性能仍明显优于基线模型,证明了各项改进的有效性。C2f_GLSA、FreqPANet和SIoU三项改进同时引入时,模型性能达到最佳,AP50、AP50:95和AP-Small50:95分别达到了90.9%、62.2%和59.5%,较基线模型提高了1.9个百分点、1.0个百分点和1.2个百分点,参数量和计算量分别下降了13%和17%,每秒处理图像数为122.6,满足实时检测的需求。综上分析,所提出的改进模型在精度上展现了显著的性能,同时参数量和计算量有所减少,验证了所提出的改进在YOLO-LP模型中的有效性。

2.3 与不同损失函数对比

为验证SIoU损失在荔枝病虫害小目标检测任务中的表现,将CIoU、DIoU、GIoU、EIoU和SIoU分别作为经过C2f_GLSA和FreqPANet改进后的YOLOv10n模型的损失函数,在CG数据集进行训练,在测试集上的精度性能表现如表5所示。结果表明,同时考虑了预测框和真值框的角度、形状和距离的SIoU损失函数在CG数据集上的表现优于其他损失函数。为进一步分析损失函数对模型性能的影响,将训练过程的验证损失进行对比,如图11所示,结果显示,CIoU和DIoU的验证损失值相当,均低于GIoU和EIoU损失函数。然而,SIoU损失函数的验证损失值最低,表现出更好的拟合效果和模型性能。
表5 不同损失函数在YOLO-LP模型上的验证损失对比

Table 5 Comparison of validation loss on YOLO-LP model with different loss functions

Model Loss Function AP50/% AP50:95/% AP-Small50:95/%
YOLOv10n+C2f_GLSA+FreqPANet CIoU 90.3 61.8 59.3
DIoU 90.0 61.5 58.7
GIoU 90.0 61.7 59.1
EIoU 90.3 61.8 58.9
SIoU 90.9 62.2 59.5
图11 不同损失函数在YOLO-LP模型上的验证损失对比

Fig. 11 Comparison of validation loss on YOLO-LP model with different loss functions

2.4 与主流网络模型对比

为了进一步验证YOLO-LP在检测精度和轻量化方面的性能,本研究将其与一些主流的模型进行对比试验,这些模型包括YOLOv3、YOLOv5n、YOLOv8n、YOLOv9s、RT-DETR-R18、Conditional-DETR-R50、TOOD-R50、GFL-GFL-R50、Cascade-RCNN-R50、Faster-RCNN_R50和DINO-R50共11种。为了确保对比试验的公平性,YOLO系列模型采用相同的超参数配置和训练策略,其他模型则采用默认参数配置,试验结果如表6所示。
表6 YOLO-LP与当前主流模型在CG数据集上的对比试验结果

Table 6 Comparison test results between YOLO-LP and current mainstream models on CG dataset

Model Model Size/MB AP50/% AP50:95/% AP-Small50:95/% GFLOPs Params/M
YOLOv3 117.8 89.4 61.7 59.0 154.6 61.50
YOLOv5n 5.02 89.7 61.3 58.4 7.1 2.50
YOLOv8n 5.95 88.5 60.4 57.2 8.1 3.00
YOLOv9s 14.5 90.3 62.2 59.2 26.7 7.17
RT-DETR-R18 38.5 90.9 63.1 60.4 56.9 19.87
Conditional-DETR-R50 525.9 80.2 50.7 47.3 43.5 43.40
TOOD-R50 245.6 89.6 59.8 57.0 81.6 32.00
GFL-R50 247.7 88.1 59.5 56.6 84.6 32.30
Cascade-RCNN-R50 531.5 84.6 57.8 54.7 121.0 69.10
Faster-RCNN-R50 317.6 83.2 55.5 52.5 93.6 41.40
DINO-R50 569.6 89.9 60.3 57.6 122.0 47.50
YOLO-LP(Ours) 5.1 90.9 62.2 59.5 5.4 1.97
在YOLO系列模型的对比中,其他YOLO模型在CG数据集上的表现上的均不及YOLO-LP。具体而言,YOLOv5n的AP50、AP50:95和AP-Small50:95分别比YOLO-LP低1.2个百分点、0.9个百分点和1.1个百分点,且参数量和计算量分别高出26.9%和31.48%,仅在模型大小上略低于YOLO-LP。对于其他YOLO模型,包括YOLOv8和YOLOv9在模型精度(AP50和AP50:95)、参数量、计算量和模型大小上均显著落后于YOLO-LP,且后者具有明显优势。与RT-DETR-R18模型的对比中,YOLO-LP与RT-DETR-R18在AP50指标上表现相同,RT-DETR-R18在AP50:95上比YOLO-LP高0.9个百分点。然而,YOLO-LP的模型大小、参数量和计算量仅为5.1 MB、1.97 M和5.4,显著低于RT-DETR-R18的38.5 MB、19.87 M和56.9。与TOOD-R50、Faster-RCNN_R50和DINO-R50等其他模型相比,YOLO-LP在CG数据集上同样具有更好的检测效果和更小的体积。综上分析,YOLO-LP在CG数据集的荔枝虫害多场景小目标识别任务中,表现出了高效和轻量化的优越性。

2.5 多场景试验

荔枝虫害检测面临着晴天、阴天、雨后和实验室等不同场景的挑战。在晴天场景中,强烈的光照和太阳光的照射,可能干扰目标特征的提取。阴天场景下,光照不足造成图像偏暗,背光条件下光线也会影响模型的识别效果。雨后场景中,雨水可能被误检为目标,且雨水反光也可能导致误检。实验室场景中,荔枝叶的杂物、枝头等背景干扰也会影响模型的检测效果。为验证所改进模型在不同场景下检测荔枝虫害的表现,本研究将CG数据集的测试集进一步划分为晴天、阴天、雨后和实验室环境下的4个场景集,并使用所改进的YOLO-LP模型与基线模型进行对比试验,结果如表7所示。在晴天场景下,YOLO-LP的AP50、AP50:95和AP-Small50:95较基线模型提高了1.9个百分点,1.0个百分点和2.0个百分点;在阴天场景下,YOLO-LP的AP50、AP50:95和AP-Small50:95较基线模型提高了2.5个百分点,1.3个百分点和1.3个百分点;在雨后场景下,YOLO-LP的AP50、AP50:95和AP-Small50:95较基线模型提高了2.0个百分点,2.4个百分点和2.4个百分点;在实验室场景下,YOLO-LP的AP50较基线模型提高了0.7个百分点,但在AP50:95和AP-Small50:95上比基线模型低了1.0个百分点和0.6个百分点。虽然YOLO-LP在实验室场景下的小目标检测精度略有下降,但在4种场景下的检测效果总体上得到了明显提升,证明YOLO-LP模型在多场景荔枝虫害小目标检测任务中具有优越性。
表7 YOLO-LP在不同场景下的试验结果

Table 7 Comparison test results of YOLO-LP in different scenarios

场景名称 模型 AP50/% AP50:95/% AP-Small50:95/%
晴天 YOLOv10n 86.2 60.5 56.2
YOLO-LP 88.1 61.5 58.2
阴天 YOLOv10n 88.7 60.3 56.4
YOLO-LP 91.2 61.6 57.7
雨后 YOLOv10n 87.7 58.5 59.3
YOLO-LP 89.7 60.9 61.7
实验室 YOLOv10n 95.5 68.9 68.4
YOLO-LP 96.2 67.9 67.8
为更直观地观察YOLO-LP的多场景荔枝虫害检测效果,本研究进行了可视化试验,结果如图12所示。可以发现,在不同场景下由于目标尺寸小、光照变化、雨水干扰和杂物影响等因素,基线模型出现了不同程度的漏检和错检,而改进的YOLO-LP能够在这些复杂场景下保持较为稳定的检测性能。复杂背景下的可视化试验结果如图13所示,由于场景变化和背景复杂等原因,基线模型也出现了不同程度的漏检、误检,而YOLO-LP则能够较为稳定地区分背景和目标。综合来看,相较于基线模型,改进的YOLO-LP在多种复杂场景表现出了更强的检测鲁棒性和稳定性。
图12 YOLO-LP在不同场景下的可视化对比试验结果

Fig. 12 Comparative test results of YOLO-LP visualization in different multi-scenarios

图13 YOLO-LP在复杂背景下的可视化对比试验结果

Fig. 13 Comparative test results of YOLO-LP visualization in complex backgrounds

3 讨论与结论

荔枝虫害检测面临小目标多、场景复杂和模型尺寸大等困难挑战。因此,本研究提出了一种改进YOLOv10n的轻量化目标检测算法YOLO-LP。为解决荔枝虫害中小目标占比大和场景复杂的问题,构建了高效的C2f_GLSA模块以优化主干网络的特征提取,提高小目标检测精度,增强模型在目标与背景之间的区分能力,同时减少参数和降低计算量;为解决标准上采样导致的目标边界偏移和模糊的问题,设计了FreqPANet轻量化颈部网络,提高目标的定位精度并增强边界特征提取,同时使模型进一步轻量化;为解决基线模型中CIoU计算复杂度高、目标定位不精准和收敛慢的问题,引入了SIoU损失函数,充分考虑预测框和真值框的角度、距离和形状对模型的影响,从而提高模型的目标定位精度和训练效率。在CG数据集上的消融试验结果证实了每个改进点的有效性,改进后的YOLO-LP模型的AP50、AP50:95和AP-Small50:95分别为90.9%、62.2%和59.5%,较基线模型分别提高了1.9个百分点、1.0个百分点和1.2个百分点,同时参数量和计算量分别下降了13%和17%。此外,对比试验证明了YOLO-LP在效率和轻量化方面的优势,多场景试验表明了该模型具有较强的鲁棒性。
尽管本研究所改进的YOLOv10n模型在自建数据集上取得了较好的检测效果,但仍存在一些不足。首先,数据集的荔枝虫害类别较少,在4个场景中的数据样本不均衡,未来,需要采集更全面、均衡的数据以提高模型的泛化能力;其次,改进模型的轻量化程度仍有待进一步提升,以便将来模型部署到移动设备或边缘设备中,提高实际应用价值。综上所述,通过完善数据集并进行模型部署能够进一步提高YOLO-LP的适用性和实用性,为荔枝虫害的精准检测提供更具实际意义的参考。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
齐文娥, 陈厚彬, 罗滔, 等. 中国大陆荔枝产业发展现状、趋势与对策[J]. 广东农业科学, 2019, 46(10): 132-139.

QI W E, CHEN H B, LUO T, et al. Development status, trend and suggestion of Litchi industry in China's mainland[J]. Guangdong agricultural sciences, 2019, 46(10): 132-139.

2
陈厚彬, 杨胜男, 苏钻贤, 等. 2024年全国荔枝生产形势分析与管理建议[J]. 中国热带农业, 2024(3): 8-20.

CHEN H B, YANG S N, SU Z X, et al. Analysis of the national Litchi production in 2024 and management suggestions[J]. China tropical agriculture, 2024(3): 8-20.

3
刘冬梅, 杨杭旭, 周宏平, 等. 茶树植保机械及减量施药技术研究进展[J]. 中国农机化学报, 2021, 42(9): 59-67.

LIU D M, YANG H X, ZHOU H P, et al. Research progress of tea tree protection machinery and reduced pesticide application technology[J]. Journal of Chinese agricultural mechanization, 2021, 42(9): 59-67.

4
白荻, 王寅凯, 熊燕华. 基于集成学习的茶树病虫害检测方法[J/OL]. 南京农业大学学报. (2024-08-01)[2024-11-23].

BAI D, WANG Y K, XIONG Y H. Development and experiment of Panonychus citri infestation fast detector[J/OL]. Journal of Nanjing agricultural university. (2024-08-01)[2024-11-23].

5
牛冲, 牛昱光, 李寒, 等. 基于图像灰度直方图特征的草莓病虫害识别[J]. 江苏农业科学, 2017, 45(4):169-172.

NIU C, NIU Y G, LI H, et al. Strawberry pest and disease recognition based on image gray histogram feature[J]. Jiangsu agricultural sciences, 2017, 45(4): 169-172.

6
XIE J X, ZHANG X W, LIU Z Q, et al. Detection of Litchi leaf diseases and insect pests based on improved FCOS[J]. Agronomy, 2023, 13(5): ID 1314.

7
欧善国, 张桂香, 彭晓丹. 荔枝病虫害图像识别技术研究和应用[J]. 农业工程, 2020, 10(11): 29-35.

OU S G, ZHANG G X, PENG X D. Research and application of image recognition technology for Litchi diseases and insect pests[J]. Agricultural engineering, 2020, 10(11): 29-35.

8
叶进, 邱文杰, 杨娟, 等. 基于深度学习的荔枝虫害识别方法[J]. 实验室研究与探索, 2021, 40(6): 29-32.

YE J, QIU W J, YANG J, et al. Litchi pest identification method based on deep learning[J]. Research and exploration in laboratory, 2021, 40(6): 29-32.

9
XIAO J Y, KANG G B, WANG L H, et al. Real-time lightweight detection of lychee diseases with enhanced YOLOv7 and edge computing[J]. Agronomy, 2023, 13(12): ID 2866.

10
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block attention module[C]// Computer Vision – ECCV 2018. Cham, Germany: Springer International Publishing, 2018: 3-19.

11
彭红星, 何慧君, 高宗梅, 等. 基于改进ShuffleNetV2模型的荔枝病虫害识别方法[J]. 农业机械学报, 2022, 53(12): 290-300.

PENG H X, HE H J, GAO Z M, et al. Litchi diseases and insect pests identification method based on improved ShuffleNetV2[J]. Transactions of the Chinese society for agricultural machinery, 2022, 53(12): 290-300.

12
谢家兴, 陈斌瀚, 彭家骏, 等. 基于改进ShuffleNetV2的荔枝叶片病虫害图像识别[J]. 果树学报, 2023, 40(5): 1024-1035.

XIE J X, CHEN B H, PENG J J, et al. Image recognition of Litchi leaf diseases and insect pests based on improved ShuffleNetV2[J]. Journal of fruit science, 2023, 40(5): 1024-1035.

13
王卫星, 刘泽乾, 高鹏, 等. 基于改进YOLOv4的荔枝病虫害检测模型[J]. 农业机械学报, 2023, 54(5): 227-235.

WANG W X, LIU Z Q, GAO P, et al. Detection of Litchi diseases and insect pests based on improved YOLOv4 model[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(5): 227-235.

14
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]// Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.

15
WANG A, CHEN H, LIU L H, et al. YOLOv10: Real-time end-to-end object detection[EB/OL]. arXiv: 2405.14458, 2024.

16
TANG F L, XU Z X, HUANG Q M, et al. DuAT: dual-aggregation transformer network for medical image segmentation[C]// Chinese Conference on Pattern Recognition and Computer Vision (PRCV). Berlin, Germany: Springer Nature Singapore, 2023: 343-356.

17
SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]// 2017 IEEE International Conference on Computer Vision. Piscataway, New Jersey, USA: IEEE, 2017: 618-626.

18
LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 8759-8768.

19
CHEN L W, FU Y, GU L, et al. Frequency-aware feature fusion for dense image prediction[J]. IEEE transactions on pattern analysis and machine intelligence, 46(12): 10763-10780.

20
ZHENG Z H, WANG P, REN D W, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J]. IEEE transactions on cybernetics, 52(8): 8574-8586.

21
ZHOU D F, FANG J, SONG X B, et al. IoU loss for 2D/3D object detection[C]// 2019 International Conference on 3D Vision (3DV). Piscataway, New Jersey, USA: IEEE, 2019: 85-94.

22
GEVORGYAN Z. SIoU loss: More powerful learning for bounding box regression[EB/OL]. arXiv: 2205.12740, 2022.

23
YU Y, ZHANG Y, CHENG Z Y, et al. MCA: Multidimensional collaborative attention in deep convolutional neural networks for image recognition[J]. Engineering applications of artificial intelligence, 2023, 126: ID 107079.

24
SUN H, WEN Y, FENG H J, et al. Unsupervised bidirectional contrastive reconstruction and adaptive fine-grained channel attention networks for image dehazing[J]. Neural networks, 2024, 176: ID 106314.

25
XU S B, ZHENG S C, XU W H, et al. HCF-net: Hierarchical context fusion network for infrared small object detection[EB/OL]. arXiv:2403.10778, 2024.

26
DAI W, LIU R, WU Z X, et al. Exploiting scale-variant attention for segmenting small medical objects[EB/OL]. arXiv:2407.07720,2024.

文章导航

/