欢迎您访问《智慧农业(中英文)》官方网站! English

基于无人机低空近景图像的玉米螟虫害检测方法

  • 赵峻 1 ,
  • 聂志刚 , 1, 2 ,
  • 李广 2 ,
  • 刘佳宇 1
展开
  • 1. 甘肃农业大学信息科学技术学院,甘肃 兰州 730000,中国
  • 2. 甘肃农业大学省部共建干旱生境作物学国家重点实验室,甘肃 兰州 730000,中国
聂志刚,博士,教授,研究方向为智慧农业。E-mail:

赵 峻,硕士研究生,研究方向为智慧农业。E-mail:

收稿日期: 2025-05-08

  网络出版日期: 2025-07-09

基金资助

甘肃省高等学校产业支撑计划项目(2025CYZC-042)

甘肃省科技重大专项(24ZD13NA019)

中央引导地方科技发展资金项(24ZYQA023)

A Study on Corn Borer Detection Using Low-Altitude Close-Range UAV Imagery

  • ZHAO Jun 1 ,
  • NIE Zhigang , 1, 2 ,
  • LI Guang 2 ,
  • LIU Jiayu 1
Expand
  • 1. College of Information Science and Technology, Gansu Agricultural University, Lanzhou 730000, China
  • 2. State Key Laboratory of Aridland Crop Science, Gansu Agricultural University, Lanzhou 730000, China
NIE Zhigang, E-mail:

ZHAO Jun, E-mail:

Received date: 2025-05-08

  Online published: 2025-07-09

Supported by

Gansu Provincial Industry Support Program for Higher Education Institutions(2025CYZC-042)

Major Science and Technology Project of Gansu Province(24ZD13NA019)

Gansu Provincial Project Funded by Central Government Guiding Local Science and Technology Development(24ZYQA023)

Copyright

copyright©2025 by the authors

摘要

【目的/意义】 玉米螟虫害检测对提高玉米的产量和质量至关重要,然而现有的检测方法存在一定的局限性,难以满足大规模应用的要求。针对该问题本研究实践了一种基于无人机低空近景图像和YOLO-ESN(You Only Look Once Enhanced Small object Network)模型检测玉米螟虫害的方法,以虫洞检测替代虫体检测,从而提高田间应用的适应性。 【方法】 本研究以YOLOv11(You Only Look Once version 11)模型为基础,在Backbone部分加入ELA(Enhanced Lightweight Attention)注意力机制,增强模型特征提取能力,在Neck部分采用轻量级C3k2-SCConv(C3k2-Spatial and Channel Reconstruction Convolution)模块,在仅增加较少参数量的情况下提升特征融合效率,在Head部分新增微小目标检测模块,直接利用浅层高分辨率特征提升模型性能,同时加入NWD+EIoU(Normalized Wasserstein Distance+ Efficient Intersection over Union)损失函数优化边界框回归精度。最后,结合决策树算法确定虫害严重程度并生成虫害分布热力图。 【结果和讨论】 在自建玉米螟虫害数据集上进行的实验表明,改进后的YOLO-ESN在mAP@50(mean Average Precision at IoU threshold of 0.50)和mAP@50:95(mean Average Precision Averaged over IoU Thresholds from 0.50 to 0.95 with Step Size 0.05)上分别达到88.6%和40.5%,较基准模型提升7.6个百分点和4.9个百分点,精准度与召回率分别达到80.2%和82.1%,较基准模型提升6.3个百分点和2.3个百分点,同时参数量减少11.52%。 【结论】 实验结果证明,本研究为玉米螟虫害大范围精准检测提供了一种高效解决方案,推动精准农业进一步发展。

本文引用格式

赵峻 , 聂志刚 , 李广 , 刘佳宇 . 基于无人机低空近景图像的玉米螟虫害检测方法[J]. 智慧农业, 2025 : 1 -13 . DOI: 10.12133/j.smartag.SA202505006

Abstract

[Objective] The detection of corn borer infestations is essential for improving maize yield and quality, as corn borer pests pose a significant threat to global maize production. In traditional agricultural practices, identifying corn borer infestations relies on manual field inspections or trapping tools, which are labor-intensive, time-consuming, and difficult to implement over large areas. These methods are further limited by their susceptibility to human error and inability to meet the demands of modern precision agriculture. To address these challenges, a method for detecting corn borer infestations using low-altitude, close-range imagery captured by unmanned aerial vehicles (UAVs) and a model are investigated, you only look once enhanced small object network (YOLO-ESN). By focusing on detecting boreholes rather than insect bodies, this approach overcomes the difficulties of detecting corn borers, which are nocturnal and often concealed within plant tissues, thereby enhancing the applicability of field-based detection and aligning with practical field conditions. [Methods] Based on the you only look once version 11 (YOLOv11) object detection algorithm, a model—YOLO-ESN was introduced, for corn borer infestation detection. The YOLO-ESN model has been optimized through multiple modifications. In the Backbone, an enhanced lightweight attention (ELA) mechanism was incorporated to increase sensitivity and improve the extraction of small visual features, such as boreholes, by modeling spatial dependencies in horizontal and vertical directions using one-dimensional convolutions. In the Neck, a C3k2-Spatial and channel reconstruction convolution (C3k2-SCConv) module was introduced to reduce the number of model parameters while improving feature fusion efficiency through spatial and channel reconstruction, suppressing redundant information. In the Head, a small-object detection branch, termed the P2 detection head, was added, enabling YOLO-ESN to directly utilize shallow, high-resolution features from early network layers to enhance the detection of fine-grained targets like boreholes. Additionally, a combined loss function of normalized wasserstein distance (NWD) and efficient intersection over union (EIoU) was employed to optimize bounding box regression accuracy, addressing gradient vanishing issues for small targets and improving target localization stability and robustness. A decision tree algorithm was applied to classify infestation severity levels based on borehole detection results, and heatmaps were generated to visualize the spatial distribution of corn borer infestations across the field. [Results and Discussions] Multiple experiments were conducted using a constructed dataset of corn borer infestation images. The results demonstrated that YOLO-ESN achieved an mAP@50 of 88.6% and an mAP@50:95 of 40.5%, representing an improvement of 7.6 and 4.9 percent points, respectively, compared to the original YOLOv11 model. The total number of parameters in YOLO-ESN was reduced by 11.52%, contributing to a lighter model suitable for UAV deployment. Ablation studies evaluated individual contributions: incorporating the ELA mechanism alone improved mAP@50 by 0.3 percent points, and the parameters are reduced by 10.57%; replacing the C3k2 module with C3k2-SCConv reduced parameters by 2.5% while increasing mAP@50 by 0.9 percent points; adding the P2 detection head enhanced mAP@50 and mAP@50:95 by 4.1 and 1.2 percent points, respectively; and introducing the NWD+EIoU loss function improved mAP@50 and mAP@50:95 by 1.9 and 1.2 percent points, respectively. Comparative experiments demonstrate that YOLO-ESN outperforms a range of mainstream object detection models, including Faster R-CNN, SSD, YOLOv8, YOLOv11, and YOLOv12. YOLO-ESN achieves an mAP@50 and an mAP@50:95, surpassing Faster R-CNN by 14.9 and 9.7 percentage points, respectively, and SSD by 17.8 and 11.4 percentage points, respectively. With a compact parameter size of 8.37 M, YOLO-ESN delivers excellent detection accuracy and generalization, striking a strong balance between performance and efficiency. Although its inference speed (32.48 FPS) was slightly slower than YOLOv12 (75.44 FPS), it offered a superior trade-off between accuracy and efficiency. These results validated YOLO-ESN as a lightweight, high-performing solution for small object detection tasks, such as dense small targets in remote sensing images. The decision tree algorithm classified infestation severity with high accuracy, achieving F1-Scores of 0.906, 0.803, and 0.842 for mild, moderate, and severe infestations, respectively. Heatmaps generated from borehole detection results enabled spatial visualization of infestation severity, providing a scientific basis for quantitative monitoring and targeted pesticide application in field infestations. [Conclusions] The results show that the YOLO-ESN model has more advantages in overall detection accuracy and running speed. While improving the lightweight degree and deployment efficiency of the model, it also shows better recognition ability in small target detection, and can accurately locate the wormhole area on the corn leaf, effectively improving the bounding box regression accuracy and feature extraction efficiency. Compared with the traditional insect recognition method, the use of wormholes as detection objects is more in line with the actual field situation, effectively avoiding the problems of insect occlusion and strong concealment, and improving the availability of field image data and algorithm robustness. The heat map generated by the model detection results can also effectively display the distribution changes of insect pests in farmland, providing a scientific basis for precision pesticide spraying and farmland management. Overall, this study provides an effective solution for the intelligent detection of corn borer pests, has strong versatility and promotion prospects, and can provide strong technical support for precision agriculture and smart farmland management.

0 引 言

玉米作为全球范围内的重要粮食作物,在食品、畜牧业、生物质能源、工业原料和生物技术领域具有举足轻重的地位1。然而,虫害对玉米的产量和质量构成了严重威胁。其中,玉米螟是玉米的主要害虫之一,对其进行检测并实施有效防治是提高玉米产量和质量的关键步骤。传统的玉米螟灾情检测通常采用人工巡查或使用诱捕工具等方法,存在难以大范围实施、需要较高的人力成本且检测结果易受人为因素影响等问题,无法满足现代农业高效、精准检测的需求2
近年来,深度学习技术在农业虫害检测领域得到了广泛应用3。现有研究主要分为两类:一类是基于实验室环境的近距离虫害检测和识别,另一类是基于无人机的遥感检测。在虫害检测与识别领域,Wen等4提出了Pest-YOLO模型,用于大规模多类别密集和微小害虫的检测与计数,为农业害虫检测提供了有效的技术解决方案。Yang等5将深度学习应用于玉米害虫的分类与检测,证明了早期、准确的害虫识别能够有效减少作物损失,增强粮食安全。Zhang等6通过改进YOLOv7模型,结合Adan优化器,提高了玉米害虫检测的精度和计算效率。Zhu等7则通过引入CSE(Channel and Spatial Enhancement)特征增强结构和FFE(Feature Fusion Enhancement)模块,进一步提升了YOLOv7模型在植物虫害方面的检测精度。Li等8提出的YOLO-LP模型针对小目标占比大与检测场景复杂等问题做出优化,为虫害检测提供了高精度的解决方案。这些方法虽然在虫害检测的精度和速度上取得了长足进展,但由于其依赖近距离拍摄来捕捉大量细节特征,所以在面对大范围农田时效率低下。在虫害遥感检测领域,Chen等9针对龙眼作物开发了一种基于无人机的智能害虫识别系统,通过近距离拍摄害虫图像并规划农药喷洒路径,展示了无人机技术在农业虫害管理中的潜力。然而,由于玉米作物的特殊性,无人机难以近距离拍摄到害虫,限制了该方法的适用性。FB Sorbelli等10提出了基于YOLO的虫害检测系统,通过RGB相机和无人机从数字图像中检测害虫,推进害虫监测和管理自动化。然而,该系统在实际应用中仍存在一定局限性,尤其是对于昼伏夜出或隐蔽性较强的害虫,通常难以通过常规拍摄手段捕捉其图像信息。Park等11提出了一种利用无人机评估害虫爆发程度的方法,通过高空遥感图像分析大豆叶片的损失程度,展示了无人机技术在农业虫害调查中的有效性。然而,该方法使用图像的分辨率较低,难以对虫害进行精准评估。
综合分析,现有的虫害检测方法在检测范围与检测性能之间往往难以平衡,对于玉米螟虫害,这些方法均存在较大的局限性。实验室环境下的近距离检测方法虽然精度高,但难以在大范围农田中应用;而无人机遥感检测方法虽然覆盖范围广,但检测精度有限,难以满足精准农业的需求。为此,本研究探讨了一种基于无人机低空近景图像和深度学习技术的玉米螟虫害检测方法,旨在兼顾检测精度与应用广度,提升玉米螟虫害检测的准确性与田间实用性。

1 材料与方法

1.1 数据采集

本实验的数据采集工作在中国甘肃省河西走廊的华瑞农场试验田进行(100.82°E,38.43°N)。该地区属于典型的大陆性荒漠草原气候,干旱少雨,日照充足,是玉米种植的重要区域。实验中使用了大疆Mavic3M多光谱版农用无人机,搭载了1台分辨率像素为5 280×2 970的高清RGB相机和4台500万像素的多光谱相机。无人机飞行高度设置为5 m,以确保图像的分辨率能够满足玉米螟虫洞的检测需求。图像存储格式为JPG,单张图像大小约为11.7 MB。
在实验人员和农场管理员的协助下,实验成功采集了467张无人机拍摄的玉米螟虫害RGB图像。经植保专家确认,这些图像主要采自玉米螟虫害为主要发生的田块,且拍摄时段处于玉米螟虫害高发期。为了更多地保留数据在输入模型后的原始特征,本研究设计了数据预处理模块,该模块将原始图像在宽度方向均分为3份,高度方向均分为2份,生成6张像素为1 760×1 485的子图,每张子图的分辨率像素为1 760×1 485,共得到2 802张子图,这些子图根据虫害程度被分为虫害严重、虫害普通和虫害轻微三类,其中虫害严重图像191张,虫害普通图像769张,虫害轻微图像1 842张。三种类别的部分图像如图1所示。
图1 玉米不同虫害类别的部分图像数据

a. “严重”虫害类别的图像 b. “普通”虫害类别的图像 c. “轻微”虫害类别的图像

注: 图像左侧小图分别为红色框中内容的详细展示。

Fig.1 Partial image data of different pest categories of corn

1.2 数据集构建与标注

在无人机低空近景图像中,玉米螟虫和玉米螟虫洞是判断玉米螟虫害发生的重要特征12。考虑到玉米螟昼伏夜出的特性,直接检测害虫图像在实际应用中存在较大困难。并且,玉米螟幼虫在心叶期会取食叶肉,心叶展开后常形成排列整齐的虫孔。该取食特征决定了虫洞主要分布于植株中上部叶片、叶鞘及茎部与叶片交界处13。因此,本研究选择检测玉米叶片上的玉米螟虫洞作为评估虫害程度的主要依据,这种方法更具实用性和可行性。
本实验使用LabelImg软件对采集到的所有图像进行标注。标注内容包括玉米螟虫洞的中心点坐标以及边界框的高度和宽度,标注信息以TXT格式保存。随后,将标注后的数据集按照7∶1.5∶1.5的比例划分为训练集、验证集和测试集,以确保模型训练和评估的科学性14
为了进一步提升数据集的多样性和模型的泛化能力,实验采用了多种数据增强技术,包括仿射变换(Affine)、透视变换(Perspective)和HSV色彩扰动(Hue-Saturation-Value Color Jittering)15。这些技术能够有效模拟田间环境中的光照变化、角度变化,以及色彩差异,从而提高模型在实际应用中的适应性。此外,在无人机采集数据时,偶尔会遇到局部强风天气,导致图像拍摄时出现运动模糊,实验保留了这部分数据,以增强模型对复杂田间环境的鲁棒性16

1.3 改进的YOLO-ESN模型

1.3.1 YOLOv11与YOLO-ESN模型

YOLOv11相比前代模型的主要创新点在于采用了C3k2模块代替原有的C2f模块,并引入了C2PSA注意力机制(Cross Stage Partial Spatial Attention)17。C3k2模块使用更小的卷积核,结合跨阶段部分连接结构,在保持深度和宽度平衡的同时,有效减少了冗余计算,并保留了丰富的特征提取能力。C2PSA注意力机制融合了空间注意力和通道注意力,通过并行方式对特征图进行处理,从而优化特征融合效率,相较YOLOv8的SE(Squeeze-and-Excitation)或CBAM(Convolutional Block Attention Module)注意力机制,C2PSA计算效率更高,更适合复杂场景。
尽管YOLOv11模型在检测性能上较前代模型有所优化,但在面对小目标密集的任务时仍然存在较多漏检、误检和特征丢失问题18。为此,本研究在YOLOv11模型的基础上做出优化,构建了YOLO-ESN模型,YOLO-ESN的具体含义为“You Only Look Once Enhanced Small object Network”,即“YOLO-增强型小目标检测网络”。其具体改进包括:1)在Backbone部分引入ELA(Enhanced Lightweight Attention)注意力机制代替原有的C2PSA注意力机制19,以提升模型对关键特征的感知能力,同时避免引入过多的计算负担;2)在Neck部分,融合SCConv(Spatial and Channel Reconstruction Convolution)卷积优化C3k2模块20,形成C3k2-SCConv模块,进一步提升特征融合的效率和准确性;3)在Head部分新增微小目标检测模块21,以提升模型对微小目标的检测能力;4)将原有的CIoU(Complete Intersection over Union)损失函数优化为NWD+EIoU(Normalized Wasserstein Distance+ Efficient Intersection over Union)损失函数,进一步提高模型对小目标的敏感性22。YOLO-ESN模型的整体结构如图2所示。
图2 改进后的YOLO-ESN结构

Fig.2 Overall improved YOLO-ESN structure

1.3.2 ELA注意力机制模块

ELA注意力机制是对CA(Coordinate Attention)机制的改进23,旨在通过水平和垂直方向的一维卷积对特征图进行更精细的建模。传统的注意力机制通常使用二维卷积生成注意力图,虽然能够捕捉空间和通道维度的信息,但在处理高分辨率图像时计算复杂度较高,难以在轻量化设备上部署。ELA注意力机制通过改进CA机制的结构,在水平和垂直方向上分别使用一维卷积对特征图进行建模,既增强了对空间依赖关系的捕捉能力,又减少了计算量。ELA注意力机制如图3所示。
图3 ELA注意力机制的具体结构

Fig.3 The specific structure of the ELA attention mechanism

具体而言,对于输入特征图X,模型先在水平和垂直方向分别进行一维平均池化操作,得到特征向量Xw ​和Xh。这一步骤能够有效减少特征图的尺寸,降低计算复杂度。随后,使用一维卷积对Xw​Xh 进行卷积操作,并通过归一化和Sigmoid函数生成注意力权重YwYh​​。这一过程可以表示为公式(1)公式(2)
Y w = S i g m o i d ( G N ( C o n v 1 D ( A v g p o o l w ( X ) ) ) )
Y h = S i g m o i d ( G N ( C o n v 1 D ( A v g p o o l h ( X ) ) ) )
式中:AvgPool表示平均池化操作;Conv1D表示一维卷积操作;GN表示归一化操作。归一化操作能够解决不同通道之间尺度不一致的问题,确保训练的稳定性。Sigmoid函数将特征映射到[0,1]范围内,生成注意力权重。
最后,将输入特征图XYwYh 逐元素相乘,得到加权后的输出特征图Y。这一过程可以表示为公式(3)
y = X × Y w × Y h
通过这种方式,ELA注意力机制能够在水平和垂直方向上分别建模空间依赖关系,增强模型对微小目标的特征提取能力,同时保持较低的计算复杂度,非常适合部署在无人机等轻量化设备上。
ELA注意力机制的引入有效提升了模型对玉米螟虫洞的检测性能。通过动态加权特征图的空间位置,模型能够更准确地捕捉虫洞的细节信息,从而提升检测精度。此外,ELA注意力机制的计算效率较高,仅引入了极少的额外参数,确保了模型在轻量化设备上的高效运行。

1.3.3 微小目标检测模块

微小目标检测模块的核心思想是通过扩展Neck部分,新增一个320×320像素的P2检测头,直接利用Backbone前几层的高分辨率特征进行检测。具体的做法是在YOLOv11模型的第15层后继续进行上采样操作,将特征图的尺寸从160×160像素扩展至320×320像素。接着将扩展后的特征图与Backbone第2层输出的高分辨率特征图进行拼接(Concat),并通过C3k2模块进行特征融合。最后,对融合后的特征图进行与P3、P4、P5检测头相同的处理操作,生成P2检测头的输出。添加P2检测头后的结果如图2中Neck部分所示。
通过引入P2检测头,模型能够直接利用浅层网络提取的高分辨率特征,有效提升对微小目标的检测能力。P2检测头对应的特征图尺寸为320×320像素,能够检测8×8像素以上的目标,非常适合玉米螟虫洞这样的微小目标检测任务。

1.3.4 轻量级C3k2-SCConv模块

本研究在 C3k2模块的基础上集成了SCConv模块,其结构如图4所示。SCConv模块的核心思想是通过空间重构单元(Spatial Reconstruction Unit, SRU)和通道重构单元(Channel Reconstruction Unit, CRU)对特征图中的冗余信息进行抑制24,从而减少计算量并提升特征表达能力。对于输入特征图X而言,模型先通过SRU对空间冗余进行处理。SRU的第一步是对特征图进行通道分离,并计算每个通道的权重Wγ,以衡量每个通道对整体特征的贡献。这一过程可以表示为公式(4)公式(5)
X o u t = G N X = γ X - μ σ 2 + ε + β
W γ = w i = γ i j = 1 C γ j ,   i , j = 1,2 , · · · , C
式中:GN表示归一化操作;μσ分别是特征图的均值和标准差;ϵ是一个极小的常数,用于防止分母为零;γβ是可训练的参数;wi 表示第i个通道的权重值;γiGN层中可训练的缩放参数,用于评估每个通道的空间像素方差。通过计算通道权重,SRU能够有效区分重要通道和冗余通道,从而为后续的特征增强和冗余抑制提供依据。
图4 SCConv卷积的具体结构

Fig. 4 Specific structure of SCConv convolution

在SRU的第二步中,特征图通过权重W进行重构。具体操作是先使用权重W对特征图X进行加权,得到新的特征图Xw。接着将Xw 按通道分为两部分,并进行交叉组合,使信息丰富的特征图与信息匮乏的特征图逐元素相加,生成信息更丰富的特征图。这一过程不仅增强了重要通道的特征表达能力,还抑制了冗余通道的影响,从而提升了特征图的质量。
在CRU中,特征图先通过自适应阈值α按通道分为两部分,将这两部分分别通过1×1卷积进行通道压缩,得到X upX low。接着对X up​进行PWC(Pointwise Convolution)和GWC(Groupwise Convolution)操作,并将结果逐元素求和得到Y 1,同时对X low​进行PWC操作后,与其本身结合得到Y 2​。最后,再使用全局平均池化和Softmax函数生成特征重要性向量,对Y 1​和Y 2​进行加权求和,得到最终输出。
本研究通过在C3k2模块中引入SCConv卷积实现了模型的轻量化设计。C3k2-SCConv模块结构如图4所示。该模块旨在保持特征表达能力的同时,进一步减轻模型计算负担,为无人机等轻量化平台上的部署提供结构基础支持。

1.3.5 NWD与EIoU相结合的损失函数

在目标检测任务中,损失函数的设计对模型的性能具有重要影响。本研究引入了一种结合归一化Wasserstein距离(Normalized Wasserstein Distance, NWD)与EIoU的损失函数25。其中NWD基于Wasserstein距离(Wasserstein Distance, WD)实现26,其核心思想是衡量将一个分布映射为另一个分布所需的最小整体代价。具体而言,对于预测框和目标框,NWD的计算如公式(6)所示。
W = c p x - c t x 2 + c p y - c t y 2 + w p - w t 2 + h p - h t 2 4
式中:cpxctx 分别表示预测框和目标框的中心点横坐标;cpycty 分别表示纵坐标;wpwt 分别表示预测框与目标框的宽度,像素;hpht 分别表示预测框与目标框的高度,像素。通过指数缩放和归一化处理,NWD能够有效降低目标尺度对损失计算的影响,从而提升模型在不同尺度上的泛化能力。此外,NWD还解决了传统IoU损失函数在无重叠情况下梯度消失的问题,特别适合玉米螟虫洞这样的微小目标检测任务。
EIoU是CIoU的改进版本,其在宽高回归损失的计算中避免了反三角函数的使用,从而降低了计算复杂度,并加快了收敛速度。EIoU的宽高损失计算如公式(7)所示。
l w h = l w + l h = w p - w t 2 w c 2 + h p - h t 2 h c 2
式中:lw 为宽度回归损失;lh 为高度回归损失。wpwt 分别表示预测框和目标框的宽度;hpht 分别表示预测框和目标框的高度;wchc 分别表示预测框和目标框构成的最小外接矩形的宽度和高度;单位均为像素。与CIoU相比,EIoU的梯度更加平滑,训练过程更加稳定,特别适合小目标检测任务。本研究将NWD与EIoU相结合,形成了一种新的回归损失函数。具体计算如公式(8)所示。
l = λ 1 l N W D + λ 2 l E I o U
式中:λ 1λ 2为权重系数,用于平衡NWD和EIoU的贡献。l NWDl EIoU分别为NWD和EIoU计算出的损失。通过这种设计,模型能够在大目标和小目标之间找到一个平衡点:大目标主要依赖EIoU进行优化,而小目标则主要依赖NWD,最终达到提升检测性能的目的。NWD与IoU损失函数在不同情况下的优劣如图5所示。
图5 NWD与IoU损失函数在不同情况下的优劣

Fig. 5 The advantages and disadvantages of NWD and IoU loss functions in different situations

1.4 虫害等级划分方法

在完成玉米螟虫洞的检测后,本研究进一步利用决策树算法对虫害程度进行分类,进一步生成玉米螟虫害分布热力图,从而为农田管理提供科学依据。决策树是一种经典的监督学习算法27,广泛应用于分类和回归任务。其核心思想是通过一系列规则或决策,将输入数据按照特定特征进行划分,最终生成分类标签或预测结果。在本研究中,决策树的主要任务是根据检测到的玉米螟虫洞数量,将农田区域划分为“轻微”“普通”和“严重”三个虫害等级。
决策树的构建过程基于最小化均方误差(Mean Squared Error, MSE)的原则。在构建时会先对输入数据进行排序,然后遍历所有可能的阈值组合,同时计算每组阈值对应的均方误差。均方误差的计算为公式(9)
M S E = i y i - y ^ 2
式中:yi 为第i个样本的虫洞数量;ŷ为该节点中所有样本虫洞数量的均值。通过计算MSE,决策树能够找到最优的阈值组合,从而实现对虫害程度的准确分类。
在构建决策树的过程中,由于本研究所使用的数据集中“轻微”“普通”和“严重”三类图像数量存在较大差异,可能对最终寻找到的最优阈值组合产生较大影响。为此,采用SMOTE(Synthetic Minority Over-Sampling Technique)方法对少数类样本进行过采样,生成合成样本至约800张,同时使用RUS(RandomUnderSampler)对多数类样本进行随机欠采样至800张,从而提升分类结果的稳健性,减缓不平衡样本所带来的影响28

1.5 实验环境与评价指标

1.5.1 实验环境

本实验的计算资源由AutoDL算力平台提供,服务器操作系统为Ubuntu 20.04,CPU为Intel Xeon Platinum 8352V,GPU型号为NVIDIA RTX 4090(24 GB显存)。深度学习环境配置为PyTorch 1.10.0、Python 3.9和CUDA 11.3,以确保模型训练和推理的高效运行。
在本研究中,模型训练时采用了分阶段策略,以解决玉米螟虫洞检测任务中常见的梯度不稳定问题。具体而言,训练过程分为两个阶段:初始训练阶段和二次训练阶段。在初始训练阶段,模型的最大迭代次数设置为30轮,优化器采用随机梯度下降法(Stochastic Gradient Descent, SGD)29,动量值设为0.937,初始学习率设为0.01。SGD优化器具有较强的随机性,能够在参数空间中进行广泛搜索,帮助模型快速跳出局部最优,进入一个相对较好的参数区域。这一阶段的训练为后续的优化奠定了坚实的基础。
在初始训练完成后,加载预训练模型进行二次训练。二次训练阶段的最大迭代次数设置为500轮,优化器切换为AdamW(Adaptive Moment Estimation with Weight Decay)30,动量值保持0.937,初始学习率重置为0.01。AdamW优化器结合了自适应学习率和权重衰减机制,能够更精细地调整梯度更新,从而提升模型的收敛速度和稳定性。为进一步缓解小目标信息丢失的问题、增强模型的检测能力,训练阶段将模型输入图像的分辨率像素提升至1 280×1 280,以在缩放比例降低的同时尽可能保留更多虫洞细节信息31

1.5.2 评价指标

在目标检测任务中,评价指标的选择对模型性能的评估至关重要32。本研究用mAP@50(mean Average Precision at IoU Threshold of 0.50)、mAP@50:95(Mean Average Precision Averaged Over IoU Thresholds from 0.50 to 0.95 with Step Size 0.05)、参数量、推理速度(Frames Per Second, FPS)与计算量(Giga Floating Point Operations, GFLOPs)作为主要评价指标,以全面衡量模型在玉米螟虫洞检测任务中的表现33。mAP@50表示在交并比(Intersection over Union, IoU)阈值为0.5时的平均精度,而mAP@50:95则表示在IoU阈值从0.5到0.95(步长为0.05)范围内的平均精度的均值。mAP@50∶95能够更全面地反映模型在不同IoU阈值下的检测性能,是目标检测任务中常用的综合评价指标。参数量直接体现了模型的大小,FPS代表模型每秒能处理的图像数量,GFLOPs表示模型每次前向推理所需的计算量,数值越小,说明模型计算复杂度越低,运行效率越高。
在本研究中,由于玉米螟虫洞检测任务仅涉及单一类别,mAP@50和mAP@50∶95的计算基于精确率(Precision)和召回率(Recall)。精确率反映了模型检测结果的可靠性,计算如公式(10)所示。
P r e c i s i o n = T P T P + F P
召回率则反映了模型对正样本的覆盖能力,计算如公式(11)所示。
R e c a l l = T P T P + F N
式中:TP(True Positive)表示模型正确检测到的正样本数量;FP(False Positive)表示模型错误检测到的负样本数量;FN(False Negative)表示模型未能检测到的正样本数量。通过绘制精确率-召回率曲线(Precision-Recall Curve),并计算曲线下面积,可以得到AP(Average Precision)值。由于任务仅涉及单一类别,AP值与mAP值相同。

2 结果与分析

2.1 模型性能曲线与实验结果

本研究所改进模型的训练损失、验证损失、精确率及召回率在训练过程中的变化如图6所示。从图6中可以看出,训练损失和验证损失的下降趋势基本相同。在最初的100轮训练中,训练损失和验证损失分别快速下降至1.5和1.4左右,随后逐渐趋于平稳,并持续缓慢下降,表明模型在有效学习特征的同时未出现过拟合,具有良好的泛化能力。模型的精确率和召回率也呈现出同步上升的趋势,在最初的100轮训练中,精确率和召回率分别快速增长至72%和74%附近,并在后续训练中逐步稳定至79%和81%左右。该趋势说明模型在检测准确性和目标识别能力方面表现优异,能够有效兼顾漏检与误检问题,尤其适用于小目标密集、背景复杂的虫洞检测任务。
图6 YOLO-ESN模型在训练过程中训练损失、验证损失、精确率与召回率的变化情况

Fig. 6 Changes in training loss, validation loss, precision, and recall of the YOLO-ESN model during training

实验结果表明,YOLO-ESN模型在玉米螟虫害检测任务中表现优异,其中mAP@50达到88.6%,mAP@50∶95为40.5%,精确率为80.2%,召回率为82.1%。同时,模型参数量仅为8.37 M,具备较好的轻量化特性,能够有效兼顾检测精度与运行效率,具备在嵌入式设备上部署应用的可行性。

2.2 消融实验分析

为了验证改进模块对模型性能的影响,本研究设计了一系列消融实验,分别评估ELA注意力机制模块、微小目标检测模块、轻量级C3k2-SCConv模块,以及NWD与EIoU相结合的损失函数对模型性能的贡献。实验结果表明,每个改进模块均在不同程度上提升了模型的检测性能,且模块之间的组合进一步增强了模型的整体表现,同时有效减少了模型参数量。具体实验结果见表1
表1 YOLO-ESN模型的消融实验结果

Table1 Ablation results of the YOLO-ESN model

实验 ELA_S 微小目标检测 SCConv NWD+EIoU 参数量/M mAP@50/% mAP@50:95/% 计算量/GFLOPs 推理速度/FPS
YOLOv11 9.46 81.0 35.6 21.7 44.18
A 8.46 81.3 34.6 20.8 38.28
B 9.57 85.1 36.8 28.9 32.51
C 9.22 81.9 35.7 21.5 42.26
D 9.46 82.9 36.8 21.7 44.13
E 8.61 86.9 39.5 28.2 33.49
F 8.22 83.5 35.9 20.6 36.15
G 8.46 83.1 36.2 20.8 38.39
H 9.34 87.3 39.6 28.8 32.74
I 9.57 86.8 38.4 28.9 34.31
J 9.22 83.4 36.8 21.5 43.81
K 8.37 87.9 40.3 28 31.94
L 8.61 88.1 39.1 28.2 32.37
M 8.25 84.2 37.6 20.6 37.45
N 9.34 87.7 39.5 28.8 31.79
O 8.37 88.6 40.5 28.0 32.48
首先,单独使用ELA注意力机制模块(实验A)对模型性能的提升效果有限,mAP@50和mAP@50∶95分别为81.3%和34.6%,与基准模型(YOLOv11)的性能相近,mAP@50仅提升0.3个百分点。然而,当ELA模块与微小目标检测模块结合时(实验E),模型的mAP@50和mAP@50∶95分别提升至86.9%和39.5%,优于单独使用ELA模块或微小目标检测模块的效果。这表明,ELA模块通过增强模型对关键特征的感知能力,与微小目标检测模块的高分辨率特征提取功能形成了良好的互补效应。此外,ELA注意力机制所引入的额外参数极少,使得模型参数量仅为8.46 M,较基准模型减少了10.57%,进一步验证了该模块在提高检测性能和模型轻量化方面的优越性。
其次,单独使用微小目标检测模块(实验B)有效提升了模型的检测性能,mAP@50和mAP@50∶95分别达到85.1%和36.8%,相较基准模型分别提升了4.1和1.2个百分点。这一结果表明,P2检测头通过直接利用浅层的高分辨率特征,有助于增强模型对微小目标的检测能力。此外,当微小目标检测模块与轻量级C3k2-SCConv模块结合时(实验H),模型的mAP@50和mAP@50∶95进一步提升至87.3%和39.6%,参数量也下降至9.34 M,证明了C3k2-SCConv模块在减少模型参数量的同时,能够有效提升特征融合的准确性和稳定性。
轻量级C3k2-SCConv模块(实验C)单独使用时,模型的mAP@50和mAP@50∶95分别为81.9%和35.7%,相较于基准模型有一定提升,其中mAP@50提升了0.9个百分点。此外,C3k2-SCConv模块与NWD+EIoU损失函数结合时(实验J),模型的mAP@50和mAP@50:95分别达到83.4%和36.8%,进一步证明了C3k2-SCConv模块在轻量化设计中的有效性。
最后,NWD与EIoU相结合的损失函数(实验D)单独使用时,模型的mAP@50和mAP@50∶95分别为82.9%和36.8%,相较于基准模型分别提升了1.9和1.2个百分点。当NWD+EIoU损失函数与微小目标检测模块结合时(实验I),模型的mAP@50和mAP@50∶95进一步提升至86.8%和38.4%,表明NWD+EIoU损失函数在小目标检测任务中表现出更优的适应性。
综合所有改进模块的实验结果(实验O)表明,尽管模型的计算量增加了6.3 GFLOPs,推理速度下降了11.7 FPS,但其在mAP@50和mAP@50∶95上分别达到了88.6%和40.5%,相比基准模型提升了7.6和4.9个百分点。同时,模型参数量减少了11.52%,在满足嵌入式部署需求的前提下大幅提升了检测性能,充分验证了本研究所提出改进方法在模型轻量化与性能提升方面的有效性。YOLOv11基准模型与本研究所改进模型的注意力图及检测结果如图7所示。
图7 YOLOv11及YOLO-ESN模型在三类图像上的注意力图及检测结果

注:图c中检测到的目标数量分别为134、28、3,图d中检测到目标的数量分别为158、36、6。

Fig. 7 Attention maps and detection results of YOLOv11 and YOLO-ESN models on three types of images

2.3 对比实验

为了进一步验证改进YOLO-ESN模型的性能优势,本研究将其与当前主流的目标检测模型进行了对比实验。表2展示了YOLOv8、YOLOv11、YOLOv12、Faster R-CNN、SSD,以及本研究所改进的YOLO-ESN模型经过500轮训练后得到的最终性能结果。实验结果表明,改进后的YOLO-ESN模型在检测精确率、召回率、参数量,以及mAP指标上均优于其他模型,充分证明了本研究提出的改进方法的有效性。
表2 玉米螟虫害检测研究中四个模型的对比实验结果

Table 2 Comparative experimental results of four models in corn borer pest detection research

模型 精确率/% 召回率/% mAP@50/% mAP@50:95/% 参数量/M 计算量/GFLOPs 推理速度/FPS
YOLOv8 72.4 79.2 81.3 35.1 11.14 28.60 60.9
YOLOv11 73.9 79.8 81.0 35.6 9.46 21.70 44.18
YOLOv12 67.9 74.6 77.5 33.7 9.10 19.40 75.44
Faster R-CNN 70.1 70.6 73.7 30.8 137.10 370.21 15.10
SSD 65.4 67.2 70.8 29.1 26.29 62.75 23.93
YOLO-ESN 80.2 82.1 88.6 40.5 8.37 28.00 32.48
在mAP@50指标上,YOLO-ESN模型展现出优异的性能,达到88.6%,相较于YOLOv8(81.3%)、YOLOv11(81.0%)、YOLOv12(77.5%)、Faster R-CNN(73.7%)和SSD(70.8%)分别提升了7.3、7.6、11.1、14.9以及17.8个百分点。这一结果充分表明,YOLO-ESN模型在玉米螟虫洞检测任务中具备更高的检测精度和更强的泛化能力。
在mAP@50:95指标上,YOLO-ESN模型同样表现优异,最终达到40.5%,相较于YOLOv8(35.1%)、YOLOv11(35.6%)、YOLOv12(33.7%)、Faster R-CNN(30.8%)和SSD(29.1%)分别提升了5.4、4.9、6.8、9.7和11.4个百分点。mAP@50∶95指标能够更全面地反映模型在不同IoU阈值下的检测性能,YOLO-ESN模型在这一指标上的提升进一步证明了其在不同检测场景下的鲁棒性和泛化能力。
并且,YOLO-ESN模型在精确率和召回率上也同样突出。实验结果显示,YOLO-ESN模型的精确率和召回率分别达到80.2%和82.1%,相较于YOLOv8(72.4%和79.2%)、YOLOv11(73.9%和79.8%)、YOLOv12(67.9%和74.6%)、Faster R-CNN(70.1%和70.6%)和SSD(65.4%和67.2%)均有提升,其中,较YOLOv11基准模型分别提升了6.3和2.3个百分点。这一结果表明,YOLO-ESN模型不仅能够更准确地检测玉米螟虫洞,还能够更全面地覆盖正样本,减少漏检和误检的情况。
从参数量、计算量和推理速度三个方面来看,YOLO-ESN表现出良好的轻量化特性和实用性。在参数量方面,YOLO-ESN仅有8.37 M,在所有模型中最少,相比YOLOv8(11.14 M)和SSD(26.29 M)分别减少24.86%和68.17%;在计算量方面,YOLO-ESN的计算量为28.0 GFLOPs,基本与YOLOv8(28.6 GFLOPs)持平,远低于Faster R-CNN(370.21 GFLOPs)和SSD(62.75 GFLOPs),体现出较低的计算开销;在推理速度方面,YOLO-ESN为32.48 FPS,虽略低于YOLOv8(60.9 FPS)和YOLOv12(75.44 FPS),但仍明显优于Faster R-CNN(15.1 FPS)和SSD(23.93 FPS),在保证检测精度的同时兼顾了推理效率。综合来看,YOLO-ESN在参数量、计算量和推理速度之间实现了良好平衡,具备更强的部署灵活性和实际应用价值。
此外,YOLOv12在检测性能上的表现低于预期,但其在检测速度和模型大小方面具有优势。究其原因,YOLOv12的核心创新在于引入了区域注意力模块(Area Attention, A2)和残差高效层聚合网络(Residual Efficient Layer Aggregation Networks, R-ELAN)34,这些设计有助于提升了模型在常规目标检测任务中的性能。然而,这些优化主要针对常规场景,未能充分考虑低空近景图像的特殊性,如小目标占比高、目标方向多样以及背景复杂等问题。A2在处理微小目标时无法充分捕捉细节信息,而R-ELAN在复杂背景下难以有效区分目标与噪声。因此,尽管YOLOv12在常规目标检测任务中表现出色35,但在低空近景图像检测任务中的性能却受到很大限制,还有待进一步优化。
综上所述,YOLO-ESN模型在精确率、召回率、mAP指标和参数量等方面均优于当前主流的目标检测模型,充分验证了本研究提出的改进方法的有效性,能够为玉米螟虫害精准检测提供可靠的技术支持。

2.4 虫害等级划分与热力图可视化

为了全面评估改进后的YOLO-ESN模型在实际应用中的表现,本研究对模型在虫害严重、虫害普通和虫害轻微三类图像上的检测结果进行了详细分析。如图7所示,在虫害严重的图像中,模型能够精准识别密集分布的虫洞;在虫害普通的图像中,模型能够有效区分虫洞与背景噪声;在虫害轻微的图像中,模型依然能够捕捉到少数虫洞的细节信息。这些结果充分证明了YOLO-ESN模型在不同虫害场景下的鲁棒性和泛化能力。实验结果表明,YOLO-ESN模型在不同虫害程度的图像上均表现出色,能够准确检测出玉米螟虫洞的位置和数量。
仅依靠检测结果本身难以直观反映农田中虫害的分布情况。因此,本研究进一步结合决策树算法对检测结果进行分析,并生成虫害分布热力图。决策树算法通过MSE确定虫害程度的分类阈值:当玉米螟虫洞数量处于0~<19时,判定为“轻微”虫害;当虫洞数量处于19~66时,判定为“普通”虫害;当虫洞数量>66时,判定为“严重”虫害。实验表明,该决策树在虫害分类任务中表现出色,精确率、召回率和F 1分数均达到较高水平。具体而言,“轻微”虫害类别的F 1分数为0.906,“普通”虫害类别的F 1分数为0.803,“严重”虫害类别的F 1分数为0.842。具体结果如表3所示
表3 虫害等级划分研究中决策树的分类报告

Table 3 Classification report of decision tree in pest classification study

虫害等级 精确率 召回率 F 1分数
轻微 0.900 0.912 0.906
普通 0.805 0.801 0.803
严重 0.941 0.762 0.842
基于决策树的分类结果,本研究生成了玉米螟虫害分布热力图。热力图中,虫害程度通过颜色梯度直观呈现:绿色表示“轻微”虫害,绿偏黄及黄色表示“普通”虫害,黄偏红及红色表示“严重”虫害。这种可视化方式不仅能够清晰展示农田中虫害的分布情况,还能为精准农药喷洒和虫害预警提供科学依据。此外,实验还统计了整个区域的虫害总体情况,为农田管理决策提供了数据支持。玉米螟虫害分布热力图如图8所示。
图8 玉米农田与对应构建的玉米螟虫害分布热力图

a. 无人机拍摄的玉米农田图像 b. 农田对应的玉米螟虫害分布热力图

注: 图b中每个色域表示模型对无人机拍摄并分割后的图像检测结果,颜色越偏红,代表玉米螟虫害程度越严重;颜色越偏绿,则代表虫害程度越轻微。图中轻微虫害占39.33%,普通虫害占53.11%,严重虫害占7.56%。

Fig.8 Corn field and the corresponding constructed corn borer pest distribution heat map

通过结合检测结果与可视化分析,本研究不仅实现了对玉米螟虫害的精准检测,还为农田管理提供了高效的工具。虫害分布热力图能够帮助农民快速定位虫害严重区域,优化农药喷洒路径,从而减少农药使用量,降低环境污染风险。同时,该热力图还可用于虫害趋势分析和作物健康评估,为精准农业的发展提供有力支持。

3 结 论

本研究探究了一种基于无人机低空近景图像和改进YOLO-ESN模型的玉米螟虫害检测方法。该方法通过检测玉米螟虫洞来评估虫害程度,有效规避了玉米螟昼伏夜出、虫体难以直接检测等问题,实现了大范围、高效且精度较高的虫害检测,提升了方法在真实田间环境中的适用性。针对虫洞目标小、背景复杂,以及部署要求高等挑战,本研究在YOLOv11模型基础上进行了多项改进:在Backbone中引入ELA注意力机制以增强对微小虫洞特征的提取能力;在Neck中采用轻量化C3k2-SCConv模块,有效抑制冗余信息,提升特征融合效率并降低参数量;新增P2检测头用于浅层高分辨率特征提取,增强小目标检测能力;结合归一化Wasserstein距离与EIoU损失函数,进一步提升边界框回归的精度与稳定性。改进后的YOLO-ESN模型在mAP@50和mAP@50:95上分别达到88.6%和40.5%,较基线模型分别提升7.6和4.9个百分点,且参数量减少11.52%,具备较好的检测性能及嵌入式部署能力。在应用层面,本研究结合无人机图像与虫洞检测结果生成虫害热力图,并借助决策树算法实现虫害等级划分,为精准农药喷洒和农田管理提供了科学依据。
尽管本研究取得了较好的结果,但在虫害类型覆盖与场景多样性等方面仍存在进一步优化的空间。目前模型在玉米螟为主要发生虫害的区域和高发时段下表现良好,具备较强的检测与预警能力。然而,在多种虫害并发的复杂环境中,仍可能存在一定的误判风险,后续研究可以尝试结合区域虫情信息与多源数据,进一步提升模型的适应性与泛化能力。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
ABBAS A, ZHAO C Y, ULLAH W, et al. Towards sustainable farm production system: A case study of corn farming[J]. Sustainability, 2021, 13(16): ID 9243.

[2]
DENG J Y, LAN C Y H, ZHOU J X, et al. Analysis of sex pheromone production and field trapping of the Asian corn borer (Ostrinia furnacalis Guenée) in Xinjiang, China[J]. Journal of integrative agriculture, 2023, 22(4): 1093-1103.

[3]
LIU J, WANG X W. Plant diseases and pests detection based on deep learning: A review[J]. Plant methods, 2021, 17(1): ID 22.

[4]
WEN C J, CHEN H R, MA Z Y, et al. Pest-YOLO: A model for large-scale multi-class dense and tiny pest detection and counting[J]. Frontiers in plant science, 2022, 13: ID 973985.

[5]
YANG S, XING Z Y, WANG H B, et al. Maize-YOLO: A new high-precision and real-time method for maize pest detection[J]. Insects, 2023, 14(3): ID 278.

[6]
ZHANG C, HU Z H, XU L W, et al. A YOLOv7 incorporating the Adan optimizer based corn pests identification method[J]. Frontiers in plant science, 2023, 14: ID 1174556.

[7]
ZHU L Q, LI X M, SUN H M, et al. Research on CBF-YOLO detection model for common soybean pests in complex environment[J]. Computers and electronics in agriculture, 2024, 216: ID 108515.

[8]
黎祖胜, 唐吉深, 匡迎春. 基于改进YOLOv10n的轻量化荔枝虫害小目标检测模型[J]. 智慧农业(中英文), 2025, 7(2): 146-159.

LI Z S, TANG J S, KUANG Y C. A lightweight model for detecting small targets of Litchi pests based on improved YOLOv 10n[J/OL]. Smart agriculture, 2025, 7(2): 146-159.

[9]
CHEN C J, HUANG Y Y, LI Y S, et al. Identification of fruit tree pests with deep learning on embedded drone to achieve accurate pesticide spraying[J]. IEEE access, 2021, 9: 21986-21997.

[10]
BETTI SORBELLI F, PALAZZETTI L, PINOTTI C M. YOLO-based detection of Halyomorpha halys in orchards using RGB cameras and drones[J]. Computers and electronics in agriculture, 2023, 213: ID 108228.

[11]
PARK Y L, NAHARKI K, KARIMZADEH R, et al. Rapid assessment of insect pest outbreak using drones: A case study with Spodoptera exigua (Hübner) (Lepidoptera: Noctuidae) in soybean fields[J]. Insects, 2023, 14(6): ID 555.

[12]
ABBAS A, SADDAM B, ULLAH F, et al. Global distribution and sustainable management of Asian corn borer (ACB), Ostrinia Furnacalis (Lepidoptera: Crambidae): Recent advancement and future prospects[J]. Bulletin of entomological research, 2025, 115(1): 105-120.

[13]
王燕, 闵红. 玉米病虫害识别与绿色防控图谱[M]. 郑州: 河南科学技术出版社, 2021.

[14]
XU J H, CAO L J, PAN L L, et al. IMC-YOLO: A detection model for assisted razor clam fishing in the mudflat environment[J]. PeerJ computer science, 2025, 11: ID e2614.

[15]
YOU C Z, KONG H Z. Improved steel surface defect detection algorithm based on YOLOv8[J]. IEEE access, 2024, 12: 99570-99577.

[16]
GENZE N, AJEKWE R, GÜRELI Z, et al. Deep learning-based early weed segmentation using motion blurred UAV images of sorghum fields[J]. Computers and electronics in agriculture, 2022, 202: ID 107388.

[17]
SHI H, LIU C X, WU M, et al. Real-time detection of Chinese cabbage seedlings in the field based on YOLO11-CGB[J]. Frontiers in plant science, 2025, 16: ID 1558378.

[18]
WANG C, HAN Y, YANG C, et al. CF-YOLO for small target detection in drone imagery based on YOLOv11 algorithm[J]. Scientific reports, 2025, 15(1): ID 16741.

[19]
XU W, WAN Y. ELA: Efficient local attention for deep convolutional neural networks[EB/OL]. arXiv: 2403.01123, 2024.

[20]
XU Y, LU J, WANG C. YOLO-SOD: Improved YOLO small object detection[M]// PRICAI 2024: Trends in Artificial Intelligence. Singapore: Springer Nature Singapore, 2024: 164-176.

[21]
QU J L, LI Q, PAN J, et al. SS-YOLOv8: Small-size object detection algorithm based on improved YOLOv8 for UAV imagery[J]. Multimedia systems, 2025, 31(1): ID 42.

[22]
ZHOU S C, YANG L, LIU H T, et al. Improved YOLO for long range detection of small drones[J]. Scientific reports, 2025, 15: ID 12280.

[23]
HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA. IEEE, 2021: 13708-13717.

[24]
LI J F, WEN Y, HE L H. SCConv: Spatial and channel reconstruction convolution for feature redundancy[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 6153-6162.

[25]
ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.

[26]
WANG J, XU C, YANG W, LI B. A normalized Gaussian Wasserstein distance for tiny object detection[EB/OL]. arXiv: 2110.13389, 2021.

[27]
COSTA V G, PEDREIRA C E. Recent advances in decision trees: An updated survey[J]. Artificial intelligence review, 2023, 56(5): 4765-4800.

[28]
LEEVY J L, JOHNSON J M, HANCOCK J, et al. Threshold optimization and random undersampling for imbalanced credit card data[J]. Journal of big data, 2023, 10(1): ID 58.

[29]
TIAN Y J, ZHANG Y Q, ZHANG H B. Recent advances in stochastic gradient descent in deep learning[J]. Mathematics, 2023, 11(3): ID 682.

[30]
LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization[EB/OL]. arXiv: 1711.05101, 2017.

[31]
NIE H J, PANG H L, MA M Y, et al. A lightweight remote sensing small target image detection algorithm based on improved YOLOv8[J]. Sensors, 2024, 24(9): ID 2952.

[32]
PARK I, KIM S. Performance indicator survey for object detection[C]// 2020 20th International Conference on Control, Automation and Systems (ICCAS). Piscataway, New Jersey, USA: IEEE, 2020: 284-288.

[33]
ZOU Z X, CHEN K Y, SHI Z W, et al. Object detection in 20 years: A survey[J]. Proceedings of the IEEE, 2023, 111(3): 257-276.

[34]
RABBANI ALIF MAL, HUSSAIN M. YOLOv12: A breakdown of the key architectural features[EB/OL]. arXiv: 2502.14740, 2025.

[35]
TIAN Y J, YE Q X, DOERMANN D. YOLOv12: Attention-centric real-time object detectors[EB/OL]. arXiv: 2502.12524, 2025.

文章导航

/