欢迎您访问《智慧农业(中英文)》官方网站! English
专刊--光智农业创新技术与应用

联合空间深度转换卷积与多尺度注意力机制的灯诱稻飞虱害虫检测方法

  • 李汶政 1, 2, 3, 4 ,
  • 杨信廷 2, 3, 4 ,
  • 孙传恒 2, 3, 4 ,
  • 崔腾鹏 2, 3, 4, 5 ,
  • 王慧 2, 3, 4, 6 ,
  • 李珊珊 2, 3, 4, 7 ,
  • 李文勇 , 2, 3, 4
展开
  • 1. 上海海洋大学 信息学院,上海 201306,中国
  • 2. 北京市农林科学院信息技术研究中心,北京 100097,中国
  • 3. 国家农业信息化工程技术研究中心,北京 100097,中国
  • 4. 农产品质量安全追溯技术及应用国家工程研究中心,北京 100097,中国
  • 5. 仲恺农业工程学院 人工智能学院,广东 广州 510225,中国
  • 6. 山东农业大学 信息科学与工程学院,山东 泰安 271018,中国
  • 7. 吉林农业大学 智慧农业研究院,吉林 长春 130118,中国
李文勇,博士,副研究员,研究方向为病虫害智能检测识别技术。E-mail:

李汶政,硕士研究生,研究方向为田间小体积害虫智能检测识别技术。E-mail:

收稿日期: 2025-07-16

  网络出版日期: 2025-09-23

基金资助

国家重点研发计划课题(2022YFD2001801)

北京市自然科学基金资助项目(4252037)

Light-Trapping Rice Planthopper Detection Method by Combining Spatial Depth Transform Convolution and Multi-scale Attention Mechanism

  • LI Wenzheng 1, 2, 3, 4 ,
  • YANG Xinting 2, 3, 4 ,
  • SUN Chuanheng 2, 3, 4 ,
  • CUI Tengpeng 2, 3, 4, 5 ,
  • WANG Hui 2, 3, 4, 6 ,
  • LI Shanshan 2, 3, 4, 7 ,
  • LI Wenyong , 2, 3, 4
Expand
  • 1. College of Information Technology, Shanghai Ocean University, Shanghai 201306, China
  • 2. Research Center of Information Technology, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
  • 3. National Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China
  • 4. National Engineering Laboratory for Agri-product Quality Traceability, Beijing 100097, China
  • 5. College of Artificial Intelligence, Zhongkai University of Agriculture and Engineering, Guangzhou 510225, China
  • 6. College of Information Science and Engineering, Shandong Agricultural University, Tai'an, China 271018
  • 7. Institute of Smart Agriculture, Jilin Agricultural University, Jilin 130118, China
LI Wenyong, E-mail:

LI Wenzheng, E-mail:

Received date: 2025-07-16

  Online published: 2025-09-23

Supported by

National Key Research and Development Program Project(2022YFD2001801)

Beijing Natural Science Foundation(4252037)

Copyright

copyright©2025 by the authors

摘要

[目的/意义] 为解决智能化灯诱设备检测密集、遮挡的低分辨率小体积飞虱类害虫时易出现精度低、误检、漏检的问题,基于YOLOv11x提出了一种联合空间深度转换卷积与多尺度注意力机制的水稻飞虱类小体积害虫图像检测识别方法。 [方法] 首先,通过使用EMA(Efficient Multi-Scale Attention)机制改进YOLOv11x原网络中的C3k2模块,加强模型在密集、遮挡情况下对小体积害虫特征的感知与融合能力。其次,使用SPD-Conv(Space-to-Depth-Convolution)卷积替换原始模型中Conv普通卷积模块,进一步提升模型对低分辨率小体积害虫特征的提取精度并降低了模型参数量。另外,在原始的网络基础上添加P2检测层并去除P5检测层,从而有针对性地增强模型对小目标的检测性能。最后,通过引入动态非单调聚焦机制损失函数(Wise-Intersection over Union Version 3, WIoUv3),提升模型的定位能力,进而降低误检率和漏检率。 [结果和讨论] 改进后的模型在自建飞虱类害虫数据集dataset_Planthopper上的准确率P、召回率R、平均检测精度mAP50和mAP50-95分别达到了77.5%、73.5%、80.8%和44.9%,与基准模型YOLOv11x模型相比,分别提高了4.8、3.5、5.5和4.7个百分点,参数量从56 M减小到40 M,减少了29%。与现在主流的目标检测模型YOLOv5x、YOLOv8x、YOLOv10x、YOLOv11x、YOLOv12x、Salience DETR-R50、Relation DETR-R50、RT-DETR-x相比,改进后的模型综合性能最佳。 [结论] 改进后的YOLOv11x模型,有效提升了在密集、遮挡虫情下检测低分辨率、小体积飞虱类害虫的性能,降低了漏检和误检的概率。

本文引用格式

李汶政 , 杨信廷 , 孙传恒 , 崔腾鹏 , 王慧 , 李珊珊 , 李文勇 . 联合空间深度转换卷积与多尺度注意力机制的灯诱稻飞虱害虫检测方法[J]. 智慧农业, 2025 , 7(5) : 169 -181 . DOI: 10.12133/j.smartag.SA202507024

Abstract

[Objective] Planthoppers suck the sap from the phloem of rice plants, causing malnutrition and slow growth of the plants, resulting in large-scale yield reduction. Therefore, timely and effective monitoring of planthopper pests and analysis of their occurrence degree are of vital importance for the prevention of rice diseases. The traditional detection of planthopper pests mainly relies on manual methods for diagnosis and identification. However, due to the tiny size of planthopper pests, on-site manual investigation is not only time-consuming and labor-intensive but also greatly influenced by human subjectivity, making it easy to misjudge. In response to the above issues, the intelligent light traps can be used to assist in the work. When using intelligent light traps to detect dense and occluded low-resolution and small-sized planthopper pests, problems such as low accuracy, false detection, and missed detection are prone to occur. For this purpose, based on YOLOv11x, a light-trapping rice planthopper detection method by combining spatial depth transform convolution and multi-scale attention mechanism was proposed in this research. [Methods] The image data in this research were collected by multiple light-induced pest monitoring devices installed in the experimental rice fields. The images included two types of planthopper pests, the brown planthopper and the white-backed planthopper. The image sizes were both 5 472 pixels ×3 648 pixels, totaling 998 images. The original dataset was divided into a training set and a validation set in a 4:1 ratio. To enhance the learning efficiency of the model during training, two data augmentation operations, horizontal flipping and vertical flipping, were performed on the images in the training set. A total of 2 388 images in the training set were obtained for model training, and 200 images in the validation set were used for model inference validation. To improve the model performance, first of all, the C3k2 module in the original YOLOv11x network was improved by using the efficient multi-scale attention (EMA) mechanism to enhance the perception of the model and the fusion ability of small-volume pest features in dense and occlusions. Secondly, the space-to-depth-convolution (SPD-Conv) was used to replace the Conv common convolution module in the original model, further improving the extraction accuracy of the model for low-resolution and small-volume pest features and reducing the number of parameters. In addition, a P2 detection layer was added to the original network and the P5 detection layer was removed, thereby enhancing the model's detection performance for small targets in a targeted manner. Finally, by introducing the dynamic non-monotonic focusing mechanism loss function wise-intersection over union (WIoU)v3, the positioning ability of the model was enhanced, thereby reducing the false detection rate and missed detection rate. [Results and Discussions] The test results showed that the precision (P), recall (R), mean average precision at IoU equals 0.50 (mAP50) and the mean average precision at IoU thresholded from 0.50 to 0.95 with a step size of 0.05 (mAP50-95) of the improved model on the self-built rice planthopper dataset (dataset_Planthopper) reached 77.5%, 73.5%, 80.8%, and 44.9% respectively. Compared with the baseline model YOLOv11x, it has increased by 4.8, 3.5, 5.5 and 4.7 percent points, respectively. The number of parameters has been reduced from 56 M to 40 M, a reduction of 29%. Compared with the current mainstream object detection models YOLOv5x, YOLOv8x, YOLOv10x, YOLOv11x, YOLOv12x, Salience DETR-R50, Relation DETR-R50, RT-DETR-x, the mAP50 of the improved model was 6.8, 7.8, 8.6, 5.5, 5.6, 8.7, 6.9 and 6.9 percentage points higher, respectively, and it had the best comprehensive performance. [Conclusions] The improved YOLOv11x model effectively enhances the performance of detecting low-resolution and small-sized planthopper pests under dense and occluded insect conditions, and reduces the probability of missed detection and false detection. In practical applications, it could assist in achieving precise monitoring of farmland pests and scientific prevention and control decisions, thereby reducing the use of chemical pesticides and promoting the intelligent development of agriculture. Although this method has achieved significant improvements in multiple indicators, it still had certain limitations. Firstly, the species of planthoppers were numerous and their forms were diverse. The current models mainly targeted some typical species, and their generalization ability needed to be further verified. Secondly, due to the limitations of the data collection environment, there was still room for improvement in the performance of the model under extreme lighting changes and extremely occluded scenarios. Finally, although the number of parameters had decreased, the real-time detection speed still needed to be optimized to meet the requirements of some low-power edge devices. Future research can focus on expanding the generalization, robustness and lightweighting of more types of rice planthopper models in more complex situations.

0 引 言

稻飞虱(典型为褐飞虱和白背飞虱)是中国水稻生产上危害特别重、特别难以防治的迁飞性重大害虫,能够短时间内暴发成灾,被列入2020年农业农村部公布的《一类农作物病虫害名录》。飞虱类害虫通过刺吸,导致植株营养不良、生长迟缓,严重时引发“虱烧”现象,造成大面积减产1。据统计,中国每年因飞虱类害虫造成的经济损失高达数十亿元2-4。因此,及时有效地对飞虱类害虫进行监测,并分析其发生程度对水稻病害的预防至关重要。
传统的飞虱类害虫检测主要是依赖人工的方式去对害虫进行诊断识别,但由于飞虱类害虫外形微小,人工现场勘察不仅费时费力,而且受人为主观影响大,容易误判。近年来,随着人工智能技术的发展,可以使用深度学习等技术对各类害虫进行自动检测识别,大大缓解了人工检测的劳动强度。
当前主流的目标检测算法主要包括YOLO5(You Only Look Once)和DETR6(Detection Transformer)两个系列。YOLO是一种单阶段实时目标检测算法,其核心思想是将图像划分为网格并直接在每个网格中预测边界框和类别概率,通过端到端训练实现高效快速的检测。DETR是一种利用Transformer架构实现的端到端单阶段目标检测算法,通过编码器-解码器结构直接预测目标框和类别,并使用匈牙利匹配算法优化预测结果。在害虫检测领域方面,Chen等7基于YOLOv8提出了DAMI-YOLOv8l模型,使用灯诱设备制作包含24类田间害虫数据集LP24,平均精度提升了3.7个百分点,并且具有较好的鲁棒性,但是该研究的检测对象多为体积相对较大的蛾类昆虫。彭红星等8提出了高参数量模型YOLOF_PD,使用诱虫灯和水盘制作了害虫收集装置,检测田间农作物害虫时,平均精度达到93.7%,改善了小菜蛾由于遮挡导致检测精度低下的问题。赵辉等9改进了YOLOv7模型,用于检测各种复杂场景下害虫目标,例如遮挡、与背景相似度高的9类害虫,平均精确率达到88.2%,相较原模型提升了3个百分点,但是在检测红蜘蛛和蓟马这类小体积害虫时,虽然改进结果有提升,但平均精确率仍然较低,仅有76.2%和63.2%。Liu等10在DETR的基础上引入了深度可分离卷积层和空间金字塔池化层,并跳过了与编码器输出和对象查询的连接,检测林业害虫时精度提升了6.1个百分点,但是改进后模型检测精度仅有74.1%。Qi等11使用SE12(Squeeze-and-Excitation)和MCCA11(Multihead Criss Cross Attention)注意力机制改进Deformable DETR13的主干和解码器,在Pest24数据集上平均精度达到了72.5%。Tang等14基于YOLOv11提出了SP-YOLO,在复杂背景下多尺度甜菜害虫数据集中,有效地区分了背景和目标,相较于原模型平均精度提升了4.9个百分点。与上述研究中的目标害虫相比,水稻飞虱类害虫体型更小,密集程度更高,更容易被非目标害虫遮挡,导致检测难度更大。
在针对水稻小体积害虫检测识别方面,蒋心璐等15改进了YOLOv5模型并使用AgriPest的子数据集作为试验数据集,检测对象为稻飞虱和小麦螨,改进后的模型平均精度为70.4%,由此可见飞虱类小体积害虫的检测识别具有较高的难度。魏志慧等16提出一种用于检测复杂环境下水稻害虫的ME-Cascade模型,该模型的平均精度达到96.9%,很大程度上缓解了小目标害虫检测精度低、误检、漏检的问题,但数据集中每幅图像中包含的较少害虫数量并且模型参数量达到了88 M。谭泗桥等17使用紫外灯诱虫情监测设备采集了9类水稻害虫图像数据,并使用迁移学习改进了YOLOv8模型,平均检测精度达到77%,还降低了模型大小,但检测对象为体积较大的蛾类害虫。Zhang等18基于ResNet50和自注意力特征金字塔网络 (Self-Attention Feature Pyramid Network, SAFPN)提出了一种稻飞虱计数模型RPH-Counter,模型主要针对自然环境下切割后的稻飞虱图像进行检测,其F 1分数达到92.36%。综上所述,当前基于深度学习的水稻害虫检测识别方法已经取得了较好的结果,但是在检测水稻田间飞虱类害虫时,还存在因其体积小、低分辨率、密集、遮挡的特点导致出现检测精度低、误检、漏检等问题。此外,相比于传统的相机设备,使用智能化灯诱设备采集稻飞虱图像时,除了目标害虫外还会吸引其他害虫,出现害虫间遮挡及相似性害虫现象,从而增加了目标害虫的检测难度。
总体来看,尽管近年来深度学习方法推动了水稻等农作物害虫目标检测水平的提升,但现有方法普遍存在以下共性问题:1)检测低分辨率的小体积害虫时精度表现欠佳;2)害虫密集及相互遮挡时,检测易产生误检、漏检的问题。针对上述问题,本研究基于YOLOv11x提出了一种联合空间深度转换卷积与多尺度注意力机制的水稻飞虱类小体积害虫图像检测识别方法。首先,本研究通过引入高效多尺度注意力(Efficient Multi-Scale Attention, EMA)机制对YOLOv11x网络中的C3k2模块进行改进,增强了模型对密集、遮挡情况下小体积害虫特征的感知与多尺度特征融合能力。其次,采用空间深度转换卷积(Space-to-Depth-Convolution, SPD-Conv)替代原有的普通卷积层,提升了模型对低分辨率小体积害虫特征的提取效果并降低了模型参数量。此外,在原网络结构基础上新增了P2检测层并移除了P5检测层,有效增强了模型在小目标检测方面的表现。最后,通过引入动态非单调聚焦机制损失函数(Wise-Intersection over Union Version 3, WIoUv3),提升了模型的定位精度,进而降低误检率和漏检率。相较于已有方法,本研究所提出的方法提升了在密集、遮挡情况下低分辨率、小体积害虫的检测精度,降低了模型参数量,为水稻害虫精准防治提供了有力的技术支持。

1 材料与方法

1.1 数据采集与预处理

本研究中的图像数据来自多个安装在试验稻田中的灯诱虫情监测设备(图1),拍摄时间为2024年5月—7月每天8∶00—18∶00,每间隔一小时拍摄一张。研究对象包括褐飞虱和白背飞虱两种飞虱类害虫,如图2所示。褐飞虱体色为褐色体色呈褐色至黑褐色,背部无明显纵纹(图2a)。白背飞虱体色呈淡黄或浅褐色,背部有白色纵纹(图2b)。本研究灯诱设备采集的图像数据存储格式为JPG,像素尺寸均为5 472×3 648,图3为采集到的数据中部分害虫图像样例,表1为数据分布指标。在虫情普通情况下(图3a),害虫数量较少,带给检测任务的挑战只有目标尺寸小;在虫情密集的情况下(图3b),背景噪声被进一步加深,在检测时易出现误测的问题;在害虫存在遮挡的情况下(图3c),飞虱类害虫被其他害虫遮挡,使得目标害虫特征信息损失,导致检测时出现漏检的问题。
图1 智能灯诱害虫监测设备

Fig. 1 Intelligent light-trapping pest monitoring equipment

图2 飞虱类害虫图像

Fig. 2 Image of planthopper pests

图3 灯诱稻飞虱害虫数据样例

Fig. 3 Sample data of light-trapping rice planthopper detection

表1 飞虱类害虫数据分布指标

Table 1 The data distribution indicators of the planthopper pests

虫情情况 目标间距均值(x)/像素点 害虫密度(y)/(个/图) 遮挡面积比(z)/%
普通情况 x>5 y≤100 z=0
密集 2˂x≤5 100˂y≤500 z≤20
遮挡 x≤2 y>500 z>20
本研究从采集的图像数据中筛选整理共得到998幅害虫图像,并由植保专家使用网页标注工具MakeSense(https://www.makesense.ai/)对图像中的褐飞虱和白背飞虱进行人工标注。褐飞虱标注框为蓝色,白背飞虱标注框为红色,标注的标签数量分别为9 644和6 382个,导出为YOLO格式的txt文件。以4∶1的比例将998幅害虫图像随机划分为训练集和验证集,之后将训练集中的所有害虫图像水平翻转和垂直翻转进行数据扩增,最终得到训练集图像2 394幅,验证集图像200幅,将其命名为dataset_Planthopper,详细信息如表2所示。为了更直观地体现目标的尺寸大小,本研究制作了数据集标注框尺寸分布直方图,如图4所示。
表2 dataset_Planthopper详细信息

Table 2 The detailed information of dataset_Planthopper

害虫名称 训练集 验证集
图像数/幅 标签数/个 图片数/幅 标签数/个
褐飞虱 2 388 22 922 200 1 944
白背飞虱 14 844 1 331
图4 dataset_Planthopper标注框尺寸分布直方图

Fig. 4 The histogram of the size distribution of the dataset_Planthopper lable box

图4展示了数据集标注框在分辨率像素为640×640的直方图,以其面积平方根来表示。小目标的尺寸定义为标注框面积平方根小于32像素,从图4可以看出,数据集中的目标均为小目标。

1.2 灯诱水稻小体积害虫检测识别模型

在目标检测框架方面,YOLOv11x是由Ultralytics公司推出的最新版本的目标检测算法19。YOLOv11x网络结构主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、检测头(Head)4部分组成。与YOLOv8相比,YOLOv11x在主干和颈部结构上进行了优化,采用了C3K2模块来替代原有的C2F模块。同时,YOLOv11x在快速空间金字塔池化 (Spatial Pyramid Pooling Fast, SPPF)模块后添加了一个类似注意力机制的C2PSA模块,以进一步增强其从图像中提取特征的能力。此外,借鉴了YOLOv1020中的head思路,YOLOv11x引入了基于无锚点的解耦头架构,其中回归分支使用普通卷积块,分类头则使用深度可分离卷积DWConv,这不仅有效减少了冗余计算,还提高了模型的计算效率。

1.2.1 模型框架

YOLOv11x模型在特征融合时使用的P3、P4、P5特征图,分别对应8倍、16倍、32倍下采样,导致小体积害虫的像素信息在深层特征图中几乎消失,难以保留其细节特征;另外使用跨步卷积导致细粒度信息损失和对特征的学习效率低下;同时,当目标形状发生变化时,完全交并比损失函数 (Complete Intersection over Union, CIoU)可能无法很好地捕捉小目标形状的变化,从而导致误检。以上原因成为YOLOv11x检测密集、遮挡小体积害虫时的主要挑战。为了突破这些挑战,本研究首先使用EMA机制对模型中所有的C3k2模块进行改进,构建了C3k2-EMA模块,以增强模型对遮挡、密集的小体积害虫特征提取和特征融合能力;其次,使用SPD-Conv替换模型中除第一个卷积模块外的所有卷积模块,可以有效减少图像细粒度损失,避免低分辨率导致的误检或漏检;然后,为模型添加了160×160的小目标检测头,并去掉模型自带的20×20检测头,进一步提升了模型对小体积害虫的检测能力;最后在边界框回归损失方面,采用动态非单调聚焦机制WIoUv3损失函数替换模型原来的CIoU损失函数,提高了模型的定位能力。改进后的YOLOv11x模型结构如图5所示。
图5 改进的YOLOv11x模型结构

Fig. 5 Improved YOLOv11x model architecture

1.2.2 C3k2-EMA模块

EMA21采用了分组结构,通过多尺度并行子网络设计实现跨空间学习,有效建立短程与长程依赖关系。该机制在将通道维度划分为多组子特征的同时,通过跨维度交互保留各通道信息。EMA机制通过长程依赖建模增强上下文特征,使模型能够更好地理解小体积害虫周围环境包含的丰富的背景信息,使模型能够生成更精确的像素级注意力特征图。EMA机制结构见图6
图6 EMA机制结构图

Fig. 6 EMA mechanism structural diagram

图6所示,输入特征经过分组处理后,由三条并行分支分别进行特征提取。在1×1卷积分支中,双路径分别采用一维全局平均池化对空间双向通道信息进行编码,并通过跨组乘法运算融合通道注意力图,实现并行路径间的跨通道交互。3×3卷积分支采用单一卷积层拓展特征空间维度,有效捕获空间特征。各分支特征通过跨空间学习模块与Sigmoid函数处理后,最终融合生成输出特征图。
针对水稻田间密集、遮挡小体积飞虱类害虫检测任务,模型需具备高精度检测性能。为此本研究引入EMA机制,将其集成到模型中所有的C3k2模块中,构建了C3k2-EMA模块,二者协同作用可以优化特征间依赖关系从而提升模型对小体积害虫特征提取和特征融合的能力,C3k2-EMA模块结构如图7所示。通过采用C3k2-EMA模块替代模型中自带的C3k2模块,有效增强了模型检测性能,本研究改进模型除了前两个C3k2-EMA模块的C3k值为False外,其余值均为True。
图7 C3k2-EMA模块结构图

Fig.7 The structure of the C3k2-EMA module

1.2.3 SPD-Conv特征卷积

YOLOv11x模型使用的是卷积核大小3×3、步幅为2的卷积层进行下采样,在此过程容易造成细粒度信息损失和特征学习效率低,进而对模型检测小体积害虫的性能产生负面影响。由于图像中存在大量害虫密集、遮挡,会出现目标害虫低分辨率、非目标害虫成为噪声等问题,使用跨步卷积和池化层会进一步地加大细粒度信息的损失,进而使模型的误测率偏高。
为了解决这一问题,本研究引入空间深度转换卷积SPD-Conv22,替换除了第一个卷积层外的所有卷积模块。该模块通过扩展特征图尺寸、增加通道深度以及在通道内保留目标特征,不仅可以有效提升模型对体积害虫的检测性能还能减少模型的参数量和计算量。SPD-Conv模块结构如图8所示。输入原始特征图后,此模块通过使用间隔采样的策略获取4幅维度为S/2×S/2×C的特征图,之后拼接通道得到S/2×S/2×4C1的符合特征图,最后利用1×1卷积进行降维处理并构建特征图之间相关性,生成维度为S/2×S/2×C2的特征图。相较于传统卷积算法,SPD-Conv模块在特征提取过程中展现出更强的信息保留能力,从而在水稻田间小体积害虫检测任务中展现出更优秀的特征提取性能。
图8 SPD-Conv模块结构图

Fig. 8 The structure of the SPD-Conv module

1.2.4 模型检测层设计

YOLOv11x原始自带了3个检测层P3、P4和P5,分别对应分辨率为80×80、40×40和20×20的特征图大小。由图4数据集标注框尺寸分布直方图可知,当图像分辨率像素以640×640输入后,飞虱类害虫的像素大概在12×12。随着网络进一步下采样,特征图的分辨率降低得越多,害虫特征信息越容易丢失,从而导致模型检测精度低下,甚至出现漏检的问题。
针对以上问题,为原始的YOLOv11x模型添加一个P2检测层,其分辨率为160×160,并移除模型原来自带的分辨率像素为20×20的P5检测层。P2检测层位于网络的较低层级,具有高分辨率和小感受野,能够捕获更多的细粒度信息,这对于检测小目标尤为重要。P2层能够更好地捕捉小目标的细节信息,因为它直接作用于高分辨率的特征图,能够更精确地保留目标的局部细节,例如边缘、纹理和形状,这些信息在小目标检测中至关重要。通过引入P2层,YOLOv11x能够在较低的网络层级学习小目标的关键特征,显著提升小目标的检测精度,避免漏检现象。因为F2特征图分辨率高,P2检测头需要在更多像素上做卷积操作,所以会导致运算量大幅上升。
P5检测层位于网络的较高层级,具有低分辨率和大感受野,通常提取的是抽象特征,这些特征容易受到背景噪声的干扰,对小目标检测的帮助有限,通常检测尺寸较大的目标。移除P5检测层后,模型重点集中于中底层特征的提取,不仅使模型能够更专注于小目标的检测,还减少了模型的参数量和计算量。实验结果表明,去掉P5检测层后,模型的检测性能优于原模型。调整检测层后的模型特征融合结构如图9所示。
图9 调整检测层后的模型特征融合结构图

Fig. 9 Feature fusion structure after adjusting the detection layer

1.2.5 WIoUv3损失函数

YOLOv11x的原始定位损失函数是CIoU,其引入了预测边界框与真实边界框之间的长宽比,从而使损失函数更加关注边界框的形状。然而,CIoU也存在一些不足:首先,CIoU对目标边界定位更为敏感,若目标边界框定位不准确,CIoU会对检测结果施加更严厉的惩罚,这可能导致边界框回归过程不稳定。其次,当目标形状发生变化时,例如宽高比的变化,CIoU可能无法很好地捕捉小目标形状的变化,从而导致误检。此外,数据集中存在部分低清晰度害虫目标,CIoU仅仅提高损失函数拟合边界框的能力并不能显著提高其定位性能,甚至可能降低其定位准确性。
为了解决以上问题,本研究引入动态非单调聚焦机制损失函数WIoUv323作为改进模型的定位损失函数,这种机制采用了梯度增益分配策略,该策略增强了对高质量锚框的关注,同时减轻了数据集中低质量样本的负面影响。通过多次实验后的结果表明,WIoUv3在特定的超参数下实现效果最好,在极端样本中梯度消失和梯度爆炸的发生概率最小,所以最终选用WIoUv3作为定位损失函数。对于锚框 B = { x , y , w , h }和目标框 B g t = { x g t , y g t , w g t , h g t },其中,各值分别表示其边界框的中心坐标和尺寸,WIoUv3锚框与目标框的位置区域如图10所示。
图10 WIoUv3锚框与目标框的位置区域图

Fig. 10 The location area diagram of the anchor frame and target frame of WIoUv3

WIoUv3的具体计算如公式(1)~公式(5)所示。
R W I o U = e x p ( ( x - x g t ) 2 + ( y - y g t ) 2 ( W g 2 + H i 2 ) * )
L I o U = 1 - I o U
r = β δ α β - δ
β = L I o U L I o U ¯ [ 0 , + )
L W I o U v 3 = r × R W I o U × L I o U
式中:坐标非单调聚焦系数 R W I o U是惩罚项,有助于平衡梯度贡献,确保低质量样本不会对训练过程产生负面影响; x y代表预测框的中心点坐标; x g t y g t真实框的中心点坐标; W g H i 代表预测框和真实框最小围框的宽、高尺寸; L I o U为交并比损失函数,即预测框与真实框的不重叠程度;IoU为预测框与真实框的交集面积与并集面积的比值;r为聚合因子;αδ为超参数,当锚框的离群度达到某一常数时,锚框将获得最高的梯度增益;β为离群值,用于评估锚框的异常程度; L I o U ¯为归一化因子;同时, L I o U的动态特性使得锚框的质量分类标准β也具有动态性,这一机制使WIoUv3能够根据实际场景动态确定最合适的梯度增益分配策略,从而使模型更加关注害虫目标中的中低质量锚框,进而提升整体检测准确度。整合公式(1)~公式(4)得到WIoUv3的损失函数公式(5)

1.3 试验平台与评价指标

1.3.1 试验平台

本研究的试验平台在高性能服务器上搭建,使用的GPU型号为NVIDIA Geforce RTX 3090Ti,CPU型号为Intel(R) Core(TM) i9-12900K,操作系统为Ubantu 20.04,运行内存大小为128 G。基于Python 3.9,搭建深度学习的框架为CUDA 12.1和PyTorch 2.1.2。图像的输入像素大小为640×64,批量大小(batchsize)设为8,训练轮次(epoch)为200,采用的优化器为AdamW,初始学习率设为0.001。

1.3.2 评价指标

改进后的模型使用精确率 (Precision, P)、召回率(Recall, R)、以IoU阈值为0.5计算的平均精度(Mean Average Precision at IoU equals 0.50, mAP50)、以IoU阈值为0.5到0.95范围内计算的平均精度(Mean Average Precision at IoU Thresholded from 0.50 to 0.95 with a Step Size of 0.05, mAP50-95)、参数量(Parameters)、运算量(GFLOPs)6个指标来评估其性能。PR、mAP的计算如公式(6)~公式(9)所示。
P = T P T P + F P × 100 %
R = T P T P + F N × 100 %
A P = 0 1 P ( R ) d R
m A P = 1 N i = 1 N A P i
式中:TP表示模型正确预测为正类的样本数;FP表示模型错误预测为正类的样本数;FN表示模型错误预测为负类的样本数;AP为平均精度;N代表样本数,AP i 代表第i类样本的AP。

2 结果与分析

2.1 不同模型的对比试验

为进一步验证改进的YOLOv11x模型对飞虱类害虫的检测效果,进行了相关对比实验。将YOLO系列的YOLOv5x、YOLOv8x、YOLOv10x,以及YOLOv12x24,DETR系列的RT-DETR-x25、Salience DETR-R5026、Relation DETR-R5027与本研究改进后的模型进行对比。为了保证试验的公平性,YOLO系列和RT-DETR-x训练参数及训练环境均一致,其他模型使用的官方提供的训练参数及训练环境,实验结果如表3所示。
表3 不同检测模型在数据集dataset_Planthopper上的对比试验

Table 3 Comparison results of different detection models on dataset_Planthopper

检测模型 P/% R/% mAP50/% mAP50-95/% 参数量/M 运算量/GFLOPs
YOLOv5x 71.1 69.0 74.0 39.2 97 246
YOLOv8x 70.1 68.8 73.0 37.7 68 256
YOLOv10x 70.8 67.0 72.2 38.9 32 171
YOLOv11x 72.7 70.0 75.3 40.2 56 196
YOLOv12x 72.1 69.0 75.2 40.4 59 200
Salience DETR-R50 86.1 72.1 42.1 56 201
Relation DETR-R50 87.0 73.9 43.1 49 303
RT-DETR-x 74.6 70.1 73.9 41.1 65 223
改进的YOLOv11x 77.5 73.5 80.8 44.9 40 246

注:—表示数据为空。Salience DETR-R50与Relation DETR-R50的评估模型的工具中没有把P作为评价指标,所以表中数据为空。

表3可得知,改进后的模型P达到77.5%,R达到73.5%,mAP50达到80.8%,mAP50-95达到44.9%,参数量为40 M,运算量为246 GFLOPs。与当前主流的目标检测模型YOLOv5x、YOLOv8x、YOLOv10x、YOLOv11x、YOLOv12x、Salience DETR-R50、Relation DETR-R50和RT-DETR-x相比,改进模型的mAP50分别提高了6.8、7.8、8.6、5.5、5.6、8.7、6.9和6.9个百分点,P、mAP50-95两项指标上也均优于对比模型,参数量指标上除YOLOv10x外均优于其他对比模型,R指标除了比Salience DETR-R50、Relation DETR-R50低外也优于其他对比模型,运算量排在第3位,因为随着模型性能的提升,也需要消耗一定的计算资源。以上体现了改进的模型综合性能最好,但在R、参数量和运算量方面仍有改进余地。
Salience DETR-R50、Relation DETR-R50召回率高于本研究所改进的模型,原因是Salience DETR具有显著性筛选机制,在密集的小目标场景中,容易对小目标周围的背景噪声产生候选框从而导致误检;Relation DETR在检测遮挡的小目标时,可能错误关联背景与目标,从而导致误检,以上两种DETR类检测模型都是误检率偏高导致误检的样本被错误计入TP,从而在评估模型时出现R虚高的问题,这也是DETR类检测模型不适合小目标检测任务的原因之一。
除此之外,从表3中也可以看出,YOLOv5x的PR、mAP50、mAP50-95均优于YOLOv8x和YOLOv10x,但是参数量大于这两种模型,而且上述三者的PR、mAP50、mAP50-95四项指标均不如本研究基准模型YOLOv11x。YOLO最新版本的YOLOv12x在检测小体积害虫时性能也不如YOLOv11x,参数量方面也是YOLOv11x占优。同时研究发现,RT-DETR-x虽然在PR、mAP50-95方面比YOLOv11x高1.9、0.1、0.9个百分点,但在决定模型性能最重要的指标mAP50比YOLOv11x低了1.4个百分点,其模型复杂度也大于YOLOv11x。综上表明,在选择目标检测模型时,要针对检测任务及其数据集的特点来综合考虑。为了呈现改进后模型相比于其他对比模型统计上显著的优势,对每个模型训练10次,每个模型训练10次得到的mAP50作为一组数据。使用改进后模型的数据组与其余的数据组做配对t检验,得到的t检验结果如表4所示。
表4 灯诱稻飞虱害虫检测研究改进模型与对比模型的t检验结果

Table 4 The t-test results of the improved model and the comparison model for the light-trapping rice planthopper detection research

检测模型 t检验 是否显著
YOLOv5x t=217.46, p=3.10e-32
YOLOv8x t=249.44, p=2.62e-33
YOLOv10x t=275.03, p=4.53e-34
YOLOv11x t=175.89, p=1.41e-30
YOLOv12x t=179.09, p=1.02e-30
Salience DETR-R50 t=278.23, p=3.68e-34
Relation DETR-R50 t=220.66, p=2.39e-32
RT-DETR-x t=219.10, p=2.71e-32
表4可知,t检验后p值均小于0.05,改进后的模型相比于对比模型均有显著优势。

2.2 消融试验

为了评估各个改进模块对水稻害虫检测模型都是有效改进,本研究设计了在自建数据集dataset_Planthoppe上改进的YOLOv11x模型的消融实验,结果如表5所示。
表5 改进的YOLOv11x模型在dataset_Planthopper上的消融实验结果

Table 5 Ablation experimental results of the improved YOLOv11x model on dataset_Planthopper

模型 P/% R/% mAP50/% mAP50-95/% Parameters/M GFLOPs
YOLOv11x 72.7 70.0 75.3 40.2 56 196
YOLOv11x+C3k2-EMA 73.5 70.0 76.8 42.2 65 236
YOLOv11x+SPD-Conv 71.6 70.4 75.4 41.2 48 171
YOLOv11x+P2 74.4 71.6 78.2 42.9 59 252
YOLOv11x+P2-P5 76.5 70.0 78.8 44.0 47 242
YOLOv11x+P2-P5+C3k2-EMA 77.0 73.1 80.1 44.4 48 277
YOLOv11x+P2-P5+C3k2-EMA+SPD-Conv 76.5 73.9 80.1 44.8 40 246
YOLOv11x+P2-P5+C3k2-EMA+SPD-Conv+WIoUv3 77.5 73.5 80.8 44.9 40 246

注:+P2-P5表示模型添加P2检测层的基础上去除P5检测层。

通过表5得知,模型改进后,评估模型检测性能的四项指标PR、mAP50和mAP50-95均有显著提升。在原模型的基础上,添加小目标检测层P2,尽管模型参数量和计算量上涨,但检测效果有了明显的提升,四项指标分别提升了1.7、1.6、2.9、2.7个百分点。由于数据中的目标几乎都是小目标,所以在添加P2小目标检测层的基础上,去掉针对中大目标的检测层P5,虽然会带来R值降低的问题,但其他三项指标都有大幅度提升。在此基础上,使用EMA注意力机制对原始模型自带的C3k2模块改进后,四项指标较调整检测层后的模型分别提升了0.5、3.1、1.3、0.4个百分点。通过引入SPD-Conv进一步优化模型,尽管P略微下降,但是R和mAP50-95有一定的提升并且降低了模型的参数量和运算量。最后,使用WIoUv3损失函数替换原有的损失函数,虽然R值略微下降了0.4个百分点,但是其他三项指标均有所提升。总体来说,在使用增强数据集的基础上,改进后的模型相较于原模型PR、mAP50、mAP50-95分别提升了4.8、3.5、5.5和4.7个百分点,同时参数量减少了约29%。
为了使消融实验呈现统计上显著的改进,对消融实验中的每个模型训练10次,每个模型训练10次得到的mAP50作为一组数据。以模型YOLOv11x的数据组作为基准数据组,其余的数据组都与基准数据组做配对t检验,当p<0.05时,有显著效果,得到的t检验结果如表6所示。由表6可知,所有改进均有显著的提升。
表6 灯诱稻飞虱害虫检测研究消融实验t检验结果

Table 6 The t-test results of the ablation experiment for the light-trapping rice planthopper detection research

模型 t检验 是否显著
YOLO v11x+C3k2-EMA t=47.97, p=1.90e-20
YOLO v11x+SPD-Conv t=3.20, p=4.98e-3
YOLO v11x+P2 t=111.93, p=4.78e-27
YOLO v11x+P2+P5 t=92.74, p=1.40e-25
YOLO v11x +P2+C3k2-EMA t=153.50, p=1.63e-29
YOLO v11x +P2+C3k2-EMA+SPD-Conv t=154.14, p=1.51e-29
YOLO v11x+P2+C3k2-EMA+SPD-Conv+WIoUv3 t=175.89, p=1.41e-30

2.3 不同注意力机制对比试验

为了验证EMA机制改进C3k2模块具有更出色的改进效果,分别使用检测小目标常用的CBAM28(Convolutional Block Attention Module)、ECA29(Efficient Channel Attention)、SEAM30(Separated and Enhancement Attention Module)、SimAM31(Simple Attention Module)机制对C3k2模块进行改进,并进行对比试验,不同注意力机制对比试验如表7所示。
表7 灯诱稻飞虱害虫检测研究不同注意力机制对比试验

Table 7 Comparative tests of different attention mechanisms for the light-trapping rice planthopper detection research

注意力机制 P/% R/% mAP50/% mAP50-95/% Parameters/M GFLOPs
CBAM 75.0 70.3 77.1 40.2 41 242
ECA 76.1 73.9 79.9 43.7 40 242
SEAM 74.6 72.1 78.2 41.0 41 246
SimAM 77.7 70.7 78.8 43.8 40 241
EMA 77.5 73.5 80.8 44.9 40 246
表7得知,分别使用5种注意力机制对YOLOv11x中的C3k2模块进行改进,参数量和运算量变化不大。在四项指标方面,与CBAM相比,PR、mAP50、mAP50-95分别提升了2.5、3.2、3.7、4.7个百分点;与ECA相比P、mAP50、mAP50-95分别提升了1.4、0.9、1.2个百分点;与SEAM相比,PR、mAP50、mAP50-95分别提升了2.9、1.4、2.6、3.9个百分点;与SimAM相比,R、mAP50、mAP50-95分别提升了2.8、2.0、1.1个百分点。虽然PR分别略低于SimAM和ECA,但综合来看,引入EMA机制改进C3k2模块后,实验效果达到最佳。
为了可以更直观地比较不同注意力改进C3k2模块的试验效果,使用Grad-CAM32绘制改进后模型可视化热力图,不同注意力机制对比热力图如图11所示,图上目标害虫已标注,蓝色为褐飞虱,红色为白背飞虱。从图11上可以看出,在普通情况下,各注意力机制都可以聚焦到害虫上,但除了EMA机制外,其他注意力机制均聚焦到非目标害虫。在密集情况下,CBAM受到背景信息影响,SEAM受到非目标害虫影响,而ECA、SimAM对目标害虫的关注程度远不如EMA。在遮挡情况下,除了SimAM、EMA外,其他注意力机制均受到背景信息干扰,而SimAM对害虫的聚焦程度远不如EMA。
图11 灯诱稻飞虱害虫检测研究不同注意力机制对比热力图

Fig. 11 Specific heat maps of different attention mechanisms for the light-trapping rice planthopper detection research

输入图像 CBAM ECA SEAM SimAM EMA

普通

情况

密集
遮挡

2.4 超参数对比试验

WIoUv3损失函数的试验效果非常依赖其自带的超参数αδ,为了使模型可以达到最优的检测性能,选取不同的超参数进行对比试验,不同超参数对比试验如表8所示。
表 8 灯诱稻飞虱害虫检测研究WIoUv3超参数对比试验

Table 8 WIoUv3 hyperparameter comparison test for the light-trapping rice planthopper detection research

损失函数 α δ P/% R/% mAP50/% mAP50-95/%
CIoU 76.5 73.9 80.1 44.8
WIoUv3 1.4 5.0 76.7 72.8 79.5 41.8
WIoUv3 1.6 4.0 75.4 72.1 78.7 42.3
WIoUv3 1.7 4.0 77.0 73.4 80.2 43.6
WIoUv3 1.8 4.0 77.5 73.5 80.8 44.9
WIoUv3 1.9 3.0 77.2 72.2 79.4 43.0
WIoUv3 1.9 4.0 75.9 71.3 78.5 43.2
WIoUv3 2.5 2.0 75.3 69.3 76.8 40.1

注:其中α=1.4、δ=5.0,α=1.6、δ=4.0,α=1.9、δ=3.0,α=2.5、δ=2.0四组试验为文献原文所提供的超参数;—表示没有值。

表8可知,选取超参数组α=1.8、δ=4.0时,试验效果达到最佳,此时PR、mAP50、mAP50-95分别达到77.5%、73.5%、80.8%、44.9%,相比于YOLOv11x原始自带的CIoU损失函数在P、mAP50、mAP50-95分别提升了1.0、0.7、0.1个百分点,虽然R略有损失,但是不影响整体的提升效果。为了更直观地体现WIoUv3比CIoU更有优势,本研究提供了CIoU vs WIoUv3的实际定位效果图,如图12所示。
图12 灯诱稻飞虱害虫检测研究CIoU vs WIoUv3的实际定位效果图

Fig. 12 The actual positioning effect drawing of CIoU vs WIoUv3 for the light-trapping rice planthopper detection research

2.5 飞虱类害虫图像检测可视化效果

图13为YOLOv11x模型和改进后YOLOv11x模型在普通、密集、遮挡情况下检测飞虱类害虫的效果对比,图上目标害虫已标注,蓝色为褐飞虱,红色为白背飞虱。
图13 灯诱稻飞虱害虫研究检测模型改进前后检测效果对比图

Fig. 13 Comparison of detection results before and after model improved for the light-trapping rice planthopper detection research

图13a可以看出,在普通情况下,未改进的YOLOv11x模型小体积害虫时出现了部分目标被漏检和误检的问题。从图13b图13c中可知,在害虫大规模聚集出现密集、遮挡情况时,使用原始模型导致的漏检和误检的问题被进一步加深。综合图13来看,改进后的模型显著提升了小目标害虫检测的精度,降低了误检率和漏检率。

3 讨论与结论

为解决智能化灯诱设备检测密集、遮挡的低分辨率小体积飞虱类害虫时,易出现精度低、误检、漏检的问题,本研究基于YOLOv11x提出了一种联合空间深度转换卷积与多尺度注意力机制的水稻飞虱类小体积害虫图像检测识别方法。引入EMA机制改进C3k2模块,使用SPD-Conv替换原始卷积模块,显著提升了模型对密集、遮挡情况下低分辨率小体积害虫的特征提取和融合能力;添加P2检测层并去除P5检测头,大幅提升了模型对于小目标的检测性能,使其能够更精准地捕捉到图像的细节特征;采用动态非单调聚焦机制的WIoUv3损失函数,增强模型在遮挡和密集场景下小目标的定位精度,有效减少误检率和漏检率。改进后的模型在PR、mAP50和mAP50-95分别达到了77.5%、73.5%、80.8%、44.9%,与基准模型相比,分别提高了4.8、3.5、5.5和4.7个百分点;参数量从56 M减少到40 M,减少了29%,有效提升了在密集、遮挡虫情下检测低分辨率小体积飞虱类害虫的性能,降低了漏检和误检的概率。在实际应用中,能够辅助实现精准的农田虫害监控与科学防控决策,从而减少化学农药使用量,推动农业智能化发展。
尽管本方法在多个指标上取得了显著提升,但仍存在一定局限性。首先,飞虱类害虫种类繁多且形态多变,当前模型主要针对部分典型种类,泛化能力有待进一步验证。其次,受限于数据采集环境,模型在极端光照变化及极度遮挡场景下的表现仍有提升空间。最后,虽然参数量降低,但实时检测速度尚需优化以满足某些低功耗边缘设备的需求。未来研究可以围绕扩充更复杂情况下、更多种类稻飞虱害虫模型的泛化性、鲁棒性、轻量化来展开工作。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
朱友理, 何东兵, 邱晓红, 等. 病虫草危害对稻米品质的影响[J]. 中国稻米, 2021, 27(6): 115-118.

ZHU Y L, HE D B, QIU X H, et al. Effects of damage by diseases, pests and weeds on quality of rice[J]. China rice, 2021, 27(6): 115-118.

[2]
卓富彦, 陈学新, 夏玉先, 等. 2013—2022 年我国水稻病虫害发生特点与绿色防控技术集成[J].中国生物防治学报, 2024, 40(5): 1207-1213.

ZHUO F Y, CHEN X X, XIA Y X, et al. The occurrence characteristics of rice diseases and insect pests and the integration of green control technology in China from 2013 to 2022[J]. Chinese journal of biological control,2024,40(5): 1207-1213.

[3]
蔡永凤. 戊唑醇对褐飞虱的生物活性及其作用机制[D]. 武汉: 华中农业大学, 2022.

CAI Y F. The bioactivity and mechanism of tebuconazole on Nilaparvata lugens (Stål)[D]. Wuhan: Huazhong Agricultural University, 2022.

[4]
刘万才, 刘振东, 黄冲, 等. 近10年农作物主要病虫害发生危害情况的统计和分析[J]. 植物保护, 2016, 42(5): 1-9, 46.

LIU W C, LIU Z D, HUANG C, et al. Statistics and analysis of crop yield losses caused by main diseases and insect pests in recent 10 years[J]. Plant protection, 2016, 42(5): 1-9, 46.

[5]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 779-788.

[6]
王君婵, 洪俐, 朱少龙, 等. 基于深度学习的病害识别方法研究[J]. 农业展望, 2023, 19(8): 90-99.

WANG J C, HONG L, ZHU S L, et al. Research on disease recognition method based on deep learning[J]. Agricultural outlook, 2023, 19(8): 90-99.

[7]
CHEN X, YANG X T, HU H, et al. DAMI-YOLOv8l: A multi-scale detection framework for light-trapping insect pest monitoring[J]. Ecological informatics, 2025, 86: ID 103067.

[8]
彭红星, 徐慧明, 高宗梅, 等. 基于改进YOLOF模型的田间农作物害虫检测方法[J]. 农业机械学报, 2023, 54(4): 285-294, 303.

PENG H X, XU H M, GAO Z M, et al. Insect pest detection of field crops based on improved YOLOF model[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(4): 285-294, 303.

[9]
赵辉, 黄镖, 王红君, 等. 基于改进YOLOv7的农田复杂环境下害虫识别算法研究[J]. 农业机械学报, 2023, 54(10): 246-254.

ZHAO H, HUANG B, WANG H J, et al. Pest identification method in complex farmland environment based on improved YOLOv7[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(10): 246-254.

[10]
LIU B, JIA Y X, LIU L Y, et al. Skip DETR: End-to-end Skip connection model for small object detection in forestry pest dataset[J]. Frontiers in plant science, 2023, 14: ID 1219474.

[11]
QI F, CHEN G M, LIU J Y, et al. End-to-end pest detection on an improved deformable DETR with multihead criss cross attention[J]. Ecological informatics, 2022, 72: ID 101902.

[12]
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 7132-7141.

[13]
ZHU X, SU W, LU L, et al. Deformable DETR: Deformable transformers for end-to-end object detection [EB/OL]. arXiv: 2010.04159, 2020.

[14]
TANG K, QIAN Y R, DONG H L, et al. SP-YOLO: A real-time and efficient multi-scale model for pest detection in sugar beet fields[J]. Insects, 2025, 16(1): ID 102.

[15]
蒋心璐, 陈天恩, 王聪, 等. 大田环境下的农业害虫图像小目标检测算法[J]. 计算机工程, 2024, 50(1): 232-241.

JIANG X L, CHEN TE, WANG C, et al. Small object detection algorithm for agricultural pest images in field environments[J]. Computer engineering, 2024, 50(1): 232-241.

[16]
魏志慧, 张聪, 成泞伸, 等. 一种水稻害虫的小目标检测方法研究[J]. 江苏农业科学, 2024, 52(9): 232-241.

WEI Z H, ZHANG C, CHENG N S, et al. Study on a small target detection method for rice pests[J]. Jiangsu agricultural sciences, 2024, 52(9): 232-241.

[17]
谭泗桥, 陈涵, 朱磊, 等. 基于改进YOLOv8m的稻田害虫识别方法[J]. 农业工程学报, 2025, 41(2): 185-195.

TAN S Q, CHEN H, ZHU L, et al. Rice field pest recognition method based on improved YOLOv8m[J]. Transactions of the Chinese society of agricultural engineering, 2025, 41(2): 185-195.

[18]
ZHANG Z L, ZHAN W, SUN K L, et al. RPH-Counter: Field detection and counting of rice planthoppers using a fully convolutional network with object-level supervision[J]. Computers and electronics in agriculture, 2024, 225: ID 109242.

[19]
KHANAM R, HUSSAIN M. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 2410.17725, 2024.

[20]
WANG A, CHEN H, LIU L H, et al. YOLOv10: Real-time end to-end object detection[EB/OL]. arXiv: 2405.14458, 2024.

[21]
OUYANG D L, HE S, ZHANG G Z, et al. Efficient multi-scale attention module with cross-spatial learning[C]// ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, New Jersey, USA: IEEE, 2023: 1-5.

[22]
SUNKARA R, LUO T. No more strided convolutions or pooling: A new CNN building block for low-resolution images and small objects[M]// Machine Learning and Knowledge Discovery in Databases. Cham: Springer Nature Switzerland, 2023: 443-459.

[23]
TONG Z, CHEN Y, XU Z, et al. Wise-IoU: Bounding box regression loss with dynamic focusing mechanism[EB/OL]. arXiv: 2301.10051, 2023.

[24]
TIAN Y, YE Q, DOERMANN D. YOLOv12: Attention-centric real-time object detectors[EB/OL]. arXiv: 2502.12524, 2025.

[25]
ZHAO Y A, LV W Y, XU S L, et al. DETRs beat YOLOs on real-time object detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2024: 16965-16974.

[26]
HOU X Q, LIU M Q, ZHANG S L, et al. Salience DETR: Enhancing detection transformer with hierarchical salience filtering refinement[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2024: 17574-17583.

[27]
HOU X Q, LIU M Q, ZHANG S L, et al. Relation DETR: Exploring explicit position relation prior for object detection[M]// Computer Vision-ECCV 2024. Cham: Springer Nature Switzerland, 2024: 89-105.

[28]
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block attention module[M]// Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[29]
WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 11531-11539.

[30]
YU Z P, HUANG H B, CHEN W J, et al. YOLO-FaceV2: A scale and occlusion aware face detector[J]. Pattern recognition, 2024, 155: ID 110714.

[31]
YANG L, ZHANG R Y, LI L, et al. Simam: A simple, parameter free attention module for convolutional neural networks[C]// In ternational conference on machine learning. New York, USA: PMLR, 2021: 11863-11874.

[32]
SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[J]. International journal of computer vision, 2020, 128(2): 336-359.

文章导航

/