基于改进RT-DETR的菌棒栽培香菇检测方法

王风云; 王轩宇; 安磊; 封文杰

doi:10.12133/j.smartag.SA202506034

智慧农业 >

2025 1 - 11

DOI: https://doi.org/10.12133/j.smartag.SA202506034

基于改进RT-DETR的菌棒栽培香菇检测方法

王风云 ¹ ,
王轩宇 ² ,
安磊 ³ ,
封文杰 ^,¹

展开

^1. 山东省农业科学院，山东济南 250100，中国
^2. 齐鲁工业大学（山东省科学院）计算机科学与技术学部，山东济南 250300，中国
^3. 东营市河口区行政审批服务局，山东东营 257200，中国

封文杰，研究员，研究方向为农业信息化。E-mail： 34941269@qq.com

王风云，硕士，研究员，研究方向为智慧农业。E-mail： wfylily@163.com

WANG Fengyun, E-mail: wfylily@163.com

收稿日期: 2025-06-29

网络出版日期: 2025-09-11

基金资助

山东省自然科学基金面上项目(ZR2022MC067)

国家重点研发计划(2021YFB3901303)

山东省重点研发计划（重大科技创新工程）(2022CXGC010610)

山东省农业科学院农业科技创新工程(CXGC2024A08)

收起

Detection Method for Log-Cultivated Shiitake Mushrooms Based on Improved RT-DETR

WANG Fengyun ¹ ,
WANG Xuanyu ² ,
AN Lei ³ ,
FENG Wenjie ^,¹

Expand

^1. Shandong Academy of Agricultural Sciences, Jinan 250100, China
^2. Faculty of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250300, China
^3. Dongying Hekou District Administrative Examination and Approval Service Bureau, Dongying 257200, China

FENG Wenjie, E-mail: 34941269@qq.com

Received date: 2025-06-29

Online published: 2025-09-11

Supported by

Natural Science Foundation of Shandong Province(ZR2022MC067)

National Key Research and Development Program of China(2021YFB3901303)

Key Technology Research and Development Program of Shandong Province(2022CXGC010610)

Agricultural Scientific and Technological Innovation Project of Shandong Academy of Agricultural Sciences(CXGC2024A08)

Copyright

Fold

摘要

［目的/意义］ 随着计算机视觉与自动化技术在香菇工厂化生产中的深入应用，拌料、装袋、灭菌、接种等环节已基本实现自动化，而采摘与分级仍高度依赖人工，成为制约产业效率的关键环节。为提升香菇采收阶段的智能化水平，亟需构建高精度、轻量化的目标检测模型。 ［方法］ 提出了一种基于改进RT-DETR（Real-Time DEtection TRansformer）的香菇采收评价模型——FSE-DETR。该模型在主干网络中引入FasterNet Block以降低计算复杂度，并在特征编码阶段设计了小目标特征融合网络（Small Object Feature Fusion Network, SFFN），通过空间到深度卷积（Space-to-depth Conv, SPDConv）保留细粒度空间信息，结合跨阶段全核模块（Cross Stage Partial Omni-Kernel Module, CSPOmniKernel）实现多尺度特征提取与全局上下文建模；同时采用高效交并比（Efficient IoU, EIoU）损失函数优化边界框定位精度与收敛速度。 ［结果和讨论］ FSE-DETR在检测精度和模型效率方面均优于Faster R-CNN（Faster Region-based Convolutional Neural Network）、YOLOv7、YOLOv8m和YOLOv12m等主流模型，在小目标、密集遮挡和低光照条件下表现更加稳定。模型最终准确率达95.8%，召回率为93.1%，平均精度均值为95.3%，同时具备良好的计算效率，参数量为19.1 M，FLOPs为53.6 G，展现出优异的实用性与部署潜力。 ［结论］ FSE-DETR在保持高检测精度的同时实现了轻量化与高效率，能够为香菇工厂化生产中的采收评价提供可靠的技术支持。

关键词： 香菇; 采收评价; FSE-DETR; 深度学习; 目标检测

本文引用格式

王风云 , 王轩宇 , 安磊 , 封文杰 . 基于改进RT-DETR的菌棒栽培香菇检测方法[J]. 智慧农业, 2025 : 1 -11 . DOI: 10.12133/j.smartag.SA202506034

Abstract

[Objective] Shiitake mushroom is one of the most important edible and medicinal fungi in China, and its factory-based cultivation has become a major production model. Although mixing, bagging, sterilization, and inoculation have been largely automated, harvesting and grading still depend heavily on manual labor, which leads to high labor intensity, low efficiency, and inconsistency caused by subjective judgment, thereby restricting large-scale production. Furthermore, the clustered growth pattern of shiitake mushrooms, the high proportion of small targets, severe occlusion, and complex illumination conditions present additional challenges to automated detection. Traditional object detection models often struggle to balance accuracy, robustness, and lightweight efficiency in such environments. Therefore, there is an urgent need for a high-precision and lightweight detection model capable of supporting intelligent evaluation in mushroom harvesting. [Methods] To address these challenges, this study proposed an improved real-time detection model named FSE-DETR, based on the RT-DETR framework. In the backbone, the FasterNet Block was introduced to replace the original HGNetv2 structure. By combining partial convolution (PConv) for efficient channel reduction and pointwise convolution (PWConv) for rapid feature integration, the FasterNet Block reduced redundant computation and parameter size while maintaining effective multi-scale feature extraction, thereby improving both efficiency and deployment feasibility. In the encoder, a small object feature fusion network (SFFN) was designed to enhance the recognition of immature mushrooms and other small targets. This network first applied space-to-depth convolution (SPDConv), which rearranged spatial information into channel dimensions without discarding fine-grained details such as edges and textures. The processed features were then passed through the cross stage partial omni-kernel (CSPOmniKernel) module, which divided feature maps into two parts: one path preserved original information, while the other path underwent multi-scale convolutional operations including 1×1, asymmetric large-kernel, and frequency-domain transformations, before being recombined. This design enabled the model to capture both local structural cues and global semantic context simultaneously, improving its robustness under occlusion and scale variation. For bounding box regression, the Efficient Intersection over Union (EIoU) loss function was adopted to replace GIoU. Unlike GIoU, EIoU explicitly penalized differences in center distance, aspect ratio, and scale between predicted and ground-truth boxes, resulting in more precise localization and faster convergence during training. The dataset was constructed from images collected in mushroom cultivation facilities using fixed-position RGB cameras under diverse illumination conditions, including direct daylight, low-light, and artificial lighting, to ensure realistic coverage. Four mushroom categories were annotated: immature mushrooms, flower mushrooms, smooth cap mushrooms, and defective mushrooms, following industrial grading standards. To address the limited size of raw data and prevent overfitting, extensive augmentation strategies such as horizontal and vertical flipping, random rotation, Gaussian and salt-and-pepper noise addition, and synthetic occlusion were applied. The augmented dataset consisted of 4 000 images, which were randomly divided into training, validation, and test sets at a ratio of 7:2:1, ensuring balanced distribution across all categories. [Results and Discussions] Experimental evaluation was conducted under consistent hardware and hyperparameter settings. The ablation study revealed that FasterNet effectively reduced parameters and computation while slightly improving accuracy, SFFN significantly enhanced the detection of small and occluded mushrooms, and EIoU improved bounding box regression. When integrated, these improvements enabled the final model to achieve an accuracy of 95.8%, a recall of 93.1%, and a mAP50 of 95.3%, with a model size of 19.1 M and a computational cost of 53.6 GFLOPs, thus achieving a favorable balance between precision and efficiency. Compared with mainstream detection models including Faster R-CNN, YOLOv7, YOLOv8m, and YOLOv12m, FSE-DETR consistently outperformed them in terms of accuracy, robustness, and model efficiency. Notably, the mAP for immature and defective mushrooms increased by 2.4 and 2.5 percent point, respectively, compared with the baseline RT-DETR, demonstrating the effectiveness of the SFFN module for small-object detection. Visualization analysis further confirmed that FSE-DETR maintained stable detection performance under different illumination and occlusion conditions, effectively reducing missed detections, false positives, and repeated recognition, while other models exhibited noticeable deficiencies. These results verified the superior robustness and reliability of the proposed model in practical mushroom factory environments. [Conclusions] In summary, the proposed FSE-DETR model integrated the FasterNet Block, Small Object Feature Fusion Network, and EIoU loss into the RT-DETR framework, achieving state-of-the-art accuracy while maintaining lightweight characteristics. The model showed strong adaptability to small targets, occlusion, and complex illumination, making it a reliable solution for intelligent mushroom harvest evaluation. With its balance of precision and efficiency, FSE-DETR demonstrates great potential for deployment in real-world factory production and provides a valuable reference for developing high-performance, lightweight detection models for other agricultural applications.

Key words： shiitake mushroom; harvest evaluation; FSE-DETR; deep learning; object detection

0 引言

香菇（Lentinus edodes），又名香菌、冬菇、香蕈，是一种肉质肥厚、口感脆嫩、营养丰富的食药用真菌。香菇工厂化生产因周期短、土地利用率高，已成为促进乡村振兴的重要手段^［1］。随着需求增长，确保香菇质量和采收准确性尤为关键，其中高经济价值的花香菇备受重视，而普通及残缺香菇价值较低^［2］。然而，传统人工分拣主观性强、效率低，难以满足工厂化生产需求^{［3, 4］}，因此研究先进的香菇检测方法，对提升采收精度和效率、推动产业发展具有重要意义。

目前，国内外对香菇识别和分类的研究已经取得了一定成果。在早期，由于硬件设备的限制，食用菌的检测主要依赖传统的图像处理算法^{［5， 6］}。随着深度学习和机器视觉技术的快速发展，各类目标检测模型逐渐应用于农作物的识别与分类中，如Faster区域卷积神经网络（Faster Region-Based Convolutional Neural Network, Faster R-CNN）^［7］、掩膜区域卷积神经网络（Mask Region-based Convolutional Neural Network, Mask R-CNN^［8］）、单次多框检测器（Single Shot MultiBox Detector, SSD^［9］），以及 YOLO^［10-12］系列模型。Sato-kawa^［13］通过应用形态学变换和Canny边缘检测方法增强图像特征，将香菇分类为开伞或闭伞类型，在测试中达到了95.6%的准确率。Ye等^［14］提出了一种专门用于检测香菇小目标的改进YOLOv8模型。通过结合Swin Transformer和可变形卷积在Fungi数据集上取得了98.49%的AP50（Average Precision at IoU=0.50）。Liu等^［15］利用通道剪枝优化了YOLOX模型，用于香菇质量分类，达到了99.96%的均值平均精度（Mean Average Precision, mAP），且模型大小减少了一半以上。Deng等^［16］开发了一个基于深度学习的无线视觉传感器系统，用于自动化香菇分拣，实际分拣系统达到了98.53%的准确率。Khaidir Amiruddin等^［17］提出了一种基于机器学习的自动化蘑菇分类系统，用于区分蚝菇。该系统通过计算机视觉技术训练和分类扩展和注释过的蘑菇图像，达到了超过90%的准确率。Wang等^［18］提出了一种基于Mask-RCNN的空间通道转换网络用于高效的蘑菇实例分割，该方法结合了Mask-RCNN和自注意力机制，在空间和通道维度提取图像特征，实现了多尺度局部特征融合。尽管上述研究在香菇图像识别、小目标检测或质量分类等方面取得了一定成效，但多数方法主要面向单个食用菌个体或特定品种的分类任务，难以满足工厂化生产环境下对高精度与高鲁棒性检测的实际需求。此外，现有模型的特征提取模块普遍缺乏区分香菇表面与原木背景之间细微纹理差异的能力，且未针对如未成熟香菇等小目标进行专门优化，限制了其在菌棒栽培环境中复杂场景下的检测性能。

Transformer^{［19, 20］}以自注意力机制在目标检测中应用，DETR（DEtection TRansformer）^［21］通过编码器-解码器结构提升特征保留和检测精度，但计算量大，不适用于实时检测。RT-DETR（Real-time DETR）^［22］优化了DETR架构，但仍存在小目标检测能力弱、参数量大和训练复杂的问题，有待进一步改进。

针对香菇工厂采收过程中的评价需求，本研究在RT-DETR基础上提出了改进的FSE-DETR模型。相比原模型，FSE-DETR在主干网络中引入了FasterNet模块替代HGNetv2，降低模型参数并减少计算复杂度；在编码器部分，重新设计了跨尺度特征融合模块，构建小目标特征融合网络，使用空间到深度卷积（Space-to-Depth Conv, SPDConv）和跨阶段全核模块（Cross Stage Partial Omni-Kernel Module, CSPOmniKernel）减少细节信息的丢失，保留香菇的细粒度特征；在损失函数上采用高效交并比（Efficient IoU, EIoU）损失函数，加快模型收敛速度并提高目标定位精度。

1 研究数据

本研究数据集来源于山东省某香菇生产企业和山东省农业科学院。在数据采集过程中，采用固定位置的相机用于拍摄菌棒的图像，设备安装在菌棒正上方，距菌棒水平中心部分45 cm的高度。数据采集设备如图1所示。为全面反映香菇工厂化环境下的实际采收场景，所采集图像涵盖了多种典型检测难点。首先，在光照条件方面，采集样本包括日间直射光、低光环境，以及人工照明区域，呈现出较大光照强度差异，涵盖了香菇工厂内的典型环境，如图2所示。其次，图像中香菇常以簇生形式密集分布，显著增加了检测任务的复杂性。最后，香菇实体的尺寸差异较大，菌盖直径从1~6 cm不等，构成了典型的多尺度检测场景。

显示原图|下载原图ZIP|生成PPT

图1 香菇菌棒图像采集设备

Fig.1 Data collection equipment for shiitake mushroom log images

显示原图|下载原图ZIP|生成PPT

图2 不同光照条件下的香菇菌棒图像样本

Fig.2 Shiitake mushroom log images under different illumination conditions

经过统一裁剪和缩放以去除无关背景后，这些图像以JPG格式保存，分辨率为1 920×1 080像素，共计800张图像。收集到图像后，使用LabelImg对数据进行标注，共包含四个类别：immature（未成熟香菇）、flower（花香菇）、smooth cap（光帽香菇）和defective（残缺香菇）。香菇的分类依据参考了山东省某香菇生产企业的分级标准，结合香菇的菌盖大小、外观结构和完整性进行人工标注，具体评价标准如表1所示。具体来说，根据香菇工厂的采摘标准，首先根据香菇的直径进行初步分类。直径小于4 cm的香菇被归类为未成熟香菇，不进行采摘或质量评估。直径大于4 cm的香菇被认为是成熟香菇，符合采摘标准。成熟香菇进一步细分为花菇、光帽香菇和残缺香菇。花菇的菌盖呈圆形或椭圆形，表面有裂纹，形成花状或网状图案。它们需要严格控制空气湿度和光照，营养价值高，售价也较高。光帽香菇也呈圆形或椭圆形，但菌盖光滑无裂纹。这种类型是市场上最常见的香菇，价格适中，工厂产量最高。形状不规则或损坏的香菇被归类为残缺香菇，通常用于制作香菇酱等产品。

表1 香菇评价标准表

Tab.1 Grading Standards for Shiitake Mushrooms

种类	标签名称	菌盖直径	菌盖特征	是否采摘
花香菇	flower	>=4 cm	呈圆形或椭圆形状，且菌盖开裂形成花状或网状图案	是
光帽香菇	smooth cap	>=4 cm	呈圆形或椭圆形状，且表面光滑没有裂纹	是
残缺香菇	defective	>=4 cm	呈不规则形状，或菌盖表面凹陷，或菌盖破损	是
未成熟香菇	immature	<4 cm	不予判断	否

为了使得数据更好地反映香菇工厂内部真实情况，防止模型训练过程中出现过拟合现象，采用了数据增强技术来处理图片^［23］，添加旋转、翻转、方差为0.06的高斯噪声与椒盐噪声和不同程度的模拟遮挡来扩充数据集，扩充后的数据集共计4 000张图片，并将数据集按照7∶2∶1的比例随机划分为训练集、验证集和测试集。

2 基于改进RT-DETR的菌棒栽培香菇检测方法

2.1　FSE-DETR香菇检测模型

针对香菇工厂采收过程中香菇分布密集、小目标比例高，以及不同等级香菇外形差异等特点，同时为降低模型的计算复杂度并适应实际部署需求，本研究基于RT-DETR设计了一种改进的香菇检测模型——FSE-DETR。该模型主要由主干网络、特征编码网络和解码预测网络三部分组成。

输入一张原始分辨率的香菇菌棒图像，经过缩放和填充操作后，将其转换为适合模型输入的分辨率，并送入FSE-DETR模型进行推理，模型结构如图3所示。在FSE-DETR模型主干网络中使用FasterNet模块，用于提取多尺度特征图。这些特征从高级阶段（S3、S4、S5）中提取，并送入特征编码网络。在特征编码网络中，利用基于注意力的尺度内特征交互模块（Attention-based Intra-scale Feature Interaction, AIFI）和基于CNN的跨尺度特征融合模块（CNN-based Cross-scale Feature Fusion, CCFF），对各个尺度的特征进行交互和融合，将多层次特征转换为图像特征向量，对跨尺度特征融合模块进行重新设计，通过小目标特征融合网络（Small Object Feature Fusion Network, SFFN）中的SPDConv和CSPOmniKernel以增强对小目标特征的处理能力。随后，特征图被输入到解码器中，通过最小不确定性驱动的查询选择机制，从编码网络提取特征作为初始查询。解码过程中引入EIoU损失函数，以提升模型的收敛性和目标定位效果。解码器经过多轮迭代优化，配合辅助预测头，最终生成预测框和置信度评分。

显示原图|下载原图ZIP|生成PPT

图3 FSE-DETR模型结构

Fig. 3 FSE-DETR Model Architecture

2.2　FasterNet模块

RT-DETR 原模型的主干网络（backbone）采用了 HGNetv2结构。然而，HGNetv2的特征提取模块存在较多的冗余操作，导致模型参数量大、计算复杂度高，难以在计算资源有限的场景中应用。因此，本研究在主干网络中引入了 FasterNet^［24］模块以替代原有的HGNetv2结构。如图4所示，FasterNet通过部分卷积（Partial Convolution, PConv）和点卷积（Pointwise Convolution, PWConv）的组合来增强特征提取能力，并显著减少了模型的参数量和计算复杂度。

显示原图|下载原图ZIP|生成PPT

图4 FasterNet模块

Fig.4 FasterNet Module

FasterNet所组成的主干网络由四个阶段组成，每个阶段包含一个 FasterNet模块，特征图的通道数量和空间尺寸在各阶段逐步变化，Stage 1输出通道数为

c 1

，特征图空间尺寸为

h 4 × w 4

，Stage 2输出通道数为

c 2

，特征图空间尺寸变为

h 8 × w 8

，Stage 3输出通道数为

c 3

，空间尺寸为

h 16 × w 16

，Stage 4输出通道数为

c 4

，空间尺寸进一步变为

h 32 × w 32

。PConv通过仅对输入特征图的一部分通道进行卷积操作，保留其余通道不变，从而降低冗余计算和内存访问的次数。计算部分卷积时，浮点运算数（

F L O P s P C o n v

）如公式（1）所示。

F L O P s P C o n v = h × w × k 2 × c p

（1）

式中：

h

和

w

为特征图的高度和宽度；

k

为卷积核的大小；

c p

为参与卷积的通道数量。在PConv之后，紧接着使用PWConv，即1

×

1的卷积，来有效地整合所有通道的信息。PConv与PWConv的组合的浮点运算数（

F L O P s P C o n v + P W C o n v

）计算为公式（2）。

F L O P s P C o n v + P W C o n v = h × w × k 2 × c p 2 + c 2

（2）

FasterNet模块的设计目标是在保证模型精度的前提下，通过高效卷积操作减少计算开销，使得网络更轻量化且适用于资源受限的场景。

2.3　小目标特征融合网络

小目标特征融合网络（Small Object Feature Fusion Network, SFFN）的目的是优化小目标的特征提取与融合，同时保留蘑菇表面的纹理和边缘形状等细粒度特征，从而提升整体检测性能。SFFN主要接收来自P3层的低层特征信息，以充分利用其较高的空间分辨率和丰富的细节信息，捕捉小目标的特征。然而，由于P3层的语义信息较弱，单独依赖该层无法全面表达全局与局部特征。因此，SFFN结合了SPDConv与CSPOmniKernel模块，在保留P3层细粒度特征的同时，通过多尺度特征融合增强全局语义信息的表达能力。这显著提升了对未成熟香菇等小目标的检测精度，并更好地保留了香菇的纹理与边缘细节。

2.3.1　SPDConv空间到深度卷积

在RT-DETR的特征编码网络中，使用基于注意力的尺度内特征交互模块（Attention Based Intra-scale Feature Interaction, AIFI）和基于卷积神经网络的跨尺度特征融合（CNN-based Cross-Scale Feature Fusion, CCFF）对各个尺度的特征进行交互和融合，其中跨尺度特征融合模块使用普通卷积层（Conv）用于特征提取。卷积神经网络已在许多计算机视觉任务中取得了显著成功，然而，由于现有的卷积网络通常使用步幅卷积和池化层，导致了细粒度信息的丢失和特征表示学习效率的下降。因此，通过引入SPDConv^［25］，网络能够更有效地捕捉小目标的细节特征，改善未成熟香菇的检测表现，如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 空间到深度卷积

Fig.5 Space-to-depth Conv

改进后模型SPDConv的主要工作：1）在特征提取阶段，通过在主干网络中引入SPD层，将原始特征图

X

（尺寸为

S × S × C 1

）划分为多个子特征图序列。

每个子特征图将

X

以scale的因子进行降采样。当scale=2时，得到四个子特征图f _0，0，f _1，0，f _0，1，f _1，1，其每个形状为S/2，S/2，C ₁，SPD通过按比例缩小空间维度，并将这些子特征图在通道维度上进行拼接，生成新的特征图

X'

，其尺寸为S/scale，S/scale，scale² C ₁。2）在卷积操作中，由传统的步幅卷积转变为非步幅卷积（即步幅为1的卷积层）。与步幅卷积不同，非步幅卷积通过避免跳跃采样，确保所有的细粒度特征信息得以保留。卷积后，特征图的尺寸转换为S/scale，S/scale，C ₂，其中

C 2

通常小于

s c a l e 2 C 1

。这种卷积方式有效地缩小了特征图的空间维度，同时避免信息丢失，提高了小目标的检测精度。

2.3.2　CSPOmniKernel跨阶段全核模块

通过使用SPDConv将特征图在通道维度进行拼接，从而避免小目标这类细节信息丢失，同时为了增强小目标的特征提取能力，同时保留特征的完整性和多样性，设计了CSPOmniKernel结构。2024年，Cui等^［26］提出了一种用于图像恢复的Omni-Kernel网络，设计了包含全局、大尺度和局部分支的模块，以高效捕获多尺度特征。CSPOmniKernel通过结合跨阶段部分网络（Cross Stage Partial Network，CSPNet）^［27］和全核模块（Omni-Kernel Module，OKM），实现了高效的特征分离与多尺度特征融合。

CSPOmniKernel首先通过CSP结构将输入特征划分为两部分，其中一部分作为恒等映射分支直接保留，以保持特征的完整性，另一部分经过OmniKernel模块处理，以增强特征的多尺度表示能力。OmniKernel模块包含局部分支、上下文分支和全局分支三部分，如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 跨阶段全核模块

Fig.6 Cross stage partial omni-kernel module

局部分支采用1×1的深度卷积（Depthwise Convolution, DConv），专注于局部信号的调制，提取局部细节和精细特征，以补充上下文和全局分支的不足。DConv对每个输入通道独立卷积，减少了计算量和参数量，提升计算效率。上下文分支采用31×31、1×31和31×1三种卷积核进行并行计算，分别用于捕捉大尺度的空间信息和水平、垂直方向的细节特征。全局分支通过双域通道注意力模块（Dual-domain Channel Attention Module, DCAM）和基于频率的空间注意模块（Frequency-Based Spatial Attention Module, FSAM）来增强全局特征的捕捉能力，如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 DCAM和FSAM模块

Fig.7 DCAM and FSAM Modules

在全局分支中，首先通过DCAM在频域和空间域上对特征进行调制。DCAM由频率通道注意模块（Frequency Channel Attention, FCA）和空间通道注意模块（Spatial Channel Attention, SCA）组成，给定输入特征

X G l o b a l ∈ R C × H × W

，首先经过1

×

1卷积操作和全局平均池化（Global Average Pooling, GAP）计算通道全局统计量，然后通过快速傅里叶变换（Fast Fourier Transform, FFT）将特征映射到频域，通过FCA对全局特征进行优化，即

X F C A

，具体计算过程如公式（3）所示。

X F C A = I F F X G l o b a l ⊗ W 1 × 1 F C A G A P X G l o b a l

（3）

式中：

F

和

I F

分别表示FFT及其逆傅里叶变换（Inverse Fast Fourier Transform, IFFT）；

G A P

为全局平均池化；

W 1 × 1 F C A

为1x1卷积层；

⊗

表示逐元素相乘操作。FCA模块通过在频域上调制全局特征，以优化频谱信息。随后，FCA的输出特征经过SCA进一步进行精细化调整，即

X D C A M

，其过程为公式（4）。

X D C A M = X F C A ⊗ W 1 × 1 S C A G A P X F C A

（4）

式中：SCA通过在通道级别上增强特征，实现更加精细的特征调制。通过DCAM的处理后，输出特征进入基于频率的FSAM进一步进行细粒度的优化，即

X F S A M

。在FSAM中，输入特征首先通过FFT转换至频域，再经过两个并行的1

×

1卷积操作进行降维和特征提取，随后通过IFFT返回空间域，生成的空间域特征通过交叉空间学习策略实现全局特征的聚合和像素级关系的捕捉，具体计算为公式（5）：

X F S A M = I F F W 1 × 1 1 X D C A M ⊗ W 1 × 1 2 X D C A M

（5）

式中：通过FSAM，模型可以集中优化关键频率成分，并结合空间域信息，提升细节特征的提取精度，从而增强空间和通道之间的特征交互，实现更精确的多尺度特征表达。

2.4　损失函数优化

在RT-DETR模型中，为了提升目标框与真实框之间的匹配度，原模型采用了广泛应用的GIoU（Generalized IoU）^［28］损失函数。GIoU相比于传统的IoU增加了广义的外包矩形考量，当目标框与真实框没有重叠时，IoU的值为零，无法有效引导目标框的优化。为了解决上述问题，本研究对损失函数进行了改进，引入了EIoU^［29］损失函数。EIoU在GIoU的基础上，进一步考虑了目标框和真实框之间的长宽比和中心点距离，使得模型在目标定位和尺寸匹配的优化过程中更加高效，如图8所示。

显示原图|下载原图ZIP|生成PPT

图8 EIoU损失

Fig.8 Efficient IOU loss

EIoU损失包括三个部分：IoU损失、距离损失（

L d i s

）和高宽损失（

L a s p

）。距离损失通过计算目标框和真实框中心点的欧氏距离，使得模型在定位目标时更加准确。高宽损失则通过分别计算目标边界框和真实边界框的高度和宽度的差异，直接最小化两者之间的差异，从而提高模型的尺寸匹配能力。EIoU的损失函数如公式（6）所示：

L E I O U = L I O U + L d i s + L a s p =

1 - I O U + ρ 2 b, b g t (w c) 2 + (h c) 2 + ρ 2 w, w g t (w c) 2 + ρ 2 h, h g t (h c) 2

（6）

式中：

L I O U

、

L d i s

和

L a s p

分别表示IoU损失、距离损失和高宽损失；

w c

和

h c

分别表示包含预测框和目标框的最小外包矩形的宽度和高度，

w

、

w g t

、

h

和

h g t

分别表示预测框和目标框的宽度和高度。目标框是在数据标注过程中标注的实际位置，而预测框是模型在训练或推理时得出的估计结果。

ρ 2 (b, b g t)

表示预测框中心点

b

与目标框中心点

b g t

之间的欧氏距离的平方，具体计算方式为公式（7）。

ρ 2 x, y = (x 1 - y 1) 2 + (x 2 - y 2) 2

（7）

式中：

x 1

，

x 2

和

y 1

，

y 2

为两个点的坐标。

b

和

b g t

分别表示预测框和目标框的中心点。

通过引入EIoU损失函数，通过独立优化目标框和真实框的长宽比，并结合IoU损失、中心点距离损失与高宽损失，使模型收敛速度加快，边界框拟合更精准，从而提升RT-DETR在香菇采收评价中的定位精度。

3 结果与分析

3.1　实验设置

本实验采用Win10操作系统，CPU为Intel Core i9-10900k@3.7 GHz，GPU为NVIDIA GeForce RTX 4090，显存容量为24 564 MiB；深度学习框架采用PyTorch 2.0.1，Python版本为3.9，CUDA版本为11.8；开发环境使用PyCharm代码集成开发环境，另配合OpenCV用于图像处理。

在实际实验中，为了合理比较，所有模型的超参数设置相同，部分参数设置如下：输入图像尺寸为640

×

640像素；训练轮次（epochs）设置为200轮；批次大小（batch size）为16；每次训练时并行处理的工作线程数（workers）为8；初始学习率设置为 0.000 1；使用权重衰减自适应矩估计（Adaptive Moment Estimation with Weight Decay, AdamW）作为优化器。

3.2　FSE-DETR模型消融实验结果

本研究设计了8组消融实验，分别使用FasterNet模块、小目标特征融合网络和EIoU损失函数改进RT-DETR网络，所得消融实验结果如表2所示。

表2 FSE-DETR模型消融实验结果

Tab.2 Ablation experiment results of the FSE-DETR model

试验	FasterNet	SFFN	EIoU	准确率/%	召回率/%	mAP50/%	模型参数量/M	浮点运算次数FLOPs/ G
1				92.8	90.8	93.3	19.8	57.0
2	√			92.6	91.2	93.9	15.5	51.3
3		√		93.8	92.2	94.3	23.4	65.2
4			√	93.1	91.1	93.7	19.8	57.0
5	√	√		94.3	92.6	94.2	19.1	57.7
6	√		√	93.7	91.7	93.5	15.5	51.3
7		√	√	94.5	92.3	94.6	23.4	65.2
8	√	√	√	95.8	93.1	95.3	19.1	53.6

在消融实验中，逐步引入FasterNet模块、SFFN和EIoU损失函数，以验证各改进对RT-DETR模型性能的提升效果。引入FasterNet后，模型的mAP50提高了0.6个百分点，同时参数量和FLOPs显著降低，体现出轻量化优势。小目标特征融合网络的加入有效增强小目标特征提取能力，召回率提升至92.2%，mAP50达94.3%。在此基础上引入EIoU损失函数后，mAP50提升至94.6%。最终，综合引入上述三种改进的模型准确率达95.8%，召回率93.1%，mAP50为95.3%，在精度、召回率与模型复杂度之间实现了良好平衡。

3.3　小目标特征融合网络实验结果

为了更好地验证小目标特征融合网络对不同类别香菇实体的检测能力，对光帽香菇、未成熟香菇、花香菇和残缺香菇四个类别的mAP50进行对比分析，以评估各改进方案在不同类别的性能表现，具体对比结果如表3所示。

表3 FSE-DETR模型在不同香菇类别上的平均精度均值对比 ( %)

Tab.3 Comparison of mean average precision of the FSE-DETR model across different shiitake mushroom categories

类别	RT-DETR	RT-DETR + SFFN	FSE-DETR
光帽香菇	94.6	95.4	95.5
未成熟香菇	92.7	94.6	95.1
花香菇	93.5	94.1	95.7
残缺香菇	92.4	93.3	94.9

由表3可见，在未成熟香菇的检测中，FSE-DETR的mAP达到95.1%，相比RT-DETR的92.7%提升了2.4个百分点，说明小目标特征融合策略在增强检测能力方面具有较强的有效性。在残缺香菇的检测中，FSE-DETR的mAP为94.9%，相较于RT-DETR的92.4%提升了2.5个百分点，在光帽香菇和花香菇的检测中，FSE-DETR分别达到95.5%和95.7%。总体来看，FSE-DETR通过引入多种结构改进，在不同香菇类别上均实现了检测性能的全面提升。

3.4　不同目标检测模型实验结果对比

为了对比FSE-DETR模型与其他模型的性能，将改进模型与当前主流目标检测模型Faster R-CNN、YOLOv7、YOLOv8m和YOLOv12m进行对比。

由表4可知，FSE-DETR在各项指标上均优于其他模型。其mAP50达到95.3%，高于Faster R-CNN、YOLOv7、YOLOv8m和YOLOv12m，检测精度表现最优。同时，FSE-DETR的参数量为19.1 M，浮点运算次数为53.6 G，在模型规模和计算量上也最为轻量。总体来看，FSE-DETR在检测精度和模型效率之间实现了良好平衡，展现了出色的综合性能。

表4 不同模型在香菇检测中的整体性能对比结果

Tab.4 Comparison of overall performance of different models in shiitake mushroom detection

模型	mAP50/%	模型参数量/M	浮点运算次数FLOPs/ G
Faster R-CNN	85.4	41.56	212.9
YOLOv7	92.8	37.21	105.3
YOLOv8m	92.3	25.90	79.3
YOLOv12m	93.7	20.11	68.5
FSE-DETR	95.3	19.1	53.6

3.5　检测结果可视化

在检测结果可视化部分中，对Faster R-CNN、YOLOv8m、YOLOv12m和改进后的FSE-DETR模型在验证集上的检测效果进行了对比，如图9所示，以验证改进模型的有效性。图9中展示了不同光照强度、不同类型的香菇样本。

显示原图|下载原图ZIP|生成PPT

图9 不同模型在香菇检测结果中的可视化对比

误检的目标重复识别的目标漏检的目标

Fig.9 Visualization of detection results of different models in shiitake mushroom detection

由图9可见，FSE-DETR在检测精度方面表现最优，测试样本中未出现漏检、误检或重复识别。对于花香菇与次品香菇这类特征相近的目标，Faster R-CNN存在明显误检和漏检，尤其在菇体密集场景中问题更为突出。FSE-DETR在不同光照条件下的检测结果稳定，三类目标置信度均在0.9以上，而YOLOv8m和YOLOv12m则存在置信度偏低和个别误检、重复识别的情况。

4 结论

本研究提出了一种改进的香菇采收评价模型——FSE-DETR。该模型在RT-DETR基础上集成了FasterNet Block、SFFN和EIoU损失函数，有效提升了香菇目标的检测精度与多尺度特征表达能力。实验结果表明，FSE-DETR在复杂环境下的检测性能显著优于其他主流目标检测模型，尤其在未成熟香菇等小目标检测任务中表现更加稳定。其中FasterNet Block降低了模型复杂度，SFFN增强了小目标特征提取能力，EIoU损失函数则提升了边界框定位精度并加快模型收敛速度，使FSE-DETR在检测精度、计算效率与模型规模之间实现了良好平衡。

与Faster R-CNN、YOLOv7、YOLOv8m和YOLOv12m等模型相比，FSE-DETR在各项评价指标上均表现出明显优势，其准确率达到95.8%，召回率为93.1%，mAP为95.3%。此外，FSE-DETR在复杂光照、多目标密集和多尺度香菇检测等场景中展现出更强的适应性与稳定性，能够有效满足香菇采收过程中对高精度、高效率和轻量化部署的实际需求。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	张俊飚, 彭子怡, 颜廷武. 我国香菇产业国际贸易发展的现状、问题与对策[J]. 食药用菌, 2022, 30(3): 165-171. ZHANG J B, PENG Z Y, YAN T W. Present situation, problems and solutions of international trade development of Lentinula edodes industry in China[J]. Edible and medicinal mushrooms, 2022, 30(3): 165-171.

[2]	曹斌, 张月吟, 高博. 全球香菇产业发展历史、现状及趋势[J]. 食用菌学报, 2024, 31(3): 1-20. CAO B, ZHANG Y Y, GAO B. Development history, current situation and trends of global Lentinula edodes industry[J]. Acta edulis fungi, 2024, 31(3): 1-20.

[3]	LIN A, LIU Y F, ZHANG L. Mushroom detection and positioning method based on neural network[C]// 2021 IEEE 5th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC). Piscataway, New Jersey, USA: IEEE, 2021: 1174-1178.

[4]	AHMAD I, ARIF M, XU M M, et al. Therapeutic values and nutraceutical properties of shiitake mushroom (Lentinula edodes): A review[J]. Trends in food science & technology, 2023, 134: 123-135.

[5]	王磊磊, 王斌, 李东晓, 等. 基于改进YOLOv5的菇房平菇目标检测与分类研究[J]. 农业工程学报, 2023, 39(17): 163-171. WANG L L, WANG B, LI D X, et al. Object detection and classification of Pleurotus ostreatus using improved YOLOv5[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(17): 163-171.

[6]	赵明岩, 吴顺海, 李一欣, 等. 基于改进YOLOv5s的黑皮鸡枞菌检测方法[J]. 农业工程学报, 2023, 39(12): 265-274. ZHAO M Y, WU S H, LI Y X, et al. Improved YOLOv5s-based detection method for Termitomyces albuminosus[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(12): 265-274.

[7]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

[8]	HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2980-2988.

[9]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]// Computer Vision – ECCV 2016. Cham, Germany: Springer, 2016: 21-37.

[10]	KHANAM R, HUSSAIN M. What is YOLOv5: a deep look into the internal features of the popular object detector[EB/OL]. arXiv: 2407.20892, 2024.

[11]	WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 7464-7475.

[12]	YASEEN M. What is YOLOv8: An in-depth exploration of the internal features of the next-generation object detector[EB/OL]. arXiv: 2408.15857, 2024.

[13]	Satokawa K, Uwate Y, Nishio Y. Classification of shiitake mushrooms by using convolutional neural networks with edge detection images[C]// IEEE Workshop on Nonlinear Circuit Networks. Piscataway, New Jersey, USA: IEEE, 2021: 52–55.

[14]	YE D P, JING J, ZHANG Z D, et al. MSH-YOLOv8: Mushroom small object detection method with scale reconstruction and fusion[J]. Smart agriculture, 2024, 6(5).

[15]	LIU Q, FANG M, LI Y S, et al. Deep learning based research on quality classification of shiitake mushrooms[J]. LWT, 2022, 168: ID 113902.

[16]	DENG J W, LIU Y H, XIAO X Q. Deep-learning-based wireless visual sensor system for shiitake mushroom sorting[J]. Sensors, 2022, 22(12): ID 4606.

[17]	AMIRUDDIN K, ABDUL KAHAR N H, AHMAD I, et al. Automated mushroom classification system using machine learning[J]. Journal of advanced research in applied sciences and engineering technology, 2024: 129-140.

[18]	WANG J L, SONG W D, ZHENG W G, et al. Spatial-channel transformer network based on mask-RCNN for efficient mushroom instance segmentation[J]. International journal of agricultural and biological engineering, 2024, 17(4): 227-235.

[19]	Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Ł, Polosukhin I. Attention is all you need[C]// Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017). NY, USA: Curran Associates, Inc., 2017: 6000–6010.

[20]	TURNER R E. An introduction to transformers[EB/OL]. arXiv:2304.10557, 2023.

[21]	CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[M]// Computer Vision – ECCV 2020. Cham: Springer International Publishing, 2020: 213-229.

[22]	ZHAO Y A, LV W Y, XU S L, et al. DETRs beat YOLOs on real-time object detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2024: 16965-16974.

[23]	胡继文, 张国梁, 沈明哲, 等. 面向松木表面缺陷检测的改进RT-DETR模型[J]. 农业工程学报, 2024, 40(7): 210-218. HU J W, ZHANG G L, SHEN M Z, et al. Detecting surface defects of pine wood using an improved RT-DETR model[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(7): 210-218.

[24]	CHEN J R, KAO S H, HE H, et al. Run, don't walk: Chasing higher FLOPS for faster neural networks[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 12021-12031.

[25]	SUNKARA R, LUO T. No more strided convolutions or pooling: A new CNN building block for low-resolution images and small objects[M]// Machine Learning and Knowledge Discovery in Databases. Cham: Springer Nature Switzerland, 2023: 443-459.

[26]	CUI Y N, REN W Q, KNOLL A. Omni-kernel network for image restoration[J]. Proceedings of the AAAI conference on artificial intelligence, 2024, 38(2): 1426-1434.

[27]	WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, New Jersey, USA: IEEE, 2020: 1571-1580.

[28]	REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: A metric and a loss for bounding box regression[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 658-666.

[29]	ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 研究数据

图1 香菇菌棒图像采集设备

图2 不同光照条件下的香菇菌棒图像样本

表1 香菇评价标准表

2 基于改进RT-DETR的菌棒栽培香菇检测方法

2.1 FSE-DETR香菇检测模型

图3 FSE-DETR模型结构

2.2 FasterNet模块

图4 FasterNet模块

2.3 小目标特征融合网络

2.3.1 SPDConv空间到深度卷积

图5 空间到深度卷积

2.3.2 CSPOmniKernel跨阶段全核模块

图6 跨阶段全核模块

图7 DCAM和FSAM模块

2.4 损失函数优化

图8 EIoU损失

3 结果与分析

3.1 实验设置

3.2 FSE-DETR模型消融实验结果

表2 FSE-DETR模型消融实验结果

3.3 小目标特征融合网络实验结果

表3 FSE-DETR模型在不同香菇类别上的平均精度均值对比 ( %)

3.4 不同目标检测模型实验结果对比

表4 不同模型在香菇检测中的整体性能对比结果

3.5 检测结果可视化

图9 不同模型在香菇检测结果中的可视化对比

4 结 论

参考文献

0 引言

2.1　FSE-DETR香菇检测模型

2.2　FasterNet模块

2.3　小目标特征融合网络

2.3.1　SPDConv空间到深度卷积

2.3.2　CSPOmniKernel跨阶段全核模块

2.4　损失函数优化

3.1　实验设置

3.2　FSE-DETR模型消融实验结果

3.3　小目标特征融合网络实验结果

3.4　不同目标检测模型实验结果对比

3.5　检测结果可视化

4 结论