欢迎您访问《智慧农业(中英文)》官方网站! English

基于Flor-YOLO的香石竹鲜切花分级轻量化检测方法

  • 李传孟 ,
  • 杨洁 ,
  • 张晓宇
展开
  • 西南林业大学 机械与交通学院,云南 昆明 650051,中国
杨 洁,博士,副教授,研究方向为计算机视觉、自动化控制与检测。E-mail:

李传孟,硕士研究生,研究方向为计算机视觉、嵌入式AI。E-mail:

收稿日期: 2025-12-08

  网络出版日期: 2026-03-16

基金资助

2025YS三区人才支持计划专项(09900/990025166)

云南省教育厅科学研究基金(0111723084)

云南省教育厅科学研究基金(111724057)

Lightweight Detection Method for Grading Fresh Cut Dianthus caryophyllus L. Based on Flor-YOLO

  • LI Chuanmeng ,
  • YANG Jie ,
  • ZHANG Xiaoyu
Expand
  • School of Mechanical and Transportation, Southwest Forestry University, Kunming 650051, China
YANG Jie, E-mail: .

LI Chuanmeng, E-mail: .

Received date: 2025-12-08

  Online published: 2026-03-16

Supported by

The 2025 YS Third-Tier Talent Support Program(09900/990025166)

The Scientific Research Fund of Yunnan Provincial Department of Education(0111723084)

Copyright

copyright©2026 by the authors

摘要

【目的/意义】 针对香石竹鲜切花开放度人工分级主观性强、效率低,以及通用目标检测模型难以兼顾花瓣细粒度纹理表征与模型轻量化的问题,提出一种用于香石竹鲜切花开放度分级轻量化检测模型(Flower openness recognition You Only Look Once, Flor-YOLO)。 【方法】 该模型以YOLO11n为基线,对骨干网络、下采样方式及检测头结构进行针对性改进。首先,构建轻量化嵌合特征骨干网络,引入重参数化卷积起始结构与基于部分卷积的C3k2模块,在降低参数量的同时增强对花瓣高频纹理特征的表征能力,并集成融合了上下文锚点注意力的重参数化聚合网络模块以增强对高层语义长程依赖的捕获能力;其次,针对传统空间下采样导致的纹理混叠与细节丢失问题,引入小波池化下采样模块,利用二维离散小波变换在频域显式保留花瓣边缘褶皱等高频判别特征,有效抑制下采样引起的纹理混叠与细节丢失;最后,设计共享细节轻量检测头,通过跨尺度权重共享与细节增强卷积,在降低参数量的同时,解决分类置信度与定位质量不对齐问题。 【结果和讨论】 Flor-YOLO在自建香石竹数据集上的平均精度均值达到96.10%,较基准模型提升3.25个百分点;模型参数量与浮点运算量分别为1.26 M和1.1 GFLOPs,同比降低51.2%和82.5%;在RTX4060上的推理速度达到616.09 f/s。 【结论】 该算法在实现轻量化的同时显著提升了分级精度,具备在低算力移动终端部署的理论可行性,可为香石竹鲜切花自动化分级装备的研发提供技术支撑。

本文引用格式

李传孟 , 杨洁 , 张晓宇 . 基于Flor-YOLO的香石竹鲜切花分级轻量化检测方法[J]. 智慧农业, 2026 : 1 -15 . DOI: 10.12133/j.smartag.SA202512007

Abstract

[Objective] Carnation (Dianthus caryophyllus L.) is one of the most economically valuable cut flower crops worldwide. Postharvest openness is a key quality indicator influencing pricing, logistics tolerance, and shelf life. However, manual grading is inefficient and subjective due to dense petal overlap and complex edge structures. With the shift toward large-scale production and rising labor costs, accurate automated grading has become essential. Existing object detection models face a trade-off between computational efficiency and feature fidelity: High-precision architectures are computationally expensive for edge deployment, while lightweight models often lack sufficient feature representation. Additionally, conventional spatial downsampling introduces spectral aliasing, leading to the loss of high-frequency petal texture information and limiting the separability of adjacent openness grades. Therefore, a lightweight yet detail-preserving detection framework is required. To address this need, Flor-YOLO (Flower openness recognition You Only Look Once) is proposed integrating frequency-domain perception with structural re-parameterization for efficient and accurate carnation openness grading. [Methods] Based on the YOLO11n baseline, the Flor-YOLO architecture was proposed with targeted improvements to the backbone, downsampling mechanism, and detection head. Backbone reconstruction: A lightweight LiteChimeraNet was constructed to enhance feature expression under limited computing power. A RepStem re-parameterization module was introduced at the input stage to establish an anti-aliasing mechanism via multi-branch training and single-path inference. Simultaneously, the C3k2_PConv module, utilizing partial convolution, was integrated to reduce memory access cost (MAC) and focus computation on petal foregrounds. Additionally, a RepNCSPELAN4_CAA module embedded with context anchor attention was incorporated in deep layers to capture long-range dependencies of the global flower topology. Frequency-domain downsampling: To mitigate texture aliasing and detail loss caused by spatial downsampling, a WaveletPool module was introduced. Utilizing the 2D discrete wavelet transform (2D-DWT), this module orthogonally decomposed feature maps into low- and high-frequency sub-bands, explicitly preserving high-frequency information in horizontal, vertical, and diagonal directions to alleviate spectral aliasing. Detection head optimization: A lightweight shared detail-enhanced detection head (SDL-Head) was designed. It reduced parameter redundancy through cross-scale weight sharing and incorporated detail-enhanced convolution (DEConv), fusing central and angular difference operators, to boost sensitivity to the geometric morphology of petal edges. Furthermore, a scale-adaptive layer combined with Intersection over Union (IoU)-aware soft labels was applied to improve multi-scale feature alignment. A dataset comprising 1 748 original images of "Red kang" carnations was collected and expanded to 6 580 samples via hybrid data augmentation. The model was trained on an NVIDIA RTX 4060 GPU for 250 epochs using SGD optimization, and comparative evaluations were conducted against the YOLO series, NanoDet-m, and Hyper-YOLO-t. [Results and Discussion] Ablation studies and comparative experiments on the self-constructed dataset revealed significant performance gains. Ablation analysis: Reconstructing the backbone to LiteChimeraNet reduced FLOPs from 6.3 G (baseline) to 1.5 G, a decrease of 76.2%, while maintaining stable mean Average Precision (mAP@50), verifying its efficiency in removing background redundancy. Introducing WaveletPool significantly improved mAP@50 by 1.79 percentage points, confirming the critical role of explicitly preserving high-frequency components for serrated texture representation. Integrating SDL-Head further optimized feature alignment, increasing the recall rate to 94.47%. Overall performance: Flor-YOLO achieved a precision of 93.04%, recall of 94.47%, and mAP@50 of 96.10%. Compared to the YOLO11n baseline, these metrics improved by 3.52, 1.34, and 3.25 percentage points, respectively. Meanwhile, parameters and FLOPs were reduced by 51.2% to 1.26 M and 1.1 G (82.54% reduction). Flor-YOLO exhibited distinct advantages over YOLOv5n, YOLOv8n, YOLOv9t, YOLOv10n, and YOLOv12n in accuracy, mAP, and inference speed. Mechanism analysis: Spectral energy statistics showed that high-frequency energy intensified with increasing openness grades, aligning with the visual characteristics of petal expansion and wrinkle formation, thus validating the discriminative value of high-frequency information. Grad-CAM++ visualizations further validated that the improved model stably focused on petal edges and flower centers, demonstrating superior robustness over the baseline in complex backgrounds. [Conclusions] By constructing the LiteChimeraNet backbone, incorporating frequency-domain downsampling, and designing a detail-enhanced head, the proposed model effectively enhances the representation of critical details such as petal edges and flower centers while maintaining extremely low computational costs. Comprehensively, Flor-YOLO achieves an optimal balance between accuracy, model size, and real-time performance, demonstrating strong potential for deployment on low-power mobile terminals and embedded sorting equipment. Furthermore, the proposed frequency-aware lightweight design paradigm provides a valuable reference for other agricultural vision tasks relying on subtle textural differences.

0 引 言

香石竹(又名康乃馨,Dianthus caryophyllus L.)作为“世界四大切花”之一,因其优异的瓶插特性与观赏价值,在国际花卉贸易中占据核心地位1, 2。其采后开放度是决定产品物流耐受性、货架期表现及最终市场定价的关键质控指标3。中国是全球重要的香石竹产区,其中云南省已形成规模化产业集群并深度融入国际供应链体系4。然而,当前产区采后分级环节仍主要依赖人工目测5。该方式不仅作业效率低、标准不一,且极易受作业人员主观经验差异与视觉疲劳影响,导致部分产区流通损耗率高达25%~30%6, 7。随着花卉产业向规模化、集约化转型及劳动力成本的持续攀升,研发可部署于产地分选线或资源受限设备上的自动化分级算法,对于降低采后损耗、提升产品附加值及推动产业智能化升级具有重要的现实意义。
近年来,以You Only Look Once (YOLO)8为代表的单阶段目标检测算法因其卓越的实时性,被广泛应用于农产品缺陷检测与切花分级等领域9, 10。针对花卉形态复杂、等级区分细微等问题,现有研究多以月季鲜切花为对象,技术路径主要集中于两方面:一是基于多模态融合的特征增强。SUN等11通过融合颜色、纹理、形状与深度信息构建四维特征模型,使复杂背景下的月季分级精度达到95.8%;DUAN等12构建了端到端RGB-D分级框架并针对YOLOv5的颈部网络与检测头进行结构优化,使月季分类与分级精度分别达到98.19%与97.81%。二是通过引入注意力机制或改进轻量化骨干网络提升模型性能。张玉玉等13将多层次注意力(Multi-Level Attention, MLA)模块与内容感知特征重组上采样算子(Content-Aware ReAssembly of FEatures, CARAFE)引入YOLOv8以增强模型的多尺度特征融合能力,使月季分级精度提升至98.1%。钱晔等14提出多重注意力协同机制(Cooperative Attention Mechanism, CoAM),显著增强了模型对月季鲜切花细微等级差异的区分能力。CHEN等15提出GhostV2卷积块注意力模块(Ghost Version 2 with Convolutional Block Attention Module, GhostV2-CBAM)对YOLOv5进行轻量化改进,实现月季损伤识别准确率97.9%。FEI等16提出了基于ShuffleNet轻量级卷积神经网络的改进算法,使月季鲜切花开放度分级的准确率高达99.915%。LAI等17通过重构YOLOv8s骨干网络并引入注意力机制,实现了94.1%的平均检测精度。LI等18则通过优化YOLOv5s的损失函数并融合注意力模块,将多头月季开放度检测的准确率提升至95%以上。然而,多模态方法高度依赖昂贵的采集设备,难以在低成本分选场景中推广;而现有轻量化模型在面对香石竹这类依赖微弱纹理差异判别的任务时,仍存在明显性能瓶颈。
目前针对香石竹开放度自动分级的研究仍相对有限,与月季等品种不同,香石竹开放度判别集中于花瓣边缘的锯齿纹理与曲率等高频细节特征19,主流检测网络普遍采用大步长卷积或池化进行下采样,若缺乏抗混叠设计,在降维过程中可能导致有效采样率不足,引发频谱混叠(Spectral Aliasing)20,导致关键频域信息丢失,从而削弱模型对相邻开放度等级的区分能力。此外,现有改进模型多局限于空间域的特征建模,尚未充分挖掘频域信息在细粒度形态判别中的潜在价值。同时,中国花卉产业以农户和小微企业为主体,对算法的部署成本极其敏感。现有的高精度模型架构冗余难以在资源受限的边缘设备上落地,极简架构虽推理高效,却因特征表征与融合能力不足而牺牲了检测精度。
为解决上述问题,本研究从空间-频域联合建模的角度出发,将深度学习技术系统性地应用于香石竹开放度精细分级,提出一种面向香石竹开放度分级的轻量化检测模型(Flower openness recognition You Only Look Once, Flor-YOLO),该模型以YOLO11n为基线,从骨干网络、下采样和检测头三个方面进行轻量化改进,旨在降低模型计算复杂度的同时增强细粒度纹理特征的表达与融合能力,从而为香石竹鲜切花自动化分级装备及产地分选系统的研发提供算法支撑。

1 算法与改进

1.1 基础模型的选择与改进

YOLO11n是Ultralytics公司于2024年推出的新一代轻量化通用检测相比YOLOv8n,YOLO11n 的参数量减少约 18%,同时仍保持较高检测精度。鉴于香石竹开放度分级任务中目标尺度变化明显、花瓣边缘纹理细腻且高频信息丰富,对特征表达效率和模型轻量化设计的要求较高,因此本文选择 YOLO11n 作为基线模型。
针对基线模型在细粒度纹理识别与计算效率方面的不足,本研究以YOLO11n为基线,提出一种融合频域感知与结构重参数化的Flor-YOLO模型。在前向推理过程中,输入图像首先进入轻量化嵌合特征骨干网络(Lightweight Chimera Network, LiteChimeraNet),该网络通过重参数化卷积起始结构(Re-parameterized Convolutional Stem, RepStem)建立抗混叠机制,减少初始下采样阶段的高频纹理信息损失,并结合基于部分卷积的C3k2模块(C3k2 module with Partial Convolution, C3k2_PConv)削减浅层冗余,使计算资源更加集中于前景花瓣区域的高频纹理,随后,输入特征进入重参数化聚合模块(Re-parameterized Efficient Layer Aggregation Network Context Anchor Attention, RepNCSPELAN4_CAA)增强深层特征的长程依赖建模能力,该模块融合上下文锚点注意力(Context Anchor Attention, CAA)提升深层特征的长程依赖建模能力,将局部纹理信息映射为全局开放度语义。在特征融合阶段,引入小波池化下采样模块(Wavelet Pooling Downsampling Module, WaveletPool),通过频域正交分解保留花瓣边缘的高频信息,从而缓解传统卷积下采样造成的纹理细节损失。最终,多尺度特征汇聚于共享细节轻量检测头(Shared Detail Lightweight Head, SDL-Head),经由跨尺度共享权重与细节增强卷积处理后,输出香石竹的开放度等级与定位坐标。
整体而言,Flor-YOLO 通过“骨干轻量化、下采样频域保真与检测头细节增强”的协同设计,在较低计算开销条件下实现了对香石竹开放度细粒度形态特征的有效识别,改进后的网络架构如图1所示。
图1 Flor-YOLO与YOLO11n结构对比图

Fig. 1 Comparison of network architectures between Flor-YOLO and YOLO11

1.2 LiteChimeraNet轻量化嵌合特征骨干

香石竹的开放过程表现为典型的时频非平稳特性:在微观尺度上,主要表现为花瓣边缘卷曲与锯齿等高频纹理的变化;在宏观尺度上,则体现为整体拓扑结构随开放程度发生的低频形态演变。然而,为满足轻量化与大感受野需求,YOLO11n骨干网络采用较为激进的下采样策略与全通道卷积操作,其本质相当于对输入信号施加有损的低通滤波。当有效采样频率不足时,关键高频纹理信息容易在降采样过程中被过度平滑,引发频谱混叠现象,进而导致模型在过渡开放等级之间产生语义混淆21。为此,本研究设计了轻量化骨干网络LiteChimeraNet,其整体组成与设计思路如下。

1.2.1 Repstem重参数化输入层

输入层(Stem)作为视觉编码链路的起点,其对高频信号的采样保真度直接决定了后续特征表达的上限。香石竹花瓣边缘具有密集且幅值较小的锯齿结构,这类高频纹理是区分花蕾微开与初开的主要判别依据。YOLO11n在输入端采用大步长卷积进行空间降采样,该操作在一定程度上降低了特征图的有效采样密度。当输入图像中存在大量高频纹理时,若降采样过程未充分考虑频域约束,可能导致有效采样率不足,从而引发频谱混叠现象,使部分高频判别信息在进入骨干网络前被削弱甚至丢失。针对这一问题,本研究引入FastVit中提出的RepStem模块22作为LiteChimeraNe的输入层,结构如图2所示。
图2 Repstem重参数化输入层模块结构图

注: Conv为常规卷积模块;DWConv为深度卷积;S=2表示下采样;GELU激活函数;⊕为逐元素相加;BatchNorm为批量归一化。

Fig. 2 Structure diagram of the RepStem module

RepStem采用“训练多路、推理单路”的结构重参数化策略:在训练阶段,模块由并行的3×3卷积与BatchNorm分支以及1×1卷积与BatchNorm分支构成,可视为同时对输入执行不同感受野的局部滤波器,实现对高频梯度、局部二阶纹理及微尺度形变的联合建模。多分支并行响应在降采样过程中形成更为平滑的频率过渡带,有助于抑制频谱混叠的产生。推理阶段则利用卷积算子的线性可加性,将多分支的权重与BN参数无损坍缩为单一等效卷积核,从而在不增加推理计算开销的前提下,实现对多尺度滤波行为的显式编码。该抗混叠式输入层显著提升了模型在花蕾序列中捕获细粒度形态差异的能力,为后续骨干网络的语义提取提供了高保真且更具区分度的特征表征。

1.2.2 C3k2_PConv模块

香石竹图像在空间分布上呈现出明显的非均衡特征:花冠区域作为前景部分纹理密集,而花心及背景区域的结构相对稀疏。传统C3k2模块在Bottleneck中对所有通道执行同质的3×3全量卷积,使得大量算力被消耗在低信息密度区域;同时,全通道共享的局部卷积核会削弱前景高频褶皱纹理的响应强度,从而降低不同开放度花瓣之间的可分辨性。为缓解上述问题,本研究借鉴FasterNet23中的部分通道卷积思想,提出C3k2_PConv模块,将原Bottleneck替换为PC_Bottleneck,其核心改进包含以下两个维度。
1)基于PConv的信息密度自适应分配。首层引入了PConv(部分通道卷积),其结构如图3所示。假设输入特征图为 h × w × c,其中 c为总通道数,PConv依据特征信息密度将输入通道分为两部分:仅选取 c p个通道参与空间卷积以捕获花瓣褶皱等高频纹理,其余 c - c p个通道保持恒等映射(Identity)。若定义参与卷积的通道比率为 r = c p c(本研究取典型值 r = 1 4),卷积核为 K,则运算过程可表示为公式(1)
Y = C o n c a t X c p * K , X I d e n t i t y
式中: Y为输出后的特征; X c p R h × w × c p为参与计算的特征子集; X I d e n t i t y R h × w × c - c p为保持不变的特征子集; K 为卷积核权重张量; *为卷积操作; C o n c a t为特征拼接操作。
图3 PConv与Conv模块对比图

注: c为输入特征图的通道数;c p为参与卷积的通道数;*为卷积操作;hw分别为特征图的高和宽尺寸;Conv为常规卷积模块;PConv为部分卷积。

Fig. 3 Comparison of PConv and Conv modules

该策略在将计算量降低约75%的同时,大幅减少了卷积过程中的内存访问成本(Memory Access Cost, MAC),使算力资源向高信息密度区域倾斜,有效避免了同质化滤波带来的细节损失。
2)双层PWConv的跨通道信息补偿。由于PConv仅对部分通道进行空间卷积,可能削弱通道间的信息交互能力,为此PC_Bottleneck在其后级联双层逐点卷积(PWConv, Pointwise Convolution)以进行跨通道信息补偿。该结构通过1×1卷积建立全通道的线性映射与非线性激活,可表示为公式(2)
Z = σ W 2 σ W 1 Y
式中: Z为输出特征图; σ为非线性激活函数; W 1 W 2为卷积核权重矩阵; Y为上一层输出特征图(即本层输入)。此设计旨在恢复特征图跨通道的非线性组合能力,促进浅层局部纹理与深层语义的充分融合。通过上述设计,浅层局部纹理信息与深层语义特征得以充分融合,从而在保持轻量化优势的同时,避免模型表达能力的明显退化。

1.2.3 RepNCSPELAN4_CAA模块

骨干深层网络(P5)承载着解析香石竹全局拓扑语义(花瓣展开角与花心紧实度关系)与微细纹理特征的关键任务,原骨干网络深层通过SPPF模块最大池化扩展感受野,但该过程本质上会对高频信息产生过滤效应,容易导致表征花心微细裂纹等关键纹理的特征丢失。此外,C2PSA注意力机制与特征提取过程相对独立,且参数量较多,难以在有限算力下建立“局部纹理”与“全局形态”的强耦合关系。为了在深层网络实现更高效的语义聚合,本研究设计了RepNCSPELAN4_CAA模块替换原骨干深层的SPPF与C2PSA模块,整体结构如图4所示。
图4 RepNCSPELAN4_CAA模块结构图

Fig. 4 Structure diagram of the RepNCSPELAN4_CAA module

该模块主体采用RepNCSPELAN424结构,融合RepVGG、RepCSP和ELAN架构连接特性,以提高目标对象特征提取效率和多尺度特征融合能力。在推理阶段,利用RepVGG重参数化机制与ELAN的跨阶段梯度路径,实现了在不增加额外计算开销的情况下完成多尺度特征聚合并保持梯度传播稳定性。为进一步突破卷积算子局部感受野的局限,并替代C2PSA的注意力功能,在RepNCSPELAN4的输出端引入上下文锚点注意力(Context Anchor Attention, CAA)25,对于香石竹花朵形态呈现中心辐射分布的特征,CAA摒弃了计算昂贵的 K × K二维大核卷积,转而利用条形卷积(Strip Convolution)构建“语义锚点”,将二维空间建模正交分解为沿水平 1 × K与垂直 K × 1方向的一维长程感知相较于传统K × K二维大核卷积,该设计在保持长程依赖建模能力的同时,将参数复杂度由二次方级 O K 2显著降低至线性级 O K(近似为标准卷积的 2 / K)。在边缘端算力约束下,实现了局部细节保持与全局依赖建模的高效平衡。
通过上述协同,该模块在降低计算负载的同时,建立了从外层花瓣到中心花蕊的稳定语义映射关系,有效缓解了深层网络中可能出现的语义坍缩(Semantic Collapse)问题,确保模型能精准解析开放度分级的全局拓扑特征。

1.4 3 WaveletPool下采样模块

在卷积网络的特征层级传递中,下采样是扩大感受野与降低计算量的关键操作。然而,对于香石竹这种具有多层重叠花瓣结构的精细目标,YOLO11n采用的下采样本质上等价于一种非带限的空间压缩。当输入信号的局部频率超过奈奎斯特频率时,高频纹理不可避免地发生频谱混叠,导致尺度相邻的开放度等级在特征空间中变得高度不可区分26。为此,本研究在LiteChimeraNet骨干网络的特征过渡阶段,引入WaveletPool模块27全面替代原有的下采样算子,以二维离散小波变换((Two-Dimensional Discrete Wavelet Transform, 2D-DWT)构建了从空间域到频域的无损映射通道。其核心机制包含前向正交分解与反向自适应学习两个阶段,如图5所示。
图5 小波池化前向与反向传播算法

Fig. 5 Forward and backward propagation processes of WaveletPool

1)前向正交分解。在前向传播过程中,WaveletPool利用Haar小波基作为分析滤波器,将输入特征张量在空间域上进行正交分解。该过程将图像解耦为4个互补的频率子带,分别承载不同特征,如公式(3)~公式(6)所示。
X L L = ( L L ) * X
X L H = ( L H ) * X
X H L = ( H L ) * X
X H H = ( H H ) * X
式中: 为一维滤波器在行列方向的组合卷积; X L L为低频子带,保持花冠的整体拓扑连续性; X L H X H L分别为水平与垂直高频子带,精准捕捉花瓣沿经纬向分布的微细锯齿与边缘纹理; X H H为对角高频子带,刻画更高阶的裂纹突变及部分环境噪声; L 为一 维低 通滤 波器 H为一维高通滤波器; X为输入的特征张量; *为步长为2的卷积下采样操作。
得益于Haar小波的正交性,该分解在数学上具备完全可逆性,为后续频域重建提供理论保证。
2)动态频带自适应融合。与传统小波池化直接丢弃高频子带不同,WaveletPool通过引入一组自适应权重参数 λ = λ 1 , λ 2 , λ 3,对高频子带进行动态加权融合,其过程表示为公式(7)
X f u s i o n = X L L + λ 1 X L H + λ 2 X H L + λ 3 X H H
式中: X f u s i o n为融合后的特征张量; λ 1 λ 2 λ 3分别为控制不同高频子带(水平、垂直、对角)特征权重的标量系数; 为逐元素取绝对值操作。
上述权重参数在反向传播过程中根据任务损失函数自动更新,使得模型能够自适应地学习“最适合香石竹纹理分级的频率组合”(如自动放大LH以增强边缘响应,或降低HH以抑制噪声)。这种端到端的学习机制本质上等价于一种轻量级的频域注意力。
通过上述机制,WaveletPool显著提升了模型对微小锯齿、褶皱与高频花瓣轮廓的判别能力,为后续检测头提供了更高信噪比的细节特征输入。

1.4 SDL-Head检测头

在最终的检测与分级阶段,香石竹图像呈现出明显的非平衡特性:一方面,不同样本在拍摄距离变化下表现出显著的类内尺度差异;另一方面,不同开放度等级之间的纹理差异较为细微,尤其体现在花瓣边缘锯齿形态的相似性上。YOLO11n的检测头在不同特征层级分别维护独立参数,不仅导致参数冗余,还易引发尺度间特征语义不对齐的问题,从而削弱对细粒度纹理的敏感性。为此本研究提出了如图6所示的共享细节轻量检测头(SDL-Head)来代替原检测头。该模块遵循“通道对齐—纹理增强—尺度解耦”的结构,在降低参数规模的同时,提高了模型对锯齿状花瓣纹理的表征能力。
图6 SDL-Head模块结构图

Fig.6 Structure diagram of the SDL-Head module

骨干网络输出的多尺度特征(P3~P5)在统计分布与语义层级上存在明显差异。为实现后续卷积参数共享,SDL-Head采用组归一化(GroupNorm,GN)28将不同尺度的特征映射至统一的通道空间。相较于Batch Normalization(BN),GN不依赖batch维度统计量,更适用于农业场景中常见的小批量训练条件,从而提升模型在非结构化光照环境下的稳定性与鲁棒性。
在共享卷积结构中,虽然参数效率得到显著提升,但对细粒度高频模式(如花瓣锯齿边缘)的敏感性可能随之下降。为弥补这一不足,SDL-Head引入细节增强卷积(Detail-Enhanced Convolution, DEConv)29。在训练阶段,DEConv通过并行的普通卷积以及中心差分(Central Difference Convolution, CDC)、角度差分(Angular Difference Convolution, ADC)、水平差分(Horizontal Difference Convolution, HDC)和垂直差分(Vertical Difference Convolution, VDC)4类差分卷积分支,对输入特征进行多方向纹理建模。其中,HDC与VDC主要用于捕捉花茎与叶片的线性边缘结构,而CDC与ADC则侧重刻画香石竹特有的锯齿状花瓣边缘及重叠花冠轮廓。
在推理阶段,基于卷积运算的线性可加性,上述5个并行卷积核可无损融合为单一的等效卷积核,可表示为公式(8)
F o u t = i = 1 5 F i n * K i = F i n * i = 1 5 K i = F i n * K o u t
式中: F o u t为输出特征张量; F i n为输入特征张量; K i为第 i个并行的卷积核; K o u t为融合后的单一等效卷积核; *为卷积操作。
该过程在不增加推理计算开销的前提下,有效增强了模型对花瓣锯齿与细纹理特征的响应能力。
经纹理增强后的多尺度特征进一步输入共享检测头,在同一组卷积权重约束下实现P3–P5层级之间的语义对齐,从而构建统一的特征表达空间。然而,固定权重的共享机制未显式考虑不同尺度特征图固有的感受野差异,可能引入尺度归纳偏差(Scale Inductive Bias),为此SDL-Head在回归分支的末端引入了可学习尺度自适应因层(Scale Layer)30,该层通过学习参数 m i对特征幅值进行动态校准,使模型能够更好地适配不同尺度花朵对应的感受野需求。校准后的回归特征分布 p i表示为公式(9)
p i = m i F X
式中 : p i i个输出特征张量, m i为第 i个缩放系数; F 为特征映射函数; X为输入特征张量, 为数乘运算。
获得校准后的分布 P i输入分布焦点损失(Distribution Focal Loss, DFL)优化回归分支,利用积分期望将离散分布解码为连续坐标最终的解码坐标 B i,如公式(10)所示。
B i = s i D F L - 1 P i
式中: B i为预测的边界框向量; s i为特征图步长; P i为回归概率分布 ; D F L - 1为积分期望解码操作, 为数乘运算。
与此同时,引入交并比(Intersection over Union, IoU)感知软标签(IoU-Aware Soft Label)监督的分类头Conv-Cls,进一步缓解分类与回归目标分布不一致的问题。最终,所有尺度的预测结果在空间维度拼接生成检测张量Y,如公式(11)所示。
Y = C o n c a t B 1 , B 2 , B 3 , d i m = 2
式中: Y为拼接后的输出特征向量 B 1 B 2 B 3分别为来自不同检测分支的输入特征张量; C o n c a t为拼接操作; d i m = 2表示在特征的第2个维度上进行拼接。
SDL-Head在保持轻量化检测特性的同时兼顾了表达能力与效率,为香石竹鲜切花分级提供了更稳定、更高辨识度的预测结果。

2 数据集的构建

2.1 图像数据的获取

本研究严格依据农业行业标准《单头香石竹切花开花指数分级标准》31,将香石竹划分为5个成熟等级,分级标准如表1所示。
表1 单头香石竹切花开花指数分级标准

Table 1 Grading standards for the flowering index of standard cut Dianthus caryophyllus L.

开花指数/度 描述
1 花瓣从萼片中伸出约0.5 cm,花朵顶部呈“星形”。此阶段采收,开花指数过小,除非有强力的促进花蕾开放的技术措施,否则切花不易开放或开放不好,为不适宜采收时期
2 花瓣从萼片中伸出约1 cm,且花瓣直立。适宜夏秋季远距离运输销售
3 花瓣开始散开,但中心较紧实。适宜冬春季远距离运输销售
4 花瓣更松散些,且外瓣展开度小于水平线。适宜冬春季近距离运输销售
5 花瓣全面松散,外瓣展开度呈水平。此阶段花过于成熟,不宜采收;若采收应尽快销售
在数据标注阶段,对于处于相邻等级边缘的样本,本研究制定了“最大化余量决策原则”:即仅当花瓣外展幅度显著超过低等级阈值(如>0.5 cm)且花盘几何结构发生质变(如由锥形向平顶转变)时,才划归至高一等级。该策略旨在为模型在实际采收场景中预留判定安全裕度,降低欠熟采收风险。不同开放度等级的香石竹鲜切花如图7所示。
图7 香石竹鲜切花分级示意图

Fig. 7 Schematic diagram of fresh cut Dianthus caryophyllus L. grading

目前,针对香石竹分级的研究还属于空白,且缺乏可用的公开数据集。本研究于2025年7月在昆明斗南花卉交易市场购入市场主流品种“红康”不同开放度等级的鲜切花1 000支,搭建标准化的移动采集平台,由meizu21智能手机、俯拍支架、无影背景板及柔性固定夹具构成。采集参数设置为:光圈F/1.7、焦距22 mm、快门1/25 s、色温ISO 5400 k。考虑实际工业分选线场景多为传送带俯视作业,且该视角最能直观反映花冠的开放直径与内部花蕊状态,故本研究统一采用顶部俯视视角进行拍摄,辅以少量轻微倾斜视角样本以模拟传送带上的姿态随机性。图像中主要包含花冠区域,部分图像可见花萼及少量花叶边缘,但这部分不作为开放度分级的依据,未拍摄完整的茎秆部分。为提高模型在非结构化环境下的鲁棒性,采集过程模拟了多变的现实场景:包括黑色吸光绒布与白色亚克力两种背景板的切换,以及多时段自然光照变化。最终共获取分辨率为3 060×3 060像素的高清原始图像1 748张,涵盖5个开放度等级。

2.2 数据处理

为评估模型的泛化性能,采用分层采样法将原始数据集按6∶2∶2比例划分为训练集、验证集与测试集。针对原始数据存在的长尾分布与样本匮乏问题,本研究采用“离线+在线”混合增强策略。离线阶段利用Albumentations库将数据集扩充近4倍:通过随机翻转、旋转及缩放等几何变换模拟多变姿态;采用限制对比度自适应直方图均衡化(Contrast Limited Adaptive Histogram Equalization, CLAHE)增强花瓣微弱纹理;利用粗粒度丢弃(CoarseDropout)模拟枝叶遮挡。在线阶段引入马赛克(Mosaic)拼接构建复杂合成背景,有效破坏目标与背景的固定关联,并结合色调、饱和度、明度(Hue, Saturation, Value, HSV)扰动模拟光照变化,有效覆盖了真实场景中的主要干扰因子。最后使用LabelImg工具对增强后的数据进行了精细标注。具体数据量如表2所示。
表2 单头香石竹切花数据增强结果

Table 2 Data augmentation results of standard cut Dianthus caryophyllus L.

开放度 1度/张 2度/张 3度/张 4度/张 5度/张 合计/张
增强前 52 220 589 549 338 1 748
增强后 832 1 320 1 767 1 647 1 014 6 580

3 结果与分析

3.1 实验环境

实验基于Windows 11操作系统,硬件配置为Intel Core i7-14650HX CPU、NVIDIA GeForce RTX 4060 GPU(8 GB显存)。软件环境为PyTorch 2.0深度学习框架、CUDA11.8、CUDNN8.9加速库。训练参数设置为:SGD优化器、初始学习率0.01、权重衰减系数0.000 5、学习率动量为0.937、Batch Size设为32、共训练250 Epochs。

3.2 评价指标

为了量化模型性能,采用平均精度均值(Mean Average Precision, mAP)、精度(Precision, P)、召回率(Recall, R)及F 1分数作为衡量模型分类准确性与定位鲁棒性的核心指标。选取模型大小(Model Size)、参数量(Parameters),以浮点运算量(GFLOPs)与推理速度(f/s)作为模型复杂度与推理效率指标。

3.3 骨干模型消融实验

为系统评估LiteChimeraNet骨干各模块在性能与效率上的影响,在保持实验环境和配置统一的前提下,展开了消融实验,结果如表3所示。
表3 骨干网络重构的消融实验结果

Table3 Ablation study results of backbone network reconstruction

模型 R/% F 1/% P/% mAP@50/% mAP@50~95/% 参数量/M 浮点运算量/GFLOPs 推理速度/(f/s) 模型大小/M
YOLO11n 93.13 91.22 89.52 92.85 74.74 2.58 6.3 275.00 5.2
YOLO11n+R 92.00 92.33 92.22 92.87 75.67 2.58 1.7 269.42 5.3
YOLO11n+P 94.98 91.86 89.39 93.94 74.87 2.40 5.9 330.13 4.9
YOLO11n+RC 95.82 92.33 89.23 95.01 76.38 2.18 6.0 298.09 4.5
YOLO11n+P+RC 92.19 92.82 93.71 94.37 76.51 2.00 5.6 270.06 4.1
YOLO11n+R+RC 90.63 91.90 88.69 94.95 75.95 2.18 1.6 507.18 4.5
LiteChimeraNet 90.76 92.18 93.92 95.04 76.13 2.00 1.5 521.60 4.1

注:表格中R表示Repstem模块;RC表示RepNCSPELAN4_CAA模块;P表示C3k2_PConv模块;FPS测试基准为RTX4060。

从单模块改进的实验结果可以观察到,不同结构在性能与效率上的作用具有明显差异。引入RepStem模块替换原始输入层后,模型的浮点运算量显著降低,而mAP@50基本保持稳定。这表明原YOLO11n在处理高分辨率浅层特征时存在大量无效空间投影,而重参数化机制能够有效剥离该部分计算冗余,在不影响判别能力的前提下降低整体计算负担。引入C3k2_PConv模块后,模型召回率出现明显提升。这归因于PConv的通道筛选特性,使其能够抑制背景区域的冗余响应,并将有限算力集中于承载花瓣微卷、锯齿等高频纹理信息的关键通道,从而提升特征的判别纯度。集成RepNCSPELAN4_CAA模块时,模型在单模块条件下取得最高的mAP@50,表明该模块在建立局部纹理信息与全局拓扑语义之间的关联方面发挥了重要作用,有效缓解了半开与盛开等语义相近等级之间的混淆问题。最终的YOLO11n+LiteChimeraNet网络实现了上述三者的最优协同。相较于基准模型,在浮点运算量降低76.2%且推理速度提升1.9倍的高度轻量化下,mAP@50仍提升2.19个百分点,上述结果表明,LiteChimeraNet骨干网络能够在显著压缩冗余计算的同时,保留对香石竹形态与开放度判别起主导作用的关键语义路径。

3.4 主流骨干模块的对比

为进一步评估所提出LiteChimeraNet骨干网络在特征提取能力与计算效率方面的综合性能,本研究在相同训练配置与数据集条件下,以YOLO11n为基准模型分别将其骨干网络替换为当前主流轻量化网络RevCol32、StarNet33及HGNetV234,开展对比试验,实验结果如表4所示。
表4 主流轻量化骨干网络的性能对比

Table 4 Performance comparison of mainstream lightweight backbone networks

模型 R/% F 1/% P/% mAP@50/% mAP@50~95/% 参数量/M FLOPs/G 推理速度/(f/s) 模型大小/M
YOLO11n 93.13 91.22 89.52 92.85 74.74 2.58 6.3 275.00 5.2
YOLO11n+Revcol 89.94 91.50 93.20 93.70 74.28 2.09 4.9 267.74 4.5
YOLO11n+StarNet 90.28 87.97 85.97 91.22 72.06 1.94 5.0 226.76 4.0
YOLO11n+HGNetV2 92.05 91.01 90.10 92.30 73.70 2.14 5.7 273.08 4.5
YOLO11n+LiteChimeraNet 90.76 92.18 93.92 95.04 76.13 2.00 1.5 521.60 4.1
实验结果表明,LiteChimeraNet在检测精度与计算效率的平衡上表现最优。从检测性能指标来看,LiteChimeraNet在各对比模型中表现最为突出,其mAP@50和mAP@50~95分别达到95.04%和76.13%,较基准模型YOLO11n分别提升2.19个百分点和1.39个百分点,同时明显优于RevCol与HGNetV2等对比网络。这表明该骨干网络通过增强高频特征的保留,有效提升了对香石竹花瓣细粒度纹理的表征能力。在模型复杂度与计算效率方面,LiteChimeraNet同样展现出明显优势。尽管StarNet在参数量上略低(1.94 M),但其检测精度与推理速度均处于较低水平,难以兼顾性能与效率。相比之下,LiteChimeraNet在参数量控制在2.00 M的前提下,通过削减冗余卷积计算,使FLOPs降至1.5 G,较YOLO11n和RevCol分别降低76.2%和69.4%。计算负载的显著下降有效提升了模型的推理效率,其推理速度达到521.60 f/s,约为YOLO11n的1.9倍。综合分析可知,LiteChimeraNet在检测精度、计算复杂度与推理效率之间实现了较为协调的平衡,能够在保持高精度特征表征能力的同时显著提升计算效率,为后续轻量化目标检测模型的构建提供了有效的骨干网络选择。

3.5 改进模型消融实验

为量化评估Flor-YOLO各核心组件LiteChimeraNet、WaveletPool与SDL-Head的独立贡献与协同机制,本研究基于YOLO11n构建多组消融模型,结果如表5所示。
表5 Flor-YOLO的消融实验

Table 5 Ablation study of Flor-YOLO

模型 R% F 1/% P/% mAP@50/% mAP@50~95/% 参数量/M FLOPs/G 推理速度/(f/s) 模型大小/M
YOLO11n 93.13 91.22 89.52 92.85 74.74 2.58 6.3 275.00 5.2
YOLO+L 90.76 92.18 93.92 95.04 76.13 2.0 1.5 521.60 4.1
YOLO+W 91.89 92.03 92.18 94.64 76.11 2.17 5.4 282.99 4.4
YOLO+S 94.38 89.85 94.25 92.80 74.70 2.26 6.0 304.81 5.0
YOLO+W+S 93.88 92.72 91.88 93.66 74.71 2.26 6.2 265.55 5.0
YOLO+L+W 93.77 93.28 92.85 95.74 76.26 1.58 1.2 431.60 3.3
YOLO+L+S 92.75 91.95 93.39 95.14 76.10 1.32 1.2 519.75 3.2
YOLO+L+W+S(Flor-YOLO) 94.47 93.69 93.04 96.10 76.24 1.26 1.1 616.09 3.0

注:表格中L表示LiteChimeraNet模块;W表示WaveletPool模块;S表示SDL-Head模块;FPS测试基准为RTX 4060。

在单模块验证中,LiteChimeraNet的作用已在前文详细分析,此处不再重复。单独引入WaveletPool模块后,模型mAP@50提升1.79个百分点,表明高频小波子带在保留花冠边缘锯齿与内部褶皱纹理方面具有积极作用,有效缓解了传统下采样造成的频谱混叠问题。引入SDL-Head后,模型召回率提升至94.38%,证明了共享卷积与DFL边界建模有助于提升检测头对形态相近样本的定位稳定性。
在多模块组合实验中,LiteChimeraNet与WaveletPool的结合使mAP@50提升至95.74%。值得注意的是,在该组合中,尽管浮点运算量从1.5 G降低至1.2 G,但推理速度却从521.60 f/s回落到431.6 f/s。这一现象深刻揭示了异构计算中“访问墙”问题:WaveletPool的小波变换频繁的张量切片和跨尺度内存访问属于访存密集型(Memory-Bound)操作,带来的延迟代价部分抵消了部分计算收益。然而,当集成SDL-Head检测头后(Flor-YOLO),推理速度跃升至616.1 f/s。这是因为SDL-Head的全共享卷积架构消除了原解耦检测头在特征图传输上的MAC,并将推理路径重新转化为计算密集型,从而释放了GPU的并行潜力。
综合来看,Flor-YOLO的mAP@50达到96.10%,mAP@50~95提升至76.24%,召回率与精度分别达到94.47%和93.04%。与YOLO11n相比,上述4项关键指标分别提升3.25、1.50、1.34和3.52个百分点。在精度显著提升的同时,模型浮点运算量由基准的6.3 G下降至1.1 G,降幅达82.5%,参数量与模型体积分别缩减了51.2%和42.3%,推理速度进一步跃升至616.09 f/s,较YOLO11n实现1.24倍的速度提升,为资源受限环境下的部署提供了技术支撑。

3.6 主流模型性能基准对比

为验证所提改进算法的有效性,在统一实验环境与训练配置条件下,将Flor-YOLO与YOLO系列(v5n、v8n、v9t、v10n、v11n、v12n)及近期具有代表性的轻量化检测模型NanoDet-m、Hyper-YOLO-t35进行横向对比,实验结果如表6所示。
表6 不同主流轻量化目标检测模型在香石竹开放度检测任务中的性能对比

Table 6 Comparative performance of representative lightweight object detection models for Dianthus caryophyllus L. openness detection under unified experimental settings

模型 R/% F 1/% P/% mAP@50 mAP@50~95/% 参数量/M FLOPs/G 推理速度/(f/s) 模型大小/M
YOLOV5n 88.58 88.42 88.44 92.08 73.50 2.50 7.1 292.82 5.1
YOLOV8n 91.63 87.47 84.58 92.05 74.29 3.00 8.1 304.19 6.0
YOLOV9t 94.65 91.41 88.98 92.68 73.72 1.97 7.6 254.52 4.4
YOLOV10n 91.04 91.26 91.59 92.66 75.4 2.27 6.5 266.51 5.5
YOLO11n 93.13 91.22 89.52 92.85 74.74 2.58 6.3 275.00 5.2
YOLO12n 93.52 91.12 89.00 92.69 75.02 2.56 6.3 228.42 5.3
Nanodet-m 73.20 81.17 89.10 91.10 60.90 0.93 1.4 116.94 3.6
hyper-yolot 92.62 90.73 89.55 92.56 74.16 3.62 7.7 215.15 5.4
Flor-YOLO 94.47 93.69 93.04 96.10 76.24 1.26 1.1 616.09 3.0
从检测精度指标来看,Flor-YOLO在自建香石竹开放度检测数据集上的精确率、召回率和mAP@50分别达到93.04%、94.47%和96.10%,mAP@50~95达到76.24%。相较于基线模型YOLO11n,其精确率、召回率和mAP@50分别提升3.52、1.34和3.25个百分点,mAP@50~95提升1.50个百分点,整体检测性能得到稳定提升。与其他YOLO轻量化版本相比,Flor-YOLO在mAP@50指标上均取得最高值,较性能表现较优的YOLOv9t和YOLOv10n分别提升3.42和3.44个百分点。
在模型复杂度方面,Flor-YOLO的参数量为1.26 M,较YOLO11n的2.58 M降低51.2%;FLOPs由6.3 G降至1.1 G,计算量减少82.54%。在推理效率方面,Flor-YOLO在RTX4060平台上的推理速度达到616.09 f/s,分别为YOLO11n和YOLO12n的2.24倍和2.70倍。
值得注意的是,尽管NanoDet-m的参数量仅为0.93 M,但其mAP@50~95仅为60.90%,明显低Flor-YOLO的76.24%,说明在复杂纹理结构场景下,单纯依赖极端压缩策略可能导致特征表达能力不足。
综合上述结果可知,Flor-YOLO在显著降低模型复杂度的同时,实现了检测精度与推理效率的同步提升,在香石竹鲜切花开放度分级任务中表现出较为协调的性能。

3.7 典型场景检测效果与可视化分析

为了直观验证Flor-YOLO在复杂场景下的判别优势,本研究从第2节所述数据集的独立测试集中,随机抽取了100张具有代表性的样本构建评估子集。该子集涵盖不同开放阶段及光照条件与背景的典型样本,对比分析了YOLO11n与Flor-YOLO的检测结果及类激活热力图。

3.7.1 典型场景检测结果

图8所示,YOLO11n共误判4张图片(第1行第2列;第2行第2列、第3列;第3行第3列),Flor-YOLO仅误判1张(第3行第3列)。尽管YOLO11n能识别特征鲜明的首尾等级(1度/5度),但在处理“临界过渡阶段”时表现出显著的判别乏力。以第2行第3列样本(真实标签4度)为例,YOLO11n将其跨级误判为3度。该现象表明传统步长卷积下采样引发的频谱混叠,导致描述外展曲率的关键高频信息丢失。相比之下,Flor-YOLO得益于WaveletPool的多分辨率分析特性,显式保留了高频分量,从而在特征空间中拉大了相邻等级的类间距离。此外,在第3行与第4行的样本中,Flor-YOLO的检测框与花冠边缘的贴合度(IoU)显著优于基线模型,进一步验证了SDL-Head中动态解码机制对定位质量的提升。
图8 Flor-YOLO与YOLO11n在典型场景下的开放度等级检测结果对比

a. YOLO11n b. Flor-YOLO

Fig. 8 Comparison of detection results between Flor-YOLO and YOLO11n in representative openness grading scenarios

3.7.2 可视化分析

为了进一步探究模型决策的内在逻辑,本研究利用Grad-CAM++对检测头相关特征进行可视化,生成类别相关的激活热力图,用于分析模型的空间关注区域。如图9b中所示,YOLO11n的热力图呈现出明显的特征弥散与背景噪声泄漏,且在花瓣边缘处的激活边界较为模糊。特别是在第3列样本中,YOLO11n在无目标的深色背景区域出现了青色斑块状的高响应,表明其未能有效解耦前景纹理与环境噪声,这在光照变化的温室环境中极易导致误检。相反,在图9c的同列样本中,Flor-YOLO展现出极致的语义聚焦能力。主要体现在两个维度:一是聚焦性,其热力图的高亮区域(深红色)呈同心圆状精准覆盖与最具判别力的花心与花萼结构,背景区域则呈现完全的“抑制”状态(深蓝色);二是边缘锐度,Flor-YOLO的热力图在花瓣锯齿边缘表现出极高的激活梯度,轮廓清晰锐利。这表明所提出骨干网络通过空间解耦与注意力机制,可能引导模型更加关注与开放度相关的关键拓扑特征,显著提升了模型在非结构环境下的抗干扰鲁棒性。
图9 YOLO11n与Flor-YOLO在香石竹开放度检测任务中的Grad-CAM++类激活热力图可视化对比

Fig. 9 Grad-CAM++ class activation heatmap comparison between YOLO11n and Flor-YOLO for Dianthus caryophyllus L. openness detection

3.7.3 频域特征的可解释性分析

除空间域特征外,本研究进一步从频域角度探究香石竹花朵成熟度演变的内在机理。选取1度(星状期)与5度(盛开期)样本作为代表,对其灰度图像进行二维傅里叶变换(Fast Fourier Transform, FFT)分析,并对频谱幅值进行径向积分以获得不同频率半径下的能量分布特性。如图10所示,1度样本的频谱能量主要集中于低频区域,频谱中心亮度较高而向外围快速衰减,表明其图像以整体轮廓和大尺度平滑结构为主。该阶段花瓣尚未充分展开,边缘形态相对规整,局部纹理复杂度较低,高频成分占比较小。相比之下,5度样本在频谱空间中呈现出更为明显的能量扩散特征,其径向能量分布曲线在全频段范围内均显著高于1度样本,尤其中高频区间的能量增强更为突出。这一现象表明,随着花朵逐渐开放,花瓣边缘产生大量锯齿状结构、卷曲形态及多层叠加纹理,使得图像中细粒度结构显著增多,并在频域中表现为高频分量的持续增强。进一步的径向能量统计结果显示,在相同频率半径范围内,1度与5度样本在低频区域的能量差异相对较小,而中高频区间的能量差异最为显著。这说明香石竹成熟度的提升并非主要体现在整体尺度或轮廓形态的变化,而是更多来源于局部结构复杂度与纹理密度的增加过程。上述频域分析结果表明,香石竹花朵成熟度变化伴随着显著的频谱结构演化,其本质可归结为伴随花瓣展开产生的高频信息增强。这一结论从频域角度揭示了锯齿状边缘与细节纹理在成熟度判别中的关键物理意义,也为后续模型在特征提取阶段显式保留高频信息提供了理论依据。
图10 香石竹鲜切花开放度频域特征对比

Fig. 10 Frequency-domain feature comparison of Dianthus caryophyllus L. openness

4 结 论

针对香石竹鲜切花开放度分级的细粒度特征提取难与边缘端算力受限问题,本研究基于YOLO11n改进提出了轻量化检测模型Flor-YOLO,主要结论与贡献如下。
1)提出LiteChimeraNet骨干网络,通过在骨干输入端引入Repstem与C3K2_Pconv模块,使算力资源自适应聚焦于花瓣褶皱等高信息密度区域,显著提升了浅层高频特征的保留能力;在深层特征提取阶段,设计RepNCSPELAN4_CAA模块替换原骨干深层的SPPF与C2PSA模块,实现了局部纹理与全局拓扑语义的高效耦合,缓解了深层语义坍缩问题;针对传统卷积下采样可能引发的频谱混叠问题,创新性引入WaveletPool算子,利用小波正交分解建立频域无损映射通道,显式保留了花瓣边缘锯齿与微细褶皱等高频判别特征。在检测阶段,提出SDL-Head检测头,在降低参数的条件下实现多尺度语义对齐与细节增强。上述协同设计使模型在大幅降低参数的同时显著提升了相邻开放度等级的可分辨性,为香石竹鲜切花分级装备的研发提供了算法支撑。
2)实验结果表明,Flor-YOLO在自建数据集上的精确率为93.04%、召回率为94.47%、mAP@50为96.10%、参数量为1.26 M、浮点运算量为1.1 G。与原始YOLO11n模型相比,其精确率、召回率和mAP分别提高3.52、1.34、3.25个百分点,参数量和浮点运算量分别减少51.16%和82.54%。在与YOLOv5n、YOLOv8n、YOLOv9t、YOLOv10n和YOLO12n检测模型的对比中,F lor-YOLO模型在精确率、mAP及推理速度等多个关键指标上均表现出了明显优势,验证了其在兼顾检测精度与计算效率方面的有效性。
尽管Flor-YOLO性能优异,但在面对更加复杂多变的实际农业生产环境时,仍存在一定的局限性。一是频域抗噪鲁棒性受限。由于小波池化对高频信号高度敏感,在强逆光或高动态范围(High Dynamic Range, HDR)场景下,光学噪声易混入高频子带导致频域信噪比下降,影响检测稳定性。二是品种泛化性待验证:当前模型主要针对主流红色系品种优化,其对复色花瓣、边缘形态差异显著品种的跨域适应性尚需系统评估。
未来工作将聚焦于以下方向:(1)探索多光谱成像技术与Flor-YOLO的融合,以提升模型在复杂光照条件下的鲁棒性;(2)针对分选线的实时性需求,研究基于TensorRT(TensorRT Inference Optimizer and Runtime)或 NCNN(Neural Network Inference Framework for Mobile Platforms)等高效推理引擎的模型加速方案,并结合剪枝与量化等模型压缩技术,构建适用于资源受限嵌入式平台的轻量化部署框架;(3)多维度品质综合评价:将模型从单一的开放度分级扩展至病虫害检测、花茎弯曲度测量等多维度品质评估任务,构建更加全面的香石竹鲜切花智能分级系统。

本研究不存在研究者以及与公开研究成果有关的利益冲突。本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
NAYAK A, PATTANAIK A, SAMANTARAY P, et al. Cultivation and cultural practices followed in carnation (Dianthus caryophyllus L.) for better production: a review[J]. Agricultural Reviews, 2024, 46(4): 612-620

[2]
WANG M, PI Z K, PAN Z K, et al. Studies on the mother flower carnation: past, present, and future[J]. Horticulture Research, 2025, 12(8): uhaf118.

[3]
VERDONK J C, VAN IEPEREN W, CARVALHO D R A, et al. Effect of preharvest conditions on cut-flower quality[J]. Frontiers in Plant Science, 2023, 14: 1281456.

[4]
顾仲阳. 我国种苗花卉企业年产值超5200亿元 云南鲜切花国内市场占有率达70%[EB/OL].中国政府网, 2025-03-05[2026-02-22].

[5]
HE Z, MA X. Research on logistics transportation of fresh cut flowers in cold chain system: Take the development of fresh cut flower logistics in Yunnan province as an example[J]. World Scientific Research Journal, 2020, 6(7): 185-192.

[6]
DOLE J M, STAMPS R H, CARLSON A S, et al. Postharvest Handling of Cut Flowers and Greens: A Practical Guide for Commercial Growers, Wholesalers, and Retailers[M]. Arkansas: Association of Specialty Cut Flower Growers, 2017.

[7]
云南省农业农村厅. 云南省花卉产业发展报告[R]. 昆明: 云南省农业农村厅,2022.

[8]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, June 27–30, 2016. Piscataway, NJ: IEEE, 2016: 779-788.

[9]
肖瑞宏, 谭立新, 王日凤, 等. 基于改进YOLOv11n的多尺度茶叶病害检测方法[J]. 智慧农业(中英文), 2026, 8(1): 62-71.

XIAO R H, TAN L X, WANG R F, et al. Multi-scale tea leaf disease detection method based on improved YOLOv11n[J]. Smart Agriculture, 2026, 8(1): 62-71.

[10]
王雪, 高雅, 陶桂香, 等. 基于CBLP-YOLO 11n的无人机稻穗轻量化检测方法[J]. 农业机械学报, 2025, 56(11): 461-470.

WANG X, GAO Y, TAO G X, et al. Lightweight detection method of rice panicles based on CBLP-YOLO 11n[J]. Transactions of the Chinese Society for Agricultural Machinery, 2025, 56(11): 461-470.

[11]
SUN X Y, LI Z Y, ZHU T T, et al. Four-dimension deep learning method for flower quality grading with depth information[J]. Electronics, 2021, 10(19): 2353.

[12]
DUAN Z Y, LIU W H, ZENG S, et al. Research on a real-time, high-precision end-to-end sorting system for fresh-cut flowers[J]. Agriculture, 2024, 14(9): 1532.

[13]
张玉玉, 邴树营, 纪元浩, 等. 基于改进YOLOv8s的玫瑰鲜切花分级方法[J]. 智慧农业(中英文), 2024, 6(2): 118-127.

ZHANG Y Y, BING S Y, JI Y H, et al. Grading method of fresh cut rose flowers based on improved YOLOv8s[J]. Smart Agriculture, 2024, 6(2): 118-127.

[14]
钱晔, 陈江权, 李兆文, 等. 基于多重注意力协同优化的鲜切花等级分类模型[J/OL]. 南京农业大学学报. (2025-09-08)[2025-12-01].

QIAN Y, CHEN J Q, LI Z W, et al. Fresh-cut flower grade classification model based on multi-attention collaborative optimization[J/OL]. Journal of Nanjing Agricultural University. (2025-09-08) [2025-12-01].

[15]
CHEN F N, LI Y, SUN H W, et al. Petal damage and bent flower detection method of rose cut flowers based on computer vision[J]. Scientia Horticulturae, 2025, 340: 113927.

[16]
FEI Y Q, LI Z Y, ZHU T T, et al. A lightweight attention-based convolutional neural networks for fresh-cut flower classification[J]. IEEE Access, 2023, 11: 17283-17293.

[17]
LAI Q H, YANG Z W, SU W, et al. Enhancement of the prediction of the openness of fresh-cut roses with an improved YOLOv8s model validated by an automatic Grading Machine[J]. Frontiers in Plant Science, 2025, 16: 1546503.

[18]
LI J Y, LI M. Flowering index intelligent detection of spray rose cut flowers using an improved YOLOv5s model[J]. Applied Sciences, 2024, 14(21): 9879.

[19]
WÄLDCHEN J, MÄDER P. Plant species identification using computer vision techniques: a systematic literature review[J]. Archives of Computational Methods in Engineering, 2018, 25(2): 507-543.

[20]
ZHANG R. MAKING convolutional networks shift-invariant again[C]// International Conference on Machine Learning. New York, USA: PMLR, 2019: 7324-7334.

[21]
NING J, SPRATLING M. The importance of anti-aliasing in tiny object detection[C]// Asian Conference on Machine Learning. New York, USA: PMLR, 2024: 975-990.

[22]
ANASOSALU VASU P K, GABRIEL J, ZHU J, et al. FastViT: a fast hybrid vision transformer using structural reparameterization[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). October 1–6, 2023. Paris, France. IEEE, 2023: 5762-5772.

[23]
CHEN J R, KAO S H, HE H, et al. Run, don't walk: chasing higher FLOPS for faster neural networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2023: 12021-12031.

[24]
WANG C Y, YEH I H, MARK LIAO H Y. YOLOv9: learning what you want toLearn using programmable gradient information[C]// Computer Vision – ECCV 2024. Cham: Springer, 2025: 1-21.

[25]
CAI X H, LAI Q X, WANG Y W, et al. Poly kernel inception network for remote sensing detection[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2024: 27706-27716.

[26]
GRABINSKI J, KEUPER J, KEUPER M. Aliasing and adversarial robust generalization of CNNs[J]. Machine Learning, 2022, 111(11): 3925-3951.

[27]
WILLIAMS T, LI R. Wavelet pooling for convolutional neural networks[C/OL]// International Conference on Learning Representations. 2018. [2025-12-05].

[28]
TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2019: 9626-9635.

[29]
CHEN Z X, HE Z W, LU Z M. DEA-net: single image dehazing based on detail-enhanced convolution and content-guided attention[J]. IEEE Transactions on Image Processing, 2024: 1002-1015.

[30]
LI X, WANG W H, HU X L, et al. Generalized focal loss V2: learning reliable localization quality estimation for dense object detection[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA: IEEE, 2021: 11627-11636.

[31]
国家市场监督管理总局, 国家标准化管理委员会. 香石竹切花等级: GB/T 41202—2021 [S]. 北京: 中国标准出版社, 2021.

State Administration for Market Regulation; Standardization Administration of the People's Republic of China. Grade of cut carnation: GB/T 41202—2021 [S]. Beijing: Standards Press of China, 2021.

[32]
CAI Y X, ZHOU Y Z, HAN Q, et al. Reversible column networks[EB/OL]. arXiv: 2212.11696, 2022.

[33]
MA X, DAI X Y, BAI Y, et al. Rewrite the stars[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2024: 5694-5703.

[34]
ZHAO Y A, LV W Y, XU S L, et al. DETRs beat YOLOs on real-time object detection[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2024: 16965-16974.

[35]
FENG Y F, HUANG J G, DU S Y, et al. Hyper-YOLO: when visual object detection meets hypergraph computation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 47(4): 2388-2401..

文章导航

/