欢迎您访问《智慧农业(中英文)》官方网站! English
专刊--光智农业创新技术与应用

面向复杂果园环境的改进YOLOv11n苹果轻量化实例分割算法

  • 韩文凯 1 ,
  • 李涛 2 ,
  • 冯青春 2 ,
  • 陈立平 , 1, 2
展开
  • 1. 西北农林科技大学 机械与电子工程学院,陕西杨凌 712100,中国
  • 2. 北京市农林科学院智能装备技术研究中心,北京 100097,中国
陈立平,博士,研究员,研究方向为精准农业技术与装备。E-mail:

韩文凯,硕士研究生,研究方向为计算机视觉。E-mail:

收稿日期: 2025-05-03

  网络出版日期: 2025-09-23

基金资助

国家重点研发计划项目(2024YFD2000602)

天津市科技计划项目(23YFZCSN00290)

北京市农林科学院青年科研基金项目(QNJJ202318)

北京市科技新星计划项目(20220484023)

Lightweight Apple Instance Segmentation Algorithm Based on SSW-YOLOv11n for Complex Orchard Environments

  • HAN Wenkai 1 ,
  • LI Tao 2 ,
  • FENG Qingchun 2 ,
  • CHEN Liping , 1, 2
Expand
  • 1. College of Mechanical and Electronic Engineering, Northwest A&F University, Yangling 712100, China
  • 2. Intelligent Equipment Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
CHEN Liping, E-mail:

HAN Wenkai, E-mail:

Received date: 2025-05-03

  Online published: 2025-09-23

Supported by

National Key Research and Development Program of China(2024YFD2000602)

Science and Technology Program of Tianjin(23YFZCSN00290)

Youth Research Foundation of Beijing Academy of Agriculture and Forestry Sciences(QNJJ202318)

Beijing Nova Program(20220484023)

Copyright

copyright©2025 by the authors

摘要

[目的/意义] 复杂果园环境中果实目标的精确识别,是苹果采摘机器人作业的关键前提。然而,果园环境中不同的光照环境和遮挡情况对模型的泛化能力提出了严峻要求;同时机器人边缘端计算平台有限的算力资源,对视觉分割模型的计算效率也提出挑战。为此,本研究基于YOLOv11n架构提出一种轻量化实例分割模型SSW-YOLOv11n,提升在差异工况下果实掩膜的分割精度及边缘侧的推理效率。 [方法] 首先,SSW-YOLOv11n模型在颈部网络引入分组混洗卷积(Group Shuffle Convolution, GSConv)和VoV群组混洗CSP模块(Variety of VoV with Group Standard Cross Stage Partial, VoVGSCSP),实现了在降低计算量的同时提升对模型精度和特征表达能力,构建轻量化、高效融合特征的Slim-Neck结构;其次,在骨干网络与颈部网络连接的三个输出端引入简单无参数注意力模块(Simple, Parameter-Free Attention Module, SimAM),对前向传播的特征进行加权处理,增强模型对关键区域的感知能力;最后,采用智能交并比损失函数(Wise Intersection over Union Loss, Wise-IoU)替代原始损失函数,通过引入距离与几何因素的综合权重调节机制,实现对边界框的有效优化。 [结果和讨论] 实验结果表明,相较于原始YOLOv11n模型,SSW-YOLOv11n在Box mAP50和Mask mAP50上分别提升了1.7和2.4个百分点,计算量和模型权重分别减少了12.5%和22.8%;模型在边缘侧NVIDIA Jetson TX2平台推理帧率可达29.8 FPS,相较于YOLOv11n提升了18.7%。 [结论] 验证了所提方法在提升分割精度与降低计算开销方面的有效性,为苹果采摘机器人的实际应用提供了技术基础。

本文引用格式

韩文凯 , 李涛 , 冯青春 , 陈立平 . 面向复杂果园环境的改进YOLOv11n苹果轻量化实例分割算法[J]. 智慧农业, 2025 , 7(5) : 114 -123 . DOI: 10.12133/j.smartag.SA202505002

Abstract

[Objective] In complex orchard environments, accurate fruit detection and segmentation are critical for autonomous apple-picking robots. Environmental factors severely degrade fruit visibility, challenging instance segmentation models across diverse field conditions. Apple-picking robots operate on embedded edge-computing platforms with stringent constraints on processing power, memory, and energy consumption. Limited computational resources preclude high-complexity deep-learning architectures, requiring segmentation models to balance real-time throughput and resource efficiency. This study introduces SSW-YOLOv11n, a lightweight instance segmentation model derived from YOLOv11n and tailored to orchard environments. SSW-YOLOv11n maintains high mask accuracy under adverse conditions—variable lighting, irregular occlusion, and background clutter—while delivering accelerated inference on resource-limited edge devices through three core design enhancements. [Methods] The SSW-YOLOv11n model first introduced GSConv and VoVGSCSP modules into its neck network, thereby constructing a highly compact yet computationally efficient "Slim-Neck" architecture. By integrating GSConv—an operation that employs grouped spatial convolutions and channel-shuffle techniques—and VoVGSCSP—a cross-stage partial module optimized for balanced depth and width—the model substantially reduced its overall floating-point operations while concurrently enhancing the richness of its feature representations. This optimized neck design facilitated more effective multi-scale information fusion, ensuring that semantic features corresponding to target regions were extracted comprehensively, all without compromising the model's lightweight nature. Subsequently, the authors embedded the SimAM self-attention mechanism at multiple output interfaces between the backbone and neck subnets. SimAM leveraged a parameter-free energy-based weighting strategy to dynamically amplify critical feature responses and suppress irrelevant background activations, thereby augmenting the model's sensitivity to fruit targets amid complex, cluttered orchard scenes. Finally, the original bounding-box regression loss was replaced with Wise-IoU, which incorporated a dynamic weighting scheme based on both center-point distance and geometric discrepancy factors. This modification further refined the regression process, improving localization precision and stability under variable environmental conditions. Collectively, these three innovations synergistically endowed the model with superior instance-segmentation performance and deployment adaptability, offering a transferable design paradigm for implementing deep-learning-based vision systems on resource-constrained agricultural robots. [Results and Discussions] Experimental results demonstrated that SSW-YOLOv11n achieved Box mAP50 and Mask mAP50 of 76.3% and 76.7%, respectively, representing improvements of 1.7 and 2.4 percentage points over the baseline YOLOv11n model. The proposed model reduced computational complexity from 10.4 to 9.1 GFLOPs (12.5% reduction) and achieved a model weight of 4.55 MB compared to 5.89 MB for the baseline (22.8% reduction), demonstrating significant efficiency gains. These results indicate that the synergistic integration of lightweight architecture design and attention mechanisms effectively addresses the trade-off between model complexity and segmentation accuracy. Comparative experiments showed that SSW-YOLOv11n outperformed Mask R-CNN, SOLO, YOLACT, and YOLOv11n with Mask mAP50 improvements of 23.2, 20.3, 21.4, and 2.4 percentage points, respectively, evidencing substantial advantages in segmentation precision within unstructured orchard environments. The superior performance over traditional methods suggests that the proposed approach successfully adapts deep learning architectures to agricultural scenarios with complex environmental conditions. Edge deployment testing on NVIDIA Jetson TX2 platform achieved 29.8 FPS inference rate, representing an 18.7% improvement over YOLOv11n (25.1 FPS), validating the model's real-time performance and suitability for resource-constrained agricultural robotics applications. [Conclusions] SSW-YOLOv11n effectively enhanced fruit-target segmentation accuracy while reducing computational overhead, thus providing a robust technical foundation for the practical application of autonomous apple-picking robots. By addressing the dual imperatives of high-precision perception and efficient inference within constrained hardware contexts, the proposed approach advanced the state of the art in intelligent agricultural robotics and offered a scalable solution for large-scale orchard automation.

0 引 言

苹果作为全球种植面积最大、产量最高的水果之一,具有重要的经济与食用价值1。当前苹果采摘仍依赖人工,机械化采摘率不足3%2,在老龄化加剧和农业劳动力流失、鲜果产业生产成本显著增加的背景下,机器人采摘成为产业持续健康发展的迫切需要3。然而,果园复杂的环境条件,如枝叶遮挡、光照环境差异大,以及果实分布不均,成为机器人采摘感知定位的突出挑战4
图像分割的传统方法主要依赖于颜色、边缘和纹理特征,例如颜色阈值法、区域生长法和边缘检测法5,然而随着机器学习和深度学习技术的发展,研究人员开始采用分类器(如支持向量机、随机森林)结合手工提取的特征来实现分割6。在此基础上,语义分割通过像素级分类显著提升了分割精度7,实例分割则进一步结合目标检测和语义分割的优点,对图像中的每个实例目标进行精确的像素级分割。实例分割分为单阶段和两阶段方法。两阶段方法的代表性算法是掩码区域卷积神经网络(Mask Region-Based Convolutional Neural Network, Mask R-CNN)8,尽管两阶段方法分割精度较高,但是对计算资源和内存要求较高,模型的运行速度较慢,难以满足实时任务的需求,例如Wang和He9通过融合注意力模块对Mask R-CNN进行改进,试验结果表明,模型在遮挡和重叠条件下表现优异,召回率和精确率分别达到了97.1%和95.8%。单阶段方法的代表算法由Redmon等10提出,该算法依赖其快速的处理能力已经发展成为最广泛应用的一种方法。Li等11提出了一种基于多任务分割网络的遮挡苹果果实三维定位方法,实现了对遮挡水果位置和大小的估计,确定了采摘机器人采摘果实时的接近方向,实验结果表明,该方法相较于传统方法,水果位置的中位数误差和平均误差分别减少了59%和43%。为进一步提升分割精度,研究者们基于自注意力机制的Transformer12分割模型展开研究,作为Transformer研究体系的基础框架,Vanilla13采用编码器-解码器双模块架构处理分词的输入,每个模块包含多头自注意力层14和逐位置的全连接前馈网络15两个子层。贾伟宽等16提出了一种基于优化Transformer网络的绿色目标果实检测模型,通过引入重采样法扩充样本、结合迁移学习提升训练效率,并构建编码器-解码器结构增强对复杂场景下果实特征的建模能力,实验结果表明,该模型检测绿色苹果的准确率为91.35%。
为增强模型推理实时性,研究人员采用MobileNet17和ShuffleNet18等架构对果实推理模型开展轻量化研究。通过采用深度可分离卷积、剪枝和量化等技术,减少了模型的计算复杂度。胡广锐等19结合高效通道注意力和混洗注意力模块优化主干网络,提出了轻量化模型Lad-YXNet,模型大小减少了18.23%。罗友璐等20通过引入多尺度双重注意力机制(Multi-Scale Dual Attention, MSDA)和空间到深度卷积模块(Space-to-Depth Convolution, SPD-Conv)模块,提出了用于苹果叶病害检测的轻量化模型YOLOv8n-SMR,模型的精确率、召回率和mAP50分别达到了83.1%、80.2%和88.2%。
尽管上述苹果采摘机器人识别定位方法取得了积极进展,然而当机器人采用模块化、分布式的系统架构设计21时,模型需运行在算力资源受限的平台上,要求模型既要满足果实定位所需的分割精度还需要满足实时系统部署的推理效率。为此,本研究针对现有研究果实分割精度不足和模型推理效率不佳的问题,提出了一种基于YOLOv11n的轻量化实例分割模型SSW-YOLOv11n,结合分组混洗卷积(Group Shuffle Convolution, GSConv)和多样化一次性分组标准跨阶段部分网络(Variety of VoV with Group Standard Cross Stage Partial, VoVGSCSP)模块所形成的Slim-Neck结构、简单参数无关注意力模块(Simple, Parameter-Free Attention Module, SimAM)和智能交并比损失函数(Wise Intersection over Union Loss, Wise-IoU),显著减少模型参数量和计算资源需求,提升在复杂果园环境下的果实分割精度。

1 材料与方法

1.1 图像数据采集与数据集构建

1.1.1 数据采集

本研究利用自研数据采集机器人开展图像数据采集任务,涵盖“嘎啦”和“魔星”两个苹果品种,采集设备和地点如图1所示。
图1 苹果果实图像数据采集设备及地点

Fig. 1 Apple image data acquisition equipment and locations

机器人平台搭载两台双目立体视觉深度相机,分别安装于1.3和2.0 m的高度,视野(Field of View, FOV)为69°×42°,最大检测范围为3 m,采集的图像分辨率像素为640×480,宽高比为4∶3。机器人平台以0.5 m/s的速度运动,相机以15 帧/秒(Frame per Second, FPS)的频率采集图像。采集图像时需要涵盖正光、背光和枝叶遮挡等各种情况,确保采集到的苹果图像丰富且完整。通过对采集到的数据进行筛选最终得到3 500张图像作为果实实例分割模型的数据集,如图2所示,其中正光条件下的果实图像1 400张,背光条件下的果实图像1 050张,遮挡条件下的果实图像1 050张。
图2 不同光照条件和遮挡情况的苹果图像

Fig. 2 Images of apples under different light conditions and shading situations

1.1.2 数据增强

为了增加数据的多样性,丰富模型训练数据集,本研究采用数据增强技术对原始数据集进行扩展。如图3所示,在网络训练前,对苹果图像进行旋转、水平翻转、亮度对比度调整、缩放五项操作的随机结合。经过数据增强得到7 000张图像用于网络训练,将数据集按7∶2∶1的比例分为训练集4 900张,验证集1 400张,测试集700张。
图3 苹果图像数据增强样本

Fig. 3 Apple image data enhancement sample

1.1.3 图像数据标注

本研究使用交互式半自动标注软件21完成果实目标信息的标注,将果实目标按照采摘难易程度划分为易见、遮挡和风险三类,如图4所示。第一类目标为清晰可见且可达性较好的果实,标记为“易见”,此类果实在机械臂采摘路径上几乎没有或仅有极少量枝叶、钢丝等障碍物的遮挡,果实表面绝大多数是可见清晰的。第二类目标为有遮挡的果实,标记为“遮挡”,此类目标的遮挡率超过50%,但通常仍具备较好的可达性。第三类目标为存在采摘风险的果实,标记为“风险”,此类果实通常位于支撑杆、支撑网等刚性障碍物附近,如遮挡率≥80%或机械臂路径障碍距离≤10 cm,具备较差的可达性,机械臂在采摘此类目标时有损伤采摘手爪和果实的风险。标注后的数据集中包含了4 800个第一类“易见”果实、4 900个第二类“遮挡”果实和1 000个第三类“风险”果实。
图4 三类果实目标

Fig. 4 Three types of fruit targets

1.2 SSW-YOLOv11模型

YOLOv11seg是在YOLO系列模型基础上优化升级的实例分割网络,集成了前几代YOLO模型的优势。根据模型尺寸,YOLOv11seg分为YOLOv11n-seg、YOLOv11s-seg、YOLOv11m-seg、YOLOv11l-seg和YOLOv11x-seg五种,尺寸越大,网络层数和参数计算量也随之增加。本研究基于YOLOv11n-seg模型,优化其网络结构,包括主干网络、颈部网络、检测头和分割头三大部分,以更好适应非结构化自然果园场景下的苹果实例分割任务22

1.2.1 Slim-Neck结构

在YOLOv11n架构中,颈部部分连接骨干网络与分割头,负责特征融合与处理。在苹果实时检测的应用场景中,传统的大型模型难以满足实时性要求,而由大量深度可分离卷积层构建的轻量级模型则难以在保证实时性的同时实现足够的精度。因此,本研究提出了一种基于轻量级卷积技术GSConv的改进方案23。GSConv首先对输入进行下采样,再通过深度可分离卷积(DWConv)对下采样结果进行处理,最后将下采样结果与深度卷积结果进行拼接,并进行shuffle操作以输出结果。该方法在减少参数量的同时,保证了特征图在传输至颈部时无需额外变换,减少了冗余与重复计算。基于GSConv使用一次性聚合方法设计跨级网络模块VoVGSCSP,结合GSConv构成了Slim-Neck架构24

1.2.2 SimAM自注意力机制模块

现有的注意力机制多采用额外的子网络生成注意力权值,增大了神经网络的参数量,因此本研究使用了一种自注意力机制SimAM,该注意力机制无需向原始网络添加参数。SimAM作为一种无参数的注意力机制,在无需增加计算开销的前提下,能够对特征图进行显式建模并自动增强关键区域特征。在果园复杂环境中,果实常常被枝叶等物体遮挡,传统特征提取方式往往难以准确聚焦于目标区域。而SimAM通过模拟神经元活跃度对三维特征图进行加权处理,能够在遮挡或光照不均条件下突出果实区域的响应强度,从而提高模型对果实边界与形态的感知能力。
其输入数据大小为C×H×W,通过能量函数,如公式(1)所示,推断出特征图的3D权重,并将Sigmoid函数归一化后的权重与原始特征图相乘,得到提升特征的输出特征图,从而使模型更关注于重要的部分,提升对目标的检测性能25
e t ( w t , b t , y , x i ) = 1 M - 1 i = 1 M - 1 ( - 1 - ( w t x i + b t ) ) 2 +                                             ( 1 - ( w t t + b t ) ) 2 + λ w t 2
式中:et 是第t个神经元的能量值;wt 是权重参数;bt 是偏置参数;y是目标神经元的激活值;xi 是第i个输入特征;M是特征图中的像素总数;λμ是正则化参数。 w t b t公式(2)公式(3)求解:
w t = 2 ( t - μ t ) ( t - μ t ) 2 + 2 σ t 2 + 2 λ
b t = - 1 2 ( t + μ t ) w t
式中: μ t σ t 2是在该通道中除了重要神经元 t之外所有神经元的均值和方差,计算如公式(4)公式(5)所示。
μ t = 1 M - 1 i = 1 M - 1 x i
σ t 2 = 1 M - 1 i M - 1 ( x i - μ t ) 2

1.2.3 Wise-IoU损失函数

图5所示,Wise-IoU引入动态聚焦机制,根据预测框与目标框的重叠质量自适应调整损失权重。对于重叠质量较低的锚框,显著增强其损失值以强化模型对难以定位目标的学习能力;而对于重叠质量较高的锚框,则适当削弱其损失权重,减轻过度优化所带来的梯度干扰。随后引入距离注意力机制,重点关注预测框与目标框中心点之间的几何距离,通过精确建模中心点位置差异,有效降低位置偏差,尤其在低重叠区域中表现出更强的定位能力26。此外,Wise-IoU还设计了权重动态调整机制,根据锚框与目标框之间的距离、尺度比等几何特征动态调节梯度权重,提升收敛速度并缓解传统IoU损失在极端情况下易出现的梯度消失问题,从而增强模型在目标定位任务中的鲁棒性与精度。Wise-IoU计算方法如公式(6)所示。
图5 Wise-IoU损失函数

Fig. 5 Wise-IoU loss function

L W I o U = β δ + α β - δ 1 - I o U                          e x p x - x g t 2 + y - y g t 2 W g 2 + H g 2 *
式中: β为离群度; α δ为超参数; x y为锚框的中心点的横纵坐标值,像素; x g t y g t为目标框的中心点的横纵坐标值,像素; W g H g为最小包围框的宽度和高度,像素。

1.2.4 改进后的模型

本研究提出一种轻量级的SSW-YOLOv11模型。首先,将原有的颈部网络中的Conv和C3k2分别替换成更轻量化和更高效的GSConv和VoVGSCSP,从而加快特征融合和处理的速度。然后在特征提取骨干网络和颈部网络连接的三个输出端分别增加SimAM自注意力模块,对前向传递层的输出进行处理。最后将原有的损失函数替换为Wise-IoU损失函数,通过结合距离与几何因素,并调整梯度的方式使模型更有效地优化边界框,改进后的模型网络结构如图6所示。
图6 SSW-YOLOv11n网络结构图

Fig. 6 SSW-YOLOv11n network structure diagram

2 结果与分析

2.1 模型训练参数

实验训练平台为Precision-7920-Tower,配置细节如表1所示。
表1 SSW-YOLOv11n轻量化实例分割研究训练平台配置详情

Table 1 Training platform configuration details of SSW-YOLOv11n lightweight instance segmentation research

项目 配置
中央处理器 Intel Xeon(R) Silver 4210
图形处理器 NVIDIA GeForce RTX 2080 Ti/PCIe/SSE2
开发环境 Python 3.8
深度学习框架 CUDA10.2+CUDNN 8.2.0+Pytorch 1.12.0+Torchvision 0.13
操作系统 Ubuntu 18.04
模型训练过程中的参数选择如下:初始学习率设为0.01,权重衰减率为0.000 5,动量因子设为0.937,并采用前3个epoch的Warmup策略进行学习率调整。使用随机梯度下降法(Stochastic Gradient Descent, SGD)结合动量更新参数,训练轮次为300,批次大小为24,图像输入像素尺寸为640×640,IoU阈值设为0.5,置信度阈值设为0.5。模型训练过程中采用余弦退火调度器来优化学习率。

2.2 模型评价指标

本研究选取精确率(Precision, P)、召回率(Recall, R)、IoU阈值为0.5时的平均精度均值(mean Average Precision@0.5, mAP50)、模型千兆浮点运算量(Giga Floating-Point Operations per Second, GFLOPS)、权重大小作为评估模型性能优劣的指标27。GFLOPS表示每秒能够执行的十亿次浮点运算,权重大小表示训练完成的模型权重所占的内存空间。
精确率指的是在所有被预测为苹果的实例中,实际为正确目标的比例,即衡量模型在识别结果中的准确性,由公式(7)计算。
P = T P T P + F P
式中: T P表示模型正确的将苹果识别为苹果的数量; F P表示模型错误的将非苹果标记为苹果的数量。
召回率指的是在所有真实存在的苹果目标中,模型成功分割出的比例,即衡量模型对目标的检出能力,由公式(8)计算。
R = T P T P + F N
式中: F N表示模型错误的将苹果标记为非苹果的数量。
平均精度mAP50指的是IoU阈值为0.50的条件下,模型在不同召回率下的平均精确率,表示模型在特定匹配条件下的整体性能,由公式(9)公式(10)计算。
A P = 0 1 P ( R )   d R
m A P 50 = 1 N i = 0 n A P i  
式中:AP为平均精度; P ( R )为精度函数,表示在召回率R条件下对应的精度值;R表示召回率,取值范围为[0,1];mAP50表示在IoU阈值为0.5条件下的平均精度均值;N表示检测类别总数; A P i表示第i个类别的平均精度。

2.3 消融实验

为验证所提出三项改进措施在提升模型性能方面的有效性,本研究在相同硬件配置和统一数据集条件下设计并实施了系统性的消融实验。以YOLOv11n作为基准模型,分别引入Slim-Neck结构、SimAM自注意力机制和Wise-IoU损失函数,并进一步构建多种组合配置,共计8组实验,具体结果如表2所示。
表2 SSW-YOLOv11n轻量化实例分割研究消融实验结果

Table 2 SSW-YOLOv11n lightweight instance segmentation research ablation experiment results

序号 Slim-Neck SimAM Wise-IoU Box mAP50/% Mask P/% Mask R/% Mask mAP50/% GFLOPS 权重大小/MB 帧率/FPS
1 × × × 74.6 72.4 72.9 74.3 10.4 5.89 25.1
2 × × 75.1 72.5 73.4 75.1 10.0 5.72 26.5
3 × × 75.6 73.1 73.7 75.3 9.8 5.60 26.8
4 × × 74.7 71.3 71.2 74.8 10.1 5.64 25.5
5 × 76.1 72.7 72.3 76.2 9.3 5.28 28.4
6 × 75.5 72.2 72.5 75.5 9.7 5.05 27.9
7 × 75.7 72.8 72.6 75.6 9.5 4.85 27.6
8 76.3 73.5 73.8 76.7 9.1 4.55 29.8

注:√表示包含;×表示不包含。

在基准模型YOLOv11n中,Box mAP50为74.6%,Mask mAP50为74.3%,在精度与速度之间取得了较为平衡的表现。引入Slim-Neck结构后,Box mAP50与Mask mAP50均提升至75.1%,计算复杂度降低3.8%,说明该结构在特征融合效率与模型轻量化方面具有良好效果。仅将SimAM注意力机制加入骨干网络输出端,在不增加参数的情况下实现了Box mAP50和Mask mAP50各提升1个百分点,同时略微降低了模型复杂度,验证了SimAM在精度增强方面的有效性。仅引入Wise-IoU作为回归损失函数后,Box mAP50和Mask mAP50分别提升0.1和0.5个百分点,体现了其在边界框回归优化上的细微贡献。在多模块组合配置中,各改进模块协同作用进一步提升了模型性能。特别是在同时引入Slim-Neck结构与SimAM注意力机制时,Box mAP50和Mask mAP50分别提升至76.1%和76.2%,模型权重减少10.4%,展现出较好的精度效率平衡。当三种改进模块同时集成于YOLOv11n基线模型中时,Box mAP50和Mask mAP50分别提升至76.3%和76.7%,较原始模型分别提升1.7和2.4个百分点;同时模型计算复杂度从10.4 GFLOPs降低到9.1 GFLOPs,降低12.5%,权重从5.89降低到4.55 MB,减少22.8%,帧率提升18.7%,表现出最优的综合性能。

2.4 不同模型对比试验

为进一步验证所提出模型在实际果实分割任务中的性能优势,本研究选取了常用的实例分割模型Mask-RCNN、YOLACT28、SOLO29、YOLOv11n30作为对比对象,并在相同硬件环境与统一苹果数据集条件下开展对比实验。各模型的性能评估结果如表3所示。
表3 SSW-YOLOv11n轻量化实例分割研究不同模型对比试验结果

Table 3 Comparative experiment results of different models of SSW-YOLOv11n lightweight instance segmentation research

模型 Box mAP50/% Mask P/% Mask R/% Mask mAP50/% GFLOPS 权重大小/MB 帧率/FPS
Mask R-CNN 43.2 42.5 54.1 53.5 245.0 205.00 24.5
SOLO 47.2 57.2 55.3 56.4 132.0 176.00 24.6
YOLACT 44.8 57.9 42.4 55.3 79.6 143.00 24.8
YOLOv11n 74.6 72.4 72.9 74.3 10.4 5.89 25.1
SSW-YOLOv11n 76.3 73.5 73.8 76.7 9.1 4.55 29.8
Mask R-CNN作为典型的两阶段实例分割算法,在分割精度方面表现良好,但其计算复杂度较高,GFLOPS高达245,推理效率偏低,难以满足采摘机器人对实时性的要求。相较而言,单阶段实例分割模型在推理速度与资源消耗方面具有明显优势。其中,YOLOv11n和本研究提出的SSW-YOLOv11n模型的权重分别为5.89和4.55 MB,均体现出良好的轻量化特性;在分割性能方面,SSW-YOLOv11n模型在Mask精确率、召回率和mAP50上分别达到73.5%、73.8%和76.7%,表现优于其他对比模型。其中,其Mask mAP50指标相较于Mask R-CNN、SOLO、YOLACT和YOLOv11n分别提升了23.2、20.3、21.4和2.4个百分点,展现出显著的分割精度优势。此外,在轻量化性能指标方面,SSW-YOLOv11n的GFLOPS为9.1,权重大小为4.55 MB,均优于所有对比模型,兼顾了高精度与低复杂度的设计目标。总体而言,所提出模型在分割性能和模型效率方面均表现优异,更加符合采摘机器人的实际需求。

2.5 边缘计算平台部署

为了验证SSW-YOLOv11模型在边缘设备上的部署情况并提高模型的检测速度,采用NVIDIA TensorRT对模型进行优化加速,进一步提升改进模型的推理效率。TensorRT是一款面向NVIDIA GPU和Jetson硬件的高性能推理优化工具,支持多种深度学习框架,能够通过层融合、精度优化和内存管理等技术显著降低模型延迟并提高吞吐量。将训练得到的模型权重文件转换为ONNX格式,再序列化模型对象生成engine推理引擎即可得到经过TensorRT加速后的模型,模型在工作站台式电脑与边缘计算平台上的果实推理帧率情况如表4所示。结果表明,所提出的改进模型SSW-YOLOv11n在两类硬件平台上均实现了推理性能的提升。与原始YOLOv11n模型相比,SSW-YOLOv11n在NVIDIA Jetson TX2平台上的推理帧率达到29.8 FPS,提升了18.7%,显著增强了模型在嵌入式设备上的部署效率。
表4 SSW-YOLOv11n在不同设备推理帧率对比

Table 4 Comparison of inference frame rates for different devices of SSW-YOLOv11n

模型 工作站/ FPS NVIDIA Jetson TX2/ FPS
YOLOv11n 72.5 25.1
SSW-YOLOv11n 88.9 29.8
为了进一步验证SSW-YOLOv11n模型在复杂果园环境下对苹果果实的分割性能,选择正光、背光和遮挡三种不同场景下的果实图像进行测试。如图7为SSW-YOLOv11n在Jetson TX2上的分割结果。对SSW-YOLOv11n模型的分割结果进行统计分析可知,正光条件下的分割效果如图7a所示,视野内果实总数为16,漏检个数为1,误检个数为2;背光条件下的分割效果如图7b所示,果实总数为22,漏检个数为1,误检个数为1;遮挡条件下的分割效果如图7c所示,果实总数为25,漏检个数为2,误检个数为3。
图7 边缘计算平台上SSW-YOLOv11模型的苹果分割效果

Fig. 7 Apple segmentation effect of SSW-YOLOv11 model on edge computing platforms

3 结 论

本研究针对复杂果园环境下苹果采摘机器人对果实精确识别与分割的实际应用需求,提出了一种基于改进YOLOv11n的轻量化实例分割模型SSW-YOLOv11n。该模型在网络结构上引入GSConv与VoVGSCSP模块构建Slim-Neck结构,提升特征融合效率并降低计算开销,并在骨干网络与颈部网络连接的多尺度输出端加入SimAM自注意力机制,增强模型对目标区域的感知能力,同时采用Wise-IoU损失函数,通过引入中心距离和几何因素动态调节梯度,有效提升边界框定位精度。消融实验验证了三项改进的独立与组合效果,结果表明SSW-YOLOv11n模型在Box mAP50与Mask mAP50上分别较原始YOLOv11n提升了1.7和2.4个百分点,同时GFLOPS降低了12.5%,模型权重减少22.8%。对比实验进一步表明,SSW-YOLOv11n在精度与模型复杂度方面均优于其他实例分割算法,在Mask mAP50方面较Mask R-CNN、SOLO、YOLACT和YOLOv11n分别提高了23.2、20.3、21.4和2.4个百分点。此外,边缘计算平台上模型部署试验结果表明,SSW-YOLOv11n在NVIDIA Jetson TX2上对果实的推理帧率达到了29.8 FPS,相较于YOLOv11n提升了18.7%,显示出了良好的综合性能与在嵌入式设备上部署的潜力,展现了该模型在光照变化和树枝树叶遮挡等复杂环境下对苹果果实的高效分割,为果园机器人采摘提供了坚实的技术基础。未来研究将继续优化模型结构,在保持轻量化的同时进一步提升小目标与密集遮挡场景下的分割性能,同时探索多模态感知信息融合,以增强模型在实际果园采摘环境下的适应性和泛化能力。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
陈青, 殷程凯, 郭自良, 等. 苹果采摘机器人关键技术研究现状与发展趋势[J]. 农业工程学报, 2023, 39(4): 1-15.

CHEN Q, YIN C K, GUO Z L, et al. Current status and future development of the key technologies for apple picking robots[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(4): 1-15.

[2]
LI T, XIE F, ZHAO Z Q, et al. A multi-arm robot system for efficient apple harvesting: Perception, task plan and control[J]. Computers and electronics in agriculture, 2023, 211: ID 107979.

[3]
XIE F, LI T, FENG Q C, et al. Boosting cost-efficiency in robotics: A distributed computing approach for harvesting robots[J]. Journal of field robotics, 2025, 42(5): 1633-1648.

[4]
SAFARI Y, NAKATUMBA-NABENDE J, NAKASI R, et al. A review on automated detection and assessment of fruit damage using machine learning[J]. IEEE access, 2024, 12: 21358-21381.

[5]
ZHANG K X, LAMMERS K, CHU P Y, et al. An automated apple harvesting robot: From system design to field evaluation[J]. Journal of field robotics, 2024, 41(7): 2384-2400.

[6]
HUA W J, ZHANG Z, ZHANG W Q, et al. Key technologies in apple harvesting robot for standardized orchards: A comprehensive review of innovations, challenges, and future directions[J]. Computers and electronics in agriculture, 2025, 235: ID 110343.

[7]
MO Y J, WU Y, YANG X N, et al. Review the state-of-the-art technologies of semantic segmentation based on deep learning[J]. Neurocomputing, 2022, 493: 626-646.

[8]
HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2980-2988.

[9]
WANG D D, HE D J. Fusion of Mask RCNN and attention mechanism for instance segmentation of apples under complex background[J]. Computers and electronics in agriculture, 2022, 196: ID 106864.

[10]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 779-788.

[11]
LI T, FENG Q C, QIU Q, et al. Occluded apple fruit detection and localization with a frustum-based point-cloud-processing approach for robotic harvesting[J]. Remote sensing, 2022, 14(3): ID 482.

[12]
LI X T, DING H H, YUAN H B, et al. Transformer-based visual segmentation: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2024, 46(12): 10138-10163.

[13]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. Red Hook, New York, USA: Curran Associates, Inc., 2017: 5998-6008.

[14]
SRINIVAS A, LIN T Y, PARMAR N, et al. Bottleneck transformers for visual recognition[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021: 16514-16524.

[15]
RAFFEL C, ELLIS D P W. Feed-forward networks with attention can solve some long-term memory problems[EB/OL]. arXiv:1512.08756, 2015.

[16]
贾伟宽, 孟虎, 马晓慧, 等. 基于优化Transformer网络的绿色目标果实高效检测模型[J]. 农业工程学报, 2021, 37(14): 163-170.

JIA W K, MENG H, MA X H, et al. Efficient detection model of green target fruit based on optimized Transformer network[J]. Transactions of the Chinese society of agricultural engineering, 2021, 37(14): 163-170.

[17]
KOONCE B. MobileNetV3[M]// Convolutional Neural Networks with Swift for Tensorflow. Berkeley, California: Apress, 2021: 125-144.

[18]
ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 6848-6856.

[19]
胡广锐, 周建国, 陈超, 等. 融合轻量化网络与注意力机制的果园环境下苹果检测方法[J]. 农业工程学报, 2022, 38(19): 131-142.

HU G R, ZHOU J G, CHEN C, et al. Fusion of the lightweight network and visual attention mechanism to detect apples in orchard environment[J]. Transactions of the Chinese society of agricultural engineering, 2022, 38(19): 131-142.

[20]
罗友璐, 潘勇浩, 夏顺兴, 等. 基于改进YOLOv8的苹果叶病害轻量化检测算法[J]. 智慧农业(中英文), 2024, 6(5): 128-138.

LUO Y L, PAN Y H, XIA S X, et al. Lightweight apple leaf disease detection algorithm based on improved YOLOv8[J]. Smart agriculture, 2024, 6(5): 128-138.

[21]
NIU W J, CHEN Y X, HE B G, et al. Intelligent veins recognition method for slope rock mass geological images in complex background noise[J]. Computers & geosciences, 2025, 197: ID 105885.

[22]
REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv:1804.02767, 2018.

[23]
ZHANG Z Y, YANG Y F, XU X, et al. GVC-YOLO: A lightweight real-time detection method for cotton aphid-damaged leaves based on edge computing[J]. Remote sensing, 2024, 16(16): ID 3046.

[24]
LI H, LI J, WEI H, et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles[EB/OL]. arXiv: 2206.02424, 2022.

[25]
YANG L X, ZHANG R Y, LI L D, et al. SimAM: A simple, parameter-free attention module for convolutional neural networks [C]// Proceedings of the 38th International Conference on Machine Learning. New York, USA: PMLR, 2021: 11863-11874.

[26]
TONG Z, CHEN Y, XU Z, et al. Wise-IoU: bounding box regression loss with dynamic focusing mechanism[EB/OL]. arXiv: 2301.10051, 2023.

[27]
HAN B, LU Z A, DONG L, et al. Lightweight non-destructive detection of diseased apples based on structural re-parameterization technique[J]. Applied sciences, 2024, 14(5): ID 1907.

[28]
BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT: Real-time instance segmentation[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2019: 9156-9165.

[29]
WANG X L, ZHANG R F, SHEN C H, et al. SOLO: A simple framework for instance segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(11): 8587-8601.

[30]
KHANAM R, HUSSAIN M. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 2410.17725, 2024.

文章导航

/