Welcome to Smart Agriculture 中文
Topic--Intelligent Agricultural Knowledge Services and Smart Unmanned Farms(Part 1)

Grape Recognition and Localization Method Based on 3C-YOLOv8n and Depth Camera

  • LIU Chang ,
  • SUN Yu ,
  • YANG Jing ,
  • WANG Fengchao ,
  • CHEN Jin
Expand
  • College of Sciences, Shanghai Institute of Technology, Shanghai 201418, China
CHEN Jin, E-mail:
WANG Fengchao, E-mail:

LIU Chang, E-mail:

Received date: 2024-07-09

  Online published: 2024-12-13

Supported by

Shanghai Sailing Program, China(20YF1447600)

Research Start-up Project of Shanghai Institute of Technology(YJ2021-60)

Collaborative Innovation Project of Shanghai Institute of Technology(XTCX2023-22)

Science and Technology Talent Development Fund for Young and Middle-aged Teachers at Shanghai Institute of Technology(ZQ2022-6)

Copyright

copyright©2024 by the authors

Abstract

[Objective] Grape picking is a key link in increasing production. However, in this process, a large amount of manpower and material resources are required, which makes the picking process complex and slow. To enhance harvesting efficiency and achieve automated grape harvesting, an improved YOLOv8n object detection model named 3C-YOLOv8n was proposed, which integrates the RealSense D415 depth camera for grape recognition and localization. [Methods] The propoesed 3C-YOLOv8n incorporated a convolutional block attention module (CBAM) between the first C2f module and the third Conv module in the backbone network. Additionally, a channel attention (CA) module was added at the end of the backbone structure, resulting in a new 2C-C2f backbone network architecture. This design enabled the model to sequentially infer attention maps across two independent dimensions (channel and spatial), optimize features by considering relationships between channels and positional information. The network structure was both flexible and lightweight. Furthermore, the Content-aware ReAssembly of Features up sampling operator was implemented to support instance-specific kernels (such as deconvolution) for feature reconstruction with neighboring pixels, replacing the nearest neighbor interpolation operator in the YOLOv8n neck network. This enhancement increased the receptive field and guided the reconstruction process based on input features while maintaining low parameter and computational complexity, thereby forming the 3C-YOLOv8n model. The pyrealsense2 library was utilized to obtain pixel position information from the target area using the Intel RealSense D415 camera. During this process, the depth camera was used to capture images, and target detection algorithms were employed to pinpoint the location of grapes. The camera's depth sensor facilitated the acquisition of the three-dimensional point cloud of grapes, allowing for the calculation of the distance from the pixel point to the camera and the subsequent determination of the three-dimensional coordinates of the center of the target's bounding box in the camera coordinate system, thus achieving grape recognition and localization. [Results and Discussions] Comparative and ablation experiments were conducted. it was observed that the 3C-YOLOv8n model achieved a mean average precision (mAP) of 94.3% at an intersection ratio of 0.5 (IOU=0.5), surpassing the YOLOv8n model by 1%. The accuracy (P) and recall (R) rates were recorded at 91.6% and 86.4%, respectively, reflecting increases of 0.1% and 0.7%. The F1-Score also improved by 0.4%, demonstrating that the improved network model met the experimental accuracy and recall requirements. In terms of loss, the 3C-YOLOv8n algorithm exhibited superior performance, with a rapid decrease in loss values and minimal fluctuations, ultimately leading to a minimized loss value. This indicated that the improved algorithm quickly reached a convergence state, enhancing both model accuracy and convergence speed. The ablation experiments revealed that the original YOLOv8n model yielded a mAP of 93.3%. The integration of the CBAM and CA attention mechanisms into the YOLOv8n backbone resulted in mAP values of 93.5% each. The addition of the Content-aware ReAssembly of Features up sampling operator to the neck network of YOLOv8n produced a 0.5% increase in mAP, culminating in a value of 93.8%. The combination of the three improvement strategies yielded mAP increases of 0.3, 0.7, and 0.8%, respectively, compared to the YOLOv8n model. Overall, the 3C-YOLOv8n model demonstrated the best detection performance, achieving the highest mAP of 94.3%. The ablation results confirmed the positive impact of the proposed improvement strategies on the experimental outcomes. Compared to other mainstream YOLO series algorithms, all evaluation metrics showed enhancements, with the lowest missed detection and false detection rates among all tested algorithms, underscoring its practical advantages in detection tasks. [Conclusions] By effectively addressing the inefficiencies of manual labor, 3C-YOLOv8n network model not only enhances the precision of grape recognition and localization but also significantly optimizes overall harvesting efficiency. Its superior performance in evaluation metrics such as precision, recall, mAP, and F1-Score, alongside the lowest recorded loss values among YOLO series algorithms, indicates a remarkable advancement in model convergence and operational effectiveness. Furthermore, the model's high accuracy in grape target recognition not only lays the groundwork for automated harvesting systems but also enables the implementation of complementary intelligent operations.

Cite this article

LIU Chang , SUN Yu , YANG Jing , WANG Fengchao , CHEN Jin . Grape Recognition and Localization Method Based on 3C-YOLOv8n and Depth Camera[J]. Smart Agriculture, 2024 , 6(6) : 121 -131 . DOI: 10.12133/j.smartag.SA202407008

0 引 言

中国是世界上葡萄产量相对较大的国家1。2022年,中国葡萄产量增至1 544.65万吨,占全球总产量的46%2,葡萄采摘是增产的关键环节。然而,在这一过程中,需要大量的人力和物力,使得采摘过程变得复杂而缓慢。近年来,随着人工智能技术的发展,机器自动采摘技术的研究开始应用于农业生产中,特别是在水果和蔬菜的采摘过程中,以提高效率和减少人力成本。其中葡萄目标识别和定位在自动采摘中起到了至关重要的作用3-5。在葡萄目标检测过程中,存在葡萄藤缠绕、果实重叠、叶枝阻挡等问题,导致出现遗漏、错检、检测精度低等问题。
针对上述问题,近年来国内外学者对水果目标识别和定位进行了大量研究,提出了很多新的算法。国外学者Kondo6首先将光学感知技术应用到葡萄识别领域,使经过光学感知技术训练后的葡萄藤更容易被发现并收获葡萄串,这种技术对农业机器人的开发是有必要的。Chaivivatrakul和Dailey7提出利用尺度不变特征变换(Scale Invariant Feature Transform)、加速稳定特征(Speed Up Stability Feature)、定向快速旋转简报(Oriented FAST and Rotated BRIEF)等多种组合来分析水果轮廓纹理信息的方法,使果实检测准确率达到90%以上,但检测容易受到强光和遮挡的影响,导致系统的鲁棒性较低。李欣等8结合Hough变换提取谷糙图像轮廓的位置信息,检测平均误差为3.14 mm。Liu和Whitty9通过结合葡萄串颜色和葡萄果皮纹理信息,对红葡萄(颜色从浅红色到深紫色不等)的识别准确率为88%,召回率为91.6%。李欣和王玉德10基于YCbCr颜色空间模型和最大类间方差法阈值分割技术对有遮挡的柑橘果实进行识别,可以准确分割并识别出枝叶遮挡的柑橘果实,果实平均检出率达到90.48%。
以上基于目标轮廓纹理和颜色等信息的传统算法普遍存在稳定性差、适配性低等问题,难以适应动态天气条件。机器学习技术的发展,尤其是深度卷积神经网络的应用,为葡萄目标识别提供了新的方法11。Cecotti等12提出了一种基于迁移学习的卷积神经网络,葡萄检测准确率为99%。深度学习在检测葡萄过程中,可以有效降低外界因素的影响13。当下,基于深度学习的目标检测模型主要分为两大类:一类是以Fast Region-based Convolutional Network14、Faster R-CNN15、Cascade R-CNN16和Libra R-CNN17为代表的二阶段目标检测模型。朱旭等18基于Faster R-CNN模型对不同成熟度的蓝莓果实进行了准确识别,成熟、半成熟、未成熟果实的检测精确度分别为97%、95%和92%,但平均检测时间为0.25 s,实用性较低。另一类是单阶段网络,使用单个CNN网络对输入图像进行回归预测,在预测目标类别的过程中生成用于定位的边界框。这种类型的代表性网络有Single Shot MultiBox Detector(SSD)19、RetinaNet20、EfficientDet21和You Only Look Once(YOLO)22-25等,在单阶段目标检测模型中,目标定位和分类是同步进行的,所以检测速度较快。Moreira等26比较了YOLOv4和SSD对番茄的检测能力,发现YOLOv4表现更好,F 1分数为85.81%。Su等27提出了一种基于YOLO的轻量化模型,其主干采用Uniform,颈部采用加权双向特征金字塔网络(Bidirectional Feature Pyramid Network, Bi-FPN)结构,在Wine Grape Instance Segmentation Dataset(WGISD)中的平均精度均值(Mean Average Precision, mAP)为87.7%,F 1分数为83.1%,每秒帧数(Frames Per Second, FPS)为46。
在对葡萄目标进行检测的同时,对葡萄的定位也是研究的重点之一。基于机器视觉技术对果实目标的定位主要包括基于深度学习的定位点检测和基于位置约束的定位方法28。基于深度学习的采摘点检测主要是结合果实采摘点与果实间位置分布关系,通过深度学习的方法实现采摘点的预测29, 30;基于位置约束的采摘点定位方法是基于对果实、果梗等区域的识别,结合区域间的相对位置约束、果实或果梗区域分析等,定位采摘点的方法31。但是葡萄的定位需要结合准确深度信息以及几何模型分析,因此,获得目标准确的深度信息和几何模型至关重要。
由上述可知,在葡萄目标检测和定位的过程中,可能会出现检测精度低、漏检、错检以及定位不准确的情况。为了解决这类问题,本研究提出了一种基于3C-YOLOv8n和RealSense D415相机的葡萄识别和定位方法,将卷积注意力机制模块(Convolutional Block Attention Module, CBAM)插入到YOLOv8n主干网络中的第1个C2f模块和第3个Conv模块之间,Coordinate Attention(CA)注意力机制模块插入到主干网络的末端,使注意力机制与原有的网络结构充分融合,在提高模型表达能力和泛化能力的同时,避免了大量的计算,有效提升了模型的性能。颈部网络中第1个上采样算子由最近邻插值改为Content-Aware ReAssembly of Features(CARAFE),动态地生成自适应内核,在1个大的接受域中聚合上下文信息,有效增大感受野。最后将训练产生的模型与RealSense D415深度相机结合,对目标葡萄进行精准识别和定位,检测精度和定位精度都获得有效提升。

1 YOLOv8

YOLOv832是YOLO系列中的一个版本,其网络结构主要由Backbone、Neck和Head部分组成。Backbone部分负责特征提取,采用了一系列卷积和反卷积层,同时使用了残差连接和瓶颈结构来减小网络的大小并提高性能。该部分采用了C2f模块作为基本构成单元,与YOLOv5的C3模块相比,C2f模块具有更少的参数量和更优秀的特征提取能力。Neck部分负责多尺度特征融合,通过将来自Backbone不同阶段的特征图进行融合,增强特征表示能力。具体来说,YOLOv8的Neck部分包括以下组件:快速空间金字塔池化(Spatial Pyramid Pooling Fast, SPPF)33,用于不同尺度的池化操作,将不同尺度的特征图拼接在一起,提高对不同尺寸目标的检测能力;概率锚点分配(Probabilistic Anchor Assignment, PAA)34,用于智能地分配锚框,以优化正负样本的选择,提高模型的训练效果;两个路径聚合网络(Path Aggregation Network, PAN)35,用于不同层次特征的路径聚合,通过自底向上和自顶向下的路径增强特征图的表达能力。Head部分包括1个检测头和1个分类头,负责最终的目标检测和分类任务;分类头,采用全局平均池化对每个特征图进行多类别分类,通过减少特征图的维度,输出每个类别的概率分布36
YOLOv8分为YOLOv8n、s、m、l、x这5个版本,由于这5个模型训练过程的收敛速度相差不大,且YOLOv8n模型尺寸最小、检测精度优异,最符合试验要求,故本试验采用YOLOv8n模型作为基本模型。

2 3C-YOLOv8n网络模型

本研究提出了一种改进的YOLOv8n检测模型(3C-YOLOv8n),将主干网络中的第1个C2f模块和第3个Conv模块之间加入注意力模块CBAM,在此Backbone结构末尾加入CA模块,组成新的2C-C2f主干网络结构,该网络结构可以沿着两个独立的维度(通道和空间)依次推断注意力图,同时考虑到了通道间关系和位置信息,进行自适应特征优化,并且该网络结构灵活且轻量。此外,为了支持特定于实例的内核(如反卷积)与输入特征图中对应邻域的像素进行特征重组,本研究引入CARAFE上采样算子,将其替换掉YOLOv8n颈部网络中的第1个最近邻插值算子,增大感受野,根据输入特征来指导重组过程,同时仅需要很小的参数量和计算复杂度,共同组成3C-YOLOv8n模型。改进后的3C-YOLOv8n结构如图1所示。
图1 3C-YOLOv8n整体结构

注: 最左边的长箭头代表流向。

Fig. 1 Overall structure of 3C-YOLOv8n

2.1 改进型2C-C2f主干特征提取网络

CBAM作为一种先进的前向卷积神经网络架构,针对提供的特征映射,它采取了独特的策略,分别在通道和空间层面进行深入的注意力计算37。通过集成这些计算结果,实现了对输入特征的智能调整和优化过程,提升了整体的适应性和性能。首先通过通道注意力模块关注最重要的特征通道,然后通过空间注意力模块关注有信息的部分,这种双重注意力机制是CBAM能够全面捕获特征中的关键信息。
通道注意力模块(Channel Attention Module)的构建包含以下步骤:首先,它处理输入特征图,通过对宽度和高度方向实施全局最大值和平均值池化,提炼出特征的不同维度。然后,这些池化后的特征被独立地输入到多层感知器(Multilayer Perceptron, MLP)进行深层处理。接着,MLP的输出特征通过Element-wise相加,并通过Sigmoid函数进行非线性转换,以产生反映通道重要性的注意力图。进一步地,这个通道注意力图通过与原始输入特征图进行逐元素相乘的操作,以此作为生成空间注意力模块构建的基础特征。整个模块的工作流程在图2中有清晰的展示。简而言之,通道注意力机制通过这种精细的特征融合和注意力分配,有效地优化了网络对输入特征的响应,如公式(1)所示。
M c F = σ M L P A v g P o o l + M L P M a x P o o l
式中:输入特征图F经过全局平均池化(AvgPool)和最大池化(MaxPool)两个步骤进行特征提取,随后通过MLP进行深度学习处理,最后通过Sigmoid激活函数(σ)进行非线性转换。
图2 CBAM通道注意力模块网络结构图

Fig. 2 Network architecture diagram of CBAM channel attention module

空间注意力模块(Spatial Attention Module)的设计依赖于通道注意力模块的输出特征图。作为输入,它首先进行两个步骤的通道导向操作:最大池化和平均池化,分别提取特征的集中和平均信息。接着,这两个池化结果沿通道维度进行Concat操作,形成综合特征。紧接着,这一特征通过卷积层进行降维,转化为单通道的特征。随后,通过Sigmoid激活函数,产生一个明确的空间注意力权重。最后,这个空间注意力权重与模块初始输入特征进行Element-wise乘法,从而生成最终优化过的特征。图3清晰地呈现了空间注意力机制如何动态地调整输入特征的重要性,其中Spatial Attention表示空间注意力模块。空间注意力运行机制如公式(2)所示。
M s F = σ f 7 × 7 ( [ A v g P o o l ; M a x P o o l ] )
式中: f 7 × 7表示一个7×7的卷积操作;[AvgPool;MaxPool]表示将平均池化和最大池化结果沿通道轴拼接起来。
图3 CBAM空间注意力模块网络结构图

Fig. 3 Network architecture diagram of CBAM spatial attention module

CA将通道注意力模块视为一个两步特征聚合过程,它将信息沿两个独立的方向进行编码38。其中一个方向注重空间的全局性,捕捉潜在的长程依赖关系;另一个则保持对位置的精细感知,确保细节的准确性。通过这种方式,它生成了两个具有方向特性和位置敏感性的特征图。这些特征图作为互补组件,增强了对输入特征图中目标特征的表征能力,尤其解决了CBAM模块可能存在的局限,即它虽然擅长捕捉局部特征,但在处理长距离依赖性方面有所欠缺。这种设计策略旨在增强模型的全局理解和精确定位能力。两者结合既可以对一个通道的特征进行全面捕获,又可以对不同方向的特征进行敏锐感知。

2.2 CARAFE引入颈部网络

CARAFE是一种基于输入特征引导特征重组的轻量级模块,在特征重组过程中具有较大的感受野39。该模块可以弥补YOLOv8n的原始上采样模块没有利用特征图语义信息的缺点。该模块分为两个主要模块,即上采样内核预测模块和特征重组模块。
在上采样内核预测模块的运作过程中,首先实施了关键的通道压缩步骤。针对输入的特征映射,具有 H × W × C维度,通过应用1 ×1大小的卷积核,将其丰富的通道信息压缩至新的维度 H × W × C m,实现了维度的精简。接下来,模块执行内容编码和上采样内核生成。设定上采样率为σ,且内核尺寸为 k u p × k u p,为了实现每个输出特征点的独特内核处理,所需的上采样内核形状需为 σ H × σ W × k u p × k u p。在压缩阶段,利用 k e n c o d e r × k e n c o d e r 的卷 积层 , 针对 C m通道的输入预测上采样核,输出通道数量设置为 σ 2 k u p 2,然后通过空间扩展将通道扩展至 σ H × σ W × k u p 2的大小。最后,通过Softmax函数对获取的上采样内核进行标准化处理,确保所有卷积权重总和为1,确保了内核的权重分布合理性。具体过程如图4所示。
图4 CARAFE模块网络结构

Fig. 4 Network structure of CARAFE module

特征重组模块的核心任务是将输出特征图中的每个位置对应到输入特征图,聚焦于以该点为中心的 k u p × k u p区域。随后,通过点积运算,将这部分区域信息与相应的预测上采样内核相结合,从而生成每个位置的输出值。具体过程如图4所示。

3 基于Real Sense D415的葡萄定位

本研究在Intel RealSense系列相机中选择D415型号作为检测目标定位的辅助工具,是因为其精度高、误差小,且该型号价格适中,性价比很高。在使用深度相机进行测距时,首要步骤是进行4种坐标系之间的转换,然后再根据检测目标框中心点的平面坐标和对应的深度信息进行定位。

3.1 坐标系关系介绍

世界坐标系( O W- X W Y W Z W)是定位系统中的参考坐标系,空间世界中任意一点都可以在世界坐标系中进行精确定位,从而建立摄像机与空间中其他目标之间的坐标转换关系。相机坐标系( O C- X C Y C Z C)通常以摄像机光心为坐标原点,相机坐标系中的 X c Y c轴与图像坐标系统保持平行,遵循右手坐标系规则。图像坐标系( O 1- x y)位于相机成像平面上,坐标原点为摄像机光轴与图像坐标系的交点。像素坐标系( O 0- u v)定位在相机的成像平面上,其单位基于像素,起始点设在图像的左上角40图5显示了4种坐标之间的关系。
图5 世界坐标系、相机坐标系、图像坐标系和像素坐标系的参考模型和它们之间的关系

Fig. 5 Reference models for world coordinate system, camera coordinate system, image coordinate system, and pixel coordinate system, and their relationships

3.2 目标定位

通过目标检测得到葡萄的预测框,目标葡萄一定在矩形预测框的中心点上。因此该中心点可以作为葡萄在二维平面坐标中的中心坐标,如图6所示。中心点坐标 P ( x e , y e )公式(3)公式(4)所示。
x e = x + W / 2
y e = y + H / 2
式中:WH分别是检测框在水平和竖直方向上的像素数。
图6 基于3C-YOLOv8n检测到的葡萄预测框进行二维坐标定位

Fig. 6 2D coordinate localization based on grape predicted boxes detected by 3C-YOLOv8n

葡萄像素平面与相机的空间关系如图7所示。 P ( x , y , z )为葡萄像素平面中心点的空间坐标,对通过目标检测的检测框中心点坐标 P ( x e , y e )进行分析。将RGB图像与深度点云进行匹配,得到点云的像素平面,从而得到中心对应的深度信息。
图7 目标葡萄中心点的空间坐标与像素平面和深度相机之间的关系

Fig. 7 Relationship between spatial coordinates of target grape center point and pixel plane and depth camera

本研究使用Intel RealSense D415相机的pyrealsense2库获取目标区域的像素位置信息。在这个过程中,当深度相机采集图像时,利用目标检测算法获取葡萄在图像中的位置,利用相机的深度传感器获取葡萄的三维点云,即可获得该像素点到相机的距离,从而可以得到目标的矩形框中心在相机坐标系下的三维坐标数据。

4 模型的训练与试验

4.1 试验平台和数据集

本试验中使用的硬件设备和软件环境是NVIDIA GeForce RTX 3070笔记本电脑GPU,配备Radeon Graphics 3.30 GHz CPU的AMD Ryzen 9 5900 HX,Windows 11 x64操作系统,Intel RealSense D415深度相机,采用Pytorch 1.12.0版本的深度学习框架,安装有CUDA 12.5版本的并行计算框架,Python版本为3.9.19。本试验数据集由Kaggle公开数据集41和自制葡萄数据集混合而成,总数为627张,比例为2∶1,并将所有样本图像以8∶1∶1的比例分为训练集、验证集和测试集。并对数据集进行亮度变化、裁剪、旋转、高斯噪声4种数据增强方式,以提高所训练模型的泛化能力,如图8所示,总共992张图像。
图8 葡萄识别试验的部分数据集图像

Fig.8 Partial dataset images of grape recognition experiment

4.2 评价指标

为了准确评估模型的性能,本试验使用准确率(Precision, P)、召回率(Recall, R)、并交比(Intersection Over Union, IOU)阈值为0.5的平均检测精度(Mean Average Precision, mAP)、调和平均数(F 1)和损失值(Loss)作为模型的评价指标, P R的计算方法如公式(5)公式(6)所示
P = T P T P + F P
R = T P T P + F N
式中: T P是具有相同预测值和真实值的阳性样本数,即本试验正确检测葡萄的个数; F P是具有不同预测值和真实值的阳性样本数,即检测到的错误目标数; F N是具有不同预测值和真实值的阴性样本数,即漏检样本数。 F 1 A P的计算方法如公式(7)公式(8)所示。
F 1 = 2 × P × R P + R
A P = 0 1 P ( R ) d R
在试验中,模型训练后会绘制一条P-R曲线来计算AP值,所有类别的平均AP值为mAP值。由于本试验只有一个类别,因此AP值就是mAP值。Loss的计算方法如公式(9)所示。
L o s s C I O U = 1 - I O U + ρ 2 b , b g t c 2 + α × v
式中:IOU表示交并比;b b g t表示两个矩形框的中心点;ρ表示两个矩形框之间的欧式距离;c表示两个矩形框闭合区域的对角线距离;v用于测量两个矩形框相对比例的一致性;α表示权重系数。

4.3 结果与分析

为了最大限度地提高葡萄检测的准确度,本试验使用的算法参数设置如表1所示。
表1 葡萄识别试验算法参数设置

Table 1 Parameter settings for grape recognition experiment algorithm

参数 设置值
Image size/dpi 640×640
Epoch 200
Batch size 4
lr0 0.01
lrf 0.01
box 7.5
cls 0.5
obj 1.0
本试验将改进后的3C-YOLOv8n算法与YOLO系列的其他算法进行对比,以验证该模型的性能,结果详见表2
表2 3C-YOLOv8n算法和其他算法在葡萄测试集试验结果对比

Table 2 Comparison of experimental results between 3C-YOLOv8n algorithm and other algorithms on grape test set

模型 P R mAP/% F 1/%
3C-YOLOv8n 0.916 0.864 94.3 88.9
YOLOv8n 0.915 0.857 93.3 88.5
YOLOv5 0.901 0.833 92.1 86.5
YOLOv4 0.718 0.802 82.6 75.7
YOLOv3 0.624 0.806 80.1 70.3
表2可知,对于本试验来说,YOLOv8n网络的性能远远高于YOLOv5、YOLOv4和YOLOv3网络,而本研究提出的3C-YOLOv8n网络,在原本YOLOv8n网络基础上,通过添加CBAM和CA注意力机制,既关注了最重要的特征通道,又对不同方向的特征进行敏锐感知,实现了注意力机制的有机结合,又使用CARAFE上采样算子,增大了特征重组过程中的感受野,充分利用特征重组时的语义信息,从而该模型在PR上领先于原始的YOLOv8n算法,分别增长了0.1和0.7个百分点,分别为91.6%和86.4%,F 1也相应地增长了0.4个百分点,使改进的网络模型检测的PR可以达到本试验的要求。与此同时,IOU阈值为0.5的mAP值也比YOLOv8n提升了1个百分点,为94.3%,有效地提升了模型的检测性能,能够满足真实环境下果实精准检测的需求。
图9可以看出,在损失方面,3C-YOLOv8n算法表现优异,与YOLOv8n相近。与其他算法相比,3C-YOLOv8n损失值迅速下降,几乎没有抖动,并且最后损失值最小,这就意味着改进算法可以很快地进入收敛状态,在提升模型收敛速度的同时,提升了模型的精度。由于使用了同样的超参数,且YOLO算法的核心损失计算相似,所以改进算法和其他的损失曲线相近。
图9 3C-YOLOv8n模型与其他主流YOLO模型的损失曲线

Fig. 9 Loss curves of 3C-YOLOv8n model and other mainstream YOLO models

为验证本试验的3种改进策略对模型检测性能的影响,进行了消融试验,结果如表3所示,可知试验1采用原YOLOv8n模型,对葡萄的识别mAP值为93.3%;试验2、试验3分别在YOLOv8n的主干网络中融合了CBAM和CA注意力机制,mAP值分别为93.5%和93.5%;试验4在YOLOv8n颈部网络中加入了CARAFE上采样算子,mAP提升了0.5个百分点,为93.8%;试验5、试验6和试验7分别为3种改进策略两两组合后的结果,mAP分别比试验1的模型提升了0.3、0.7、0.8个百分点;试验8为本研究提出的3C-YOLOv8n模型,检测效果和综合性能最佳,mAP值最高,为94.3%,相较于试验1提升了1个百分点。通过该消融试验证明了本研究进行的改进策略均对试验效果有积极的影响。
表3 3C-YOLOv8n消融试验结果

Table 3 3C-YOLOv8n ablation test results

试验编号 CBAM模块 CA模块 CARAFE算子 mAP/%
1 × × × 93.3
2 × × 93.5
3 × × 93.5
4 × × 93.8
5 × 93.6
6 × 94.0
7 × 94.1
8 94.3

注:√代表含有该模块,×代表不含该模块。

为了更加客观地验证3C-YOLOv8n模型的性能,将该模型与其他主流YOLO系列算法的测试集检测效果进行了对比,如图10所示。可以看出,3C-YOLOv8n算法的性能远远高于YOLO其他系列算法。YOLOv4和YOLOv3算法由于准确率和召回率较低,在实际检测中有漏检、错检的问题,而且检测精度低。而YOLOv5和YOLOv8n算法尽管没有错检、漏检的问题,但会对同一目标进行重复检测,且大多数检测目标的置信度偏低,不能满足本试验的检测要求。本研究提出的3C-YOLOv8n模型在各个评价指标都相比于YOLOv8n有提升,所以其在实际检测中效果比YOLOv8n算法更好,能够更好地满足葡萄果实的精准识别。
图10 葡萄识别试验中3C-YOLOv8n模型与其他主流YOLO模型在测试集的检测效果对比

Fig. 10 Comparison of detection performance between the 3C-YOLOv8n model and other mainstream YOLO models in grape recognition experiments on the test set

图11是本试验最后对葡萄进行定位的实际检测图。考虑试验场景空间大小和深度相机的参数限制,本试验通过搭建葡萄群,来近距离地(0.3~2.0 m)验证本研究所提方法的定位效果。可以看出,使用了不同角度和不同距离的采集方式,对每个葡萄都进行了检测(图11a方向为正向、距离较远,为1.3~1.5 m;图11b方向为斜向45º、距离较近,为0.9~1.3 m),界面中每个葡萄上都显示了置信度、中心点平面坐标和每个葡萄中心点与相机的实际距离(m),后两者结合组成葡萄在世界坐标系中的三维坐标。
图11 葡萄识别与定位试验在不同距离和角度下对葡萄群的识别定位效果

Fig. 11 The research method of grape recognition and localization experiment on the recognition and localization effect of grape clusters at different distances and angles

5 结 论

针对人工采摘葡萄效率低下的问题,本研究基于YOLOv8n算法提出了3C-YOLOv8n网络模型,实现了在模拟仿真环境下对葡萄的精准识别与定位。该模型在主干部分加入了CBAM和CA注意力机制,通过两者结合,使网络既关注了最重要的特征通道,又对不同方向的特征进行敏锐感知,实现了注意力机制的有机结合。使用CARAFE上采样算子,增大了特征重组过程中的感受野,充分利用特征重组时的语义信息,再搭配RealSense D415深度相机进行目标定位,组成葡萄的识别和定位系统。通过对比实验,可以看到3C-YOLOv8n模型在PR、mAP、F 1等评价指标上都表现不错,平均检测精度比YOLOv8n提高了1个百分点,为94.3%。同时损失值为YOLO系列算法中最低,收敛效果最好,最大程度地发挥了模型的性能。本研究提出的方法在葡萄目标识别和定位方面的精准性也为后续的智能抓取、智能浇灌等操作提供了技术支持。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
赵梦瑶, 赵君彦, 张泽, 等. 我国鲜食葡萄价格波动特征及影响因素研究[J]. 北方园艺, 2024(18): 136-144.

ZHAO M Y, ZHAO J Y, ZHANG Z, et al. Study on price fluctuation characteristics and influencing factors of table grape in China[J]. Northern horticulture, 2024(18): 136-144.

2
言九. 2023年全球与中国葡萄行业产量、消费量、进出口数量及区域分布情况[DS/OL]. (2023-07-20) [2024-07-02].

3
OTANI T, ITOH A, MIZUKAMI H, et al. Agricultural robot under solar panels for sowing, pruning, and harvesting in a synecoculture environment[J]. Agriculture, 2022, 13(1): ID 18.

4
VROCHIDOU E, TSAKALIDOU V N, KALATHAS I, et al. An overview of end effectors in agricultural robotic harvesting systems[J]. Agriculture, 2022, 12(8): ID 1240.

5
FAN P, LANG G D, GUO P J, et al. Multi-feature patch-based segmentation technique in the gray-centered RGB color space for improved apple target recognition[J]. Agriculture, 2021, 11(3): ID 273.

6
KONDO N. Study on grape harvesting robot[J]. IFAC proceedings volumes, 1991, 24(11): 243-246.

7
CHAIVIVATRAKUL S, DAILEY M N. Texture-based fruit detection[J]. Precision agriculture, 2014, 15(6): 662-683.

8
李欣, 齐家敏, 程昊, 等. 基于机器视觉的谷糙分离检测方法[J]. 食品与机械, 2024, 40(6): 97-103.

LI X, QI J M, CHENG H, et al. Grain and chaff separation detection method based on machine vision[J]. Food & machinery, 2024, 40(6): 97-103.

9
LIU S, WHITTY M. Automatic grape bunch detection in vineyards with an SVM classifier[J]. Journal of applied logic, 2015, 13(4): 643-653.

10
李欣, 王玉德. 基于颜色模型和阈值分割的有遮挡的柑橘果实识别算法[J]. 计算技术与自动化, 2022, 41(2): 136-140.

LI X, WANG Y D. Occluded citrus fruit recognition algorithm based on color model and threshold segmentation[J]. Computing technology and automation, 2022, 41(2): 136-140.

11
DARWIN B, DHARMARAJ P, PRINCE S, et al. Recognition of bloom/yield in crop images using deep learning models for smart agriculture: A review[J]. Agronomy, 2021, 11(4): ID 646.

12
CECOTTI H, RIVERA A, FARHADLOO M, et al. Grape detection with convolutional neural networks[J]. Expert systems with applications, 2020, 159: ID 113588.

13
YIN W, WEN H J, NING Z T, et al. Fruit detection and pose estimation for grape cluster-harvesting robot using binocular imagery based on deep neural networks[J]. Frontiers in robotics and AI, 2021, 8: ID 626989.

14
GIRSHICK R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2015: 1440-1448.

15
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

16
CAI Z W, VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 6154-6162.

17
PANG J M, CHEN K, SHI J P, et al. Libra R-CNN: Towards balanced learning for object detection[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 821-830.

18
朱旭, 马淏, 姬江涛, 等. 基于Faster R-CNN的蓝莓冠层果实检测识别分析[J]. 南方农业学报, 2020, 51(6): 1493-1501.

ZHU X, MA H, JI J T, et al. Detecting and identifying blueberry canopy fruits based on Faster R-CNN[J]. Journal of southern agriculture, 2020, 51(6): 1493-1501.

19
LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2016: 21-37.

20
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2980-2988.

21
TAN M X, PANG R M, LE Q V. EfficientDet: Scalable and efficient object detection[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 10781-10790.

22
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 779-788.

23
REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017: 7263-7271.

24
REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv:1804.02767, 2018.

25
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. arXiv: 2004.10934, 2020.

26
MOREIRA G, MAGALHÃES S A, PINHO T, et al. Benchmark of deep learning and a proposed HSV colour space models for the detection and classification of greenhouse tomato[J]. Agronomy, 2022, 12(2): ID 356.

27
SU S Z, CHEN R B, FANG X J, et al. A novel lightweight grape detection method[J]. Agriculture, 2022, 12(9): ID 1364.

28
陈青, 殷程凯, 郭自良, 等. 苹果采摘机器人关键技术研究现状与发展趋势[J]. 农业工程学报, 2023, 39(4): 1-15.

CHEN Q, YIN C K, GUO Z L, et al. Current status and future development of the key technologies for apple picking robots[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(4): 1-15.

29
TAFURO A, ADEWUMI A, PARSA S, et al. Strawberry picking point localization ripeness and weight estimation[C]// 2022 International Conference on Robotics and Automation (ICRA). Piscataway, New Jersey, USA: IEEE, 2022: 2295-2302.

30
DU W S, JIA Z H, SUI S S, et al. Table grape inflorescence detection and clamping point localisation based on channel pruned YOLOv7-TP[J]. Biosystems engineering, 2023, 235: 100-115.

31
宁政通, 罗陆锋, 廖嘉欣, 等. 基于深度学习的葡萄果梗识别与最优采摘定位[J]. 农业工程学报, 2021, 37(9): 222-229.

NING Z T, LUO L F, LIAO J X, et al. Recognition and the optimal picking point location of grape stems based on deep learning[J]. Transactions of the Chinese society of agricultural engineering, 2021, 37(9): 222-229.

32
WANG G, CHEN Y F, AN P, et al. UAV-YOLOv8: A small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios[J]. Sensors, 2023, 23(16): ID 7190.

33
TANG H Y, LIANG S, YAO D, et al. A visual defect detection for optics lens based on the YOLOv5-C3CA-SPPF network model[J]. Optics express, 2023, 31(2): 2628-2643.

34
WANG S B, CHEN R H, WU H Y, et al. YOLOH: You only look one hourglass for real-time object detection[J]. IEEE transactions on image processing, 2024, 33: 2104-2115.

35
CHEN S L, ZHAO J Q, ZHOU Y, et al. Info-FPN: An informative feature pyramid network for object detection in remote sensing images[J]. Expert systems with applications, 2023, 214: ID 119132.

36
LI Y T, FAN Q S, HUANG H S, et al. A modified YOLOv8 detection network for UAV aerial image recognition[J]. Drones, 2023, 7(5): ID 304.

37
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018: 3-19.

38
HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021.

39
WANG J Q, CHEN K, XU R, et al. CARAFE: Content-aware ReAssembly of FEatures[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2019.

40
LI M Y, HUANG J Q, XUE L, et al. A guidance system for robotic welding based on an improved YOLOv5 algorithm with a RealSense depth camera[J]. Scientific reports, 2023, 13(1): ID 21299.

41
RegnierNicolaas. Grape bunch detect and segment[DS/OL]. [2024-05-11].

Outlines

/