欢迎您访问《智慧农业(中英文)》官方网站! English
专刊--智慧果园关键技术与装备

基于改进Ghost-YOLOv5s-BiFPN算法检测梨树花序

  • 夏烨 , 1, 2 ,
  • 雷哓晖 1 ,
  • 祁雁楠 1 ,
  • 徐陶 1 ,
  • 袁全春 1 ,
  • 潘健 1 ,
  • 姜赛珂 1 ,
  • 吕晓兰 , 1
展开
  • 1. 江苏省农业科学院农业设施与装备研究所/农业农村部园艺作物农业装备重点实验室,江苏 南京 210014
  • 2. 江苏大学 农业工程学院,江苏 镇江 210200
吕晓兰(1980-),女,博士,研究员,研究方向为果园智能农机装备。E-mail:

夏 烨(1998-),男,硕士研究生,研究方向为农业机器人和机器视觉。E-mail:

收稿日期: 2022-07-14

  网络出版日期: 2022-11-04

基金资助

江苏省现代农机装备与技术示范推广项目(NJ2022-14)

财政部和农业农村部:国家现代农业产业技术体系资助

江苏省农业科技自主创新资金项目(CX(20)3058)

国家自然科学基金(32201680)

Detection of Pear Inflorescence Based on Improved Ghost-YOLOv5s-BiFPN Algorithm

  • XIA Ye , 1, 2 ,
  • LEI Xiaohui 1 ,
  • QI Yannan 1 ,
  • XU Tao 1 ,
  • YUAN Quanchun 1 ,
  • PAN Jian 1 ,
  • JIANG Saike 1 ,
  • LYU Xiaolan , 1
Expand
  • 1. Institute of Agricultural Facilities and Equipment, Jiangsu Academy of Agricultural Sciences / Key Laboratory of Modern Horticultural Equipment, Ministry of Agriculture and Rural Affairs, Nanjing 210014, China
  • 2. Institute of Agricultural Engineering Jiangsu University, Zhenjiang 210200, China

Received date: 2022-07-14

  Online published: 2022-11-04

本文亮点

疏花是梨生产中的重要农艺措施,机械化智能疏花是当今高速发展的疏花方式,花朵与花苞的分类与检测是保证疏花机器正常工作的基本要求。本研究针对目前梨园智能化生产中出现的梨树花序检测与分类问题,提出了一种基于改进YOLOv5s的水平棚架梨园花序识别算法Ghost-YOLOv5s-BiFPN。通过对田间采集的梨树花苞与花朵图像进行标注与数据扩充后送入算法进行训练得到检测模型。Ghost-YOLOv5s-BiFPN运用加权双向特征金字塔网络(Bi-directional Feature Pyramid Network,BiFPN)替换原始的路径聚合网络(Path Aggregation Network,PAN)结构,对网络提取的不同尺寸目标特征进行有效的融合。同时运用Ghost模块替换传统卷积,在不降低准确度的同时减少模型参数量和提升设备运行效率。田间试验结果表明,改进的Ghost-YOLOv5s-BiFPN算法对梨树花序中花苞与花朵的检测精度分别为93.2%和89.4%,两种目标平均精度为91.3%,检测单张图像时间为29 ms,模型大小为7.62 M。相比于原始YOLOv5s算法,检测精度与召回度分别提升了4.2%和2.7%,检测时间和模型参数量分别降低了9 ms和46.6%。本研究提出的算法可对梨树花苞与花朵进行精确的识别和分类,为后续梨园智能化疏花的实现提供技术支持。

本文引用格式

夏烨 , 雷哓晖 , 祁雁楠 , 徐陶 , 袁全春 , 潘健 , 姜赛珂 , 吕晓兰 . 基于改进Ghost-YOLOv5s-BiFPN算法检测梨树花序[J]. 智慧农业, 2022 , 4(3) : 108 -119 . DOI: 10.12133/j.smartag.SA202207006

Highlights

Mechanized and intelligent flower thinning is a high-speed flower thinning method nowadays. The classification and detection of flowers and flower buds are the basic requirements to ensure the normal operation of the flower thinning machine. Aiming at the problems of pear inflorescence detection and classification in the current intelligent production of pear orchards, a Y-shaped shed pear orchard inflorescence recognition algorithm Ghost-YOLOv5s-BiFPN based on improved YOLOv5s was proposed in this research. The detection model was obtained by labeling and expanding the pear tree bud and flower images collected in the field and sending them to the algorithm for training. The Ghost-YOLOv5s-BiFPN algorithm used the weighted bidirectional feature pyramid network to replace the original path aggregation network structure, and effectively fuse the features of different sizes. At the same time, ghost module was used to replace the traditional convolution, so as to reduce the amount of model parameters and improve the operation efficiency of the equipment without reducing the accuracy. The field experiment results showed that the detection accuracy of the Ghost-YOLOv5s-BiFPN algorithm for the bud and flower in the pear inflorescence were 93.21% and 89.43%, respectively, with an average accuracy of 91.32%, and the detection time of a single image was 29 ms. Compared with the original YOLOv5s algorithm, the detection accuracy was improved by 4.18%, and the detection time and model parameters were reduced by 9 ms and 46.63% respectively. Compared with the original YOLOV5s network, the mAP and recall rate were improved by 4.2% and 2.7%, respectively; the number of parameters, model size and floating point operations were reduced by 46.6%, 44.4% and 47.5% respectively, and the average detection time was shortened by 9 ms. With Ghost convolution and BIFPN adding model, the detection accuracy has been improved to a certain extent, and the model has been greatly lightweight, effectively improving the detect efficiency. From the thermodynamic diagram results, it can be seen that BIFPN structure effectively enhances the representation ability of features, making the model more effective in focusing on the corresponding features of the target. The results showed that the algorithm can meet the requirements of accurate identification and classification of pear buds and flowers, and provide technical support for the follow-up pear garden to achieve intelligent flower thinning.

1 引 言

梨树开花数量远远多于结果数量,疏花疏果能够节约树体养分和提升果实品质,是梨园生产管理中十分重要的农艺环节。目前在梨树疏花方面主要采用人工方式,既耗工费时又浪费树体养分。虽有疏花机具问世,但其属于随机击打的方式,作业不精准,因此在果园使用智能化疏花技术显得日趋重要,而智能化疏花的首要任务是对花序进行检测识别。
近年来各类检测算法在农业采摘、监测等方向得到了广泛运用1-4。同时,农业中对于各类水果识别方面的相关研究也取得了许多进展。杜文圣等5采用一种融合路径增强的改进Mask R-CNN(Region- Convolutional Neural Network)算法,针对葡萄花穗与果梗进行识别并通过集合逻辑算法定位疏花夹持点,夹持准确度可达83.3%。陈新等6利用改进单激发多框探测器(Single Shot MultiBox Detector,SSD)算法并引入MobileNetV3轻量化模块,对番茄花朵进行识别,识别准确率可达92.57%,检测速度达到了0.079 s/f,极大地提升了模型检测速度。龙洁花等7将卷积块注意力模块(Convolutional Block Attention Module, CBAM)注意力机制加入到了YOLOv4(You Only Look Once)网络的跨阶段局部残差模块中,对不同生长时期的草莓果实进行了识别,模型对草莓开花期、果实膨大期、绿果期和成熟期的检测平均精度分别为92.38%、82.45%、68.01%和92.31%。Wu等8通过使用通道剪枝方法改进YOLOv4算法对苹果花进行检测,对训练好的YOLOv4模型,通过对比批量归一化 (Batch Normalization,BN)层的γ系数得到不同输入层对网络的贡献度,从而确定网络修剪方式并微调,其修剪后的苹果花检测模型的参数数量减少了96.74%,平均精度为97.31%。Farjon等9通过Faster-RCNN进行迁移学习并由专业种植人员对花朵信息进行标注以实现对冠层苹果花不同开花程度的判别,模型平均精度可达68%,对开花程度的判别结果与人工判别结果高度一致,较好地对不同程度开放的苹果花进行了判别分类。
在这些现有的方法中,R-CNN10类方法作为一种二阶段(Two-stage)目标检测算法,识别准确度及精度较高,但识别效率较低,且运行所需要的计算资源较大,无法应用在计算性能较低的嵌入式设备中。SSD11算法相较于R-CNN算法在检测速度上有优势,但其检测精度存在一定局限。YOLO12作为一种单阶段 (One stage)检测算法,相对其他CNN模型在检测速度上有很大提升,同时兼顾了准确度,合适作为实际疏花场景中的检测方法,但在实际部署中,计算效率低下的嵌入式设备运行原始YOLO模型仍很难达到智能化疏花任务所需要的资源处理效率,且原始YOLO在对梨花目标进行识别时容易忽略其中较小尺寸的目标。常规环境中,梨树枝干生长不规律、花朵过密、目标大小不一、遮挡严重等问题也给花朵识别准确度造成了很大的影响。
针对上述问题,在真实疏花作业场景下,对YOLO网络进一步进行轻量化改进使其能在嵌入式设备上有效运行非常必要。本研究以开花期的梨花为研究对象,针对不同环境下的梨树花朵与花苞进行检测,通过使用加权双向特征金字塔网络,增强网络对多尺寸特征的融合能力。通过引入轻量化模块对网络层进行精简以降低模型参数,从而使其适用于嵌入式设备。

2 材料和方法

2.1 数据获取

本研究中梨树花序数据通过索尼DSC-RX100单反数码相机进行采集,样本数据采集于南京周边地区,品种为苏翠一号,采集日期为2022年3月10日至2022年3月30日,在白天阳光充分及傍晚阳光不足时分批次进行采集,共采集到原始图片2163张,图片以5472×3648的像素分辨率保存为*.jpg格式文件。因梨园按水平棚架模式(图1)进行种植,数据采集时以单根枝条为单位沿果树行间进行采集。
图1 梨树水平棚架

Fig. 1 Horizontal scaffolding of pear tree

数据集分为1658张训练集和505张验证集。为避免因数据集不足而产生模型过拟合,本研究通过OpenCV库编写处理程序,对原始数据采取改变亮度、旋转角度、增加高斯噪声、调整锐度等变换。具体变换策略为亮度上降为原图60%和45%两种梯度,旋转图片0~180°、增加高斯噪声方差0.01,锐度降低0~20%。扩充过程中对每张图片均通过这几种变换方式进行随机抽取变换梯度后组合,同时确保同一张图片不产生相同的扩充图片。为减少人工重复标注时间,程序对原始数据中已经标注的目标位置信息采取与图像相同的位置变换策略以直接生成标注完成的扩充数据。数据扩充示例选取了两张随机组合扩充策略的数据,如图2。对于已经标注的原始图片采取10倍的数据扩充策略,将原始数据扩充为21,630张标注完成的数据。
图2 梨花序原始数据随机扩充示例

Fig. 2 Examples of random expansion of pear flower sequence original data

2.2 图像识别算法

2.2.1 YOLOv5目标检测算法

通过将图像分为有限数量的锚框并对每个锚框的边缘框部分继续进行预测,将目标检测问题转化为概率回归问题。通过YOLO可以直接获得目标的类别和估计概率,相比于两阶段检测网络RCNN大大提高了检测速度。标准版YOLO每秒可以实时地处理45帧图像12,而轻量化后的较小版本YOLO每秒可以处理155帧图像13。目前YOLO系列14, 15经过了不断地改进,YOLOv5 在原有框架的基础上采用了CSPDarkNet53主干网络,相较于先前版本DarkNet53,CSPDarkNet53先将基础层的特征映射划分为两部分,然后通过跨阶段层次结构将划分部分合并,在减少了计算量的同时保证了模型识别的准确率。YOLOv5的颈部(Neck)网络采用了特征金字塔(Feature Pyramid Networks,FPN)+路径聚合网络(Path Aggregation Network,PAN)结构,FPN结构进行自顶向下传达强语义特征,PAN结构自底向上传达强定位特征,通过融合两种结构以实现对主干网络不同层特征的双向聚合。预测头部分通过对生成的不同尺寸的特征图利用基于网格的锚框进行概率回归判断从而进行预测。YOLOv5的特征提取网络主要包含特征提取模块CBS、CSP_X、金字塔池化层(Spatial Pyramid Pooling,SPP)等部分。CBS模块由卷积层(Conv)+批量归一化层(BN)+SiLU激活函数层组成,通过卷积提取特征,经过BN层进行归一化处理以加快网络学习速度后由激活函数对特征进行保留与映射并去除冗余特征。CSP_X由CBS与X个残差进行级联构成。SPP空间金字塔池化层对经过CBS模块后的特征图进行转换而形成固定大小的特征向量,使网络对不同尺寸的输入图片提取局部及全局特征进行融合。各模块与整个网络的结构图如图所示3。
为了在梨树疏花前检测出花苞与花朵,本研究选定YOLOv5中深度和特征图宽度最小版本的 YOLOv5s模型并对其网络进行了参数微调,以采集的数据为输入数据集。图片输入像素大小设置为640×640。学习率、批量大小和迭代次数分别设置为1%、32个和200次,类数为2,分为花朵与花苞,对于有花瓣展开的花苞认定其为花朵。
对通过微调后的YOLOv5s模型进行训练得到初始模型,前期测试中发现YOLOv5s模型可以对目标进行有效识别并分类,但在实际部署过程中发现其参数量较大,运行过程中占用了大量计算资源,无法在轻便地嵌入式设备上有效运行,同时对小目标的识别效果较差,因此需针对小尺寸目标调整网络特征融合方法并进行轻量化改造减少模型参数以便于户外部署。

2.2.2 融合Ghost的YOLOv5算法

为进一步减少模型参数量,在YOLO算法中引入Ghost网络16。Ghost网络是一种基于Ghost卷积模块的网络结构。传统的CNN结构通常通过大量浮点运算以达到理想精度。MoblieNet17-19及ShuffleNet20, 21等轻量化模型虽然降低了浮点计算量,但经过卷积产生的冗余特征图却没有得到有效处理。Ghost卷积模块先通过1×1普通卷积操作生成一些基础的原始特征图,然后将这些特征图逐一进行φ 1φ 2、……、φ k线性变换,得到另一部分冗余特征图后将这一部分特征图与原始特征图进行融合,增加通道数。这种通过线性运算得到冗余特征图的方式相比普通卷积,可用更少的代价来生成那些冗余的特征图。通过这种方式减小模型的总参数量以简化模型,Ghost卷积模块原理图如图4所示。
图3 YOLOv5s网络结构图

Fig. 3 YOLOv5s network structure diagram

图4 Ghost卷积模块原理图

Fig. 4 Schematic diagram of Ghost convolution module

利用Ghost卷积构成Ghost 瓶颈结构如图5所示,图中DWConv表示逐通道卷积。Ghost瓶颈模块通过卷积步长来区分模块结构,主要分为主干部分与残差边部分。卷积步长Stride=1时,由两个堆叠的Ghost卷积模块组成。第一个Ghost卷积模块主要用于拓展层以增加输入特征图的通道数。第二个Ghost卷积模块用于减少特征图通道数以与网络中的直径结构匹配,接着使用直径结构连接这两个Ghost卷积模块的输入和输出。卷积步长Stride=2时在主干部分中以一个步长为2的深度可分离卷积配合两个Ghost卷积模块进行宽高压缩并在残差边部分中添加一个步长为2的深度可分离卷积与一个1×1普通卷积。
图5 Ghost瓶颈结构模块

Fig. 5 Ghost bottleneck structure module

Ghost瓶颈结构的本质是以Ghost卷积来替换普通卷积以达到减小计算参数的目的。从计算量上看,对于传统卷积假设其输入尺寸为 C × H × W,卷积核为 C × K × K × N,其中C表示卷积通道数,K为卷积核大小,N为卷积核数量,其输出的特征图尺寸为 H ' × W ' × N,则可得此卷积计算量为 H ' × W ' × N × C × K × K。Ghost卷积采用分布提取特征图的方式,假设每个基础特征对应s个冗余特征,则Ghost卷积只需输出n/s个基础特征即可完成去冗余,然后通过线性变换对这些基础特征进行扩充以生成对应的相似特征。设每个线性操作的卷积核大小为d×d,则一般卷积和Ghost卷积的计算速度比Rates 可以表示为公式(1)
  R a t e s = n × H ' × W ' × C × K × K n s × H ' × W ' × C × K × K + s - 1 × n s × H ' × W ' × d × d = C × K × K 1 s × C × K × K + s - 1 s × d × d s × C s + C - 1 s
公式(1)的两种卷积方式计算速度比化简结果可知,传统卷积提取特征过程的计算量约等于 Ghost卷积的s倍,因此可知使用Ghost卷积可以确实的减小计算量并降低参数量。
本研究前期训练过程中观察到,随着训练轮次提高,模型产生了大量卷积层的同时出现了梯度消失的情况。原因在于Ghost模块的ReLU激活函数在负半轴为0,因此产生了负半轴无法激活的情况而使神经元无法学习到有效特征,针对这种情况,从激活函数上对Ghost模块进行了改进。
特征映射中较为理想的激活函数为YOLOv5算法的CBS模块中使用的Swish激活函数,其优势为无上界有下界,不会产生梯度饱和的现象,利于训练,Swish激活函数图像如图6(a)。虽然Swish激活函数的效果显著,但其函数存在指数运算,对于卷积层较多的模型会产生极大的运算量从而影响模型整体的效率。对此选择采用轻量化模型MobileNetV3中的Hard-Swish激活函数替代Swish函数,函数图像如图6(b)。从函数图像上观察,HardSwish以一个近似函数来替代Swish函数,保留了其无上界有下界的特点,同时替代了其指数运算的部分,可以通过更低的计算成本达到类似Swish函数的激活效果,从计算资源角度出发更适用于嵌入式设备部署。相比于ReLU函数在负半轴为0的情况,其在x∈(-3,0)时函数值非0,可以将负梯度信息很好地激活,适用于本研究的任务环境。将Ghost模块在Pytorch中封装后引入YOLO网络。在其主干网络中,以Ghost卷积替换传统卷积(图3中CSP及CBS结构),原网络颈部网络层和预测层保持原结构不变。
图6 激活函数图像

Fig. 6 Images of activation function

2.2.3 加权双向特征金字塔网络

在网络训练过程中,因为不同目标的尺寸大小不一,导致在卷积过程中大目标的特征随着卷积的深入可以保留,而小目标的特征可能会消失,因此需要将相同目标的不同深度的特征层进行融合。YOLOv5对于不同尺度的特征使用路径聚合网络(Path Aggregation Network)22进行融合,其结构如图7(a)所示,路径聚合网络通过将大小不同尺度的特征进行双向传播,将深层特征层携带的更强的语义信息传递到浅层特征层,同时将浅层特征层携带的更强的定位信息传递到深层特征层从而实现不同尺寸特征层的路径融合。
图7 PANet及BiFPN结构图

(a)PANet结构图 (b)BiFPN结构图

Fig. 7 Structure diagram of PANet and BiFPN

路径聚合网络虽然能将不同特征层进行有效融合,但其本质上仍是将不同特征进行简单相加。然而由于在不同的图像中被检测目标大小不一,因此训练中会产生不同分辨率尺寸的特征,在路径聚合网络中仍将他们简单相加,这将导致同一类型的不同尺寸特征对融合后输出的特征产生不平等的权重。大尺寸的特征被更多的融入网络而小尺寸特征贡献较小。本研究花序识别中,目标尺寸不一,这将严重影响最终训练模型的效果。为解决这一问题,参考加权双向特征金字塔网络(Bi-directional Feature Pyramid Network,BiFPN)23对检测网络结构进行改进,其结构如图7(b)所示。
相比于路径聚合网络,加权双向特征金字塔网络参考注意力机制(Attention)针对融合的不同尺寸特征增加了权重,动态可学习的调节每个尺度的贡献度,使网络在获得不同尺寸的特征时更好的将其融合。同时,其增加了残差连接以增强特征的表达能力。对于单输入边和输出边的结点,因其没有参与特征融合故可近似省略其特征信息以减小计算量,本研究网络中以BiFPN替代PANet以提高模型融合特征能力。为使BiFPN更好地发挥效果,在YOLOv5的征融合部分增加160×160的特征层,并将80×80的特征层2倍上采样与新增加的160×160的特征层进行融合,以供160×160的检测层检测更小目标。同时,在预测头部分增加一层160×160尺寸的检测层以检测小尺寸目标。替换后的颈部网络及预测头如图8所示。
图8 修改后的YOLOv5颈部网络及预测头结构

Fig. 8 Modified YOLOv5 neck network and prediction head structure

3 结果与分析

3.1 模型性能评估

从准确度和运算效率两个方面对模型进行评价。对于梨树花朵识别工作,模型运算效率直接影响后续的疏花工作,相比于识别精度更为重要,因此本研究在评价模型性能时以运算效率为第一指标。

3.1.1 模型准确度评价指标

准确度评价主要依靠准确度(Precision,P)、召回度(Recall,R)、均值平均精度(Mean Average Precision,mAP)和F 1得分四项指标进行评价,参数值越高,效果越好。这四项指标的计算如公式(2)~(5)。
P = T P T P + F P × 100 %
R = T P T P + F N × 100 %
m A P = A P N ( C l a s s )
F 1 = 2 × P × R P + R
其中,真阳性(True Positive,TP)为模型判定的正样本,事实上也是正样本的数量,个;假阳性(False Positive,FP)为模型判定的正样本,但事实上是负样本数量,个;假阴性(False Negative,FN)为判定的负样本,但事实上是正样本数量,个;平均精度(Average Precision,AP)为平均精度,由同一样本的精度求平均所得。

3.1.2 模型效率评价指标

效率评价主要由参数量(Parameters)、浮点运算数(GFLOPs)、平均检测时间三个指标评价。其中参数量主要由网络结构决定,每个参数在Pytorch框架中一般为32位存储,因此也可以通过模型的实际大小作为判断其参数量的方式。浮点运算数为模型需要进行的计算数量,平均检测时间取测试集中10张图片的检测时间平均值得到。

3.2 试验结果

3.2.1 加权双向特征金字塔网络及Ghost模块效果验证

为验证BiFPN模块的效果,以替换了BiFPN结构的网络模型进行训练。为更有效地体现BiFPN结构对网络的贡献,通过Grad-CAM对网络进行了可视化的效果对比。Grad-CAM可以通过热力图的方式表示网络对输入图片信息的关注程度。将两种网络输入Grad-CAM测试后,其对目标识别的热力图如图9。可以观察到BiFPN结构相比原生YOLOv5的PANet结构,对检测目标位置区域的热力较高且对于非目标区域的无关环境信息热度较低。由此可以判断BiFPN结构在本数据集中可以更好地提取花朵整体特征信息,同时降低了对环境中无关信息的关注,效果可靠。
图9 PANet和BiFPN识别梨花热力图效果对比

Fig. 9 Comparison of thermal diagram effects between PANet and BiFPN

为验证Ghost模块在本研究中的有效性,以一张枝干梨花花序图片为例,在识别过程中对YOLO网络层的第一个CBS模块后的特征图进行可视化,选取了部分生成的特征图如图10。由图10可知研究对象在卷积过程中同样会产生相似的冗余特征图,因此使用Ghost模块对冗余特征进行线性处理是有必要的。
图10 梨花特征可视化部分特征图

Fig. 10 Partial feature maps of pear flower feature visualization

3.2.2 模型性能消融实验

为验证各模块的作用与相互存在的影响,针对BiFPN与Ghost模块设计了消融试验。花序检测网络训练在Pytorch深度学习框架中进行。硬件平台使用台式服务器搭载Intel®CoreTM E5 V3 CPU,32 GB运行内存,12 GB GeForce GTX 3090显卡。软件环境为Ubuntu20.04系统,整个模型在Anaconda3虚拟环境下运行,使用Cuda 11.4加速显卡硬件。图片输入像素大小为640×640,训练epoch设置为1000轮,学习率初始为0.001,使用超参数进化,通过每一轮的损失率参数动态调整学习率以加快网络训练速度。
为统一标准同时尽可能简化模型。试验均使用相同卷积通道数与CSP模块层数的YOLOv5s版本模型为原始模型。表1中YOLOv5s代表使用原始YOLOv5s,其使用PANet进行特征融合,YOLOv5s-BiFPN表示使用了原始模型与BiFPN特征融合结构的模型,Ghost-YOLOv5s表示使用Ghost模块替换主干部分卷积后的YOLOv5s模型,Ghost-YOLOv5s-BiFPN表示同时使用了BiFPN结构和Ghost模块替换后的YOLOv5s模型。
表1 改进YOLOv5s与原始YOLOv5s性能参数对比

Table1 Comparison of performance parameters between improved YOLOv5s and original YOLOv5s

算法 mAP/% 召回率/% F 1得分/% 参数量 GFLOPs 平均检测时间/ms 模型大小/M
YOLOv5s 87.1 87.2 88.0 7,015,519 15.8 38 13.70
YOLOv5s-BiFPN 92.2 91.4 91.8 7,101,064 16.0 41 14.10
Ghost-YOLOv5s 86.2 86.5 86.5 3,678,423 8.1 27 7.49
Ghost-YOLOv5s-BiFPN 91.3 89.9 91.2 3,743,968 8.3 29 7.62
表1可知,YOLOv5s-BiFPN模型与使用PANet结构的原始模型相比,mAP与召回率分别提升了5.1%和4.2%,参数量增加了1.2%,平均检测时间增加了3 ms;Ghost-YOLOv5s对比YOLOv5s,mAP降低了0.9%,召回率降低了0.7%,参数量、模型大小及浮点运算数量分别降低了47.6%、45.3%和48.7%,平均检测时间缩短了11 ms。Ghost-YOLOv5s-BiFPN模型相比于原始网络,mAP和召回率分别提高了4.2%和2.7%,参数量、模型大小及浮点运算数量分别降低了46.6%、44.4%和47.5%,平均检测时间缩短了9 ms。可知在YOLOv5s中使用BiFPN结构可以有效提升模型的检测性能。使用BiFPN的模型参数量相比于原始模型虽然略有提升但其检测时间几乎相同且检测精度的提升收益较大。原因在于BiFPN混合了多尺寸的特征图,增加了针对小目标的特征图尺寸并进行加权融合,同时在训练中BiFPN对目标的权重数值是以一种动态可学习的方式进行调整,因此随着训练的深入其得到了比PANet结构更多的特征。与使用传统卷积的原始模型相比,使用Ghost卷积替换原始卷积十分显著地降低了模型的总参数量且平均精度并未显著下降,由此可得Ghost卷积操作相比传统卷积方式并未大量减少有效特征,损失的参数量大部分为冗余的特征图信息。从试验结果上看Ghost-YOLOv5s-BiFPN模型在降低参数的同时提高了对小目标检测的精度,更适合实际部署环境,表明融合BiFPN和Ghost模块的改进是有效的。

3.2.3 梨树花序检测结果

为验证所提出的基于融合Ghost与BiFPN的YOLOv5梨树花序检测方法的性能,使用118张梨树花苞花朵图像作为测试集对该方法进行测试。测试集中共有花朵633朵和花苞304个,检测的结果示例如图11所示。
图11 梨树花序识别结果示例

注:1、2、3分别为强光照、阴影、半阴影半强光检测结果;4表示检测失败结果;5表示目标被遮挡检测结果;6表示置信度误差导致的检测结果;7表示异色花蕊检测结果

Fig. 11 Examples of pear inflorescence recognition results

从结果上来看,该模型不仅适用于光照强的晴天采集的图像(图11(b)),也适用于光照均匀的阴天采集的图像(图11(d))。此外,对于在阳光直射条件(图11(a))和背光(图11(c))条件下也可完成检测任务。在不同光照环境下,该方法共检测到测试集中目标花朵572朵、花苞290个,其中真实花朵538朵,花苞271个,花朵、花苞的召回率和准确率分别为85.3%、89.4%和94.6%和93.2%。从试验数据结果及实际测试结果来看,模型对于两种类型目标的识别效果较好。结果中同时发现同一模型中,花苞的召回率往往高于花朵,观察识别示例后推断其原因在于花朵的形态各异,特征更为复杂,而花苞的特征较为统一。因此在模型中拥有更高的召回率。从图11例5中可以观察到,在遮挡条件下也模型可较为准确检测出目标。从图11例7观察到,异色花蕊的花朵也被成功检测,进一步推断模型具有一定的泛化能力,对出现一定变化的目标也可成功识别。从图11例4和6观察发现模型同时也存在部分目标漏检和多次检测的情况,此类情况多为两个目标具有重叠部分导致模型对其交并比(Intersection over Union,IoU)判断后舍弃了部分目标。后续需要针对这类重叠目标增加对应数据集以对模型进行改进。从图11的整体识别效果判断,模型可以在相对复杂环境下成功对花朵与花苞进行分类识别,对于对速度要求大于精度要求的疏花任务效果较为可靠。

4 结 论

本研究提出了一种融合BiFPN和Ghost模块的改进YOLOv5s模型,对梨树水平棚架规律枝干下的花序进行识别,将BiFPN加入到YOLOv5s主干网络后,通过可学习的加权方式对大尺寸与小尺寸的目标特征进行融合同时增加了160×160的特征融合与检测层以更好地识别小尺寸目标,提高了整体检测精度。通过在主干网络中以Ghost卷积替换传统卷积方式,以更低的算力成本得到了冗余的特征图,极大地降低了参数量,简化了模型使其更适用于嵌入式设备。
(1)在本实验梨树花序测试集上的试验结果表明,改进后的YOLOv5s-BiFPN-Ghost模型平均检测精度达到了91.3%,召回率达到了89.9%,与原YOLOv5s网络相比,参数量降低了46.6%,平均检测时间仅需29 ms。虽然增加Ghost模块相比于原始网络损失了一定准确度,但相对于模型轻量化的程度,检测精度的较小变化是可以接受的。后续可对比通道剪枝的模型量化方法寻找对于此任务的最佳模型轻量化策略。
(2)在实际测试中虽然可以较好地检测出独立的目标,但对于两个目标相互重叠的情况模型展现的检测效果并不理想。后续需要更改标注策略并增加对应情况数据集以迁移学习,同时调整寻找最佳IoU参数以改进网络。针对花朵类目标的低召回率情况,后续考虑添加CBAM注意力机制以提高模型对这类目标的召回率。
1
张伏, 陈自均, 鲍若飞, 等. 基于改进型YOLOv4-LITE轻量级神经网络的密集圣女果识别[J]. 农业工程学报, 2021, 37(16): 270-278.

ZHANG F, CHEN Z, BAO R, et al. Recognition of dense cherry tomatoes based on improved YOLOv4-LITE lightweight neural network[J]. Transactions of the CSAE, 2021, 37(16): 270-278.

2
刘天真, 滕桂法, 苑迎春, 等. 基于改进YOLO v3的自然场景下冬枣果实识别方法[J]. 农业机械学报, 2021, 52(5): 17-25.

LIU T, TENG G, YUAN Y, et al. Winter jujube fruit recognition method based on improved YOLOv3 under natural scene[J]. Transactions of the CSAM, 2021, 52(5): 17-25.

3
KANG H, CHEN C. Fruit detection. segmentation and 3D visualisation of environments in apple orchards[J]. Computers and Electronics in Agriculture, 2020, 171: ID 105302.

4
WANG Y, LYU J, XU L, et al. A segmentation method for waxberry image under orchard environment[J]. Scientia Horticulturae, 2020, 266: ID 109309.

5
杜文圣, 王春颖, 朱衍俊, 等. 采用改进Mask R-CNN算法定位鲜食葡萄疏花夹持点[J]. 农业工程学报, 2022, 38(1): 169-177.

DU W, WANG C, ZHU Y, et al. Fruit stem clamping points location for table grape thinning using improved mask R-CNN[J]. Transactions of the CSAE, 2022, 38(1): 169-177.

6
陈新, 伍萍辉, 祖绍颖, 等. 基于改进SSD轻量化神经网络的番茄疏花疏果农事识别方法[J]. 中国瓜菜, 2021, 34(9): 38-44.

CHEN X, WU P, ZU S, et al. Study on identification method of thinning flower and fruit of tomato based on improved SSD lightweight neural network[J]. China Cucurbits and Vegetables, 2021, 34(9): 38-44.

7
龙洁花, 郭文忠, 林森, 等. 改进YOLOv4的温室环境下草莓生育期识别方法[J]. 智慧农业(中英文), 2021, 3(4): 99-110.

LONG J, GUO W, LIN S, et al. Strawberry growth period recognition method under greenhouse environment based on improved YOLOv4[J]. Smart Agriculture, 2021, 3(4): 99-110.

8
WU D, LYU S, JIANG M, et al. Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments[J]. Computers and Electronics in Agriculture, 2020, 178: ID 105742.

9
FARJON G, KRIKEB O, HILLEL A, et al. Detection and counting of flowers on apple trees for better chemical thinning decisions[J]. Precision Agriculture, 2020, 21(3): 503-521.

10
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// The IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2014: 580-587.

11
LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single shot multibox detector[C]// European Conference on Computer Vision. Berlin, German: Springer, 2016: 21-37.

12
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// The IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2016: 779-788.

13
SHAFIEE M J, CHYWL B, LI F, et al. Fast YOLO: A fast you only look once system for real-time embedded object detection in video[J/OL]. arXiv: 1709.05943, 2017.

14
REDMON J, FARHADI A. Yolov3: An incremental improvement[J/OL]. arXiv: 1804.02767, 2018.

15
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL]. arXiv: 2004.10934, 2020.

16
HAN K, WANG Y, TIAN Q, et al. Ghostnet: More features from cheap operations[C]// The IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2020: 1580-1589.

17
HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J/OL]. arXiv: 1704.04861, 2017.

18
SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New York, USA: IEEE, 2018.

19
HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]// The IEEE/CVF International Conference on Computer Vision. Piscataway, New York, USA: IEEE, 2019: 1314-1324.

20
ZHANG X, ZHOU X, LIN M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]// The IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2018: 6848-6856.

21
MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]// The European Conference on COMPUTER VISIon (ECCV). Piscataway, New York, USA: IEEE, 2018: 116-131.

22
LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]// The IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2018: 8759-8768.

23
TAN M, PANG R, LE Q V. Efficientdet: Scalable and efficient object detection[C]// The IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New York, USA: IEEE, 2020: 10781-10790.

文章导航

/