基于改进YOLOv8s的大田甘蓝移栽状态检测算法

吴小燕; 郭威; 朱轶萍; 朱华吉; 吴华瑞

doi:10.12133/j.smartag.SA202401008

智慧农业 >

2024 , Vol. 6 >Issue 2: 107 - 117

DOI: https://doi.org/10.12133/j.smartag.SA202401008

专刊--农业信息感知与模型

基于改进YOLOv8s的大田甘蓝移栽状态检测算法

吴小燕 ¹^,² ,
郭威 ²^,³^,⁴^,⁵ ,
朱轶萍 ² ,
朱华吉 ²^,³^,⁴^,⁵ ,
吴华瑞 ^,²^,³^,⁴^,⁵

展开

^1. 广西大学计算机与电子信息学院，广西南宁 530000，中国
^2. 国家农业信息化工程技术研究中心，北京 100097，中国
^3. 北京市农林科学院信息技术研究中心，北京 100097，中国
^4. 农业农村部数字乡村技术重点实验室，北京 100097，中国
^5. 农业农村部农业信息技术重点实验室，北京 100097，中国

吴华瑞，博士，研究员，研究方向为农业智能系统、农业大数据智能服务等。E-mail： wuhr@nercita.org.cn

吴小燕，研究方向为深度学习、计算机视觉。E-mail：1733762465@qq.com

收稿日期: 2024-01-11

网络出版日期: 2024-03-06

基金资助

国家重点研发计划(2022YFD1600605)

国家现代农业产业技术体系项目(CARS-23-D07)

中央引导地方科技发展资金项目(2023ZY1-CGZY-01)

收起

Transplant Status Detection Algorithm of Cabbage in the Field Based on Improved YOLOv8s

WU Xiaoyan ¹^,² ,
GUO Wei ²^,³^,⁴^,⁵ ,
ZHU Yiping ² ,
ZHU Huaji ²^,³^,⁴^,⁵ ,
WU Huarui ^,²^,³^,⁴^,⁵

Expand

^1. School of Computer and Electronic Information, Guangxi University, Nanning 530000, China
^2. National Engineering Research Center for Information Technology in Agriculture, Beijing 100097, China
^3. Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100097, China
^4. Key Laboratory of Digital Rural Technology, Ministry of Agriculture and Rural Affairs, Beijing 100097, China
^5. Key Laboratory of Agri-informatics, Ministry of Agriculture and Rural Affairs, Beijing 100097, China

WU Huarui, E-mail: wuhr@nercita.org.cn

WU Xiaoyan, E-mail: 1733762465@qq.com

Received date: 2024-01-11

Online published: 2024-03-06

Supported by

National Key Research and Development Program of China(2022YFD1600605)

National Modern Agricultural Industry Technology System Project(CARS-23-D07)

Central Government Guide Local Science and Technology Development Fund Project(2023ZY1-CGZY-01)

Copyright

Fold

摘要

[目的/意义] 借助智能化识别及图像处理等技术来实现对移栽后蔬菜状态的识别和分析，将会极大提高识别效率。为了实现甘蓝大田移栽情况的实时监测和统计，提高甘蓝移栽后的成活率以及制定后续工作方案，减少人力和物力的浪费，研究一种自然环境下高效识别甘蓝移栽状态的算法。 [方法] 采集移栽后的甘蓝图像，利用数据增强方式对数据进行处理，输入YOLOv8s（You Only Look Once Version 8s）算法中进行识别，通过结合可变形卷积，提高算法特征提取和目标定位能力，捕获更多有用的目标信息，提高对目标的识别效果；通过嵌入多尺度注意力机制，降低背景因素干扰，增加算法对目标区域的关注，提高模型对不同尺寸的甘蓝的检测能力，降低漏检率；通过引入Focal-EIoU Loss（Focal Extended Intersection over Union Loss），优化算法定位精度，提高算法的收敛速度和定位精度。 [结果和讨论] 提出的算法经过测试，对甘蓝移栽状态的召回率R值和平均精度均值（Mean Average Precision，mAP）分别达到92.2%和96.2%，传输速率为146帧/s，可满足实际甘蓝移栽工作对移栽状态识别精度和速度的要求。 [结论] 提出的甘蓝移栽状态检测方法能够实现对甘蓝移栽状态识别的准确识别，可以提升移栽质量测量效率，减少时间和人力投入，提高大田移栽质量调查的自动化程度。

关键词： 甘蓝移栽; YOLOv8s; 目标检测; 多尺度注意力机制; 可变形卷积

本文引用格式

吴小燕 , 郭威 , 朱轶萍 , 朱华吉 , 吴华瑞 . 基于改进YOLOv8s的大田甘蓝移栽状态检测算法[J]. 智慧农业, 2024 , 6(2) : 107 -117 . DOI: 10.12133/j.smartag.SA202401008

Abstract

[Objective] Currently, the lack of computerized systems to monitor the quality of cabbage transplants is a notable shortcoming in the agricultural industry, where transplanting operations play a crucial role in determining the overall yield and quality of the crop. To address this problem, a lightweight and efficient algorithm was developed to monitor the status of cabbage transplants in a natural environment. [Methods] First, the cabbage image dataset was established, the cabbage images in the natural environment were collected, the collected image data were filtered and the transplanting status of the cabbage was set as normal seedling (upright and intact seedling), buried seedling (whose stems and leaves were buried by the soil) and exposed seedling (whose roots were exposed), and the dataset was manually categorized and labelled using a graphical image annotation tool (LabelImg) so that corresponding XML files could be generated. And the dataset was pre-processed with data enhancement methods such as flipping, cropping, blurring and random brightness mode to eliminate the scale and position differences between the cabbages in the test and training sets and to improve the imbalance of the data. Then, a cabbage transplantation state detection model based on YOLOv8s (You Only Look Once Version 8s) was designed. To address the problem that light and soil have a large influence on the identification of the transplantation state of cabbage in the natural environment, a multi-scale attention mechanism was embedded to increase the number of features in the model, and a multi-scale attention mechanism was embedded to increase the number of features in the model. Embedding the multi-scale attention mechanism to increase the algorithm's attention to the target region and improve the network's attention to target features at different scales, so as to improve the model's detection efficiency and target recognition accuracy, and reduce the leakage rate; by combining with deformable convolution, more useful target information was captured to improve the model's target recognition and convergence effect, and the model complexity increased by C3-layer convolution was reduced, which further reduced the model complexity. Due to the unsatisfactory localization effect of the algorithm, the focal extended intersection over union loss (Focal-EIoU Loss) was introduced to solve the problem of violent oscillation of the loss value caused by low-quality samples, and the influence weight of high-quality samples on the loss value was increased while the influence of low-quality samples was suppressed, so as to improve the convergence speed and localization accuracy of the algorithm. [Results and Discussions] Eventually, the algorithm was put through a stringent testing phase, yielding a remarkable recognition accuracy of 96.2% for the task of cabbage transplantation state. This was an improvement of 2.8% over the widely used YOLOv8s. Moreover, when benchmarked against other prominent target detection models, the algorithm emerged as a clear winner. It showcased a notable enhancement of 3% and 8.9% in detection performance compared to YOLOv3-tiny. Simultaneously, it also managed to achieve a 3.7% increase in the recall rate, a metric that measured the efficiency of the algorithm in identifying actual targets among false positives. On a comparative note, the algorithm outperformed YOLOv5 in terms of recall rate by 1.1%, 2% and 1.5%, respectively. When pitted against the robust faster region-based convolutional neural network (Faster R-CNN), the algorithm demonstrated a significant boost in recall rate by 20.8% and 11.4%, resulting in an overall improvement of 13%. A similar trend was observed when the algorithm was compared to the single shot multibox detector (SSD) model, with a notable 9.4% and 6.1% improvement in recall rate. The final experimental results show that when the enhanced model was compared with YOLOv7-tiny, the recognition accuracy was increased by 3%, and the recall rate was increased by 3.5%. These impressive results validated the superiority of the algorithm in terms of accuracy and localization ability within the target area. The algorithm effectively eliminates interferenced factors such as soil and background impurities, thereby enhancing its performance and making it an ideal choice for tasks such as cabbage transplantation state recognition. [Conclusions] The experimental results show that the proposed cabbage transplantation state detection method can meet the accuracy and real-time requirements for the identification of cabbage transplantation state, and the detection accuracy and localization accuracy of the improved model perform better when the target is smaller and there are weeds and other interferences in the background. Therefore, the method proposed in this study can improve the efficiency of cabbage transplantation quality measurement, reduce the time and labor, and improve the automation of field transplantation quality survey.

Key words： transplantation of cabbage; YOLOv8s; target detection; multi-scale attention; deformable convolution

0 引言

蔬菜是人们日常饮食中必不可少的食物之一。中国蔬菜播种面积及产量逐年增加，其中2022年中国蔬菜播种面积约为2 237.5万公顷；产量约为78 705.2万吨。在蔬菜种植中，先育苗后移栽是一种很常见的种植方法。中国约一半以上的蔬菜品种都采用先育苗后移栽的方式种植^［1］。蔬菜移栽技术的好坏将影响蔬菜的后续生长，最终也会影响蔬菜的产量，因此需要对移栽后的情况进行识别统计。这可以及时发现移栽的问题，并为后续补苗工作提供数据参考。然而，目前对移栽情况的统计大多都是通过人工进行，不仅费时费力，而且缺乏实时性。在面对一些大面积种植作物时，统计工作也会变得难以进行。

由于取苗栽植过程中会受到不可控因素的影响，会出现堵塞、伤苗、夹苗、掉苗等情况的发生，进而可能会导致露苗、埋苗、空穴、倒伏等栽植质量问题^［2］。传统的苗移栽状态识别工作围绕空化、倒伏展开^［3-5］。在现阶段的实践中发现，由于地块信息的不同，会导致移栽过程中出现因机械参数不适配导致的露苗、埋苗等情况。如果不及时调整机械并做出处理，很容易使苗暴晒死亡，造成额外的经济损失。截至目前，中国针对移栽工作中的移栽效果的统计研究较少，没有系统的智能化解决方案，大多还是依靠人工进行识别或借助经验进行操作，因此效率较低。对比之下，借助智能化识别及图像处理等技术来实现对移栽后蔬菜状态的识别和分析，将会极大提高识别效率。随着计算机技术快速发展，使得图像识别技术与交通、侦察及安全等领域结合并取得了较大进展^［6-8］，在农业方面的应用也取得不错的进展，可实现对农作物幼苗的准确识别。张秀花等^［9］为了提高对番茄苗的分选、移栽和分级检测的准确性，引入多种特征融合机制，减轻模型对背景的关注，达到了97.64%的整体检测精度。Liu等^［10］使用目标检测网络来检测甘薯苗移栽状态，提出了双向特征金字塔网络（Directional Bidirectional Feature Pyramid Network, DBIFPN）结构和基于通道注意力和密集连接的网络（Convolutional Block Attention Module-Dense, CBAM_Dense），模型平均精度为97.66%。Li等^［11］提出一种基于改进YOLOv5s（You Only Look Once Version 5s）模型的导航线提取方法，基于两种种植方式的苗木移栽，实现导航线的精准提取和直接播种。Perugachi-Diaz等^［12］研究发现AlexNet能够实现对白菜幼苗94%的平均识别精度。Li等^［13］基于改进的Faster R-CNN （Faster Region-Based Convolutional Neural Network）对水培生菜幼苗进行分选，最终实现了86.2%的平均精度。

前人的研究大多处于温室内，对于自然环境下的秧苗的识别精度、模型的体积及检测速度还需要进行更好的优化^［14-16］。因此，本研究提出一种基于YOLOv8s模型的高效移栽甘蓝秧苗状态识别方法，通过引入注意力机制，在保证实时性的同时，实现对于甘蓝移栽后不同状态的高精度识别，帮助相关人员快速统计田间移栽质量情况，为甘蓝移栽作业监测提供方法支撑，实现移栽作业情况的及时分析，以便调整移栽工作，避免移栽作业极差情况造成的经济损失，从而促使在全自动、无人化移栽的背景下取得更好的种植作业效果。

1 材料与方法

1.1　实验数据及处理

1.1.1　数据采集

甘蓝移栽作业实验在北京市昌平区国家精准农业基地开展。移栽甘蓝的品种为中甘21号。秧苗在移栽前于温室穴盘培育至45~50 d，具有3~5片真叶。移栽作业日期为2023年4月23—24日。实验数据为离地定高1 m垂直拍摄的移栽后甘蓝图像。

在室外大田使用手机拍摄不同光线下的1 110张自然图像，像素为4 624×3 472，焦距为5.4 mm，图像为JPG格式。为提高模型处理速度，控制图像体积，像素统一处理为651×868。

本研究数据集采取VOC2007格式进行制作，借助图形图像标注工具（LabelImg）对数据集进行人工分类标注，共标注了埋苗、露苗、正常苗3类苗状态，其中埋苗情况下的甘蓝部分叶片或全部茎秆会被土壤埋没；露苗的甘蓝秧苗的基质会暴露在土壤之上，基质与土壤颜色相似，植株形态是直立或是斜倒；正常苗一般为直立，也可能会出现一定倾斜。共标注262个甘蓝露苗的样本；208个埋苗的样本；640个正常苗的样本；并制作YOLO格式的标签文件。不同分类的数据示例如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 甘蓝幼苗不同移栽状态数据示例

Fig. 1 Data examples of different transplanting states of cabbage seedlings

1.1.2　数据预处理

为了增强数据集的多样性，提高模型的泛化能力，对采集得到的甘蓝图像数据进行数据增强操作。借助OpenCV对原始数据进行扩充，采用翻转、裁剪、加噪声、调整亮度方式组合，消除测试集和训练集中甘蓝的尺度、位置差异，最终得到图像数量为5 550张，按照7∶2∶1的比例划分数据集为训练集、测试集和验证集。处理后的数据如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 不同数据增强方式下的甘蓝幼苗图像数据示例

Fig. 2 Data examples of cabbage seedling images of different data enhancement methods

1.2　检测模型设计

1.2.1　YOLOv8算法简介

YOLOv8^［17］是Ultralytics公司开源的一种单阶段目标检测算法的新版本，该系列模型有n，s，m，l，x这5个版本，模型参数量依次增加。与YOLOv5相似，包括特征提取模块、特征融合模块、预测模块，但将YOLOv5中的跨阶段局部网络（Cross Stage Partial Network, C3）替换为梯度流更丰富的C2f模块，从而能够学习到更多的信息；删除PAN-FPN上采样阶段中的卷积结构从而具有更快的运算速度提高；采用无锚分体式检测头，比基于锚框的方法更为准确高效，保证其可以在较短时间内对图像中的物体进行检测和识别；采用的损失计算由分类损失和回归损失组成，其中分类损失依然采用二分类交叉熵损失函数（Binary Cross-Entropy Loss, BCE Loss），回归损失则使用分布式聚焦损失函数（Distribution Focal Loss）和完全交并比损失（Complete Intersection over Union Loss, CIoU Loss）^［18］。两类损失以一定的权重进行加权，最后通过求和得到总损失。

1.2.2　嵌入多尺度注意力机制

由于一些移栽苗个体较小，导致背景占比较大，且不同移栽状态的苗在图像中的尺寸不一；露苗状态时，甘蓝苗的基质会半裸或全裸至土壤表面，基质与土壤接触后极其相似，而对基质识别的准确度影响着移栽苗露苗状态的识别。为减少冗余信息的干扰、提高模型对移栽苗整体的关注，在YOLOv8s模型中嵌入高效多尺度注意力机制（Efficient Multi-Scale Attention, EMA）^［19］。该注意力机制能提升模型特征提取能力，降低计算开销，其实现原理是利用多尺度并行子网来建立短期和长期依赖，并行的结构节省时间、缩短网络深度；使用一种新的跨空间学习方法，能将学习到的并行子网的注意图进行融合，从而更好地聚合多尺度空间结构信息，为高级特征映射产生更好的像素级关注，进而提升模型的特征提取能力。EMA结构如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 高效多尺度注意力机制结构图

Fig. 3 Efficient multi-scale attention structure diagram

1.2.3　融入轻量级卷积

为了进一步加速模型训练，减少模型参数，提高对甘蓝苗不同移栽状态的识别效果，在模型特征融合网络融入可变形卷积（Deformable Convolution v3, DCNV3）算子^［20］，可以提升模型感受野，缩减C2f卷积所增加的模型复杂度，提高模型对目标的识别和收敛效果。

可变形卷积中卷积核的形状不是固定的，可以根据图像中目标的内容自适应地改变。这种灵活的映射可以更好地覆盖检测到的目标，从而捕获更多有用的特征信息，同时该卷积在计算量和内存方面也更为高效。公式（1）为该卷积的描述。

y (p 0) = ∑ g = 1 G ∑ k = 1 K w g m g k x g (p 0 + p k + Δ p g k)

（1）

式中：G为聚合组数量；对于第g组，

w g ∈ R C × C', C' = C / G

为位置不相关投影权值；K为采样点数；

m g k ∈ R

为第k个采样点的调制因子且沿维度K通过softmax归一化。可变性卷积DCNV3的实现过程如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 DCNV3实现过程图

Fig.4 DCNV3 implementation process diagram

根据图4可知，特征图输入可变形卷积后，可变形卷积会计算像素位置对应的偏移量和形状变换参数。根据这些参数对固定形状的卷积核进行形状和位置的调整，最终在输入特征图上进行卷积计算。这样能够使卷积操作自适应地适应特征图中的结构变化。模型加入形变卷积及其分组独立的采样偏移、调制因子后，卷积过程具有更多不同的空域聚合模式，进而会产生更强的特征表达能力，同时可变形卷积DCNV3采用depth-wise计算mask，采用point-wise计算offset。这些操作在一定程度上可以减少模型计算复杂度。

1.2.4　优化损失函数

YOLOv8s的边界框回归损失函数是CIoU。CIoU Loss的问题是锚框的长和宽不能同时增大或减小，抑制模型的优化。由于埋苗情况下，苗暴露在土壤的面积小，且露苗可能会与其他苗叶片之间发生遮挡，不能够同时变化的锚框难以获取完整的位置和尺寸信息，使检测任务变得困难。为了解决这个问题，使用Focal-EIoU Loss替换CIoU Loss作为模型的回归损失函数，提高模型对较小目标的定位精度和收敛速度。

首先对EIoU Loss（Efficient IoU Loss）^［21］进行说明，其可以分为3部分：IoU损失

L I O U

+距离损失

L d i s

+纵横比损失

L a s p

，定义如公式（2）。

L E I o U = L I o U + L d i s + L a s p = 1 - I o U + ρ 2 (b, b g t) (w c) 2 + (h c) 2 + ρ 2 (w, w g t) (w c) 2 + ρ 2 (h, h g t) (h c) 2

（2）

式中：

w c

和

h c

分别为最小包围框的宽和长。这说明EIoU Loss可以直接最小化锚框和gt的宽和高的差异，使得收敛速度更快，定位效果更好。但其仍然存在很多的低质量样本贡献大部分的梯度，限制框的回归的问题，收敛速度仍有提升空间。

Focal-EIoU Loss^［22］整合EIoU Loss和Focal Loss（Focal Loss for Dense Object Detection），可以很好地解决EIoU Loss可能出现的低质量样本造成的损失值剧烈震荡的问题，提升高质量样本对Loss值的影响权重而抑制低质量样本的影响，并且Focal-EIoU Loss可以同时改变回归框的宽和高，容易获取到足够的位置和尺度信息，并结合焦点机制与IoU（Intersection over Union），通过将焦点放在较小目标上，减少尺度差异对检测结果的影响，可以更好地处理较小目标的尺度差异，提高对较小目标的检测精度，定位效果也会更好。该损失函数可以表示为公式（3）。

L F o c a l - E I o U = I o U γ L E I o U

（3）

式中：

γ

为用于控制曲线弧度的超参。

1.2.5　改进模型网络结构设计

本研究设计的网络模型命名为YOLOv8s-FDN，其网络结构主要可以划分为3个模块，其中Backbone模块进行特征提取、Neck模块主要负责特征融合、Head模块利用提取特征进行预测。在特征提取模块嵌入EMA注意力模块，提高网络对不同尺度的特征的关注，从而提升模型的检测效率和对目标的识别准确率，同时将特征融合模块的C2f模块改为可变性卷积DCNV3，提升模型的自适应空间聚合能力，捕获更多目标信息；最后在Head部分加入Focal-EIoU Loss，加速模型收敛。具体结构如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 本研究提出的YOLOv8s-FDN网络结构图

Fig. 5 YOLOv8s-FDN network structure diagram proposed in this research

2 改进模型实验结果与分析

2.1　实验环境及评估标准

本研究所有实验都是在深度学习框架Pytorch 1.12、Python3.8和Cuda10.2的环境下进行。实验所用处理器为Intel（R） Core（TM）i9-9820X CPU@3.30 GHz，20核心；显卡配置为RTX 2080 Ti（11 GiB）。数据集为数据增强后的5 550张图像，其中3 885张为训练集图像，1 110张为验证集图像，555张为测试集图像，以检测模型对移栽甘蓝秧苗的埋苗、露苗、正常状态的识别效果。训练实验选用平均精度（Average Precision, AP）、召回率（Recall, R）、平均精度均值（Mean Average Precision, mAP）值来评估模型，并选取IoU为0.5时的mAP作为甘蓝移栽苗状态识别的性能评判指标，数值越高表明改进模型的识别效果越好，其中AP、R、mAP的计算如公式（4）~公式（6）所示。

A P = T P T P + F P × 100 %

（4）

R = T P T P + F N × 100 %

（5）

m A P = ∑ A P N (C l a s s)

（6）

式中：真阳性（True Positive, TP）为实际甘蓝移栽状态被模型正确预测的数量，株；假阳性（False Positive, FP）为非标注的甘蓝移栽状态被预测为甘蓝移栽状态的数量，株；假阴性（False Negative, FN）为甘蓝移栽状态被模型预测为非甘蓝移栽状态的数量，株；AP为同一样本所求预测准确率的平均值。选择浮点运算次数（Floating Point Operations, FLOPs）和模型大小（模型文件所占字节的大小）作为模型的量级评判标准，数值越低说明模型的复杂度越低，其中浮点运算数为模型需要进行的计算数量。

2.2　训练结果及分析

将数据集图像输入YOLOv8s-FDN进行训练，共训练300个epoch，batch-size设为8，训练网络的结果如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 YOLOv8s-FDN的AP、R、mAP趋势图

Fig. 6 AP， R， and mAP trend chart of YOLOv8s-FDN

由图6可知，训练初期模型的学习效率表现得非常不错，数值增长比较快，在几十次迭代时就能达到较好的平均精度和召回率，在后面的迭代中逐渐平稳。

为进一步验证其有效性，对改进模型进行消融实验，在此使用的评断指标有AP、R、FLOPs、mAP、检测速度（T1），得到的消融实验验证结果如表1所示。

表1 以YOLOv8s为基础模型的消融实验结果

Table 1 Ablation results based on YOLOv8s model

	EMA	C3_DCNV3	Focal-EIoU	AP/%			R/%	FLOPs/G	mAP_0.5/%	T1/FPS
	EMA	C3_DCNV3	Focal-EIoU	埋苗	露苗	正常苗	R/%	FLOPs/G	mAP_0.5/%	T1/FPS
YOLOv8s	×	×	×	89.5	90.5	91.3	88.8	28.9	93.8	156
	√	×	×	88.5	93.6	92.0	90.2	29.1	94.2	148
	×	√	×	89.9	93.4	90.2	89.6	28.0	94.4	151
	×	×	√	90.5	94.9	93.6	88.9	28.9	94.6	149
	√	√	×	89.0	94.3	93.1	88.3	28.5	95.9	150
	√	×	√	88.7	93.9	92.8	90.6	29.1	94.8	147
	×	√	√	90.6	94.8	93.5	91.5	28.0	95.8	153
	√	√	√	91.2	95.3	94.1	92.2	28.5	96.2	146

由表1可知，将提出的改进方法加入YOLOv8s后，最终改进模型对甘蓝埋苗、露苗、正常苗的AP值分别提升1.7%、4.8%和2.6%，mAP值也提高2.4%。说明模型改进后，更少受到不同移栽状态造成的尺度差异的影响。实验表明，加入EMA注意力机制、Focal-EIoU损失函数后，模型的检测速度有所下降。这是因为EMA或Focal-EIoU会增加模型的复杂度，从而增加模型的检测时间，最终模型的检测速度为146 FPS，大于满足实时性需求的数值24 FPS；加入DCNV3卷积后，模型不仅检测精度更高，模型的FLOPs也减少0.9 G。这说明模型计算复杂度有所降低。实验表明，改进模型在保证检测速度的同时，检测精度更高，模型的FLOPs更低。说明改进后的模型在模型性能方面能够达到更好的平衡。

接着比较原模型YOLOv8s和YOLOv8s-FDN的位置损失值的收敛情况。共进行300迭代，结果曲线为图7所示。

显示原图|下载原图ZIP|生成PPT

图7 YOLOv8s和YOLOv8s-FDN训练的Loss收敛对比图

Fig. 7 Comparison of Loss convergence between YOLOv8s and YOLOv8s-FDN training

可知改进后的模型YOLOv8s-FDN的收敛速度相比原模型更快，说明本研究所提方法不仅能够提高模型精确度，降低模型复杂度，收敛速度方面也表现更优。

2.3　模型改进前后检测效果对比

从测试集的555张图像中随机选取3类移栽状态苗的图像输入YOLOv8s和YOLOv8s-FDN中进行实验，观察其置信度情况。检测结果如图8所示。

显示原图|下载原图ZIP|生成PPT

图8 YOLOv8s和YOLOv8s-FDN对不同甘蓝移栽状态识别效果

Fig. 8 Identification effect of YOLOv8s and YOLOv8s-FDN on different transplanting states of cabbage

其中YOLOv8s-FDN对图像中正常苗、埋苗的检测框置信度分别为94%和92%，分别高于YOLOv8s的检测框置信度88%和81%；YOLOv8s-FDN对露苗图像中两株甘蓝的检测框置信度分别为95%和94%，表现仍优于YOLOv8s对露苗图像中两株甘蓝的检测框置信度94%和94%。检测框置信度越高说明预测框中目标存在的概率越高，学习的目标细节更多。而可变形卷积的加入可以使模型采用更精细的方式对目标进行采样，更好地定位目标的位置；自适应调节感受野的形状和位置更好地捕捉目标细节，所以改进模型YOLOv8s-FDN能够实现更好的检测效果。

2.4　大田场景下模型检测效果

在实际场景中，大田移栽都是多株进行的，人工识别费时且容易漏检。利用目标检测算法可以大大减少检测时间，降低漏检的可能性。为了验证改进模型的漏检情况，选取实际移栽工作过程中拍摄的20张多株甘蓝图像，其中包含215个正常苗样本；54个埋苗样本；92个露苗样本。输入训练后的YOLOv8s和YOLOv8s-FDN中进行检测，最终YOLOv8s检测结果统计如表2所示。检测结果示例如图9所示。图9中红色框表示正常苗，蓝色框表示埋苗，绿色框表示露苗。

表2 YOLOv8s和YOLOv8s-FDN对不同甘蓝幼苗移栽状态的检测结果统计

Table 2 YOLOv8s and YOLOv8s-FDN detected the results of different transplanting states of cabbage seeding

网络模型	检测数/株			漏检数/株
网络模型	正常苗	埋苗	露苗	正常苗	埋苗	露苗
YOLOv8s	208	42	85	7	12	7
YOLOv8s-FDN	213	51	90	2	3	2

显示原图|下载原图ZIP|生成PPT

图9 YOLOv8s和YOLOv8s-FDN对多株甘蓝幼苗图像识别结果

Fig. 9 Image recognition results of multiple cabbage seeding plants by YOLOv8s and YOLOv8s-FDN

由表2可知，融入多尺度注意力机制的YOLOv8s-FDN通过对不同尺度上的输入加权提取到更多层次的空间结构信息，提高模型对目标的关注，从而明显减少对不同检测状态识别的漏检数，其中对正常苗的漏检概率仅为0.9%，能够满足实际识别工作的需要。

在图9中，面对多株甘蓝目标个体较小时，改进模型YOLOv8s-FDN能够实现对不同移栽状态甘蓝的有效识别，而YOLOv8s漏检2株埋苗状态的甘蓝。可以看出，本研究对YOLOv8s算法的改进有助于提高模型对较小目标的检测能力，降低模型漏检概率，提高模型在实际生产中的应用价值。

2.5　不同目标检测算法的性能比较

为了进一步对比改进模型YOLOv8s-FDN的性能，在模型大小、R、mAP这3个指标下对目标检测模型YOLOv3-tiny^［23］、YOLOv5、更快的区域卷积神经网络（Faster Region Convolutional Neural Networks, Faster R-CNN）^［24］、YOLOv7-tiny^［25］和单次多盒检测器（Single Shot MultiBox Detector, SSD）^［26］进行对比实验，结果为表3。

表3 不同目标检测模型对比实验结果

Table 3 Different target detection models compare experimental results

网络模型	模型大小/MB	R/%	mAP_0.5/%
YOLOv3-tiny	36.6	86.7	87.3
YOLOv5	24.4	88.9	94.2
Faster R-CNN	108.2	77.4	84.8
YOLOv7-tiny	12.3	89.9	92.7
SSD	101.0	84.4	90.1
YOLOv8s-FDN	22.6	90.4	96.2

由表3可知，改进模型YOLOv8s-FDN的mAP能够达到6.2%，对比YOLOv3-tiny提升8.9%，R值也提高3.7%；对比YOLOv5提升2%，R值提高1.5%；对比Faster R-CNN提升11.4%，R值提高13%；对比SSD提升6.1%，R值提高6%；对比YOLOv7-tiny提升3.5%。改进模型在精度上能够超越其他模型，模型大小能够满足移植性的需要，召回率也更高，说明改进后的模型对目标区域的定位能力更好，能够排除背景干扰因素的影响，从而实现对甘蓝移栽状态的高效准确的识别，因此本研究提出的改进模型更适用于甘蓝移栽工作场景中的移栽质量检测任务。

3 结论

本研究建立了移栽甘蓝图像数据集，提出了一种高效识别甘蓝移栽状态的方法。通过嵌入EMA注意力机制提高模型对不同移栽状态秧苗的关注，降低背景中光线等因素对识别结果的影响；加入可变形卷积使模型在目标较小的情况下，也能具有较强的特征提取和自适应泛化能力，降低模型的计算复杂度；替换模型损失函数为Focal-EIoU，提升模型的定位效果，减少低质量样本对模型检测能力的影响，加速模型收敛。与主流目标检测模型YOLOv3-tiny，YOLOv7-tiny，YOLOv5、SSD和Faster R-CNN相比，YOLOv8s-FDN的检测精度表现最好，平均精度均值最高能提升11.4%，改进后的模型YOLOv8s-FDN对甘蓝移栽状态识别mAP值为96.2%，其相对原模型来说，能够提升2.4%，检测速度为146 FPS，模型检测精度方面更有优势，能够更好地完成复杂自然环境下的识别任务，更适用于实际移栽场景，检测速度也能够满足大田移栽质量统计工作的需要。

本研究提出的方法能够满足甘蓝移栽作业监测的需要，有助于提高移栽工作的自动化程度，但识别的甘蓝移栽状态种类较少，改进后的模型对于埋苗、露苗仍然可能出现错检和漏检，其识别准确率仍有提升的空间，下一步的工作需要继续扩充甘蓝移栽图像数据集，并对模型进行轻量化研究，进一步提升模型对小目标的识别准确率，以便能够更好地嵌入到移栽工作的硬件设备中，促进移栽工作的高效进行。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

1	崔志超, 管春松, 杨雅婷, 等. 蔬菜机械化移栽技术与装备研究现状[J]. 中国农机化学报, 2020, 41(3): 85-92. CUI Z C, GUAN C S, YANG Y T, et al. Research status of vegetable mechanical transplanting technology and equipment[J]. Journal of Chinese agricultural mechanization, 2020, 41(3): 85-92.

2	蒋展. 油菜毯状苗移栽机栽植质量在线监测系统设计与试验[D]. 北京: 中国农业科学院, 2021. JIANG Z. Design and experiment of on-line monitoring system for planting quality of rape blanket seedling transplanter[D].Beijing: Chinese Academy of Agricultural Sciences, 2021.

3	赵德安, 赵璜晔. 基于CNN算法的缺秧与漂秧图像识别技术研究[J]. 软件导刊, 2020, 19(8): 230-233. ZHAO D A, ZHAO H Y. Image recognition technology of seedling-lacking and drifting seedlings based on CNN algorithms[J]. Software guide, 2020, 19(8): 230-233.

4	王传宇, 郭新宇, 肖伯祥, 等. 基于图像拼接的苗期玉米植株缺失数量自动测量方法[J]. 农业工程学报, 2014, 30(12): 148-153. WANG C Y, GUO X Y, XIAO B X, et al. Automatic measurement of numbers of maize seedlings based on mosaic imaging[J]. Transactions of the Chinese society of agricultural engineering, 2014, 30(12): 148-153.

5	蒋展, 张敏, 吴俊, 等. 油菜毯状苗移栽漏栽实时监测方法—基于视频图像拼接[J]. 农机化研究, 2022, 44(9): 189-195. JIANG Z, ZHANG M, WU J, et al. Real-time monitoring method for rape blanket seedling transplanting and omission based on video image SSplicing[J]. Journal of agricultural mechanization research, 2022, 44(9): 189-195.

6	AL-QANESS M A A, ABBASI A A, FAN H, et al. An improved YOLO-based road traffic monitoring system[J]. Computing, 2021, 103(2): 211-230.

7	DEGADWALA S, VYAS D, CHAKRABORTY U, et al. Yolo-v4 deep learning model for medical face mask detection[C]// 2021 International Conference on Artificial Intelligence and Smart Systems (ICAIS). Piscataway, New Jersey, USA: IEEE, 2021: 209-213.

8	PENG H, ZHANG Y F, YANG S, et al. Battlefield image situational awareness application based on deep learning[J]. IEEE intelligent systems, 2020, 35(1): 36-43.

9	张秀花, 静茂凯, 袁永伟, 等. 基于改进YOLOv3-Tiny的番茄苗分级检测[J]. 农业工程学报, 2022, 38(1): 221-229. ZHANG X H, JING M K, YUAN Y W, et al. Tomato seedling classification detection using improved YOLOv3-Tiny[J]. Transactions of the Chinese society of agricultural engineering, 2022, 38(1): 221-229.

10	LIU Z D, WANG X, ZHENG W X, et al. Design of a sweet potato transplanter based on a robot arm[J]. Applied sciences, 2021, 11(19): ID 9349.

11	LI Y M, ZHU Y J, LI S S, et al. The extraction method of navigation line for cuttage and film covering multi-functional machine for low tunnels[J]. Inventions, 2022, 7(4): ID 113.

12	PERUGACHI-DIAZ Y, TOMCZAK J M, BHULAI S. Deep learning for white cabbage seedling prediction[J]. Computers and electronics in agriculture, 2021, 184: ID 106059.

13	LI Z B, LI Y, YANG Y B, et al. A high-precision detection method of hydroponic lettuce seedlings status based on improved Faster RCNN[J]. Computers and electronics in agriculture, 2021, 182: ID 106054.

14	HASAN A S M M, SOHEL F, DIEPEVEEN D, et al. A survey of deep learning techniques for weed detection from images[J]. Computers and electronics in agriculture, 2021, 184: ID 106067.

15	王明, 张倩. 中国基于深度学习的图像识别技术在农作物病虫害识别中的研究进展[J]. 中国蔬菜, 2023(3): 22-28. WANG M, ZHANG Q. Research progress of image recognition technology based on depth learning in identification of pest and disease in crops in China[J]. China vegetables, 2023(3): 22-28.

16	杨文庆, 刘天霞, 唐兴萍, 等. 智慧农业背景下的植物表型组学研究进展[J]. 河南农业科学, 2022, 51(7): 1-12. YANG W Q, LIU T X, TANG X P, et al. Research progress on plant phenomics in the context of smart agriculture[J]. Journal of Henan agricultural sciences, 2022, 51(7): 1-12.

17	LOU H T, DUAN X H, GUO J M, et al. DC-YOLOv8: Small-size object detection algorithm based on camera sensor[J]. Electronics, 2023, 12(10): ID 2323.

18	ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: Faster and better learning for bounding box regression[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12993-13000.

19	OUYANG D L, HE S, ZHANG G Z, et al. Efficient multi-scale attention module with cross-spatial learning[C]// ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, New Jersey, USA: IEEE, 2023: 1-5.

20	WANG W H, DAI J F, CHEN Z, et al. InternImage: exploring large-scale vision foundation models with deformable convolutions[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 14408-14419..

21	YANG Z M, WANG X L, LI J G. EIoU: An improved vehicle detection algorithm based on VehicleNet neural network[J]. Journal of physics: Conference series, 2021, 1924(1): ID 012001.

22	ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506(C): 146-157.

23	REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv:1804.02767, 2018.

24	GIRSHICK R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2015: 1440-1448.

25	WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 7464-7475.

26	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 材料与方法

1.1 实验数据及处理

1.1.1 数据采集

图1 甘蓝幼苗不同移栽状态数据示例

1.1.2 数据预处理

图2 不同数据增强方式下的甘蓝幼苗图像数据示例

1.2 检测模型设计

1.2.1 YOLOv8算法简介

1.2.2 嵌入多尺度注意力机制

图3 高效多尺度注意力机制结构图

1.2.3 融入轻量级卷积

图4 DCNV3实现过程图

1.2.4 优化损失函数

1.2.5 改进模型网络结构设计

图5 本研究提出的YOLOv8s-FDN网络结构图

2 改进模型实验结果与分析

2.1 实验环境及评估标准

2.2 训练结果及分析

图6 YOLOv8s-FDN的AP、R、mAP趋势图

表1 以YOLOv8s为基础模型的消融实验结果

图7 YOLOv8s和YOLOv8s-FDN训练的Loss收敛对比图

2.3 模型改进前后检测效果对比

图8 YOLOv8s和YOLOv8s-FDN对不同甘蓝移栽状态识别效果

2.4 大田场景下模型检测效果

表2 YOLOv8s和YOLOv8s-FDN对不同甘蓝幼苗移栽状态的检测结果统计

图9 YOLOv8s和YOLOv8s-FDN对多株甘蓝幼苗图像识别结果

2.5 不同目标检测算法的性能比较

表3 不同目标检测模型对比实验结果

3 结 论

利益冲突声明

参考文献

0 引言

1.1　实验数据及处理

1.1.1　数据采集

1.1.2　数据预处理

1.2　检测模型设计

1.2.1　YOLOv8算法简介

1.2.2　嵌入多尺度注意力机制

1.2.3　融入轻量级卷积

1.2.4　优化损失函数

1.2.5　改进模型网络结构设计

2.1　实验环境及评估标准

2.2　训练结果及分析

2.3　模型改进前后检测效果对比

2.4　大田场景下模型检测效果

2.5　不同目标检测算法的性能比较

3 结论