欢迎您访问《智慧农业(中英文)》官方网站! English
专刊--农业信息感知与模型

基于实例分割技术的草莓叶龄及冠幅表型快速提取方法

  • 樊江川 1, 2, 4 ,
  • 王源桥 2, 3 ,
  • 苟文博 2, 4 ,
  • 蔡双泽 2 ,
  • 郭新宇 , 2 ,
  • 赵春江 , 2
展开
  • 1. 中国农业大学 信息与电气工程学院,北京 100083,中国
  • 2. 国家农业信息化工程技术研究中心/北京市农林科学院信息技术研究中心/数字植物北京市重点实验室,北京 100097,中国
  • 3. 西北农林科技大学 信息工程学院,陕西杨陵 712100,中国
  • 4. 北京派得伟业科技发展有限公司,北京 100097,中国
郭新宇,博士,研究员,研究方向为作物表型信息获取与多组学分析。E-mail:
赵春江,博士,研究员,研究方向为智慧农业。E-mail:

樊江川,研究方向为植物表型大数据获取解析技术装备研发。E-mail:

收稿日期: 2023-10-18

  网络出版日期: 2024-03-29

基金资助

北京市科技新星计划(Z211100002121065)

北京市科技新星计划交叉合作课题(Z20220484202)

“十四五”国家重点研发计划项目(2022YFD2002302-02)

Fast Extracting Method for Strawberry Leaf Age and Canopy Width Based on Instance Segmentation Technology

  • FAN Jiangchuan 1, 2, 4 ,
  • WANG Yuanqiao 2, 3 ,
  • GOU Wenbo 2, 4 ,
  • CAI Shuangze 2 ,
  • GUO Xinyu , 2 ,
  • ZHAO Chunjiang , 2
Expand
  • 1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
  • 2. Beijing Key Laboratory of Digital Plant, Beijing Research Center for Information Technology in Agriculture, China National Engineering Research Center for Information Technology in Agriculture (NERCITA), Beijing 100097, China
  • 3. College of Information Engineering, Northwest A&F University, Yangling 712100 Shaanxi, China
  • 4. Beijing PAIDE Science and Technology Development Co. , Ltd. , Beijing 100097, China
GUO Xinyu, E-mail: ;
ZHAO Chunjiang, E-mail:

FAN Jiangchuan, E-mail:

Received date: 2023-10-18

  Online published: 2024-03-29

Supported by

Beijing Nova Program(Z211100002121065)

Beijing Nova Program(Z20220484202)

National Key R&D Program(2022YFD2002302-02)

Copyright

copyright©2024 by the authors

摘要

[目的/意义] 为解决高通量草莓叶龄及冠幅提取问题,提出一种基于移动式表型平台和实例分割技术的高通量表型提取方法。 [方法] 利用小型移动式表型平台对温室内盆栽草莓植株的俯拍图像进行数据获取,并利用改进型Mask R-CNN(Convolutional Neural Network)模型对图像进行处理,以此获取草莓植株叶龄信息。首先利用带有分组注意力模块的Split-Attention Networks(ResNeSt)骨干网络替换原有网络,从而提高图像特征信息提取精度和执行效率。在训练时,利用Mosaic方法对草莓图像进行数据增强,并且使用二元交叉熵损失函数对原本的交叉熵分类损失函数进行优化,以达到更好的植株与叶片的检测准确度。在此基础上,对训练结果进行后处理,利用标定比值对冠幅进行计算。 [结果和讨论] 该方法能够在ResNeSt-101骨干网络下,实现80.1%的掩膜准确率和89.6%的检测框准确率,并且能够以99.3%的植株检测正确率和98.0%的叶片数量检出率实现高通量的草莓叶龄估算工作。而模型推理后草莓植株南北和东西向冠幅测试值与真实值相比误差均低于5%的约占98.1%。 [结论] 该方法有着较高的鲁棒性,能够为智慧农业下高通量植物表型获取与解析工作提供技术支持。

本文引用格式

樊江川 , 王源桥 , 苟文博 , 蔡双泽 , 郭新宇 , 赵春江 . 基于实例分割技术的草莓叶龄及冠幅表型快速提取方法[J]. 智慧农业, 2024 , 6(2) : 95 -106 . DOI: 10.12133/j.smartag.SA202310014

Abstract

[Objective] There's a growing demand among plant cultivators and breeders for efficient methods to acquire plant phenotypic traits at high throughput, facilitating the establishment of mappings from phenotypes to genotypes. By integrating mobile phenotyping platforms with improved instance segmentation techniques, researchers have achieved a significant advancement in the automation and accuracy of phenotypic data extraction. Addressing the need for rapid extraction of leaf age and canopy width phenotypes in strawberry plants cultivated in controlled environments, this study introduces a novel high-throughput phenotyping extraction approach leveraging a mobile phenotyping platform and instance segmentation technology. [Methods] Data acquisition was conducted using a compact mobile phenotyping platform equipped with an array of sensors, including an RGB sensor, and edge control computers, capable of capturing overhead images of potted strawberry plants in greenhouses. Targeted adjustments to the network structure were made to develop an enhanced convolutional neural network (Mask R-CNN) model for processing strawberry plant image data and rapidly extracting plant phenotypic information. The model initially employed a split-attention networks (ResNeSt) backbone with a group attention module, replacing the original network to improve the precision and efficiency of image feature extraction. During training, the model adopted the Mosaic method, suitable for instance segmentation data augmentation, to expand the dataset of strawberry images. Additionally, it optimized the original cross-entropy classification loss function with a binary cross-entropy loss function to achieve better detection accuracy of plants and leaves. Based on this, the improved Mask R-CNN description involves post-processing of training results. It utilized the positional relationship between leaf and plant masks to statistically count the number of leaves. Additionally, it employed segmentation masks and image calibration against true values to calculate the canopy width of the plant. [Results and Discussions] This research conducted a thorough evaluation and comparison of the performance of an improved Mask R-CNN model, underpinned by the ResNeSt-101 backbone network. This model achieved a commendable mask accuracy of 80.1% and a detection box accuracy of 89.6%. It demonstrated the ability to efficiently estimate the age of strawberry leaves, demonstrating a high plant detection rate of 99.3% and a leaf count accuracy of 98.0%. This accuracy marked a significant improvement over the original Mask R-CNN model and meeting the precise needs for phenotypic data extraction. The method displayed notable accuracy in measuring the canopy widths of strawberry plants, with errors falling below 5% in about 98.1% of cases, highlighting its effectiveness in phenotypic dimension evaluation. Moreover, the model operated at a speed of 12.9 frames per second (FPS) on edge devices, effectively balancing accuracy and operational efficiency. This speed proved adequate for real-time applications, enabling rapid phenotypic data extraction even on devices with limited computational capabilitie. [Conclusions] This study successfully deployed a mobile phenotyping platform combined with instance segmentation techniques to analyze image data and extract various phenotypic indicators of strawberry plant. Notably, the method demonstrates remarkable robustness. The seamless fusion of mobile platforms and advanced image processing methods not only enhances efficiency but also ignifies a shift towards data-driven decision-making in agriculture.

0 引 言

近年来,植物育种家正在寻找有效的系统来大规模评估植物的详细表型性状,以深入了解基因型与表型之间的关系。植物表型到基因型的映射能够帮助植物育种专家快速精确评估育种质量。草莓作为最具代表性的蔷薇科多年生草本植物,其在全球范围内广泛种植。草莓植株的生长发育状态与其叶龄和植株冠幅密切相关1, 2。植物叶龄指的是植物叶片从形成到衰老的整个周期。对于幼苗期植物而言,叶龄往往统计植株展叶的数量。而植株冠幅是指植物在水平和竖直方向上的最大范围或宽度的平均值,通常是指植物的枝条、叶片或花序在水平方向上的展开距离。这两种草莓表型信息的精准高效获取能够帮助相关从业者对草莓生长发育状况做出准确判断,同时也为其他相关领域,如草莓采摘机器人领域、草莓精准化育种管理等提供数据支持3, 4。因此,及时准确地提取草莓叶片的数量和植株冠幅等表型信息对于草莓植株栽培工作有着重要意义。
传统植物表型的统计是通过人工检查来完成的。这种劳动密集型方式效率很低且容易受到主观因素影响而产生较大计量误差3, 5, 6。因此,利用自动化表型设备和人工智能算法进行植物表型获取并解析受到了各国团队的重视。现阶段常见的设施环境自动化表型数据获取设备有:轨道式表型平台7、流水线与成像室表型平台8以及移动式表型平台9, 10等。移动式表型平台与大型轨道式表型平台相比,其整体设计更为简单轻量,安装部署更为简便;与表型机器人相比,其负载能力和续航能力更强;而与流水线或成像室表型平台相比,移动式表型平台能够实现群体尺度下植株表型的多源数据融合采集工作,通量更高且部署也更为灵活,易于部署在各试验情景中8, 10。这类平台上还搭载有多种传感器设备和控制电脑,能够实现多源数据融合采集的工作,因此被广泛应用于植物表型数据获取任务中11-14
而随着计算机视觉技术的发展,基于深度神经网络的自动化图像表型检测方法受到了广泛关注。目前常见的视觉检测方法有基于目标检测的方法、基于语义分割的方法和基于实例分割的方法3种15-17
基于目标检测方法是利用深度网络对图像进行有监督的特征学习,之后对检测图像中所包含的目标进行识别和框选,以达到检测的目的18。常见的模型有基于锚点检测的YOLOv3(You Only Look Once)模型,YOLOv5方法等,也有基于无锚点单阶段方法的CenterNet19, 20、YOLOX21, 22等方法。基于语义分割的图像处理方法则更多地考虑目标物之间,以及目标物与背景间的差异。模型通过学习这些边缘、纹理、颜色等差异,对不同类别进行掩膜覆盖23, 24。这种处理方法能够对目标物实现更精确的识别和定位,但无法对含有多个目标物的复杂图像进行逐一区分。相较而言,基于实例分割的草莓叶片图像数据处理方法具有独特的优势。实例分割技术可以实现植物植株和叶片的自动检测、分割和计数等目标。而这类模型往往精确度很高、效率也高于人工监测,能够降低人力成本,具有非常广阔的应用前景。
Weyler等9利用大型跨田垄自走式表型平台实现了对于甜菜幼苗的植株检测和叶片计数,同时模型也对田间常见杂草进行了识别和检测。该团队在平台上装配RGB传感器来实时获取田间图像,获取到的图像利用基于改进CenterNet目标检测模型实现了良好的计数准确率。这种方法通过对锚点及周围信息的感知来达到更好的学习效果,而在一定程上忽视图像中部分边缘信息,难以精准定位植株或叶片的边缘,因此无法实现叶片数量和植株冠幅的同步获取。此外,该团队所使用的无人车设备体积和重量较大,运行功率较高,难以满足狭小温室环境下的高通量数据获取需求。Yan等19利用带有机械臂的大体积苹果采摘机器人实现了对苹果目标的检测任务。然而本研究利用草莓数据集和YOLOv5模型进行复现。这一方法仅使用检测手段框选出的草莓植株与真实值的交并比(Intersection over Union, IoU)相对较低,难以满足草莓叶龄和冠幅指标同步提取的精度和效率要求。Oishi等25提出了一种针对移动设备新表型平台和马铃薯叶片病害检测模型。该团队创新地利用Faster R-CNN单阶段实例分割的办法对数据进行处理,达到很好的效果,但这一设备和配套方法的推理效率相对较低,难以部署在算力较低的边缘设备中,因此无法满足表型数据本地实时解析的需求26
而Widiyanto等13利用Mask R-CNN实例分割模型实现了番茄生长信息的实时获取,并利用提取的ROI(Region of Interest)信息找到番茄目标的感兴趣区域,从而可以用来测量番茄的生长情况。该方法使用Dice系数的准确率为97.34%,使用Jaccard系数的准确率为94.83%。然而本研究指出将番茄果实的体积估算加入到番茄果实生长信息分析的方法里可以提高预测精度,是很有必要的。而利用计算机深度视觉的手段对植物叶片、果实等器官进行实例分割,并获取叶龄冠幅等指标可以帮助实现植物生长信息的高精度推理。
由上述研究可知,要想实现在温室环境中草莓叶龄和植株冠幅高通量提取,首先应选取易于部署且能够进行高通量俯视拍摄的自动化表型设备3, 27;其次应当选用具备精确分割和精准分类的计算机视觉模型,并且应当针对设备获取数据特点和表型提取需求进行模型修改,从而提高整个方法的实时性和鲁棒性11, 28。因此,本研究旨在开发一种基于移动式表型平台的设施环境草莓图像获取方法,并利用改进Mask R-CNN模型实现上述表型指标的自动处理29。该模型可以快速部署到移动式表型平台上,提高测量效率和准确性,从而使得表型数据由获取到解析均在表型平台上快速实现,为草莓育种等相关行业的发展提供技术支持。

1 实验方法

1.1 数据获取

本研究对实验场所和草莓种植的实际情况进行综合考虑。根据实验需要,本研究使用的底层移动设备是在3WPZ-200A型自走式设备基础上进行改进的。表型平台为跨垄式设计,主体尺寸为 2   195   m m × 1   900   m m × 2   065   m m,轮间距为1 800 mm,底盘高度为1 400 mm(相机镜头距地面1 400 mm)。采用四轮驱动与四轮转向的移动设计,实心轮胎,能够在相对狭小的联栋温室中顺利运行和原地转向换行,整机工作压力为0.2~0.4 MPa(设备在工作时对地面产生的压力),因此能够在较为松软的地面上平稳运行。并且车体采用四轮驱动机器来进一步保证其运动的稳定性:在行走时采用直流无刷电动机,总体额定功率为13.5 kW;而转舵电机为有刷直流的电动机,功率为0.1 kW。在车体内部搭载有FLIR公司生产的BFS-123S6C-C工业相机等设备。该设备经过内置程序配准和畸变校正,能够获取像素为4 096× 3 000的高质量草莓植株RGB图片。电脑还配备有同步采集多源数据的程序,可在设备移动行驶中完成数据的获取任务(图1)。
图1 移动式表型平台结构及实验运行状态

Fig. 1 Mobile phenotype platform structure and experimental operation status

设备选型结束后,进行实验规划和设备部署。本次实验数据采集在2021年11月11日—2021年12月31日于北京市农林科学院联栋温室(39°56′N, 116°16′ E)进行(共40 d)。草莓种植区面积为10 m×40 m,共两个片区,每个区域都安装固定尺寸的地标用于像素标定,草莓采用盆栽的方式种植,正常水肥管理,白色花盆直径为33 cm,高为34 cm。
之后,实验控制移动式表型平台以0.5 m/s的速度沿直线运行。平台在田垄间沿直线行驶,在每行的尽头利用四轮转舵电机的原地转向功能实现横向移动,之后在下一行逆向直线移动采集数据(图1)。此外,为了保证数据获取的全面性,拍摄间隔由采集程序控制为2 s启停一次,使其配合平台移动速度。

1.2 数据标注与预处理

本次数据采集实验获取了大量草莓植株俯视图像,并且根据草莓生长发育阶段、RGB图像质量以及所包含草莓植株及叶片实例数等进行了筛选。本实验首先选取相机正下方相邻的4盆草莓进行统计。这样可以减小因拍摄视角差异而导致的植株冠幅像素统计误差。之后,本研究将这些用于训练的图像进行归一化和裁剪等操作,并使用Labelme工具对草莓整株和叶片分别标注。值得注意的是,本研究在统计叶龄时,只计算完全展开的叶片。这是由于未完全展开的幼叶其形态和结构不确定,不具备特殊的生理统计意义(图230-32
图2 草莓叶龄标注、分类及验证统计情况图例

Fig. 2 Legend of strawberry leaf age labeling, classification, and validation statistics

之后,本研究对这些图像进行后续增强操作。本研究采用基于Mosaic数据增强方法对训练集进行自动化扩增,以提高模型的泛化性和准确度。具体而言,Mosaic数据增强会一次性读取4张图片。每一张图片都有其对应的标注点,将4张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的标注信息(图3)。Mosaic增强方式通过对实例的切割,模拟实例被部分遮挡时的情况,能够有效帮助提高训练集的多样性和代表性,从而提高所得模型的精度和泛化性。
图3 数据预处理方式与Mosaic数据扩增

Fig. 3 Data pre-processing methods and Mosaic data amplification

经过上述操作,本实验共挑选出600张图像作为训练的样本(包含300张原始图像和300张强化后图像)。而原始图像中包含植株不同生育时期、不同拍摄光源条件和数据增强程度的图像,其中出苗期图像220张,开花期图像80张,光源充足和光源较暗图像分别为186和114张。而每幅图中包含4~6盆草莓植株,每盆草莓包含约15个叶片(6~27片叶子不等)。本实验选取100张未经增强后的图像作为验证集。这些图像将被用于模型准确度自检。又另选取100张实拍图像用于模型检出结果与人工实测数据对比。这些图像中也包含不同光照条件和生育期的数据,以此验证模型在不同条件下的鲁棒性。

2 网络模型构建

本实验首先利用原始Mask R-CNN模型对草莓数据进行处理,其结果在检测精度和执行效率上难以满足在移动式表型平台的控制电脑(边缘设备)上快速表型提取的需求。根据对预实验结果的分析,本研究认为模型的骨干网络和模型的分类损失函数等存在优化的空间,因而本研究根据前期调研结果对模型进行改进。
改进后的主体结构为ResNeSt101骨干网络33, 34与特征金字塔(Feature Pyramid Networks, FPN)相结合的模式。模型将ResNeSt101骨干网络分成5个阶段。这里的5个阶段分别对应着5种不同尺度的特征向量输出,用来建立FPN。之后利用RoI Align模块替代RoI Pooling(改进池化操作)。这种方式可以使得训练后的特征向量分为分割和检测两个部分。最后经过定位框选和分割计算等后处理,实现草莓植株和叶片的实例分割任务(图4)。
图4 改进型Mask R-CNN模型结构示意图

Fig. 4 Schematic diagram of our Mask R-CNN model structure

本实验使用的ResNeSt是一种基于残差网络(ResNet)的深度卷积神经网络(Convolutional Neural Network, CNN)模型。它采用一系列的残差块来构建网络结构,每个残差块由卷积层和批量归一化层组成。这种结构与传统的ResNet相比引入分组注意力机制,即将输入特征图分组并学习不同通道之间的注意力权重。这种分组注意力机制提升了特征学习和收敛的丰富性和泛化能力。
此外,ResNeSt采用多尺度特征融合的策略。其通过使用不同大小的卷积核来提取多尺度的特征,并通过卷积层的融合和分裂-注意力机制提高了特征训练精度。之后,本研究将这些特征传入FPN连接层。在FPN中,每个层级从ResNeSt的不同阶段接收输入,形成5个不同尺度的特征图,分别记为[C1, C2, C3, C4, C5],每个特征图捕捉不同大小的物体。通过横向连接和自上而下的路径,FPN结合高层的丰富语义信息和低层的细节信息,从而有效地处理多尺度物体检测和分割。ResNeSt和FPN的结合提升了模型在处理复杂场景和不同尺度物体时的性能,尤其是在复杂草莓叶片语义理解和细粒度特征的应用中。
全局平均池化模块是ResNeSt的最后一层。它对最后一个阶段模块的特征图进行全局平均池化操作,将特征图的每个通道的特征值进行平均,得到一个固定长度的向量。这个向量可以作为网络的输出,经过全连接层或softmax层进行分类或回归。ResNeSt的优势在于其出色的性能和高效的参数利用。通过引入分组注意力机制和多尺度特征融合,ResNeSt能够学习到更丰富的特征表示,特别是能够更好地处理不同尺度下图像的纹理和边缘信息,提升模型的判别能力和泛化能力。同时,它还在保持较高准确性的前提下,降低模型的参数量和计算复杂度,实现更高的参数效率。这使得ResNeSt成为当前计算机视觉领域的研究热点和应用前景广阔的模型之一。
总的来说,在Mask R-CNN模型中使用ResNeSt作为骨干网络,能够提高模型多尺度下实例分割精度,在图像分类、目标检测等计算机视觉任务中展现出卓越的性能和参数效率,它的结构特点和优势使其成为当前研究和应用领域备受关注的模型。

2.1 边缘信息提取

为通过实例分割方法推理每个植株的轮廓,进而求得草莓的南北和东西向冠幅,模型除对每个植株和叶片的颜色、纹理等信息进行把握,还需要对每个实例的边缘信息进行精确学习。而对分割区域边缘信息的精细化提取,能够提高分类精度的同时,提高掩膜的精确度,降低植株冠幅计算的误差。
有鉴于此,本研究采用RoI Align模块替代RoI Pooling模块(图5)。具体地,RoI Align引入一个插值过程,先通过双线性插值法将特征向量转变为14×14像素,再用池化操作将其压缩为7×7的像素大小。这在很大程度上解决了仅通过池化采样带来的无法对齐的问题。其中,双线性插值指的是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向(XY)上分别进行一次线性插值计算,如公式(1)所示。
f x , y f Q 11 ( x 2 - x 1 ) ( y 2 - y 1 ) ( x 2 - x ) ( y 2 - y ) + f Q 21 ( x 2 - x 1 ) ( y 2 - y 1 ) ( x - x 1 ) ( y 2 - y ) + f Q 12 ( x 2 - x 1 ) ( y 2 - y 1 ) ( x 2 - x ) ( y - y 1 ) + f Q 22 ( x 2 - x 1 ) ( y 2 - y 1 ) ( x - x 1 ) ( y - y 1 )
式中:已知函数f Q 11 = x 1 , y 1 ,   Q 12 = ( x 1 , y 2 ) Q 21 = ( x 2 , y 1 )以及 Q 22 = x 2 , y 2 4个点的值;Q表示函数上的点;xy分别表示对应点的横纵坐标。
图5 RoI Align利用浮点数处理特征向量边缘

Fig. 5 RoI Align utilizes floating-point numbers to process feature vector edges

通过上述方法,模型就能够从每个RoI中提取小特征图,即将浮点数RoI量化到特征映射的离散粒度,然后将量化的RoI细分到向量空间中。这些空间本身也被量化,最后将每个空间覆盖的特征值聚合(通常使用最大池化)(图5)。

2.2 损失函数

Mask R-CNN模型选用交叉熵函数作为分类损失函数。这种复杂的多分类损失函数在单分类或二分类任务中存在计算冗余的现象。这不仅降低了预测效率,还在一定程度上限制了模型检测和分类的准确性。因此,为了更好地满足草莓与其叶片的区分统计,本研究选择使用二元交叉熵损失函数(BCELoss)来对原本的交叉熵函数进行优化,如公式(2)所示。
B C E L o s s = - 1 N i = 1 N y i l o g   [ p y i ]                + 1 - y i l o g   [ 1 - p y i ]
式中:y为二元标签0或者1; p yy标签的概率; i [ 1 ,   o u t p u t _ s i z e ]N是样本的总数。
使用具有针对性的二元交叉熵函数可以有效地提高二分类准确度,并且缩短模型训练时间。这种改进也使得模型检测叶片计数与人工实测的拟合程度大大提高。改进后Mask R-CNN的优化效果将在后续结果展示中进行详细说明。

2.3 草莓叶龄统计与植株冠幅提取方法

实例分割算法既考虑对象的颜色、形状和纹理等信息,又重点关注实例边缘的信息。在本实验中,对象被分割后的掩膜和对应的检测框是相互影响的。也就是说,实例分割后的检测框会根据分割结果进行动态调整,而掩膜也利用检测框的标定实现同一类别中不同实例的区分标注。鉴于这一特点,模型可以针对检测后的结果进行处理,从而实现草莓植株实例的区分、叶龄(叶片计数)和冠幅的自动提取。
具体来说,实验首先判断叶片与植株的关系,利用实例分割后生成的检测框位置确定叶片的包含关系,如公式(3)所示。
x l e f t 1 2 x i l + x i r x r i g h t y l e f t 1 2 y i l + y i r y r i g h t  
式中:草莓植株检测框的左上角和右下角坐标分别为 ( x l e f t , y l e f t ) ( x r i g h t , y r i g h t ),叶片检测框左上角和右下角坐标分别为 ( x l e f t , x r i g h t ) ( y l e f t , y r i g h t )
本研究也对实例分割后植株掩膜进行了处理,并以此统计图像中每盆草莓植株的冠幅。植物的冠幅分为不同的方向来测量,以更准确地描述植物的形态特征,其中植物冠层南北方向上的最大伸展长度为南北向冠幅,东西方向上的最大伸展长度成为东西向冠幅。由于试验种植草莓和移动式表型平台获取方向均为正南北方向(图6),因此在模型后处理部分,本研究利用实例分割掩膜的纵向最大值和水平方向最大值作为植株南北向冠幅和东西向冠幅,最终得到冠幅的像素值。之后本研究利用统计结果与标签的比值对冠幅真实值进行计算,如公式(4)所示。
L w X w ρ L h X h ρ
图6 草莓图像处理研究中植株与叶片实例分割与表型参数统计结果展示

Fig. 6 Display of plant and leaf instance segmentation and phenotypic parameter statistics in strawberry image processing research

2.4 模型评价指标及方法准确性检验

本实验利用平均搜索精度(Mean Average Precision, mAP)和图像处理速度对模型训练结果进行评估,mAP的计算如公式(5)所示。
m A P = i = 1 k A P i k
式中 : k为评估总数; A P i为在不同召回率条件下的准确率,如公式(6)所示。
A P = i = 1 n - 1 r i + 1 - r i P i n t e r r i + 1
式中: r i为按升序排列的Precision插值段第1个插值处对应的Recall值。
此外,本实验首先利用模型对植株和叶片进行统计,并利用人工实测结果与之进行比较从而验证模型检测分类的准确性。实验还分别计算南北向和东西向草莓植株冠幅的平均误差(Mean Error, ME)和均方根误差(Root Mean Squared Error, RMSE),其计算如公式(7)所示。
M E = 1 n i = 1 n y i - y ^ i R M S E = i = 1 n y i - y ^ i 2 n
式中 : n为测试样本总数; y i y ^ i分别为冠幅真实值和测量值。测试均使用像素值(最小误差为1像素)作为误差计算单位,用以检验植株冠幅实例分割提取结果的准确性。

3 实验结果

利用改进后Mask R-CNN模型对所获取的数据集进行训练和测试。本实验主要分析该方法实例分割检测的精度、速度和成熟度检测准确率,并与目前最先进的实例分割或目标检测叶龄统计方法进行比较。实验设备如表1所示。之后,为探究不同模块对于实验结果的影响程度,本研究还进行消融实验。
表1 改进Mask R-CNN研究模型训练所用服务器硬件参数

Table 1 Hardware parameters of the server used for training the improved Mask R-CNN research model

硬件设备 训练设备参数 测试设备参数
CPU 12th Gen Intel® Core i7-12700 6-core ARM v8.2 64-bit
内存 16 GB 8 GB
GPU NVIDIA 3070ti NVIDIA Pascal
操作系统 Windows 11 Ubuntun 18.0.4
深度网络及加速架构版本 Pytorch/CUDA11.8 Pytorch

3.1 模型评估

本研究利用实验前准备的100张测试集进行了实验测试(图6)。经过改进Mask R-CNN方法处理后的图像会将计数结果标注在同一株草莓实例框上。
此外,经过计算验证,该方法在ResNet-101骨干网络下,实现80.1%的掩膜准确率(Mask mAP)以及89.6%的检测框准确率(Bbox mAP)(图7)。本实验也分别检验了模型分类损失率、检测框损失率和分割损失率。改进Mask R-CNN模型的分类损失率为2.8%,而在相同条件下,原始方法分类损失率为7.2%。这证明使用BCELoss损失函数能够优化草莓叶龄(叶片数量)统计任务,并且能够对多分类工作起到积极作用。
图7 草莓图像处理实验中改进型Mask R-CNN模型与原始模型准确率和训练损失率曲线对比

a. 模型准确率曲线 b. 模型损失率曲线

Fig. 7 Comparison of accuracy and training loss curves between the improved Mask R-CNN model and the original model in strawberry image processing experiments

3.2 消融实验

为了验证ResNeSt骨干网络、Mosaic数据增强和使用二分类交叉熵损失函数对于实验结果的影响,本研究利用控制变量实验进行对比(表2)。当使用改进Mask R-CNN方法时,草莓叶片数(叶龄)检测准确率是最高的。当仅增加数据增强和仅更换损失函数时,最终检测结果也均小优于原始模型。
表2 草莓图像处理研究改进型Mask R-CNN实例分割研究消融实验

Table 2 Research on strawberry image processing and improved Mask R-CNN instance segmentation with ablation experiment

骨干网络 损失函数 检测框准确率/% 掩膜准确率/% 叶龄检测准确率/%
ResNeSt-101* BCELoss 89.6(Best) 80.1(Best) 99.3(Best)
ResNeSt-50* BCELoss 86.2 77.0 98.0
ResNet-101* BCELoss 87.8 78.8 98.0
ResNet-50* BCELoss 84.9 75.2 96.1
ResNeSt-101 BCELoss 82.7 77.3 96.5
ResNeSt-50 BCELoss 81.4 76.9 95.1
ResNeSt-101* Cross Entropy Loss 87.2 78.1 97.6
ResNeSt-50* Cross Entropy Loss 85.0 74.7 97.2

注:*代表使用Mosaic方法对数据集进行扩增。

通过上述对比也可以得出,在优化骨干网络后,整个模型的检测框准确率和掩膜准确率都有明显提升,而叶龄准确率相较原本的方法也提升1.3%。此外,在其他条件不变的情况下,单独利用Mosaic进行数据增强和仅使用BCELoss作为分类损失函数的方法都能够提升模型训练精度,从而提升草莓叶龄统计精度(表2)。
改进Mask R-CNN方法也能够提高实例分割模型预测效率。本研究利用高帧率草莓视频对执行效率进行测试(表3):本研究模型参数量与原始模型相比,参数量处理2 500×2 000像素的120帧草莓视频时,本研究方法能够在服务器上实现28.2 FPS以及测试设备中12.9 FPS的处理速度,而原始模型仅能达到20.4 FPS(7.5)的处理速度。综合表2表3的实验结果,本研究方法在保证相关指标提取精度的前提下,提升了模型推理的效率。其他模型如YOLOv8等,虽然在精度等方面与本研究方法类似,但其运行效率均不如本研究方法。
表3 草莓图像处理研究中改进Mask R-CNN模型与其他实例分割模型集参数量及执行效率对比

Table 3 Comparison of parameter quantity and execution efficiency between improved Mask R-CNN model and other instance segmentation model sets in strawberry image processing research

模型类别 模型参数量/M 训练设备上推理速度/FPS 测试设备的推理速度/FPS
改进型Mask R-CNN(本研究) 420.9 28.2 12.9
Mask R-CNN(原始) 480.1 20.4 7.5
YOLOv8 640.5 19.3 6.3
Yolact 380.7 25.4 11.4
Yolact++ 365.5 24.9 11.0

3.3 不同模型结果对比

本研究验证了其他相关模型的精度(表4)。在相同的参数和输入的情况下,Yolact实现76.5%的掩膜准确率以及84.9%的检测框准确率,而Yolact++模型结果分别为77.3%和86.0%,均低于本研究方法。YOLOv8模型虽然在掩膜准确率指标上略高于本研究方法,但在后续验证中,其模型推理速度较低,难以满足在边缘设备快速处理植物表型信息的任务。只针对单一情况而言,当只考虑目标检测时YOLOv5模型在相同条件下,检测框准确率为88.2%,YOLOX检测准确率为90.1%;而只考虑图像的语义分割时,DeepLabv3+的掩膜准确率为78.8%,U-Net的准确率为76.5%。由此可见,本研究所使用的改进型Mask R-CNN模型在完成实例分割(检测+分割)的情况下,模型与单独使用常见的检测或分割模型准确率近似,能够作为自动处理草莓表型提取的手段而被部署。
表4 草莓图像处理研究中不同模型在相同输入和参数下掩膜准确率与检测框准确率对比

Table 4 Comparison of Mask accuracy and detection box accuracy of different models in strawberry image processing under the same input and parameters

模型类别 掩膜准确率/% 检测框准确率/%
改进Mask R-CNN(本研究) 80.1 89.6
Mask R-CNN(原始) 76.2 86.2
Yolact 76.5 84.9
Yolact++ 77.3 86.0
YOLOv8 81.9 89.2
YOLOv5 88.2
YOLOX 90.1
DeepLabv3+ 78.8
U-Net 76.5

注:—表示无法进行或未进行对应准确率测量。

为验证方法与人工实测真实值相比的准确性,本研究将测试结果与人工实测值进行比较。实验所使用的测试图中包含约415个草莓植株和6 136个叶片,其中草莓植株共检出412个,正确率99.3%,草莓叶片共检出6 038个,其中成熟展叶(符合草莓叶龄统计要求)共6 014个(表5),卷叶(不符合)共检出24个,叶龄正确统计率为98.0%。本研究还对同一株草莓所包含的叶片数进行了统计,并且也与人工实测数据进行对比。在415个植株中,利用改进Mask R-CNN模型实现叶片全部检出的植株数为399个,全部检出率为96.1%。其中,未能成功检测出的草莓植株均为严重萎蔫或植株颜色与土壤接近,而未检出的叶片则可能由于遮挡过于严重或叶片过小(图8)。
表5 不同模型检测草莓植株与叶片数准确率

Table 5 Accuracy of different models for strawberry plant and leaf numbers

模型类别 模型正确检出值/人工计数值 正确率/%
改进型Mask R-CNN(本研究)* 412/415 99.3(Best)
改进型Mask R-CNN(本研究)※ 6 014/6 136 98.0(Best)
Mask R-CNN(原始)* 405/415 97.6
Mask R-CNN(原始)※ 5 876/6 136 95.8
Yolact* 403/415 97.1
Yolact※ 5 993/6 136 97.7
Yolact++* 410/415 98.8
Yolact++※ 5 899/6 136 96.1
YOLOv8* 412/415 99.3(Best)
YOLOv8※ 5 993/6 136 97.7
YOLOv5* 412/415 99.3(Best)
YOLOv5※ 6 001/6 136 97.8
YOLOX* 412/415 99.3(Best)
YOLOX※ 6 009/6 136 97.9

注:※表示展叶数;*表示植株数。

图8 草莓叶龄统计实验中未能检测出的叶片原因分析

Fig. 8 Analysis of the reasons for undetectable blades in the strawberry leaf age statistical experiment

本研究对比其他实例分割模型叶片数量统计结果与人工实测结果对比情况。这些模型均为相关研究中热门且常见算法2, 34。对比结果显示,本研究方法在展叶检测及植株检测任务中具有较高精度(图9)。本实验首先在其他参数不变的情况下对比其他常见实例分割模型和改进型Mask R-CNN(本研究方法)叶龄统计结果的差异(表5)。原始Mask R-CNN模型的草莓植株检出正确率为97.6%,叶片检出率为95.8%;Yolact模型的草莓植株检出正确率为97.1%,叶片检出率为97.7%;Yolact++模型的植株检出正确率为98.8%,叶片检出率为96.1%。结果显示,在叶龄检测精度等方面,这几种方法均低于本研究方法。
图9 草莓图像处理研究中不同模型结果对比图

a. 使用YOLOv5方法得到的检测结果 b. 改进型Mask R-CNN方法得到的检测结果

Fig. 9 Comparison of results of different models in strawberry image processing research

本研究还测试了单独利用检测方法所得到的叶龄统计结果(表5),利用YOLOv5方法进行处理的草莓植株检出数量与该方法类似,但叶片计数准确率为97.8%,低于本研究方法。这表明在叶片被遮挡或多个叶片紧密相连的情况下,单独使用目标检测方法是与实例分割方法相比检测准确度更低(图9)。这种差距在叶形差别较大的叶片上尤其明显。而目标检测方法和单独使用语义分割模型则无法完成一幅图片中包含多盆草莓植株时的各项表型提取工作。这也表明本研究方法在同步获取多项草莓表型参数工作中具有先进性。
除此之外,本研究对植株南北向和东西向冠幅进行分别统计,并与测试集样本实测数据进行对比。实验结果表明,基于改进型Mask R-CNN预测后所得南北向冠幅平均误差为2.03%,均方根误差为16.51,东西向平均误差为5.13%,均方根误差为22.29(图10)。此外经过统计,在两个方向误差均不超过2%的植株共260个约占总测试样本的62.7%,两个方向误差均不超过5%的植株共407个,约占总测试样本的98.1%。
图10 草莓图像处理研究自动化提取植株冠幅像素值

Fig. 10 Research on automatic extraction of plant crown pixel values in strawberry image processing

而本研究也验证了使用常见目标检测方法提取植株冠幅时的统计误差情况。当使用YOLOv5进行统计时,南北向冠幅平均误差为9.57%,均方根误差为87.40,东西向平均误差为12.11%,均方根误差为103.74;而使用YOLOX模型时,上述指标分别为8.33%和66.12以及7.96%和61.24。结果表明,目标检测方法是通过检测框对植株冠幅进行提取,没有利用实例分割掩膜进行收缩调整,因此其框定范围较大,难以满足植株冠幅提取的精度需求(图9)。
综合多种指标精度,本研究对于草莓叶龄的统计以及植株冠幅提取具有较高的准确性,并且在检测过程中,人工检测共计耗时约27 h(共3人进行实测,每人平均统计9 h,每盆大约耗时4 min,包含植株数、叶片数和冠幅像素值统计),自动化处理程序共耗时约15 s(移动式表型平台的边缘设备),因此模型检出速率相较于人工核验有着巨大优势。

4 结 论

本研究利用移动式表型平台和改进型Mask R-CNN实例分割模型实现草莓植株的自动化叶龄与冠幅统计。本研究首先选用可跨垄行驶的移动式表型平台作为表型数据获取和测试平台,并在其上搭载相关传感器和控制设备。在数据处理阶段,在输入阶段首先利用Mosaic数据增强手段对训练样本进行扩增,以提高模型的泛化性。其次,该方法使用ResNeSt结构作为骨干网络,选用FPN作为连接层增加模型在不同尺度下的学习程度,后续使用RoI Align方法提高模型对于实例边缘信息的提取精度和掩膜准确率。最后,使用选择更适合本次任务的二分类交叉熵函数作为分类损失函数。这样在保证检测通量的前提下,大大提高了叶片数量统计的准确性,同时提高了模型训练和推理效率,帮助模型更好地完成移动式表型平台边缘部署和数据解析工作。
结合各项实验结果,本研究方法在草莓叶龄及植株冠幅等表型数据提取任务中有着较高的测试精度,然而该模型仍然需要在具备一定算力的边缘设备运行。这是由于本研究方法虽然提高了整体推理速度,但仍然依赖显卡及深度学习框架进行推理加速。这显然不利于方法的快速部署使用。因此,未来应当重整模型的推理架构,使之在其他设备如CPU上稳定运行,并在执行效率和精度上进行优化,进一步提高植物表型提取的准确率。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
HU H M, KAIZU Y, ZHANG H D, et al. Recognition and localization of strawberries from 3D binocular cameras for a strawberry picking robot using coupled YOLO/Mask R-CNN[J]. International journal of agricultural and biological engineering, 2022, 15(6): 175-179.

2
FAN Y C, ZHANG S Y, FENG K, et al. Strawberry maturity recognition algorithm combining dark channel enhancement and YOLOv5[J]. Sensors, 2022, 22(2): ID 419.

3
FAN J C, ZHANG Y, WEN W L, et al. The future of internet of things in agriculture: Plant high-throughput phenotypic platform[J]. Journal of cleaner production, 2021, 280: ID 123651.

4
张日红, 区建爽, 李小敏, 等. 基于改进YOLOv4的轻量化菠萝苗心检测算法[J]. 农业工程学报, 2023, 39(4): 135-143.

ZHANG R H, OU J S, LI X M, et al. Lightweight algorithm for pineapple plant center detection based on improved an YOLOv4 model[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(4): 135-143.

5
ATEFI A, GE Y F, PITLA S, et al. Robotic technologies for high-throughput plant phenotyping: Contemporary reviews and future perspectives[J]. Frontiers in plant science, 2021, 12: ID 611940.

6
赵春江. 智慧农业发展现状及战略目标研究[J]. 智慧农业, 2019, 1(1): 1-7.

ZHAO C J. State-of-the-art and recommended developmental strategic objectivs of smart agriculture[J]. Smart agriculture, 2019, 1(1): 1-7.

7
LI Y L, WEN W L, FAN J C, et al. Multi-source data fusion improves time-series phenotype accuracy in maize under a field high-throughput phenotyping platform[J]. Plant phenomics, 2023, 5: ID 0043.

8
XIAO D Y, GONG L, LIU C L, et al. Phenotype-based robotic screening platform for leafy plant breeding[J]. IFAC-Papers on line, 2016, 49(16): 237-241.

9
WEYLER J, MILIOTO A, FALCK T, et al. Joint plant instance detection and leaf count estimation for In-field plant phenotyping[J]. IEEE robotics and automation letters, 2021, 6(2): 3599-3606.

10
WANG Y Q, FAN J C, YU S, et al. Research advance in phenotype detection robots for agriculture and forestry[J]. International journal of agricultural and biological engineering, 2023, 16(1): 14-25.

11
SENDEN J, JANSSEN L, VAN DER KRUK R, et al. Exploiting plant dynamics in robotic fruit localization[J]. Computers and electronics in agriculture, 2022, 196: ID 106860.

12
ABBAS A, JAIN S, GOUR M, et al. Tomato plant disease detection using transfer learning with C-GAN synthetic images[J]. Computers and electronics in agriculture, 2021, 187: ID 106279.

13
WIDIYANTO S, NUGROHO D P, DARYANTO A, et al. Monitoring the growth of tomatoes in real time with deep learning-based image segmentation[J]. International journal of advanced computer science and applications, 2021, 12(12): 353-358.

14
RAMIN SHAMSHIRI R, WELTZIEN C, HAMEED I A, et al. Research and development in agricultural robotics: A perspective of digital farming[J]. International journal of agricultural and biological engineering, 2018, 11(4): 1-11.

15
李兴旭, 陈雯柏, 王一群, 等. 基于级联视觉检测的樱桃番茄自动采收系统设计与试验[J]. 农业工程学报, 2023, 39(1): 136-145.

LI X X, CHEN W B, WANG Y Q, et al. Design and experiment of an automatic cherry tomato harvesting system based on cascade visual detection[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(1): 136-145.

16
朱志英. 基于STM32的地空两用农业信息采集机器人研究[J]. 农机化研究, 2021, 43(5): 68-72.

ZHU Z Y. Research on ground-to-air dual-purpose agricultural information collection robot based on STM32[J]. Journal of agricultural mechanization research, 2021, 43(5): 68-72.

17
LI X Y, ZHANG Y L, WU J M, et al. Challenges and opportunities in bioimage analysis[J]. Nature methods, 2023, 20: 958-961.

18
BUZZY M, THESMA V, DAVOODI M, et al. Real-time plant leaf counting using deep object detection networks[J]. Sensors, 2020, 20(23): ID 6896.

19
YAN B, FAN P, LEI X Y, et al. A real-time apple targets detection method for picking robot based on improved YOLOv5[J]. Remote sensing, 2021, 13(9): ID 1619.

20
杨文姬, 胡文超, 赵应丁, 等. 基于改进Yolov5植物病害检测算法研究[J]. 中国农机化学报, 2023, 44(1): 108-115.

YANG W J, HU W C, ZHAO Y D, et al. Research on plant disease detection algorithm based on improved Yolov5[J]. Journal of Chinese agricultural mechanization, 2023, 44(1): 108-115.

21
GE Z, LIU S, WANG F, et al. YOLOX: Exceeding YOLO series in 2021[EB/OL]. arXiv:2107.08430[cs], 2021.

22
李康顺,杨振盛,江梓锋,等. 基于改进 YOLOX-Nano 的农作物叶片病害检测与识别方法[J]. 华南农业大学学报, 2023, 44(4): 593-603.

LI K S, YANG Z S, JIANG Z F, et al. A detection and recognition method for crop leaf diseases based on improved YOLOX Nano[J]. Journal of South China agricultural university, 2023, 44(4): 593-603.

23
SCHARR H, MINERVINI M, FRENCH A P, et al. Leaf segmentation in plant phenotyping: A collation study[J]. Machine vision and applications, 2016, 27(4): 585-606.

24
LEE U, CHANG S, PUTRA G A, et al. An automated, high-throughput plant phenotyping system using machine learning-based plant segmentation and image analysis[J]. PLoS one, 2018, 13(4): ID e0196615.

25
OISHI Y, HABARAGAMUWA H, ZHANG Y, et al. Automated abnormal potato plant detection system using deep learning models and portable video cameras[J]. International journal of applied earth observation and geoinformation, 2021, 104: ID 102509.

26
张慧春, 周宏平, 郑加强, 等. 植物表型平台与图像分析技术研究进展与展望[J]. 农业机械学报, 2020, 51(3): 1-17.

ZHANG H C, ZHOU H P, ZHENG J Q, et al. Research progress and prospect in plant phenotyping platform and image analysis technology[J]. Transactions of the Chinese society for agricultural machinery, 2020, 51(3): 1-17.

27
CHEN H, SUN K Y, TIAN Z, et al. BlendMask: top-down meets bottom-up for instance segmentation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 8570-8578.

28
HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2961-2969.

29
WANG D B, SONG Z, MIAO T, et al. DFSP: A fast and automatic distance field-based stem-leaf segmentation pipeline for point cloud of maize shoot[J]. Frontiers in plant science, 2023, 14: ID 1109314.

30
CARISSE O, BOUCHARD J. Age-related susceptibility of strawberry leaves and berries to infection by Podosphaera aphanis [J]. Crop protection, 2010, 29(9): 969-978.

31
FARJON G, ITZHAKY Y, KHOROSHEVSKY F, et al. Leaf counting: Fusing network components for improved accuracy[J]. Frontiers in plant science, 2021, 12: ID 575751.

32
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 770-778.

33
ZHANG H, WU C R, ZHANG Z Y, et al. ResNeSt: split-attention networks[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, New Jersey, USA: IEEE, 2022: 2735-2745.

34
HUANG M F, XU G Q, LI J Y, et al. A method for segmenting disease lesions of maize leaves in real time using attention YOLACT++[J]. Agriculture, 2021, 11(12): ID 1216.

文章导航

/