U-Net Greenhouse Sweet Cherry Image Segmentation Method Integrating PDE Plant Temporal Image Contrastive Learning and GCN Skip Connections

HU Lingyan; GUO Ruiya; GUO Zhanjun; XU Guohui; GAI Rongli; WANG Zumin; ZHANG Yumeng; JU Bowen; NIE Xiaoyu

doi:10.12133/j.smartag.SA202502008

2025 , Vol. 7 >Issue 3: 131 - 142

DOI: https://doi.org/10.12133/j.smartag.SA202502008

Information Processing and Decision Making

U-Net Greenhouse Sweet Cherry Image Segmentation Method Integrating PDE Plant Temporal Image Contrastive Learning and GCN Skip Connections

HU Lingyan ¹ ,
GUO Ruiya ¹ ,
GUO Zhanjun ² ,
XU Guohui ¹ ,
GAI Rongli ¹ ,
WANG Zumin ^,¹ ,
ZHANG Yumeng ¹ ,
JU Bowen ¹ ,
NIE Xiaoyu ^,¹

Expand

^1. School of Information Engineering, Dalian University, Dalian 116622, China
^2. Dalian Modern Agricultural Production Development Service Center, Dalian 116021, China

WANG Zumin, E-mail: wangzumin@dlu.edu.cn

NIE Xiaoyu, E-mail: niexiaoyu@dlu.edu.cn

YANG Xiao, E-mail: 736834185@qq.com

Received date: 2025-02-11

Online published: 2025-07-26

Supported by

Key Projects of Liaoning Provincial Science and technology plan(2022020655-JH1/109)

Dalian Science and Technology Innovation Fund Project(2022JJ12SN052)

Copyright

Fold

Abstract

[Objective] Within the field of plant phenotyping feature extraction, the accurate delineation of small targets boundaries and the adequate recovery of spatial details during upsampling operations have long been recognized as significant obstacles hindering progress. To address these limitations, an improved U-Net architecture designed for greenhouse sweet cherry image segmentation. [Methods] Taking temporal phenotypic images of sweet cherries as the research subject, the U-Net segmentation model was employed to delineate the specific organ regions of the plant. This architecture was referred to as the U-Net integrating self-supervised contrastive learning method for plant time-series images with priori distance embedding (PDE) pre-training and graph convolutional networks (GCN ) skip connection for greenhouse sweet cherry image segmentation. To accelerate model convergence, the pre-trained weights derived from the PDE plant temporal image contrastive learning method were transferred to. Concurrently, the incorporation of a GCN local feature fusion layer was incorporated as a skip connection to optimize feature fusion, thereby providing robust technical support for image segmentation task. The PDE plant temporal image contrastive learning method pre-training required the construction of image pairs corresponding to different phenological periods. A classification distance loss function, which incorporated prior knowledge, was employed to construct an Encoder with adjusted parameters. Pre-trained weights obtained from the PDE plant temporal image contrastive learning method were effectively transferred and and applied to the semantic segmentation task, enabling the network to accurately learn semantic information and detailed textures of various sweet cherry organs. The Encoder module performs multi-scale feature extraction by convolutional and pooling layers. This process enabled the hierarchical processing of the semantic information embedded in the input image to construct representations that progress transitions from low-level texture features to high-level semantic features. This allows consistent extraction of semantic features from images across various scales and abstraction of underlying information, enhancing feature discriminability and optimizing modeling of complex targets. The Decoder module was employed to conduct up sampling operations, which facilitated the integration of features from diverse scales and the restoration of the original image resolution. This enabled the results to effectively reconstruct spatial details and significantly improve the efficiency of model optimization. At the interface between the Encoder and Decoder modules, a GCN layer designed for local feature fusion was strategically integrated as a skip connection, enabling the network to better capture and learn the local features in multi-scale images. [Results and Discussions] Utilizing a set of evaluation metrics including accuracy, precision, recall, and F₁-Score, an in-depth and rigorous assessment of the model's performance capabilities was conducted. The research findings revealed that the improved U-Net model achieved superior performance in semantic segmentation of sweet cherry images, with an accuracy of up to 0.955 0. Ablation experiments results further revealed that the proposed method attained a precision of 0.932 8, a recall of 0.927 4, and an F₁-Score of 0.912 8. The accuracy of improved U-Net is higher by 0.069 9, 0.028 8, and 0.042 compared to the original U-Net, U-Net with PDE plant temporal image contrastive learning method, and U-Net with GCN skip connections, respectively. Meanwhile the F₁-Score is 0.078 3, 0.033 8, and 0.043 8 higher respectively. In comparative experiments against DeepLabV3, Swin Transformer and Segment Anything Model segmentation methods, the proposed model surpassed the above models by 0.022 2, 0.027 6 and 0.042 2 in accuracy; 0.063 7, 0.147 1 and 0.107 7 in precision; 0.035 2, 0.065 4 and 0.050 8 in recall; and 0.076 8, 0.127 5 and 0.103 4 in F₁-Score. [Conclusions] The incorporation of the PDE plant temporal image contrastive learning method and the GCN techniques was utilized to develop an advanced U-Net architecture that is specifically designed and optimized for the analysis of sweat cherry plant phenotyping. The results demonstrate that the proposed method is capable of effectively addressing the issues of boundary blurring and detail loss associated with small targets in complex orchard scenarios. It enables the precise segmentation of the primary organs and background regions in sweet cherry images, thereby enhancing the segmentation accuracy of the original model. This improvement provides a solid foundation for subsequent crop modeling research and holds significant practical importance for the advancement of agricultural intelligence.

Key words： priori distance embedding; transfer learning; GCN; U-Net; skip connection; plant phenotype

Cite this article

HU Lingyan , GUO Ruiya , GUO Zhanjun , XU Guohui , GAI Rongli , WANG Zumin , ZHANG Yumeng , JU Bowen , NIE Xiaoyu . U-Net Greenhouse Sweet Cherry Image Segmentation Method Integrating PDE Plant Temporal Image Contrastive Learning and GCN Skip Connections[J]. Smart Agriculture, 2025 , 7(3) : 131 -142 . DOI: 10.12133/j.smartag.SA202502008

0 引言

甜樱桃果肉紧实多汁，果实香甜可口，备受消费者喜爱，在国内外市场上都占据着重要地位。在农业现代化进程不断加速的大背景下，甜樱桃产业对于精细化管理以及精准品质检测的需求愈发凸显。图像语义分割作为图像处理中的关键技术^［1］，能够准确识别甜樱桃在图像中的位置和轮廓，为后续的果实计数、品质评估等工作奠定基础，成为推动甜樱桃产业高质量发展的重要技术支撑。

在人工智能飞速发展的当下，迁移学习成为热门研究领域。迁移学习是一种以目标为导向的机器学习技术，通过一个或多个相关任务学习知识，再将其迁移到新的目标任务中，核心在于知识的迁移复用，从而有效降低新任务建立过程中的样本复杂度与时间成本^［2］。在现实中，获取大量有标注数据往往耗时费力。在图像识别领域，在大量动物图像上训练好的图像分类模型，其中学习到的边缘、纹理等基础特征知识，可迁移到植物图像分类任务^{［3, 4］}。该技术能显著减少新任务所需的训练数据量，让模型在少量数据下也能快速收敛，达到较好的性能，还能节省训练时间，避免从头开始训练带来的资源浪费。在计算机视觉领域，大量的公开数据集（如ImageNet^［5］）的出现，使得研究者们能够在大规模图像数据上预训练深度神经网络模型，学习到强泛化性的可迁移视觉表征。预训练模型作为高性能特征提取器，通过微调适应各种具体的图像任务。Singh等^［6］采用深度迁移学习，利用预训练模型针对水稻稻瘟病检测，调整模型结构、参数，结合图像增强等技术提升检测精度。Yan等^［7］提出生成混合域图像，采用子域对齐机制迁移知识，为农业AI提供了有效的跨物种知识迁移框架。Chen等^［8］提出稀疏深度迁移学习算法，引入稀疏迁移假设，设计压缩策略构建深度稀疏网络以提取辅助域有用信息，为资源受限的农业物联网设备提供了可行的智能诊断方案。但这些方法对于识别复杂环境下病害特征或特殊植物病害等场景的适应性和泛化性不足，且对于模型检测效率，以及对小目标的精准定位也有待提升。

语义分割作为计算机视觉领域的基础视觉任务，旨在建立图像到像素级类别标签的映射关系，最终生成具有明确语义边界的分割图^［9］。但是，在处理具有复杂结构和语义关系的图像时，传统语义分割方法面临罕见花卉分割效果欠佳、复杂场景精度待提升，以及上采样细节恢复空间信息不足等难题。图卷积是针对图结构数据设计的卷积运算方法，它能将图像的特征图视为图结构，把节点看作图像中的局部区域或特征，边代表节点间的关系^［10］。通过图卷积挖掘节点关系，能有效融合不同特征图的信息，恰好弥补语义分割在处理复杂关系时的不足。近年来，深度学习技术的革新促使基于卷积神经网络（Convolutional Neural Networks, CNN）^［11］的语义分割方法取得了突破性进展。从早期的全卷积网络（Fully Convolutional Networks, FCN）^［12］到后来的U-Net^［13］、SegNet^［14］等经典模型，通过不断改进网络结构和训练策略，语义分割的精度得到了显著提升。Paszke等^［15］提出新型深度神经网络架构ENet，为降低延迟任务设计，通过优化大幅减少FLOP、参数，提升速度，在多个数据集上进行对比测试，为移动端实时分割任务建立了新的效率基准。Siddique等^［16］提出自监督学习策略，用自动生成的伪标签提升模型对不同花卉的分割敏感度，采用数据增强和细化方法，将增强语义预测转为全景伪标签迭代训练多任务模型。Zhou等^［17］提出EAS-CNN（Evolvable Architecture Search CNN），利用进化算法自动设计CNN，优化网络结构和参数，以实现遥感图像语义分割。然而，当处理具有复杂背景的图像时，现有的语义分割仍面临一系列挑战。精准分割小目标边界，以及准确识别不同生长阶段的植株，提升对罕见花卉种类的分割性能、增强复杂场景下的分割精度，优化上采样过程中的细节以更高效地恢复空间信息等，亟须通过创新性方法实现突破。

当前，在图像分割领域的研究中，一方面，现有研究未能充分考量图像在不同时间序列下的共性与差异对图像分割效果产生的影响；另一方面，针对植物图像这类具有复杂结构和语义关系的图像，对不同特征图之间语义相关性的自适应学习缺乏足够的关注。迁移学习能够有效利用已有的图像知识，加速模型的收敛进程，提升模型对图像的特征提取能力，还能降低模型对大规模标注数据的依赖程度^{［18, 19］}。同时，编码器-解码器结构，结合跳跃连接技术，能够实现图像底层纹理特征与高层语义表征的融合^［20-22］。综上，本研究提出一种融合嵌入先验距离（Priori Distance Embedding, PDE）植物时序图像对比学习方法与图卷积网络（Graph Convolutional Networks, GCN）跳跃连接的U-Net温室甜樱桃图像分割方法。该方法通过对特征图的每个空间位置实施逐点类别预测，实现像素级语义标签的精确映射。此外，借助预训练迁移和GCN跳跃连接技术，增强特征传播能力，提高对甜樱桃的主要器官（茎、叶、花、果实）轮廓、纹理细节和背景区域等的分割精度，以期为后续的图像建模分析、品质评估与产量预测等研究提供技术支持，也为同领域相关研究开拓了新思路。

1 材料与方法

1.1　数据采集与准备

本研究所用数据集均来自大连市普兰店区四平镇费屯村和大连市金普新区的温室种植基地，涵盖了甜樱桃植株在不同生长时期、不同拍摄角度，以及不同环境条件下的图像，记录了甜樱桃完整的生长过程。数据采集借助实验室团队自主设计的远程实时图像采集装备完成，所用核心设备为5G网络Data Transfer Unit（DTU）模块、海康威视iDS-2DC4223IW-/GLT（S5）和iDS-2DC2204IW（S6）等。具体试验装置如图1所示，分别为樱桃植株休眠期和生长期数据采集设备。

显示原图|下载原图ZIP|生成PPT

图1 樱桃植株数据采集设备

Fig. 1 Data acquisition equipment for cherry plant

该数据集涵盖了2022年1—6月、2022年12月—2023年5月两个完整的樱桃生长周期图像，总量达2万余张。图像记录了甜樱桃从枝叶萌芽期、花期、授粉期、坐果期、硬核期、着色期直至成熟期的各个关键生长阶段。其中1个完整的时序图像序列如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 甜樱桃图像序列

Fig. 2 Sequence of cherry image

针对PDE植物时序图像对比学习方法特征提取预训练和后续分割图像，试验从无标签数据集中选取了每天9∶00、12∶00和15∶00的21个包含完整甜樱桃生长周期时序图像（编号为1~21），共计7 373张。

针对语义分割图像训练，随机选取485张甜樱桃图像进行人工语义标注，利用不同颜色分割出茎、叶、花、果实和背景区域，分割结果如图3所示，用于后续的有监督微调训练。该步骤的目的是引导模型学习，确定优化方向，确保图像数据的质量和一致性。图像数据集划分为：335张用于参数学习与训练的训练集、70张用于评估模型性能及泛化能力的测试集，以及80张用于调整模型超参数、防止过拟合的验证集。所有图像的分辨率像素均为1 920×1 080，图像格式为JPG。

显示原图|下载原图ZIP|生成PPT

图3 甜樱桃图像及各器官语义分割标签

注：1）为甜樱桃彩色图像；2）为甜樱桃各器官分割标签。

Fig. 3 Cherry image and semantic segmentation labels of each organ

1.2　PDE植物时序图像对比学习方法预训练的权重迁移

1.2.1　物候期图像对的构建

图像对构建是一种数据增强方法，在现有数据的基础上，通过组合相应的图像来生成新的数据对，以提高训练数据的多样性、改善模型的性能和泛化能力。从樱桃图像中获取物候期信息，将目标植物分为n个图像序列，在这些序列中，以出芽为时间基准（被定义为day0），通过人工判断图像序列获得不同物候期的开始时间和持续时间，序列中每个时间节点的平均值可近似代表所有n个图像序列的物候期，同时具有相对固定的年生长周期。

从划分好物候期的图像中，提取出所需要的图像。尽管示例图像的平均物候期能够近似整体物候期，但不同时间序列中物候期交界的时间点并不完全相同。除此之外，由于物候期变化是渐进的过程，一个物候期结束与下一个物候期开始之间的图像可能包含相似的语义信息。因此，为了实现自动且准确地提取不同物候期的图像，并尽可能最大化不同物候期之间图像的语义差异，本研究选择舍弃临近物候期交界的图像，仅选取距离临界点较远的图像，并同时记录其分类信息。这种方法能够有效减轻人工选择图像的困难和工作量，并提高图像之间的语义差异性。

获取所需图像后，对这些图像进行两两配对。其过程可以看作是对图像集合自身进行笛卡尔积运算。对于每个图像对，根据两个图像的序列和物候期信息，将其记录为同序列同时期（［1，0，0，0］）、同序列不同时期（［0，1，0，0］）、不同序列同时期（［0，0，1，0］）和不同序列不同时期（［0，0，0，1］）这4种类型，并用One-hot编码进行标记保存。

1.2.2　嵌入先验知识的分类距离损失函数构建

将生成的图像对输入特征提取部分进行预训练，记输入图像对为

x

和

y

。对比模型为一个暹罗网络^［23］。为了获取更多语义信息，对图像进行随机剪裁与翻转、随机亮度、随机对比度、随机饱和度、随机色调、随机黑白的数据增强，将增强后的图像分别记为

v 1

和

v 2

。之后再送入Encoder提取出特征，得到特征向量分别记为

h 1

和

h 2

。特征提取之后，输入包含两层ReLU和BN层的小型神经网络投影头（Projection Head），得到256维的向量

Z 1

和

Z 2

。

利用分类距离计算对比损失，隐式地将对比模型的距离信息映射到一个全连接层上，并与不同图像对的分类直接计算损失。该研究将

Z 1

和

Z 2

相减得到的距离

e

，如公式（1）所示。

e = ∑ i = 1 256 (Z 1, i - Z 2, i) 2

（1）

式中：

e

为与

Z 1

和

Z 2

相同维度的向量，可以发现，计算

e

的过程是计算

Z 1

和

Z 2

欧氏距离的核心步骤，这就使得

e

中蕴含了

Z 1

和

Z 2

的先验距离信息。将

e

通过一层全连接层线性投影到

t

，经过

S o f t m a x

处理，可获得输出

o

，如公式（2）和公式（3）所示。

t = e W

（2）

o = S o f t m a x (t)

（3）

式中：

W

为全连接层权重矩阵；

t

和

o

为与label维度相同的向量。

交叉熵用于计算

o

中的类别信息与图像对label种类中的先验距离信息之间的误差，对于任意图像对，如公式（4）所示。

L x y = - ∑ j = 1 4 a j l o g 2 o j

（4）

式中：

a j

为图像对label；

o j

对应label中的第

j

节点；

L x y

为图像对

x

和

y

的loss。

对于每个含有n个图像对的mini-batch，则其对比损失loss如公式（5）所示。

L B = ∑ i = 1 n L i n

（5）

式中：

L i

为图像对loss；

L B

为总对比损失。

分类距离即将对比模型的距离信息隐式地映射到一个全连接层上，再计算与各个图像对分类相关的损失。通过反向传播计算对比损失函数更新的每个参数的偏导数，使得损失函数在训练数据上逐步收敛至全局最优。多次训练模型，不断对损失进行反向传播，更新模型参数，得到调整好的Encoder。

1.2.3　迁移Encoder特征提取权重

通过对时序图像进行对比学习预训练，可以挖掘出图像中的潜在特征和相似性结构。在这个过程中，模型学习到图像在不同时间序列下的共性与差异，从而获得具有代表甜樱桃植株特征的权重参数。这些权重隐含了对植株图像中各器官结构的基本特征提取和特征表示能力。

在时序图像的对比学习预训练完成后，采用有监督方法^［24］，将权重迁移到下游的语义分割任务中，利用少量带标签的植物图像进行微调。本研究以甜樱桃时序表型图像语义分割为例，采用U-Net语义分割网络，以像素级别对甜樱桃图像中的枝干、花、叶、果实和背景区域进行精细分割，以获取甜樱桃时序图像中每个图像的表型信息。该网络迁移使得模型可以更好地聚焦樱桃特征，便于后续网络模型的语义识别，增强分割精确度。

图4为PDE植物时序图像对比学习方法预训练下Encoder迁移到U-Net的示意图。下游训练时，先冻结Encoder，只训练Decoder，防止Encoder权重被破坏；然后解冻全部网络，用较小的学习率微调网络，分割效果可以有效地评价对比学习预训练的结果。

显示原图|下载原图ZIP|生成PPT

图4 PDE植物时序图像对比学习方法预训练下的Encoder迁移

Fig. 4 Transfer of Encoder under PDE plant temporal image contrastive learning method

1.3　GCN特征融合跳跃连接

1.3.1　Encoder网络的特征层提取

在U-Net的Encoder-Decoder结构网络中，Encoder网络承担特征提取任务，承担起对图像分割的关键作用。针对甜樱桃图像，Encoder部分先从输入层将图像送入初始卷积层，不同卷积核以滑动窗口方式依次遍历图像，提取甜樱桃图像主要器官和背景的边缘、纹理等局部特征细节。然后，最大池化层的下采样操作通过局部感受野内的极值采样实现空间降维，在降低特征图分辨率的同时保留显著特征，有效提升计算效率与特征的鲁棒性。接着，残差模块进行深化特征提取步骤，增强模型对复杂特征的学习能力。最后，全局平均池化层对特征进行整合，一个全连接层进行分类，这5个初步有效特征层（feature map）呈现出从浅层到深层、从底层纹理特征到高层语义表征间的显著变化。浅层特征层包含丰富的花瓣纹理、叶片边缘锯齿等图像细节，为精确界定物体边界提供关键依据；深层特征层则聚焦于图像语义，有助于判断甜樱桃果实、枝干及背景区域，理解图像整体结构与物体类别。

1.3.2　Decoder网络的特征层处理

1）反卷积上采样。Decoder网络中的反卷积操作是实现从低分辨率特征图到高分辨率图像重建的关键步骤。反卷积通过对特征层进行上采样，逐步恢复图像的尺寸。对于从Encoder网络传来的5个特征层，每个特征层都要经历反卷积上采样过程。在反卷积过程中，通过特定的卷积核和步长设置，将特征图的尺寸逐步扩大，使其更接近原始图像的尺寸。并且在这个过程中进行特征融合。该特征融合机制通过不同层级特征融合，同时保留浅层空间定位精度与深层语义抽象能力，生成具有多尺度上下文感知能力的融合特征。

2）特征融合。在反卷积上采样的同时，Decoder网络还进行着特征融合操作，其目的是将多尺度的特征信息进行整合，以获得具备全局上下文感知能力的有效特征层。在特征融合过程中，将经过反卷积上采样后的多尺度特征实施逐元素相加，使得浅层特征层的细节信息与深层特征层的语义信息可以相互补充。在甜樱桃图像分割中，浅层特征层提供的花瓣纹理等细节可以确定区域的边界，而深层特征层提供的语义信息则确保该区域可以被正确地识别为对应器官，通过这种融合方式，最终得到的有效特征层既包含了丰富的细节信息，又具备准确的语义判断能力，从而为后续的像素级别分类提供了坚实的基础。

1.3.3　GCN特征融合的跳跃连接

在传统U-Net架构中，随着网络深度增加，Encoder和Decoder间信息传递存在梯度消失等局限，导致模型训练难以收敛，底层特征利用不足等问题凸显。为解决以上问题，本研究在U-Net的Encoder和Decoder之间采用跳跃连接技术，将某一层输入直接连接到较深另一层，避免梯度消失，为梯度回传开辟捷径，增强对底层特征的利用。同时，加入GCN的局部特征融合层，把Encoder不同阶段输出的特征图视为图节点，利用GCN操作挖掘节点关系，实现高效特征融合。以上改进使得模型在信息传递和特征融合能力上显著提升，既保障了信息的有效传递，又充分发挥了GCN在处理节点关系方面的优势，使模型能够具备多尺度特征的融合能力。

GCN具体的连接操作如下。

1）构建图结构。将编码器不同阶段输出的特征图中的每个像素点视为图的节点，根据特征图的空间位置关系构建邻接矩阵

Α

，卷积公式如公式（6）和公式（7）所示。对于相邻的像素点设置为有连接，对于距离较远的像素点设置为不连接。

A ˜ = A + I

（6）

Η (l + 1) = σ (D ˜ - 12 A ˜ D ˜ - 12 H (l) W (l))

（7）

式中：

A

为图的邻接矩阵

; A ˜

为加上自连接的邻接矩阵

; I

为单位矩阵；

H (l)

为第

l

层的特征矩阵；

σ

为激活函数

; D ˜

为

A ˜

的度矩阵；

W (l)

为第

l

层的可学习权重矩阵。

2）根据构建的图结构对每个特征图进行图卷积操作。先计算出和，然后按照图卷积公式进行计算得到结果。为得到融合后为特征图，需要将经过GCN层操作后的特征图按照特征融合公式进行处理，即在网络模型训练过程中，通过反向传播算法对可学习权重参数进行端到端优化，以实现特征融合过程的自适应调节，如公式（8）所示。

F f u s i o n = ∑ i = 1 n a i G C N (F i)

（8）

式中：

F f u s i o n

为经过GCN融合后的特征图；

a i

为可学习的权重系数；

F i

为编码器第

i

个阶段输出的特征图；

G C N

为对特征图进行图卷积操作后的结果；

n

为编码器的阶段数。

3）将融合后的特征图作为解码器的输入，与对应解码阶段的转置卷积上采样特征图进行融合和处理，后续通过空间卷积模块进行特征提取和像素级语义预测。U-Net中Encoder和Decoder间加入GCN跳跃连接完整网络构架如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 GCN跳跃连接完整网络构架图

Fig. 5 Diagram of the complete network architecture of the GCN hop connection

在每一层跳跃连接前，将Encoder的输出先送入GCN模块，得到结构增强后的特征图。再与Decoder中上采样后的特征图进行拼接，后接标准的卷积模块。

GCN可以自适应学习不同特征图间复杂语义相关性，摒弃简单拼接或相加的处理方式。本研究引入基于GCN的局部特征融合层，利用网络结构不同层次的特征信息，使得在处理复杂结构和语义关系图像时，捕捉节点的关系信息，提升图像分割准确性。在甜樱桃图像分割任务中，借助GCN处理图结构数据的能力，融合局部细节与全局语义特征，为甜樱桃不同生长阶段图像语义分割提供更全面的分析过程，有力推动作物图像分析技术的发展。

1.4　评价指标

为系统量化分割模型性能，本研究采用分类任务中广泛应用的评估指标体系，包含准确率（Accuracy）、精确度（Precision）、召回率（Recall）及F ₁分数（F ₁-Score）。各指标计算均基于混淆矩阵（Confusion Matrix）构建，其结构定义如表1所示。

表1 混淆矩阵定义

Table 1 Definition of confusion matrix

预测实际	实际正样本	实际负样本
预测正样本	TP	FP
预测负样本	FN	TN

注：TP（True Positive）为正样本被正确识别的数量；FP（False Positive）为负样本被误判为正样本的数量；FN（False Negative）为正样本被错误归类为负样本的数量；TN（True Negative）则为负样本被正确排除的数量。

基于上述混淆矩阵的构建结果，可系统性推导出精确率、召回率、F ₁分数等评估指标的数学表达式。准确率为预测正确的结果占总样本的百分比，适用于类别均衡场景，如公式（9）所示。

A c c u r a c y = T P + T N T P + F P + F N + T N

（9）

精确度表示的是所有被预测为正样本的数据中实际为正样本的概率，侧重降低误报率，如公式（10）所示。

P r e c i s i o n = T P T P + F P

（10）

召回率计算的为实际正样本中被预测为正样本的概率，关注漏检风险控制，如公式（11）所示。

R e c a l l = T P T P + F N

（11）

F ₁-Sorce用来评价精确度和召回率之间的关系，适用于类别不平衡任务，如公式（12）所示。

F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s o n × R e c a l l

（12）

以上指标通过多维度量化模型在正负样本识别中的权衡关系，成为农业表型分析等小目标分割任务的核心评价标准。

2 结果与分析

2.1　试验配置

试验均采用以下设置。硬件配置中央处理器（Central Processing Unit, CPU）为Inter Xeon E5-2620、内存64 G，图形处理器（Graphics Processing Unit, GPU）为NVIDIA GTX1080ti、显存11 G，操作系统为Windows 10，开发语言为Python 3.8。PDE植物时序图像对比学习方法预训练迁移学习的Encoder主干网络采用ResNet-50结构，Decoder采用Glorot Uniform初始化。输入图像分辨率像素为1 024×576，批次大小（batch size）为64，训练轮次为10个epoch，学习率为0.001。

为准确地测试方法的分割能力，针对实验室采集的甜樱桃图像开展试验。将时序图像对比学习预训练所得到的权重迁移到U-Net网络的Encoder部分，进行权重迁移与初步网络训练。在下游训练开始时，先冻结Encoder，只训练Decoder。通过这一方式，网络能够有效避免Encoder的权重遭受破坏，从而确保Decoder可依据甜樱桃图像的特定语义分割任务需求进行适应性调整，准确地将Encoder所提取的像素级别特征映射至相应的分类结果，实现对甜樱桃各器官和背景区域的图像分割。

微调训练在Decoder训练到一定程度后，解冻全部网络，使用较小的学习率对整个网络进行微调，以避免破坏预训练权重中已经学习到的有用特征。模型输入图像分辨率像素为1 024×512，冻结训练的初始学习率为0.000 1，batch size为18，训练轮次为60个epoch；微调时学习率为0.000 01，batch size为8，训练轮次为60个epoch。此时，网络能够在保持预训练权重所学习到的通用特征提取能力的基础上，进一步优化对甜樱桃图像的语义分割性能，适应甜樱桃图像的独特特征和语义结构。所得分割结果如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 融合PDE植物时序图像对比学习方法和GCN跳跃连接的语义分割结果图

Fig. 6 Semantic segmentation results fused with PDE plant temporal image contrastive learning method and GCN hopping connections

2.2　分割结果获取与评估

对最终获得的特征层的每一个特征点进行分类，从而获取甜樱桃图像的语义分割结果。通过与人工标注的真实结果进行对比，采用准确率、精确率、召回率和F ₁分数4个方面的评价指标来评估分割效果^{［25, 26］}。所有试验均采用tensorflow和keras框架，试验5次取平均值得到结果。分割结果不仅能够反映U-Net网络在甜樱桃图像语义分割任务中的性能，同时也可以有效地评价对比学习预训练的效果，即预训练权重在特定农业图像语义分割任务中的迁移有效性和适应性，消融实验结果如表2所示。

表2 U-Net改进模型消融实验结果

Table 2 Ablation test results of cherry images segmented by improved U-Net model

指标	方法
指标	原始U-Net	引入PDE植物时序图像对比学习方法的U-Net	引入GCN跳跃连接的U-Net	融合PDE植物时序图像对比学习方法与GCN跳跃连接的U-Net
准确率	0.885 1	0.926 2	0.913 0	0.955 0
精确率	0.863 7	0.900 0	0.800 0	0.932 8
召回率	0.855 9	0.892 6	0.875 2	0.927 4
F ₁分数	0.833 5	0.879 0	0.869 0	0.912 8

试验结果显示，原始U-Net在准确率、精确率、召回率和F ₁分数上均为最低，表明其分割准确性存在明显不足。引入PDE植物时序图像对比学习方法的U-Net在各项指标上均有显著提升，其中准确率达到了0.926 2，这一结果表明，PDE植物时序图像对比学习方法预训练权重迁移能够有效地帮助模型捕捉图像特征，从而提升模型的整体性能。引入GCN跳跃连接的U-Net在部分指标上优于原始U-Net，可见通过图卷积操作，该模型能够学习编码器不同阶段输出特征图节点间的关系，自适应地挖掘不同特征图之间的语义相关性，进而更充分地利用不同层次的特征信息，提高图像分割的准确性。然而，该模型的精确率仅为0.800 0，在准确性上效果欠佳，整体提升效果不如引入PDE植物时序图像对比学习方法的U-Net明显。融合PDE植物时序图像对比学习方法与GCN跳跃连接的U-Net模型则表现最优，该模型融合了两者之长处，在各项指标上均取得了最佳成绩：准确率为0.955 0，F ₁分数为0.912 8，精确率为0.932 8，召回率为0.927 4。与原始U-Net、引入PDE植物时序图像对比学习方法的U-Net和引入GCN跳跃连接的U-Net相比，本研究所提方法准确率分别提高了0.069 9、0.028 8和0.042 0。精度分别高出0.069 1、0.032 8和0.132 8。召回率分别高出0.071 5、0.034 8和0.052 2。F ₁分数分别高出0.078 3、0.033 8和0.043 8。

除此之外，本研究还横向对比了目前主流的一些分割方法，分别是DeepLabV3、Swin Transformer和Segment Anything Model（SAM）。图7为随机选择1组时序图像中的对比试验结果。整体试验结果数据如表3所示。

显示原图|下载原图ZIP|生成PPT

图7 U-Net改进模型对比试验图

Fig. 7 Comparative test diagram of the improved U-Net model

表3 U-Net改进模型对比试验结果

Table 3 Comparative test results of improved U-Net model

指标	模型
指标	融合PDE植物时序图像对比学习方法和GCN的U-Net	DeepLabV3	Swin Transformer	SAM
准确率	0.955 0	0.932 8	0.927 4	0.912 8
精确率	0.858 7	0.795 0	0.711 6	0.751 0
召回率	0.837 3	0.802 1	0.771 9	0.786 5
F ₁分数	0.882 1	0.805 3	0.754 6	0.778 7

试验结果显示，DeepLabV3和Swin Transformer表现略逊一筹，分割图结果均与原图差距较大，出现边缘模糊及缺少分割部分的情况，且各项指标上均比本研究所提方法低0.1以上。具体而言，本研究所提方法准确率分别比DeepLabV3、Swin Transformer和SAM分割方法等当前主流方法高0.022 2、0.027 6和0.042 2。精度分别比当前主流分割方法高0.063 7、0.147 1和0.107 7。召回率分别比当前主流分割方法高0.035 2、0.065 4和0.050 8。F ₁分数分别比当前主流分割方法高0.076 8、0.127 5和0.103 4。SAM相对表现良好，但是在精细类别分割上仍然远不如融合PDE植物时序图像对比学习方法与GCN跳跃连接的U-Net，结果无法还原各器官细节。对比试验验证了该融合方式能够增强模型性能，深入学习图像在不同时间序列下的共性与差异，做到仅利用少量带标签图像进行微调，就能在语义分割任务中实现对甜樱桃图像不同区域的高效分割，提升图像分割效果。因此，在甜樱桃图像分割任务中，融合PDE植物时序图像对比学习方法与GCN跳跃连接的U-Net模型表现也为最优，可以更有效地处理图像信息，分割出甜樱桃图像中的主要器官和背景区域，提升模型综合性能，展现出技术优势，为获取甜樱桃时序图像的表型信息提供强大的技术支持。

3 讨论

本研究通过权重迁移策略和融合技术，充分挖掘时序图像中的关键信息，分割甜樱桃图像中的枝干、花、叶、果实，以及背景区域，从而获取甜樱桃时序图像的表型信息，实现对甜樱桃图像不同区域的划分，大幅提升分割准确性，为获取甜樱桃时序图像的表型信息提供了坚实的技术支撑。

在本研究中，运用PDE植物时序图像对比学习方法预训练方法对Encoder进行参数优化，通过数据训练与模型调校，使Encoder学习到图像中丰富的特征表达，得到调整好参数的Encoder。随后，采用权重迁移策略，将训练完成的Encoder的权重迁移至U-Net网络架构中，为后续的图像分割任务奠定坚实基础。在后续甜樱桃图像分割任务执行过程中，Encoder已拥有特征提取能力，负责从输入的甜樱桃图像中提取5个初步有效特征层，这些特征层包含了从底层的图像细节到高层的语义信息等不同层次的图像特征。Decoder网络则对这些特征层进行反卷积上采样操作，逐步恢复图像的空间分辨率，同时加入GCN操作，通过融合图卷积层，学习不同特征图节点间的关系，精准地实现对甜樱桃图像的分割。这些操作构成一个完整的分割流程，各环节紧密协作，使得网络能够高效处理图像信息。

本融合PDE植物时序图像对比学习方法和 GCN跳跃连接的U-Net模型在甜樱桃图像分割任务中表现最优，各项指标均显著优于原始U-Net及其变体，同时超越DeepLabV3、Swin Transformer和SAM等主流方法，验证了该方法的有效性。

4 结论

融合PDE植物时序图像对比学习方法和GCN跳跃连接的U-Net模型在甜樱桃图像分割任务中表现最优，这种性能优势主要得益于以下两项关键技术的引入：

1）PDE植物时序图像对比学习方法预训练迁移技术。帮助模型挖掘图像潜在特征与相似性结构，学习图像不同时间序列下的共性和差异，让模型在微调后能更好地适应甜樱桃图像独特特征和语义结构，提升分割效果。

2）引入GCN跳跃连接技术。学习编码器不同阶段输出特征图节点间关系，自适应地学习不同特征图间语义依赖关系，实现浅层空间定位信息与深层语义抽象表征的梯度融合，从而增强像素级分类边界的精确性。

综上所述，本研究提出融合PDE植物时序图像对比学习方法预训练与GCN跳跃连接的U-Net温室甜樱桃图像分割方法，为甜樱桃图像分割任务提供了更优解决方案，在提升农作物图像语义分割模型的泛化能力和学习效率方面成效显著。此方法为农业图像语义分割开辟了新路径，构建了新的技术框架，有助于深入研究植物生长规律、开展作物健康监测等工作，为未来农业图像分析技术的发展提供重要的参考依据。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	KITZLER F, BARTA N, NEUGSCHWANDTNER R W, et al. WE3DS: An RGB-D image dataset for semantic segmentation in agriculture[J]. Sensors, 2023, 23(5): ID 2713.

[2]	ZHUANG F Z, QI Z Y, DUAN K Y, et al. A comprehensive survey on transfer learning[J]. Proceedings of the IEEE, 2021, 109(1): 43-76.

[3]	ZHOU S L, XU C, XU R, et al. Image recognition model of fraudulent websites based on image leader decision and Inception-V3 transfer learning[J]. China communications, 2024, 21(1): 215-227.

[4]	HOWARD J, RUDER S. Universal language model fine-tuning for text classification[J]. Computer science, 2018, 56(1): 328-339.

[5]	RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3): 211-252.

[6]	SINGH A, KAUR J, SINGH K, et al. Deep transfer learning-based automated detection of blast disease in paddy crop[J]. Signal, image and video processing, 2024, 18(1): 569-577.

[7]	YAN K, GUO X L, JI Z W, et al. Deep transfer learning for cross-species plant disease diagnosis adapting mixed subdomains[J]. IEEE/ACM transactions on computational biology and bioinformatics, 2023, 20(4): 2555-2564.

[8]	CHEN Z K, ZHANG X, CHEN S, et al. A sparse deep transfer learning model and its application for smart agriculture[J]. Wireless communications and mobile computing, 2021, 2021(1): ID 9957067.

[9]	GARCIA-GARCIA A, ORTS-ESCOLANO S, OPREA S, et al. A survey on deep learning techniques for image and video semantic segmentation[J]. Applied soft computing, 2018, 70: 41-65.

[10]	HAIDER RIZVI S M, IMRAN R, MAHMOOD A. Text classification using graph convolutional networks: A comprehensive survey[J]. ACM computing surveys, 2025, 57(8): 1-38.

[11]	MINAEE S, BOYKOV Y, PORIKLI F, et al. Image segmentation using deep learning: A survey[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(7): 3523-3542.

[12]	SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(4): 640-651.

[13]	RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015. Cham, Germany: Springer International Publishing, 2015: 234-241.

[14]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

[15]	PASZKE A, CHAURASIA A, KIM S, et al. ENet: A deep neural network architecture for real-time semantic segmentation[EB/OL]. arXiv: 1606.02147, 2016.

[16]	SIDDIQUE A, TABB A, MEDEIROS H. Self-supervised learning for panoptic segmentation of multiple fruit flower species[J]. IEEE robotics and automation letters, 2022, 7(4): 12387-12394.

[17]	ZHOU H, YANG J Y, ZHANG T T, et al. EAS-CNN: Automatic design of convolutional neural network for remote sensing images semantic segmentation[J]. International journal of remote sensing, 2023, 44(13): 3911-3938.

[18]	XU W, GUO R Y, CHEN P Y, et al. Cherry growth modeling based on Prior Distance Embedding contrastive learning: Pre-training, anomaly detection, semantic segmentation, and temporal modeling[J]. Computers and electronics in agriculture, 2024, 221: ID 108973.

[19]	XU W, HU L Y, GUO R Y, et al. Image segmentation with contrastive learning for plant time-series images with priori distance embedding[C]// 2023 IEEE Smart World Congress (SWC). Piscataway, New Jersey, USA: IEEE, 2023: 1-8.

[20]	ZAFAR A, SABA N, ARSHAD A, et al. Convolutional neural networks: A comprehensive evaluation and benchmarking of pooling layer variants[J]. Symmetry, 2024, 16(11): ID 1516.

[21]	YANG J, MATSUSHITA B, ZHANG H R. Improving building rooftop segmentation accuracy through the optimization of UNet basic elements and image foreground-background balance[J]. ISPRS journal of photogrammetry and remote sensing, 2023, 201: 123-137.

[22]	FAISAL M, LEU J S, DARMAWAN J T. Model selection of hybrid feature fusion for coffee leaf disease classification[J]. IEEE access, 2023, 11: 62281-62291.

[23]	WANG J, ZHOU F, WEN S L, et al. Deep metric learning with angular loss[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2612-2620.

[24]	董西伟. 有监督和半监督多视图特征学习方法研究[D]. 南京: 南京邮电大学, 2018. DONG X W. Study of supervised and semi-supervised multi-view feature learning methods[D]. Nanjing: Nanjing university of posts and telecommunications, 2018.

[25]	WANG D, CHEN X L. Research on feature fusion method based on graph convolutional networks[J]. Applied sciences, 2024, 14(13): ID 5612.

[26]	MENG X B, WANG P F, YAN H R, et al. Multi-graph convolution network with jump connection for event detection[C]// 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI). Piscataway, New Jersey, USA: IEEE, 2019: 744-751.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引 言

1 材料与方法

1.1 数据采集与准备

图1 樱桃植株数据采集设备

图2 甜樱桃图像序列

图3 甜樱桃图像及各器官语义分割标签

1.2 PDE植物时序图像对比学习方法预训练的权重迁移

1.2.1 物候期图像对的构建

1.2.2 嵌入先验知识的分类距离损失函数构建

1.2.3 迁移Encoder特征提取权重

图4 PDE植物时序图像对比学习方法预训练下的Encoder迁移

1.3 GCN特征融合跳跃连接

1.3.1 Encoder网络的特征层提取

1.3.2 Decoder网络的特征层处理

1.3.3 GCN特征融合的跳跃连接

图5 GCN跳跃连接完整网络构架图

1.4 评价指标

表1 混淆矩阵定义

2 结果与分析

2.1 试验配置

图6 融合PDE植物时序图像对比学习方法和GCN跳跃连接的语义分割结果图

2.2 分割结果获取与评估

表2 U-Net改进模型消融实验结果

图7 U-Net改进模型对比试验图

表3 U-Net改进模型对比试验结果

3 讨 论

4 结 论

References

0 引言

1.1　数据采集与准备

1.2　PDE植物时序图像对比学习方法预训练的权重迁移

1.2.1　物候期图像对的构建

1.2.2　嵌入先验知识的分类距离损失函数构建

1.2.3　迁移Encoder特征提取权重

1.3　GCN特征融合跳跃连接

1.3.1　Encoder网络的特征层提取

1.3.2　Decoder网络的特征层处理

1.3.3　GCN特征融合的跳跃连接

1.4　评价指标

2.1　试验配置

2.2　分割结果获取与评估

3 讨论

4 结论