Lightweight Tea Shoot Picking Point Recognition Model Based on Improved DeepLabV3+

HU Chengxi; TAN Lixin; WANG Wenyin; SONG Min

doi:10.12133/j.smartag.SA202403016

Smart Agriculture >

2024 , Vol. 6 >Issue 5: 119 - 127

DOI: https://doi.org/10.12133/j.smartag.SA202403016

Technology and Method

Lightweight Tea Shoot Picking Point Recognition Model Based on Improved DeepLabV3+

HU Chengxi ¹ ,
TAN Lixin ^,¹^,² ,
WANG Wenyin ¹ ,
SONG Min ¹

Expand

^1. College of Information and Intelligence, Hunan Agricultural University, Changsha 410125, China
^2. School of Electrical and Electronic Engineering, Hunan College of Information, Changsha 410200, China

TAN Lixin, E-mail: 594637823@qq.com

HU Chengxi, E-mail: 2328556898@qq.com

Received date: 2024-03-13

Online published: 2024-06-28

Supported by

Innovation Fund for University-Industry Cooperation in China - Supported Project for New Generation Information Technology Innovation(2022IT82)

Hunan Provincial Educational Science Planning Project(XJK24BZY037)

Copyright

Fold

Abstract

[Objective] The picking of famous and high-quality tea is a crucial link in the tea industry. Identifying and locating the tender buds of famous and high-quality tea for picking is an important component of the modern tea picking robot. Traditional neural network methods suffer from issues such as large model size, long training times, and difficulties in dealing with complex scenes. In this study, based on the actual scenario of the Xiqing Tea Garden in Hunan Province, proposes a novel deep learning algorithm was proposed to solve the precise segmentation challenge of famous and high-quality tea picking points. [Methods] The primary technical innovation resided in the amalgamation of a lightweight network architecture, MobilenetV2, with an attention mechanism known as efficient channel attention network (ECANet), alongside optimization modules including atrous spatial pyramid pooling (ASPP). Initially, MobilenetV2 was employed as the feature extractor, substituting traditional convolution operations with depth wise separable convolutions. This led to a notable reduction in the model's parameter count and expedited the model training process. Subsequently, the innovative fusion of ECANet and ASPP modules constituted the ECA_ASPP module, with the intention of bolstering the model's capacity for fusing multi-scale features, especially pertinent to the intricate recognition of tea shoots. This fusion strategy facilitated the model's capability to capture more nuanced features of delicate shoots, thereby augmenting segmentation accuracy. The specific implementation steps entailed the feeding of image inputs through the improved network, whereupon MobilenetV2 was utilized to extract both shallow and deep features. Deep features were then fused via the ECA_ASPP module for the purpose of multi-scale feature integration, reinforcing the model's resilience to intricate backgrounds and variations in tea shoot morphology. Conversely, shallow features proceeded directly to the decoding stage, undergoing channel reduction processing before being integrated with upsampled deep features. This divide-and-conquer strategy effectively harnessed the benefits of features at differing levels of abstraction and, furthermore, heightened the model's recognition performance through meticulous feature fusion. Ultimately, through a sequence of convolutional operations and upsampling procedures, a prediction map congruent in resolution with the original image was generated, enabling the precise demarcation of tea shoot harvesting points. [Results and Discussions] The experimental outcomes indicated that the enhanced DeepLabV3+ model had achieved an average Intersection over Union (IoU) of 93.71% and an average pixel accuracy of 97.25% on the dataset of tea shoots. Compared to the original model based on Xception, there was a substantial decrease in the parameter count from 54.714 million to a mere 5.818 million, effectively accomplishing a significant lightweight redesign of the model. Further comparisons with other prevalent semantic segmentation networks revealed that the improved model exhibited remarkable advantages concerning pivotal metrics such as the number of parameters, training duration, and average IoU, highlighting its efficacy and precision in the domain of tea shoot recognition. This considerable decreased in parameter numbers not only facilitated a more resource-economical deployment but also led to abbreviated training periods, rendering the model highly suitable for real-time implementations amidst tea garden ecosystems. The elevated mean IoU and pixel accuracy attested to the model's capacity for precise demarcation and identification of tea shoots, even amidst intricate and varied datasets, demonstrating resilience and adaptability in pragmatic contexts. [Conclusions] This study effectively implements an efficient and accurate tea shoot recognition method through targeted model improvements and optimizations, furnishing crucial technical support for the practical application of intelligent tea picking robots. The introduction of lightweight DeepLabV3+ not only substantially enhances recognition speed and segmentation accuracy, but also mitigates hardware requirements, thereby promoting the practical application of intelligent picking technology in the tea industry.

Key words： lightweight model; DeepLabV3+; attention mechanism; tender tea buds; ECANet; famous quality tea; ASPP

Cite this article

HU Chengxi , TAN Lixin , WANG Wenyin , SONG Min . Lightweight Tea Shoot Picking Point Recognition Model Based on Improved DeepLabV3+[J]. Smart Agriculture, 2024 , 6(5) : 119 -127 . DOI: 10.12133/j.smartag.SA202403016

0 引言

茶产业作为中国脱贫攻坚的支柱产业之一，在促进农村经济发展和改善贫困地区生计方面发挥着重要的作用。然而，现有名优茶的采摘主要依靠人力采摘，产量较低且人力成本高。随着茶叶采摘的人力资源逐渐流失，采摘成为产业发展瓶颈。现有茶叶机械采摘主要采用往复切割的粗放型采摘方式，无法按照名优茶形态要求进行识别和采摘，因此研发智能采茶机器人成为时代的必然选择。智能采茶机器人采摘的重点在于对茶叶嫩芽的准确识别。由于茶叶嫩芽与背景老叶颜色相近，极难区分^{［1, 2］}，且受到野外光照变化等因素影响，因此，对茶叶嫩芽的智能识别提出了一定程度的挑战。

随着计算机视觉技术不断发展，国内外学者在作物果实识别定位^{［3, 4］}上取得很多新的成果。何梁等^［5］将YOLO（You Only Look Once）与DeepLabV3+^［6］网络相结合，实现了莲蓬与茎秆位置的精准定位。李惠鹏等^［7］更换金字塔场景解析网络（Pyramid Scene Parseing Network, PSPNet）的主干网络，实现了葡萄采摘点的定位识别。李艳文等^［8］提出了改进后的SegNet网络，对苹果采摘点的准确率达到了83.1%。Santos和Gebler^［9］提出了一种利用空中图像序列自动检测和定位苹果园中果实的方法。Giménez-Gallego等^［10］通过人工神经网络（Artificial Neural Network, ANN）模型对咖啡作物中的成熟红色果实进行分割识别，其交并比达到了81.9%。上述研究成果为茶叶嫩芽采摘点定位提供了新的思路。

在茶叶嫩芽采摘领域，国内外学者也取得了很多成果。黄家才等^［11］提出了一种基于自适应标记分水岭算法的茶叶嫩芽图像分割方法，相对于传统分水岭算法提升了13.6%交并比。胡和平等^［12］在YOLOv5s主干网络尾部加入卷积注意力模块（Convolutional Block Attention Module, CBAM）机制对多角度茶叶嫩芽进行分级识别，准确率达到了94.2%。Liu等^［13］将可变形卷积引入茶芽检测模型中，对茶叶嫩芽的识别准确率达到了90.6%。Karunasena和Priyankara^［14］提出了一种基于机器视觉的茶叶芽长度的识别方法，对于长度为0~40 mm的茶芽其总体识别准确性达到了55%。Junagade等^［15］通过YOLOv5x网络在由无人机拍摄的茶叶嫩芽测试集中的识别准确率达到了89.23%，取得了较为精准的检测效果。

在茶叶嫩芽识别与定位领域，目前主要采用YOLO系列等目标检测方法，适用于快速检测小目标。然而，在采摘机械臂接近茶叶嫩芽时，茶叶嫩芽从远距离的小目标转变为近距离的大目标。在此情境下，语义分割相较于目标检测可以提供更精确的位置信息。同时为了解决语义分割模型体量大、训练时间长、场景复杂等问题，本研究提出一种改进的DeepLabV3+模型。该模型引入MobileNetV2^［16］作为主干网络，结合高效通道注意力网络^［17］（Efficient Channel Attention Network, ECANet）与空洞空间卷积池化金字塔（Atrous Spatial Pyramid Pooling, ASPP）模块构建ECA_ASPP模块，旨在降低模型参数量并保持一定准确率，实现对名优茶的准确识别，以及采摘点的精准定位，以期为后续智能采茶机器人研发提供技术支持。

1 实验数据与网络结构

1.1　数据集构建

数据采集地点为湖南省溪清茶园，位于湖南省长沙市长沙县高桥镇，总占地面积66.7 hm²。茶园地处温暖湿润的气候区，充足的阳光和适宜的降水为茶树的生长提供了良好的条件。茶园地势起伏，其中包括平坦地区和山坡地地形，具有多样化的地势生长环境。茶园内种植大片绿茶树，以“湘波绿”和“高桥银峰”两种为主要品种。

以“湘波绿”品种茶叶为采集对象，时间跨度为2023年3—10月，包括受光线强弱影响的不同天气条件下的茶叶嫩芽数据，以及因季节变化导致的茶叶嫩芽与背景相近的茶叶嫩芽数据。不同天气和季节的数据反映了采摘环境的复杂性，具体见图1a、图1b、图1d和图1e。采集设备为尼康D3100相机搭配18-55镜头，经处理后共获得1 600张可用图片，并按7∶2∶1的比例划分为训练集、验证集和测试集。由于数据增强后出现了过拟合现象，因此本数据集并未使用数据增强处理。

在绿茶中，单一茶叶嫩芽称为“莲心”，一芽一叶称为“旗枪”，一芽二叶称为“雀舌”，以及第4种类型由第一叶包裹茶芽的“叶包芽”。这几种类型的茶叶品种中都具有较高的经济价值。因此本数据集将茶叶嫩芽、第1叶、第2叶以及“叶包芽”作为分割的目标，其中图1c展示了茶叶顶端中的茶叶嫩芽、第1叶和第2叶的部位；图1f为“叶包芽”状态的茶叶嫩芽。

显示原图|下载原图ZIP|生成PPT

图1 不同条件下茶叶嫩芽状态与茶芽部位图

Fig. 1 State and location of tea buds under different conditions

1.2　MobileNetV2网络

MobileNetV2是一种轻量级卷积神经网络，其网络结构由不同的模块堆叠而成，具体结构见表1。其主要特点在于引入了线性瓶颈逆残差结构，其结构的主要思想为先进行升维操作再进行卷积降维并与原特征进行拼接以获得更多提取特征。MobileNetV2将拥有不同升维倍数的Bottleneck进行堆叠，这些Bottleneck模块通过深度可分离卷积和逐点卷积的组合来减少计算量和参数量，同时在每个模块中引入残差连接以增强训练稳定性。线性瓶颈结构能够避免信息在传递过程中丢失，保留更多特征信息。

表1 MobileNetV2结构表

Table 1 Structure table of MobileNetV2

特征输入尺寸	操作类型	Bottleneck内部升维的倍数	通道数/个	Bottleneck重复的次数/次	步长
224²×3	conv2d	‒	32	1	2
112²×32	bottleneck	1	16	1	1
112²×16	bottleneck	6	24	2	2
56²×24	bottleneck	6	32	3	2
28²×32	bottleneck	6	64	4	2
14²×64	bottleneck	6	96	3	1
14²×96	bottleneck	6	160	3	2
7²×160	bottleneck	6	320	1	1
7²×320	conv2d 1×1	‒	1 280	1	1
7²×1 280	avgpool 7×7	‒	‒	1	‒
1×1×1 280	conv2d 1×1	‒	m	‒	‒

注： m为宽度缩放因子，其作用是在整体上对网络的每一层维度（特征数量）进行瘦身；‒为未进行相关操作。

1.3　ECA_ASPP模块

ECANet是对SENet（Squeeze-and-Excitation Networks）的改进，主要是将SENet中的全连接层使用卷积层进行替代。这一改进的优点是能够在全局平均池化之后的特征上引入1D卷积进行学习。这样的设计既减少了SENet在全连接层的计算量和参数量，又避免了SENet的降维操作所带来的信息损失。

DeepLabV3+算法中的ASPP模块通过使用空洞卷积来获取更大的感受野，但在处理特征种类近似的茶叶嫩芽分割问题时，容易出现混淆和特征丢失等问题，从而导致分割效果较差。为了解决这些问题，本研究将ECANet与ASPP模块进行融合，得到ECA_ASPP模块。其改进具体表现为在ASPP模块的每个分支中添加ECANet模块。在分支中，首先通过全局平均池化层获得大小为1×1×C的特征图，然后根据公式（1）获取内核

k

的大小。

k = φ C = l o g 2 C γ + b γ o d d

（1）

式中：

| t | o d d

表示最接近

t

的奇数；

b = 1

；

γ = 2

；

C

为通道数。随后根据内核

k

执行一维卷积，对网络中的不同通道的特征权重进行调整，最后通过Sigmoid函数学习通道注意力，如公式（2）所示。

ω = σ C 1 D k y

（2）

式中：

σ

代表Sigmoid函数；

C 1 D

代表一维卷积；

y

为经过平均池化层后的特征图。因此ECA_ASPP能更好地关注重要的特征，减少对不重要特征的关注度，提升ASPP模块的特征通道关注能力，降低特征的混淆和丢失。ECANet的结构见图2；ECA_ASPP模块见图3。

显示原图|下载原图ZIP|生成PPT

图2 ECANet结构图

Fig. 2 Structural diagram of ECANet

显示原图|下载原图ZIP|生成PPT

图3 ECA_ASPP模块结构图

Fig. 3 ECA_ASPP module structure diagram

1.4　改进的DeepLabV3+网络

DeepLabV3+是DeepLabV3^［18］的改进版本，其参考Unet^［19］网络添加向上采样的解码器以增强边缘信息提取。它采用Xception^［20］作为主干网络，从中提取深层和浅层特征。深层特征通过ASPP模块进行多尺度特征融合，而浅层特征经过调整后与深层特征拼接，再经过卷积细化，最后通过线性插值进行上采样，恢复原始图像分辨率。

本研究以传统的DeepLabV3+为基础，对其进行轻量化操作以降低模型的计算量和参数量。改进方案如图4所示。采用轻量化网络MobileNetV2作为主干提取网络，将其第3层通道数为24的部分作为浅层特征输入到Decoder中，将第8层通道数为320的部分作为深层特征输入到Encoder中。深层特征输入到ECA_ASPP模块中，以增强对边缘特征的提取能力，浅层特征进行卷积操作。随后对Encoder部分的输出进行4倍上采样操作，与浅层特征通道数进行匹配，拼接并进行卷积操作，最后通过上采样操作将图像恢复至原始尺寸。

显示原图|下载原图ZIP|生成PPT

图4 DeepLabV3+改进结构图

Fig. 4 Improved structure diagram of DeepLabV3+

2 实验结果与分析

2.1　实验环境及评价参数

表2为本研究的实验环境配置，所有实验均在表2的条件下进行。

表2 实验环境配置

Table 2 Experimental environment configuration

实验环境项目	配置
操作系统	Windows 11操作系统
开发语言	Python 3.11
深度学习框架	Pytorch 1.7.1
CPU	Intel® i5-13400f@2.5 GHz
GPU	NVIDIA RTX3060（12 GB）
内存	DDR4 32 G 4 000 MHz

在模型训练过程中，学习率设定为5e-4，Batch Size被设置为4，使用cos学习率下降方式，选择Adam作为模型的优化器，Epoch上限设置为400，但为防止过度拟合，当训练的损失和平均交并比多次未改善时，停止模型训练并保存模型权重。

实验中，数据集的输入尺寸被设置为512×512，神经网络的初始学习率为0.005。在模型评价过程中，采用交叉熵损失函数。对于多分类图像的标签和预测值对应的批次损失（Batch Loss），可以通过公式（3）表示。

L = 1 N ∑ i L i = - 1 N ∑ i ∑ c = 1 M y i c l o g p i c

（3）

式中：

N

为批次中的样本数量；

M

为类别的数量；

y i c

为样本

i

属于类别

c

的标签值（1或0，表示是否属于该类别）；

p i c

为观测样本

i

属于类别

c

的预测概率。通过损失函数对网络的输出结果进行评价，利用反向传播机制对网络进行优化训练，直到网络收敛。

在本研究中，精度评价方面主要采用4个关键指标，分别是交并比（Intersection over Union, IoU）、平均交并比（Mean Intersection over Union, MIoU）、像素准确率（Pixel Accuracy, PA）以及平均像素准确率（Mean Pixel Accuracy, MPA）。其中，IoU衡量了网络预测结果与实际标签结果的重合度；而MIoU表示所有类别的平均IoU值；PA指预测正确的像素数占总像素数的比例；MPA表示所有类别的像素准确率。上述指标的计算方式如公式（4）~公式（7）所示。

P A = ∑ i = 0 h p i i ∑ i = 0 h ∑ j = 0 h p i j

（4）

M P A = 1 h + 1 ∑ i = 0 h p i i ∑ j = 0 h p i j

（5）

I o U = ∑ i = 0 h p i i ∑ j = 0 h p i j + ∑ j = 0 h p j i - p i i

（6）

M I o U = 1 h + 1 ∑ i = 0 h p i i ∑ j = 0 h p i j + ∑ j = 0 h p j i - p i i

（7）

式中：

h

表示需要识别的种类；

p i j

表示本属于

i

类却预测为

j

类的像素点总数；

p i i

表示真阳性的数量；

p i j

表示假阳性的数量；

p j i

表示假阴性的数量。

2.2　不同主干网络的精确度与计算量对比

选择4种不同的主干网络Xception、ResNet、ResNeXt和MobileNetV2进行对比。通过对不同主干网络性能的对比，研究不同的主干网络对模型整体计算效率和参数规模的影响。其实验结果见表3，对茶叶嫩芽各部位的识别情况见表4。

表3 DeepLabV3+不同主干网络识别效果比

Table 3 Comparison of recognition performance of different backbone networks in DeepLabV3+

Backbone	MPA/%	MIoU/%	Recall/%	Parameters/M
Xception	97.75	95.31	97.75	54.714
ResNeXt	94.14	90.21	94.14	103.589
ResNet	96.57	92.33	96.57	59.346
MobileNetV2	97.00	93.01	97.00	5.818

表4 不同主干网络下茶叶嫩芽识别效果对比

Table 4 Comparison of tea bud recognition effects under different backbone networks

Net	Tender_shoot	A_leaf	Two_leaves	Wrapped_bud
Xception	0.93	0.96	0.91	0.98
ResNeXt	0.88	0.89	0.80	0.96
ResNet	0.90	0.94	0.84	0.96
MobileNetV2	0.90	0.95	0.86	0.96

从表3中可以观察到，以MobileNetV2为主干网络时，MPA和MIoU方面分别达到97.25 %和93.71%。虽然与Xception 相比MIoU略有下降，但相较于ResNet却有轻微提升。值得注意的是，在表3中，Xception的参数量为54.714 M，而MobileNetV2网络的参数量仅有5.818 M，更改主干网络后参数量大幅下降。这表明MobileNetV2作为主干网络拥有更少的参数量，运算速度更快，同时在精度上表现较好，更适合应对茶叶嫩芽分割任务，特别是在需要满足实时性要求的情境下。

从表4可以看出，以MobileNetV2为主干网络的DeepLabV3+在茶叶嫩芽、一叶、二叶和叶包芽方面表现持平甚至部分超过以ResNet为主干网络的DeepLabV3+网络。值得注意的是，前者的参数量仅为后者的9.8%。无论在精准度还是参数量方面，MobileNetV2都取得了一定的提升。

2.3　ECA_ASPP模块对模型准确率的影响

随后，在上述数据集中进行ECA_ASPP模块的改进版DeepLabV3模型与未集成该模块的原版模型之间的性能差异实验。实验结果如表5所示。

表5 ECA_ASPP模块识别效果对比

Table 5 Comparison of ECA ASPP module recognition effects

Net	MPA/%	MIoU/%
DeepLabV3+（MobileNetV2）	97.00	93.01
DeepLabV3+（MobileNetV2）+ECA_ASPP	97.25	93.71

表5中的数据显示，引入ECA_ASPP模块后，模型性能再次得到提升，MPA和MIoU分别提升0.26%和0.75%。这表明ECA_ASPP模块对于原版ASPP模块更加适用于茶叶嫩芽分割。

2.4　不同算法检测效果比较

为了验证改进后的DeepLabV3+对茶叶嫩芽采摘点的适用度，在训练环境与训练参数相同情况下，将改进后的DeepLabV3+网络与UNet、PSPNet和DeepLabV3+的结果进行对比，结果如表6所示。

表6 茶叶嫩芽识别研究不同网络结果对比

Table 6 Comparison of different network results for tea sprout identification research

Net	MPA/%	MIoU/%	Recall/%	Time/s
UNet	88.97	82.01	88.97	0.202
PSPNet	86.86	79.08	86.86	0.161
DeepLabV3+	97.75	95.31	97.75	0.247
Improved DeepLabV3+	97.25	93.71	96.85	0.165

从表6中数据可以看出，Improved DeepLabV3+在此数据集上表现最为出色。与UNet和PSPNet相比，Improved DeepLabV3+在MPA分别提高8.51%和10.68%；MIoU分别提升12.48%和15.61%；Recall分别提升8.13%和10.31%。与UNet相比，Improved DeepLabV3+识别速度提升0.037 s；与DeepLabV3+相比，Improved DeepLabV3+识别速度提升0.082 s。实验结果显示，Improved DeepLabV3+在名优茶嫩芽分割方面效果更佳，对茶叶嫩芽的边缘信息提取与处理能力更强，更适用于茶叶嫩芽的识别。

由图5可知，4种算法都成功提取了茶叶嫩芽的不同部位，但本研究的提取完整度要明显优于其他模型。PSPNet网络的提取结果未能完全覆盖茶叶嫩芽部分，其对茶叶嫩芽边缘的提取效果较差，不能完整有效的提取。UNet虽然对茶叶嫩芽的边缘信息较为敏感，但由于过于敏感导致在部分位置出现误判，易出现错误分割的情况。DeepLabV3+对茶叶嫩芽的准确度较高，但其识别时间较长。相比之下，改进后的DeepLabV3+网络改善了茶叶嫩芽边缘信息的获取，在保证了较高准确度的同时，又具有较快的检测速度。

显示原图|下载原图ZIP|生成PPT

图5 不同季节茶叶嫩芽识别结果

Fig. 5 Tea bud recognition results in different seasons

2.5　不同季节检测效果对比

茶叶嫩芽的颜色状态在不同季节的变化较大。从图6中可以观察到，春季时新生的茶叶嫩芽颜色鲜艳且边缘清晰，与茶树老叶之间的颜色对比较为明显，茶叶嫩芽的分割效果较好。秋季茶树逐渐转向成熟状态，新生的茶叶嫩芽与茶树老叶的颜色相近，茶叶嫩芽分割难度增加。在图6两季茶叶嫩芽识别结果的对比中，春季茶叶嫩芽的MIoU达到93.50%，而秋季茶叶嫩芽的MIoU仅为88.54%，并且在叶包芽的分割中出现了分割缺失与错误分割。因此，茶叶嫩芽语义分割的难点主要在于秋季茶叶嫩芽的颜色变化，在茶叶嫩芽颜色与背景颜色相近的情况下，语义分割效果较差。因此，可以将YOLO与DeepLabV3+相结合从局部分割的方法出发进行进一步的研究。

显示原图|下载原图ZIP|生成PPT

图6 不同季节茶叶嫩芽识别结果对比

Fig. 6 Comparison of tea bud recognition results in different seasons

2.6　茶叶嫩芽采摘点定位方法

茶叶嫩芽采摘的定位主要依赖于对识别结果的颜色进行判断。具体流程如图7所示。由于RGB色彩空间是通过混合三原色获取不同颜色，其在颜色提取方面的效果较差。相比之下，HSV颜色空间通过度数描述色彩，更加清晰明了。因此，本研究将分割结果转换为HSV图片，根据不同标签颜色的范围来定义识别的标准，并创建相应的掩码。然后，对图片进行形态学操作，以消除噪声等干扰因素。随后，根据掩码进行多边形拟合，以获取嫩芽不同部位的轮廓像素点坐标。将相互连接的嫩芽部位轮廓进行欧式距离计算，得到两组距离相近的二维像素坐标点。随后，对获取的坐标点进行拟合直线操作，并确定其中心点。最后，将中心点映射回原图中，确定真正的采摘点。

显示原图|下载原图ZIP|生成PPT

图7 茶叶嫩芽采摘点定位流程

a. 分割结果 b. 拟合多边形 c. 拟合直线与中心点 d. 采摘点映射

Fig 7 Positioning process of tea sprout picking point

3 讨论与结论

3.1　讨论

在茶叶嫩芽采摘任务中，UNet通过其编码器-解码器结构成功地减小了特征传递中的信息损失。其采用的跳跃连接方式有助于茶叶嫩芽的多尺度信息融合，在小型数据集上表现出明显优势。然而，UNet对图像输入尺寸的敏感性，以及最大池化层引入的信息丢失问题导致其在提取细节特征方面表现不完整^［21］。PSPNet引入了金字塔池化模块，有效地捕捉了多尺度信息，并增强了对全局图像语境的理解，改善了分割结果。然而，由于金字塔池化模块的引入，PSPNet的模型计算量和内存占用量较大，导致相对于其他轻量级网络，PSPNet需要更多的计算时间，并且对边缘特征的提取能力较弱^［22］。DeepLabV3+结合了UNet的解码器模块和ASPP模块，有效地保留了图像中的细节信息，产生更精细的分割结果。然而，由于ASPP模块和编码器模块需要较大的计算量和内存占用，使得DeepLabV3+的训练时间相对较长^［23］。本研究针对以上问题，将MobileNetV2作为主干提取网络，并构建了新的ECA_ASPP结构。这一改进降低了DeepLabV3+的模型计算量和训练时间，同时提高了在茶叶嫩芽的识别中的准确性和分割效果。通过将分割结果与采摘点定位方法结合，实现了茶叶嫩芽采摘点的定位。结果表明，本研究的分割方法能够准确地定位嫩芽的位置，为后续采摘点的确定提供了可靠的基础。这一分割方法在采摘点定位识别上的有效性得到了验证，并展示了其在实际应用中的可行性和准确性。

3.2　结论

本研究通过对茶叶嫩芽采摘点识别研究中存在的问题进行深入分析，并提出了一种改进后的DeepLabV3+模型，使用自主构建的茶叶嫩芽数据集，解决传统方法中存在的模型体量大、训练时间长、场景复杂等问题。取得以下结论：

1）将DeepLabV3+的主干网络从Xception替换为MobileNetV2后，虽然在MIoU精度略有下降，但在MPA和MIoU方面分别达到97.25%和93.71%。这表明MobileNetV2作为主干网络更适合应对茶叶嫩芽分割任务，尤其在需要满足实时性要求的情境下具有优势。

2）在引入ECA_ASPP模块后，模型性能再次得到提升，表明ECA_ASPP模块对于提升模型性能具有一定效果。该结构通过加强对边缘特征的提取能力，使得模型更好地聚焦于茶叶嫩芽的语义信息，进一步提高了模型的准确性。

3）通过与其他常用的分割网络UNet和PSPNet进行对比，发现改进后的DeepLabV3+在茶叶嫩芽采摘点定位上在MPA分别提高8.51%和10.68%；MIoU分别提升12.48%和15.61%；Recall分别提升8.13%和10.31%。这进一步验证了本研究提出的改进方法的有效性和实用性。

综上所述，本研究提出的改进后的DeepLabV3+模型在茶叶嫩芽采摘点定位任务中取得了显著的性能提升，具有较高的准确性和效率。然而，本研究也存在一些局限性，如只针对特定品种的茶叶进行了实验，模型在多品种茶叶嫩芽数据集上的泛化能力有待进一步验证。未来，可以进一步优化模型结构，提高模型的泛化能力，并探索更多适用于茶叶采摘点定位的机器视觉技术。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	徐邢燕, 沈萍萍, 郝志龙, 等. 基于计算机视觉的茶树叶片色泽差异研究[J]. 茶叶通讯, 2019, 46(3): 276-283. XU X Y, SHEN P P, HAO Z L, et al. Study on the color difference of tea leaves based on computer vision[J]. Journal of tea communication, 2019, 46(3): 276-283.

2	马志艳, 李辉. 基于YOLOv5的茶叶嫩芽图像识别算法研究[J]. 湖北工业大学学报, 2024, 39(1): 36-40. MA Z Y, LI H. Research on image recognition algorithm of tea shoots based on YOLOv5[J]. Journal of Hubei university of technology, 2024, 39(1): 36-40.

3	吴雪梅, 张富贵, 吕敬堂. 基于图像颜色信息的茶叶嫩叶识别方法研究[J]. 茶叶科学, 2013, 33(6): 584-589. WU X M, ZHANG F G, LYU J T. Research on recognition of tea tender leaf based on image color information[J]. Journal of tea science, 2013, 33(6): 584-589.

4	AMPATZIDIS Y G, VOUGIOUKAS S G, WHITING M D, et al. Applying the machine repair model to improve efficiency of harvesting fruit[J]. Biosystems engineering, 2014, 120: 25-33.

5	何梁, 薛龙, 郑建鸿等. 莲蓬采摘点与采摘姿态计算算法[J]. 科学技术与工程, 2023, 23(16): 6845-6852. HE L, XUE L, ZHENG J Het al. Picking point and picking posture algorithm of lotus pods[J].Science technology and engineering, 2023, 23(16): 6845-6852.

6	CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]// Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.

7	李惠鹏, 李长勇, 李贵宾, 等.基于深度学习的多品种鲜食葡萄采摘点定位[J]. 中国农机化学报, 2022, 43(12):155-161. LI H P, LI C Y, LI G B, et al. Picking point positioning of multi-variety table grapes based on deep-learning[J]. Journal of Chinese agricultural mechanization, 2022, 43 (12): 155-161.

8	李艳文, 左朝阳, 王登奎, 等. 基于改进型SegNet的苹果采摘点分割算法研究[J]. 燕山大学学报, 2022, 46(5): 455-460, 470. LI Y W, ZUO C Y, WANG D K, et al. Apple picking point segmentation based on improved SegNet[J].Journal of Yanshan university, 2022, 46(5): 455-460, 470.

9	SANTOS T T, GEBLER L. A methodology for detection and localization of fruits in apples orchards from aerial images[EB/OL]. arxiv: 2110.12331, 2021.

10	GIMÉNEZ-GALLEGO J, MARTINEZ-DEL-RINCON J, GONZÁLEZ-TERUEL J D, et al. On-tree fruit image segmentation comparing Mask R-CNN and Vision Transformer models. Application in a novel algorithm for pixel-based fruit size estimation[J]. Computers and electronics in agriculture, 2024, 222: ID 109077.

11	黄家才, 唐安, 张铎, 等. 基于自适应标记分水岭算法的茶叶嫩芽图像分割方法[J]. 南京工程学院学报(自然科学版), 2022, 20(4): 6-11. HUANG J C, TANG A, ZHANG D, et al. Image segmentation of tea buds based on adaptive marked watershed algorithm[J]. Journal of Nanjing institute of technology (natural science edition), 2022, 20(4): 6-11.

12	胡和平, 吴明晖, 洪孔林, 等. 基于改进YOLOv5s的茶叶嫩芽分级识别方法[J]. 江西农业大学学报, 2023, 45(5): 1261-1272. HU H P, WU M H, HONG K L, et al. Classification and recognition method for tea buds based on improved YOLOv5s[J]. Acta agriculturae universitatis jiangxiensis, 2023, 45(5): 1261-1272.

13	LIU F, WANG S, PANG S, et al. Detection and recognition of tea buds by integrating deep learning and image-processing algorithm[J]. Journal of food measurement and characterization, 2024, 18(4): 2744-2761.

14	KARUNASENA G, PRIYANKARA H. Tea bud leaf identification by using machine learning and image processing techniques[J]. International journal of scientific & engineering research, 2020, 11(8): 624-628.

15	JUNAGADE S, CHOUDHURY S B, SARANGI S, et al. Estimation of plucking points with overhead imaging in tea-a case study[C]// 2022 IEEE Region 10 Symposium (TENSYMP). Piscataway, New Jersey, USA: IEEE, 2022: 1-6.

16	SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: ID 00474.

17	WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: ID 01155.

18	CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. arXiv: ID 1706.05587, 2017.

19	RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015: 234-241.

20	CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017:ID 195.

21	向煜, 黄志. 一种基于改进的Unet网络的遥感影像建筑物分割方法[J]. 城市勘测, 2024(1): 109-113. XIANG Y, HUANG Z. A building segmentation method for remote sensing image based on improved unet network[J]. Urban geotechnical investigation & surveying, 2024(1): 109-113.

卢志刚, 陈芳淼, 袁超, 等. 采用Ⅰ-PSPNet语义分割模型的高分辨率遥感影像某特种植物种植地块提取研究[J]. 遥感技术与应用, 2024, 39(1): 222-233.

Z G

, CHEN

F M

, YUAN

, et al. Research on extracting special plant planting plots from high-resolution remote sensing images using Ⅰ-PSPNet semantic segmentation model[J]. Remote sensing technology and application, 2024, 39(1): 222-233.

23	路秋叶, 刘法军, 丁志国, 等. 基于改进DeepLabV3+深度学习模型的冬小麦种植面积提取研究[J]. 无线电工程, 2023, 53(11): 2564-2572. LU Q Y, LIU F J, DING Z G, et al. Research on extraction of winter wheat planting area based on improved DeepLabV3+[J]. Radio engineering, 2023, 53(11): 2564-2572.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引 言

1 实验数据与网络结构

1.1 数据集构建

图1 不同条件下茶叶嫩芽状态与茶芽部位图

1.2 MobileNetV2网络

表1 MobileNetV2结构表

1.3 ECA_ASPP模块

图2 ECANet结构图

图3 ECA_ASPP模块结构图

1.4 改进的DeepLabV3+网络

图4 DeepLabV3+改进结构图

2 实验结果与分析

2.1 实验环境及评价参数

表2 实验环境配置

2.2 不同主干网络的精确度与计算量对比

表3 DeepLabV3+不同主干网络识别效果比

表4 不同主干网络下茶叶嫩芽识别效果对比

2.3 ECA_ASPP模块对模型准确率的影响

表5 ECA_ASPP模块识别效果对比

2.4 不同算法检测效果比较

表6 茶叶嫩芽识别研究不同网络结果对比

图5 不同季节茶叶嫩芽识别结果

2.5 不同季节检测效果对比

图6 不同季节茶叶嫩芽识别结果对比

2.6 茶叶嫩芽采摘点定位方法

图7 茶叶嫩芽采摘点定位流程

3 讨论与结论

3.1 讨论

3.2 结论

利益冲突声明

References

0 引言

1.1　数据集构建

1.2　MobileNetV2网络

1.3　ECA_ASPP模块

1.4　改进的DeepLabV3+网络

2.1　实验环境及评价参数

2.2　不同主干网络的精确度与计算量对比

2.3　ECA_ASPP模块对模型准确率的影响

2.4　不同算法检测效果比较

2.5　不同季节检测效果对比

2.6　茶叶嫩芽采摘点定位方法

3.1　讨论

3.2　结论