Image Segmentation Method of Chinese Yam Leaves in Complex Background Based on Improved ENet

LU Bibo; LIANG Di; YANG Jie; SONG Aiqing; HUANGFU Shangwei

doi:10.12133/j.smartag.SA202407007

Smart Agriculture >

2024 , Vol. 6 >Issue 6: 109 - 120

DOI: https://doi.org/10.12133/j.smartag.SA202407007

Topic--Intelligent Agricultural Knowledge Services and Smart Unmanned Farms(Part 1)

Image Segmentation Method of Chinese Yam Leaves in Complex Background Based on Improved ENet

LU Bibo ^,¹ ,
LIANG Di ¹ ,
YANG Jie ^,² ,
SONG Aiqing ² ,
HUANGFU Shangwei ²

Expand

^1. School of Computer Science and Technology, Henan University of Technology, Jiaozuo 454003, China
^2. Institute of Characteristic Agriculture, Jiaozuo Academy of Agriculture and Forestry Sciences, Jiaozuo 454150, China

YANG Jie, E-mail: jznlytsyjs@163.com

LU Bibo, E-mail: lubibo@hpu.edu.cn

Received date: 2024-07-05

Online published: 2024-11-07

Supported by

National Natural Science Foundation of China(42272178)

2024 Key Scientific Research Project of Colleges and Universities in Henan Province(24B520013)

2022 Henan Provincial Key R&D and Promotion Special Project(222102210131)

Henan Polytechnic University Fundamental Research Funds Special Project (Natural Sciences)(NSFRF240508)

Copyright

Fold

Abstract

[Objective] Crop leaf area is an important indicator reflecting light absorption efficiency and growth conditions. This paper established a diverse Chinese yam image dataset and proposesd a deep learning-based method for Chinese yam leaf image segmentation. This method can be used for real-time measurement of Chinese yam leaf area, addressing the inefficiency of traditional measurement techniques. This will provide more reliable data support for genetic breeding, growth and development research of Chinese yam, and promote the development and progress of the Chinese yam industry. [Methods] A lightweight segmentation network based on improved ENet was proposed. Firstly, based on ENet, the third stage was pruned to reduce redundant calculations in the model. This improved the computational efficiency and running speed, and provided a good basis for real-time applications. Secondly, PConv was used instead of the conventional convolution in the downsampling bottleneck structure and conventional bottleneck structure, the improved bottleneck structure was named P-Bottleneck. PConv applied conventional convolution to only a portion of the input channels and left the rest of the channels unchanged, which reduced memory accesses and redundant computations for more efficient spatial feature extraction. PConv was used to reduce the amount of model computation while increase the number of floating-point operations per second on the hardware device, resulting in lower latency. Additionally, the transposed convolution in the upsampling module was improved to bilinear interpolation to enhance model accuracy and reduce the number of parameters. Bilinear interpolation could process images smoother, making the processed images more realistic and clear. Finally, coordinate attention (CA) module was added to the encoder to introduce the attention mechanism, and the model was named CBPA-ENet. The CA mechanism not only focused on the channel information, but also keenly captured the orientation and position-sensitive information. The position information was embedded into the channel attention to globally encode the spatial information, capturing the channel information along one spatial direction while retaining the position information along the other spatial direction. The network could effectively enhance the attention to important regions in the image, and thus improve the quality and interpretability of segmentation results. [Results and Discussions] Trimming the third part resulted in a 28% decrease in FLOPs, a 41% decrease in parameters, and a 9 f/s increase in FPS. Improving the upsampling method to bilinear interpolation not only reduces the floating-point operation and parameters, but also slightly improves the segmentation accuracy of the model, increasing FPS by 4 f/s. Using P-Bottleneck instead of downsampling bottleneck structure and conventional bottleneck structure can reduce mIoU by only 0.04%, reduce FLOPs by 22%, reduce parameters by 16%, and increase FPS by 8 f/s. Adding CA mechanism to the encoder could only increase a small amount of FLOPs and parameters, improving the accuracy of the segmentation network. To verify the effectiveness of the improved segmentation algorithm, classic semantic segmentation networks of UNet, DeepLabV3+, PSPNet, and real-time semantic segmentation network LinkNet, DABNet were selected to train and validate. These six algorithms got quite high segmentation accuracy, among which UNet had the best mIoU and the mPA, but the model size was too large. The improved algorithm only accounts for 1% of the FLOPs and 0.41% of the parameters of UNet, and the mIoU and mPA were basically the same. Other classic semantic segmentation algorithms, such as DeepLabV3+, had similar accuracy to improved algorithms, but their large model size and slow inference speed were not conducive to embedded development. Although the real-time semantic segmentation algorithm LinkNet had a slightly higher mIoU, its FLOPs and parameters count were still far greater than the improved algorithm. Although the PSPNet model was relatively small, it was also much higher than the improved algorithm, and the mIoU and mPA were lower than the algorithm. The experimental results showed that the improved model achieved a mIoU of 98.61%. Compared with the original model, the number of parameters and FLOPs significantly decreased. Among them, the number of model parameters decreased by 51%, the FLOPs decreased by 49%, and the network operation speed increased by 38%. [Conclusions] The improved algorithm can accurately and quickly segment Chinese yam leaves, providing not only a more accurate means for determining Chinese yam phenotype data, but also a new method and approach for embedded research of Chinese yam. Using the model, the morphological feature data of Chinese yam leaves can be obtained more efficiently, providing a reliable foundation for further research and analysis.

Key words： Chinese yam; image segmentation; deep learning; ENet; partial convolution; CA mechanism

Cite this article

LU Bibo , LIANG Di , YANG Jie , SONG Aiqing , HUANGFU Shangwei . Image Segmentation Method of Chinese Yam Leaves in Complex Background Based on Improved ENet[J]. Smart Agriculture, 2024 , 6(6) : 109 -120 . DOI: 10.12133/j.smartag.SA202407007

0 引言

山药是一种药食兼用的食物，富含蛋白质、淀粉和膳食纤维等多种活性物质^{［1, 2］}，被广泛应用于食品加工和中医药领域，具有提高免疫力，平衡肠道菌群等多种功效^［3-5］。联合国粮食及农业组织（Food and Agriculture Organization, FAO）数据显示，2022年中国山药产量约达到1 098.7万吨，中国是全球最重要的山药产地之一^［6］。作为中国的一种高产量经济作物，山药在河南焦作、河北蠡县和广东横县等地广泛种植。山药衍生品如山药薯片、山药酒等，具有较高的经济效益^［7］。然而，当前山药产业面临良种推广率低、品种退化严重等挑战，这限制了山药的产业发展^［8］。在作物生长过程中，叶片面积是反映山药光合作用和蒸腾作用的重要指标，直接影响农作物的产量和品质，同时也是山药种植培育和品种改良的重要指标^{［9, 10］}。因此，精准高效地测量山药叶面积对于指导农业栽培管理，衡量作物生长状况，提高产量和促进品种改良具有重要意义^［11-13］。为完善此领域研究体系，本研究对山药叶片的分割方法进行研究。

传统叶片面积直接测量方法，如称重法和方格纸法，操作简单，成本低，但耗费人力资源，易出现测量误差^［14］。间接测量方法，如叶面积仪测量法，主要采用光学原理利用指定的光敏元件，通过对光信号的处理来计算叶片面积，具有精度高和操作方便的特点，但价格昂贵，限制其在农业生产中的大规模应用^［15］。此外，基于图像处理的植物表型研究近年来受到广泛关注。于东玉等^［16］采用双边滤波、拉普拉斯算子首先对图像预处理，再通过分水岭算法对图像进行分割，最后通过参照物法计算叶面积。李秋洁等^［17］通过将图像像素由RGB颜色空间变换到HSI颜色空间，提出一种混合阈值法对饱和度分量进行阈值分割，实现了在复杂光照条件下的叶面积精确测量。另外，基于阈值的图像分割计算量小，最典型的为Otsu阈值法^［18］。该方法基于均值与方差的概率分布来描述图像分割状态，无需预先假定概率密度函数，大幅提升计算速度，但存在噪声干扰问题。传统的图像处理方法通常需要把图像的低层次特征和形态学结合起来进行人工设计算法。这些方法对光照条件、背景复杂度和叶片形态变化敏感，鲁棒性和泛化能力有限。

与传统方法不同，深度学习使用多层神经网络对大量训练数据进行非线性变化，耦合低层特征，逐渐学习高级语义特征，使流程简化。因此，基于深度学习的语义分割模型逐渐被应用到农业领域。Yuan等^［19］提出了一种改进的DeepLabV3+的语义分割网络，通过在残差模块中引入通道注意力模块，并在编码器中添加特征融合分支，实现了对于葡萄叶黑腐病斑点的高效分割。Bhagat等^［20］提出了Eff-UNet++植物叶片分割模型，把EfficientNet-B4作为编码器，重新设计了残差块的跳跃连接，同时引入横向输出层，将解码器的低级特征聚合到高级特征，使模型的分割性能得到提升。Lu等^［21］结合卷积神经网络（Convolutional Neural Network, CNN）和Transformer提出一种名为EAIS-Former的语义分割网络，定制超大卷积Transformer模块进行位置编码和全局建模，提出跳跃卷积局部优化模块，构建双层上采样解码器，将细节信息与语义信息高效融合，实现果叶病害图像的精确分割。陈从平等^［22］针对复杂背景问题，提出了基于Deeplab v3+语义分割，使用HSV颜色空间转换，再构建卷积神经网络实现马铃薯病斑的分割，可以高效识别出马铃薯病害。杜鹏飞等^［23］改进U-Net网络结构构建了病害严重程度分级模型D-MUNet，实现了对复杂背景下的黄瓜叶片、病斑进行分割，并进行有效分级。

上述提到的语义分割模型虽精度高，但参数量和浮点运算量较大，检测速度慢，不便于应用到农业实时监测系统和移动端。相比其他经典的语义分割网络，如Unet^［24］和SegNet^［25］，ENet的模型大小和运行时间大大减少。针对上述问题，本研究对常规ENet模型进行改进。实验证明所提方法在山药叶片数据集上的分割速度得到有效提升，模型体积具有明显优势，并且为山药叶片的高通量表型分析提供了精准的分割数据。

1 实验材料

1.1　图像数据采集

山药叶片室内图像数据采集于2023年8—9月，地点为河南省焦作市农林科学研究院实验基地，采集设备为佳能EOS 70D相机，图像格式为JPEG，分辨率像素为5 472×3 648。数据集包含40种山药品种，每种品种采集30~50张图像，总计1 538张，具体采集数量如表1所示。为了提高模型在复杂背景下的适应性，2023年9月在河南省焦作市武陟县小油村采集了带有常见病害的室外山药叶片图像，采集设备为OPPO Reno 8智能手机，图像分辨率像素为2 736×1 824，共185张。

表1 室内山药叶片采集数据分类

Table 1 Classification of data collected from indoor Chinese yam leaves

序号	品种名称	数量/张	序号	品种名称	数量/张	序号	品种名称	数量/张	序号	品种名称	数量/张
1	砀山山药	45	11	嵩野2号	49	21	太和长芋	42	31	南京采药	34
2	梅岱山药	39	12	靳家岭山药	37	22	安顺山药	48	32	山东牛腿米	36
3	僵野1号	47	13	惠楼山药	48	23	山王庄铁棍	30	33	泌阳野山药	40
4	苏北淮山药	45	14	辉县太行山药	50	24	宿生野山药	46	34	太古8号	30
5	日本山药	34	15	临泉笨山药	37	25	平遥山药	30	35	新城细毛	33
6	太原8号	34	16	双胞山药	33	26	山西榆次山药	43	36	怀山药1号	34
7	温科3号	37	17	2018 -1号山药	46	27	四川雅山药	41	37	铁棍雌株	33
8	安顺2号	46	18	桑县10号	34	28	砀山山药2号	41	38	神农山山药	36
9	小白嘴山药	36	19	铁棍山药1号	31	29	白玉山药	39	39	日本白山药	35
10	安顺5号	32	20	丰县铁棍山药	41	30	白皮山药	36	40	陇山药1号	30

本研究使用Photoshop10.0.0.0版本对所有山药叶片图像进行标注，叶片标为白色，背景标为黑色，标注结果存储为PNG格式，得到的山药叶片图像及对应标签样例如图1所示，然后将标注的叶片数据集转化为VOC格式，按照训练集、验证集和测试集7∶2∶1的比值划分，训练集1 206张，验证集344张，测试集173张。

显示原图|下载原图ZIP|生成PPT

图1 山药图像标注方法示例

Fig. 1 Example of Chinese yam images annotation method

1.2　数据增强

由于农业数据集存在图像质量低、数据量少和类间样本重复率高等情况，并且较少的数据集数量会造成数据偏差情况，进而会导致较小的类间差距和较大的类内差距^［26］，因此构建山药叶片数据集时，本研究还对训练集中的室外图像和采集数量少于40张的室内山药图像使用随机翻转、随机亮度调整和高斯噪声添加等数据增强技术。这些方法模拟了农业场景中的不同拍摄角度、光照条件和噪声问题。丰富了训练样本，提高模型的泛化能力。以室外数据为例，增强后的图像如图2所示，数据增强统计如表2所示。

显示原图|下载原图ZIP|生成PPT

图2 山药图像数据增强方法

Fig. 2 Data enhancement methods of Chinese yam images

表2 山药叶片研究训练集数据增强统计

Table 2 Data enhancement statistics for the training set of Chinese yam images

类别	初始数量/张	数据增强	最终数量/张
室内	1 077	是	1 500
室外	129	是	1 032
总计	1 206	—	2 532

注：—代表无数值。

2 研究与方法

ENet网络是一种典型的实时语义分割网络^［27］，常用于移动设备和自动驾驶汽车行业，瓶颈结构是其核心块。ENet由编码器和解码器组成，编码器网络第1阶段包含1个初始化模块和5个BottleNeck，第1个BottleNeck进行下采样，其余BottleNeck是用于提取图像特征的常见卷积操作。第2和第3阶段是由下采样、空洞卷积、正常卷积和（1，5）（5，1）的非对称卷积交替组合的模块组成。非对称卷积的引入是将n

×

n卷积运算分解为1

×

n和n

×

1，减少模型冗余。解码器网络包含两个解码块，每个解码块由上采样模块和BottleNeck组成，通过转置卷积实现上采样。

由于山药叶片相较于其他的植物叶片，边缘更加光滑，分割任务相对简单，所以对于山药叶片分割任务，ENet第3阶段采用了一系列不同膨胀率的空洞卷积会增加网络的参数量，导致模型复杂，增加训练和推理的计算负担，内存消耗增加。因此，本研究在原始ENet的基础上裁剪掉第3阶段，随后引入PConv来改进Down Sampling Bottleneck下采样瓶颈结构和Regular Bottleneck常规瓶颈结构，改进后的结构统称为P-Bottleneck。改进后的上采样模块中的转置卷积为双线性插值。最后，在模型编码阶段中加入CA注意力机制模块。改进ENet网络结构如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 改进ENet网络结构图

Fig. 3 Improved ENet network structure diagram

2.1　改进的瓶颈结构

现有的一些轻量级网络通常伴有较多的卷积池化级联等额外的数据操作，为使模型能够适用于资源受限的山药叶片检测设备上，本研究在瓶颈结构里引入PConv部分卷积，PConv部分卷积结构如图4所示。使用PConv代替Down Sampling Bottleneck下采样瓶颈结构和Regular Bottleneck常规瓶颈结构里面的常规卷积，改进的瓶颈结构命名为P-Down Sampling Bottleneck和P-Regular Bottleneck，结构示意图如图5所示。仅对一部分输入通道应用传统卷积，并保持其余通道不变。这种方式减少了内存访问以及冗余计算，实现更高效的空间特征提取^［28］。减少模型计算量的同时提升硬件设备的每秒浮点运算次数，达到更低的延迟。

显示原图|下载原图ZIP|生成PPT

图4 PConv结构示意图

注： $*$ 为卷积操作。

Fig. 4 Schematic diagram of PConv structure

显示原图|下载原图ZIP|生成PPT

图5 瓶颈结构改进图

Fig. 5 Bottleneck structure improvement diagram

部分卷积（PConv）与常规卷积（Conv）的浮点数计算量（Floating Points of Operations, FLOPs）表达式如公式（1）和公式（2）所示。

F L O P s (P C o n v) = c p 2 k 2 h w

（1）

F L O P s (C o n v) = c 2 k 2 h w

（2）

式中：h、w为特征图的高和宽；

c p

为参与卷积的通道数；

k

表示卷积核大小；部分卷积与常规卷积的内存访问量表达式如公式（3）和公式（4）所示。

M A C (P C o n v) = 2 c p h w + k 2 c p 2 ≈ 2 c p h w

（3）

M A C (C o n v) = 2 c h w + k 2 c 2 ≈ 2 c h w

（4）

式中：c为常规卷积的通道数。一般情况下，选择部分卷积的通道数

c p

与输入通道数

c

的比值为l/4，则部分卷积的FLOPs仅为传统卷积的1/16，有效降低了模型的计算总量。部分卷积的内存访问量为传统卷积的1/4，减少了模型延迟时间，使硬件的性能提升约4倍，提高了计算速度。

2.2　基于双线性插值的上采样

在ENet中使用转置卷积的上采样方式需对输入数据进行填充和卷积操作，导致转置卷积计算量大，内存占用多，计算速度较慢，不利于在山药实时监测设备中使用。双线性插值作为一种简单高效的图像处理技术，具有保持图像细节、计算简单高效和数学原理清晰等优点。能够在图像缩放或旋转时保持图像细节，避免出现锯齿状的边缘和失真现象。通过对相邻像素的加权平均，双线性插值能够更加平滑地处理图像，从而使得处理后的图像更加真实清晰^［29］。相对于其他更复杂的上采样，双线性插值计算量更小，速度较快。因此，本研究选用双线性插值代替转置卷积，双线性插值的原理如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 双线性插值原理

Fig. 6 Bilinear interpolation principle

若已知函数

f

在

Q 11 (x 1, y 1)

，

Q 12 (x 1, y 2)

，

Q 21 (x 2, y 1)

，

Q 22 (x 2, y 2)

4点像素值，为求点

P (x, y)

的像素值

f (P), 首先 在

x方向进行线性插值，求得

P

在线段

Q 11 Q 21

和

Q 12 Q 22

上的投影

R 1 、 R 2 像素 值 f (R 1)

、

f (R 2)

分别为如公式（5）和公式（6）所示。

f (R 1) ≈ x 2 - x x 2 - x 1 f (Q 11) + x - x 1 x 2 - x 1 f (Q 21)

（5）

f (R 2) ≈ x 2 - x x 2 - x 1 f (Q 12) + x - x 1 x 2 - x 1 f (Q 22)

（6）

然后在y方向进行线性插值，得到

P

点像素值

f (P)

如公式（7）所示。

f (P) ≈ y 2 - y y 2 - y 1 f (R 1) + y - y 1 y 2 - y 1 f (R 2)

（7）

2.3　引入CA注意力机制

为降低使用轻量化模块对山药叶片边缘特征提取能力的影响，本研究考虑在编码器添加注意力机制。引入注意力机制，网络可以有效地提升对图像中重要区域的关注度，减少对无关信息的干扰，此外，注意力机制还能够加强特征之间的相关性和连续性，有助于信息的传递和整合，进一步提升语义分割网络的性能^{［30, 31］}。相较于其他注意力机制，CA注意力机制不仅聚焦于通道信息，还敏锐地捕获方位和位置敏感信息。通过将位置信息嵌入通道注意力来对空间信息进行全局编码，沿一个空间方向捕获通道信息，同时沿另一个空间方向保留位置信息^［32］。在山药叶片分割任务中，使用CA注意力让模型在处理室外复杂场景时更高效地识别并定位目标物体，其结构如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 CA注意力机制

Fig. 7 Coordinate attention mechanism

图7中C、H、W分别为特征图的通道数、高度和宽度。首先，将输入分别沿x和y方向进行平均池化，对每个方向编码，编码方式如公式（8）和公式（9）所示。

z c h h = 1 W ∑ 0 ≤ i ≤ W x c (h, i)

（8）

z c w w = 1 H ∑ 0 ≤ j ≤ H x c (j, w)

（9）

式中：

x c (h, i)

表示c通道和h高度上，第i个位置的特征值；

x c (j, w)

表示c通道和w宽度上、第j个位置的特征值；

z c h (h)

表示特征图沿着x轴方向信息；

z c w (w)

表示特征图沿着y轴方向信息。

经过维度转换，原始的C×H×W向量被转换为C×H×1和C×1×W的特征图。获得具有全局感受野和精确位置编码信息的特征图。再对这两个方向的信息进行Concat操作来拼接特征图，之后通过卷积减少通道数降低模型复杂度，其中，r为下采样比例。再经过批归一化和h-Swish激活函数处理生成C/r×1×（W+H）的中间特征向量，如公式（10）所示。

f = δ (F 1 ([z h, z w]))

（10）

式中：先对

z h

，

z w

进行Concat操作；

F 1

表示卷积操作；

δ

表示非线性激活函数。将

f

分解成

f h ∈ R C / r × H

和

f w ∈ R C / r × W

，并分别进行卷积变换

F h

和

F w

得到具有同通道数的特征图，再进行Sigmoid激活函数得到注意力向量

g (h)

、

g (w)

如公式（11）和公式（12）。

g (h) = σ [F h (f h)]

（11）

g (w) = σ [F w (f w)]

（12）

式中：

σ

表示sigmoid激活函数，经过sigmoid激活后，与原始输出进行reweight操作。得到的最终注意力模块如公式（13）所示。

y c (i, j) = x c (i j) g c (h) (i) g c (w) (j)

（13）

通过对两个方向的信息进行单独处理，网络可以学习到沿着两个空间方向的长期依赖关系，能够关注到输入特征图在不同位置的重要性，并根据学习到的权重对特征图进行加权组合，从而更好地捕捉全局和局部特征之间的关系。因此也加强了网络对于复杂场景中山药叶片的分割性能。

3 实验与分析

3.1　实验环境与训练

本实验在Ubuntu 20.04操作系统中训练，采用Pytorch深度学习框架，显卡为NVIDA GeForce RTX 4080，显存容量16 GB。输入图像像素统一为512×512，再输送到网络进行训练。本实验中批大小设置为8，初始学习率设置为0.000 1，损失函数使用CE_Loss，并采用Adam优化器。

3.2　评价指标

为了客观地评估模型在山药叶片数据集的分割性能，采用精确率（Accuracy）、平均交并比（Mean Intersection over Union, mIoU）、和平均像素精度（Mean Pixel Accuracy, mPA）这3个指标。其中，Accuracy表示判定正确的次数与所有判定次数的比例；mIoU表示数据集中所有类别的真实标签与预测值的交集与并集之比的平均值；mPA表示所有类别预测正确的像素个数占该类别全部像素个数的百分比的平均值。计算方法如公式（14）~公式（16）所示。

A c c u r a c y = T P + T N T P + T N + F P + F N

（14）

m I o U = 1 K + 1 ∑ i = 0 K p i i ∑ j = 0 k p i j + ∑ j = 0 k p j i - p i i

（15）

m P A = 1 k + 1 ∑ i = 0 k p i i ∑ j = 0 k p i j

（16）

式中：

T P

表示叶片像素被预测正确的次数；

T N

表示背景像素被预测正确的次数；

F P

表示背景被预测为叶片的次数；

F N

表示叶片被预测为背景的次数；K+1表示总分类数；

P i j

代表i类被预测为j类的次数；

P j i

则表示类j被预测为类i的次数；

P i i

代表类i被预测为类i的次数；k表示类别数目，

k = 1

；i代表真实值；j则表示预测值。

此外，本研究还选择了参数量（Parameters, Params）来衡量模型的大小，FLOPs来衡量模型的计算复杂度，每秒传输帧数（Frames Per Second, FPS）直观表达模型的推理速度。不考虑偏置时，卷积层的参数量和FLOPs表达式如公式（17）和公式（18）所示。

p a r a m s c o n v = (k w × k h × c i n) × c o u t

（17）

F L O P s = c o n v (k w × k h × c i n) × c o u t × H × W

（18）

式中

: k w

为卷积核的宽；

k h

为卷积核的高；

c i n

表示输入通道数；

c o u t

表示输出通道数；H和W代表特征图的高和宽。

3.3　消融实验

为验证改进ENet算法的性能进行了消融实验。模型对于室内正常、室内卷曲、室内孔洞，以及室外复杂场景的山药叶片预测对比如图8所示。裁剪掉第3部分的ENet为C-ENet，CB-ENet表示在C-ENet的基础上，把上采样方式改进为双线性插值。CP-ENet表示在C-ENet的基础上，使用P-Bottleneck代替Down Sampling Bottleneck下采样瓶颈结构和Regular Bottleneck常规瓶颈结构。CPB-ENet表示在C-ENet的基础上，上采样方式改进为双线性插值，并且P-Bottleneck代替Down Sampling Bottleneck下采样瓶颈结构。CPBA-ENet表示在CPB-ENet的基础上，在编码器中加入CA注意力机制。实验表明，不同改进模型对于不同场景的山药叶片均有较为准确的分割效果。其中CPB-ENet能够改善使用轻量化卷积造成的室内孔洞漏检问题，CPBA-ENet能够一定程度上弥补裁剪造成室内孔洞叶片的泥点误检问题，以及复杂环境叶片边缘分割不准问题。

显示原图|下载原图ZIP|生成PPT

图8 山药叶片分割消融实验模型预测对比

Fig. 8 Comparison of ablation test model predictions for segmented ablation of Chinese yam leaves

该实验得到的损失曲线如图9所示，损失曲线稳定下降，最终趋于平缓，表明改进的模型在训练过程中达到了较好的拟合效果，能够实现复杂背景下山药叶片的有效特征提取。

显示原图|下载原图ZIP|生成PPT

图9 山药叶片图像使用CPBA-ENet模型训练及验证损失曲线

Fig. 9 Training and validation loss curves of Chinese yam leaf images using the CPBA-ENet model

实验数据如表3所示。基准模型ENet为实验0，C-ENet为实验1，对比实验0和实验1，可得C-ENet网络可以保持分割精度几乎不变的情况下大幅度降低浮点运算实验1量和参数量，其中浮点运算量下降28%，参数量降低41%，FPS增加9 f/s。之后在C-ENet的基础上创建不同改进结构的消融实验。

表3 山药叶片图像分割消融实验

Table 3 Ablation experiments on segmentation of yam leaves images

Test No.	Model	mIoU/%	mPA/%	Accuracy/%	FPS/（f/s）	Inference time/ms	FLOPs/G	Params/ $M$
0	ENet	98.58	99.24	99.57	50	20.00	2.178	0.3492
1	C-ENet	98.48	99.19	99.54	59	18.87	1.563	0.2046
2	CB-ENet	98.53	99.23	99.55	63	15.87	1.428	0.1995
3	CP-ENet	98.45	99.18	99.53	68	14.71	1.295	0.1758
4	CPB-ENet	98.49	99.25	99.53	71	14.08	1.112	0.1681
5	CPBA-ENet	98.61	99.32	99.62	69	14.49	1.114	0.1714

CB-ENet为实验2，对比实验1和实验2可知上采样改为双线性插值，不仅降低了浮点运算量和参数量，而且模型的分割精度也得到了提升，FPS增加4 f/s。CP-ENet为实验3，对比实验1和实验3可得，使用PConv能使网络保证分割精度的同时大幅缩小模型，并且FPS提高9 f/s。CPB-ENet为实验4，对比实验2和实验4可得使用PConv让网络分割精度降低0.04%的情况下，浮点运算量减少22%，参数量减少16%，FPS增加8 f/s。CPBA-ENet为实验5，对比实验4和实验5可得，加入CA注意力机制可以仅增加少量浮点运算量和参数量，提升分割网络的精度。对比原始ENet和实验5可知，使用改进后的模型对山药叶片进行分割平均交并比为98.61%，mPA为99.32%，和基准模型相比得到持平，但模型参数量减少51%，浮点数运算量减少49%，很大程度缩小了网络模型，FPS增加19 f/s，即网络运算速度提高38%。

3.4　不同算法分割性能比较

为了验证改进分割算法的有效性，选用经典的语义分割网络UNet、DeepLabV3+、PSPNet，以及实时语义分割网络LinkNet和DABNet对山药叶片进行训练验证。模型预测结果对比如图10所示，可以看出本研究算法能准确分割出具有不同复杂度背景下不同状态的山药叶片图像。

显示原图|下载原图ZIP|生成PPT

图10 不同模型山药叶片分割效果比较

Fig. 10 Comparison of segmentation effects of different models on Chinese yam leaves

在室内简单背景下，叶片的分割效果显示PSPNet相对较差，尤其是在根茎部位。其中对于室内卷曲和室外正常的山药叶片，6种方法均能准确分割。对于室内孔洞叶片，本研究改进算法分割效果较好，能精准分割出孔洞位置，该方面优于DeepLabV3+、PSPNet、LinkNet和DABNet。室外复杂环境分为叶片重叠、病斑干扰、黑暗环境、强光照射4种情况。其中对于叶片重叠情况，无关叶片干扰强度较高，本研究模型仍可以精准分割出该状态下的山药叶片；对于带有病斑的叶片，其病斑颜色和背景颜色具有相似性，导致部分模型对于叶片边缘分割不精准，如LinkNet表现较差；对于室外黑暗环境下的山药叶片，叶片与背景之间的对比度会减弱，导致分割边界模糊，在该环境下各个模型分割效果相差不是很大，仔细对比可得本研究模型在叶片尖端分割效果优于DABNet；对于强光环境下的叶片，部分叶片区域可能会出现过度曝光，使得这些区域的细节丢失，模型难以识别出完整的叶片形状，同时强光还会导致颜色失真，使得叶片的颜色信息偏离正常值。在该环境下，本研究改进模型的分割效果优于PSPNet，具体体现在叶尖部分，也优于LinkNet，LinkNet误将病斑部分识别为背景。综合对比可得本研究算法在各类环境下具有较强的适应性和准确性。

不同模型的mIoU和浮点运算量对比如图11所示，mIoU和参数量对比如图12所示。本研究改进的ENet算法能够保持较高的mIoU，并且浮点运算量和参数量仅为1.1 G和0.2 M，远远小于其他模型。不同模型性能对比结果如表4所示。由实验结果可知，5种算法针对山药叶片图像都有较高的分割精度，其中UNet分割精度最好，具有最高的平均交并比，但是模型体积远大于本研究改进算法，并且推理速度较慢。本研究改进的算法浮点运算量仅占unet的1%，参数量仅占unet的0.41%。其他经典的语义分割算法如DeepLabV3+分割精度和改进的算法相近，但模型仍然过大，FPS低于本研究改进算法，不利于山药监测设备的嵌入式研究。PSPNet模型虽然相对较小但也远大于本研究改进算法，并且平均交并比和均像素精度低于本研究算法。实时语义分割算法LinkNet平均交并比略高，但是浮点运算量和参数量仍远远高于本研究改进算法。DABNet模型体积也大于本研究改进算法，参数量是本研究改进模型的4倍，且mIoU也相对较低。分析可得本研究改进算法的模型体积远小于其他模型，推理速度高于其他对比模型，综合表现优异，具有良好的应用前景。

显示原图|下载原图ZIP|生成PPT

图11 不同模型FLOPs与mIoU关系对比图

Fig. 11 Comparison of the relationship between FLOPs and mIoU of different models

显示原图|下载原图ZIP|生成PPT

图12 不同模型Params与mIoU关系对比图

Fig. 12 Comparison of the relationship between Params and mIoU of different models

表4 不同模型的山药叶片分割性能比较

Table 4 Comparison of segmentation performance of Chinese yam leaves using different models

Model	mIoU/%	mPA/%	Accuracy/%	FPS/（f/s）	FLOPs/G	Params/M
UNet	99.09	99.57	99.72	17	92.0	43.9
DeepLabV3+	98.58	99.35	99.57	31	83.4	54.7
PSPNet	97.45	98.67	99.22	23	61.6	49.1
LinkNet	98.65	99.41	99.63	58	12.1	11.5
DABNet	98.23	99.26	99.05	62	5.3	0.8
CBPA-ENet	98.61	99.32	99.62	69	1.1	0.2

为了直观地展示模型对不同区域的关注程度，图13展示了不同模型对于山药叶片测试的热力图，由图13可知DeepLabV3+、UNet和ENet都能够准确关注叶片所在区域。对于室内卷曲叶片，PSPNet和LinkNet表现较差，对于靠近根茎处的叶片区域关注不明显，ENet表现相对优秀。对于室内孔洞叶片，ENet的热力图中叶片的区域更加明亮，表明它对于叶片的关注程度更高。对于室外叶片，PSPNet、LinkNet和DABNet对于叶片尖端关注程度较差，但ENet可以精准预测出山药叶片。对于室外病斑的山药叶片，ENet也有较高的关注度。

显示原图|下载原图ZIP|生成PPT

图13 不同分割模型对于山药叶片图像热力图对比

Fig. 13 Comparison of heatmaps of different segmentation models for Chinese yam leaf images

3.5　叶面积计算

山药叶片面积的测量依赖于精确的叶片分割。利用语义分割技术，可以准确提取叶片像素，从而进行面积计算。分割的准确性直接关系到测量结果的可靠性，即分割算法的性能决定了叶片区域的完整性，进而影响面积计算的准确性。因此，语义分割不仅是叶片分析的起始步骤，也是确保测量结果可信的重要环节。为了评估模型的分割性能和叶面积计算的精度，本研究在测试集中随机选取40张包含有不同复杂背景的山药叶片图像。采用像素法计算叶片分割面积。叶面积

S

的计算如公式（19）所示。

S = P × C

（19）

式中：

P

表示图像中山药叶片的像素个数，个；

C

表示每个像素的实际面积，cm²。

根据公式（19）计算出叶面积得出分割测量值，再通过传统方格法测量叶面积得出实际测量值。在本研究中，通过对40张山药叶片进行语义分割计算叶面积，并与实际测量结果进行比较，结果如图14所示，横轴表示实际测量值，纵轴表示本研究的分割方法计算值，得到其决定系数R ²为0.99，R ²接近于1，表明实际测量值与模型分割计算值之间非常接近，分割结果与实际测量之间存在显著的相关性，得出本研究算法对山药叶片面积的测量较为准确，验证了本研究算法的有效性。

显示原图|下载原图ZIP|生成PPT

图14 山药叶片分割面积与实际测量面积对比

Fig. 14 Comparison of segmented area of Chinese yam leaves and actual measured area

4 结论

本研究针对山药叶片面积测定问题，建立了一个包含40个品种且包含室内室外场景的山药叶片图像数据集，并以山药叶片作为研究对象，提出一个更加轻量化的语义分割网络模型。在ENet网络模型的基础上，裁剪冗余部分，引入P-Bottleneckbi并改进上采样方式，减少了内存访问，有利于实现更高效的资源利用。引入注意力机制，提升了分割网络的性能，使其更加适用于复杂环境。本研究算法在山药数据集上进行训练和验证，实验表明，改进后模型在性能上优于原始ENet模型，mIoU达到98.61%，mPA达到99.32%，参数量和计算量仅为0.2 M和1.1 G。本研究方法在保证模型精确率的情况下，大幅度减少了网络参数量和计算量，提升了模型推理速度，为后续山药叶片表型参数提取以及嵌入式开发提供了技术支撑，有助于推动智慧农业发展。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	RATSIMBAZAFY M K, SHARP P A, RAZANAMPARANY L, et al. Wild edible yams from Madagascar: New insights into nutritional composition support their use for food security and conservation[J]. Food science & nutrition, 2024, 12(1): 280-291.

2	ZHOU S Y, HUANG G L, CHEN G Y. Extraction, structural analysis, derivatization and antioxidant activity of polysaccharide from Chinese yam[J]. Food chemistry, 2021, 361: ID 130089.

3	HWANG J H, PARK Y S, KIM H S, et al. Yam-derived exosome-like nanovesicles stimulate osteoblast formation and prevent osteoporosis in mice[J]. Journal of controlled release, 2023, 355: 184-198.

4	CHANG H Y, TONG X Y, YANG H Q, et al. Chinese yam (dioscorea opposita) and its bioactive compounds: The beneficial effects on gut microbiota and gut health[J]. Current opinion in food science, 2024, 55: ID 101121.

5	ZENG X X, LIU D H, HUANG L Q. Metabolome profiling of eight Chinese yam (Dioscorea polystachya Turcz.) varieties reveals metabolite diversity and variety specific uses[J]. Life, 2021, 11(7): ID 687.

6	WU Z G, JIANG W, NITIN M, et al. Characterizing diversity based on nutritional and bioactive compositions of yam germplasm (Dioscorea spp.) commonly cultivated in China[J]. Journal of food and drug analysis, 2016, 24(2): 367-375.

7	温建荣. 山药传统生产与现代生产的区别与比较[J]. 江西农业, 2018(18): 14. WEN J R. Difference and comparison between traditional production and modern production of yam[J]. Jiangxi agriculture, 2018(18): 14.

8	王永乐. 让"科研之花"结出山药"产业之果"[N]. 河南日报, 2024-03-17(13).

9	郝雅洁, 张吴平, 史维杰, 等. 基于计算机视觉的小麦叶面积测量[J]. 湖北农业科学, 2019, 58(16): 129-132. HAO Y J, ZHANG W P, SHI W J, et al. Measurement of wheat leaf area based on computer vision[J]. Hubei agricultural sciences, 2019, 58(16): 129-132.

10	GONG A P, WU X, QIU Z J, et al. A handheld device for leaf area measurement[J]. Computers and electronics in agriculture, 2013, 98: 74-80.

11	LI Z B, GUO R H, LI M, et al. A review of computer vision technologies for plant phenotyping[J]. Computers and electronics in agriculture, 2020, 176: ID 105672.

12	WENG Y, ZENG R, WU C M, et al. A survey on deep-learning-based plant phenotype research in agriculture[J]. Scientia sinica vitae, 2019, 49(6): 698-716.

13	ZHANG H C, WANG L, JIN X L, et al. High-throughput phenotyping of plant leaf morphological, physiological, and biochemical traits on multiple scales using optical sensing[J]. The crop journal, 2023, 11(5): 1303-1318.

14	李方一, 黄璜, 官春云. 作物叶面积测量的研究进展[J]. 湖南农业大学学报(自然科学版), 2021, 47(3): 274-282. LI F Y, HUANG H, GUAN C Y. Review on measurement of crop leaf area[J]. Journal of Hunan agricultural university (natural sciences), 2021, 47(3): 274-282.

15	崔世钢, 秦建华. 图像处理法测定油菜叶面积的研究[J]. 湖北农业科学, 2017, 56(14): 2756-2757, 2767. CUI S G, QIN J H. Study on the determination of leaf area of rape by image processing[J]. Hubei agricultural sciences, 2017, 56(14): 2756-2757, 2767.

16	于东玉, 冯天祥, 李奕昕, 等. 基于植物图像的活体叶片面积测量方法研究与实现[J]. 智能计算机与应用, 2019, 9(4): 173-176. YU D Y, FENG T X, LI Y X, et al. Research and implementation of living leaf area measurement based on plant image[J]. Intelligent computer and applications, 2019, 9(4): 173-176.

17	李秋洁, 杨远明, 袁鹏成, 等. 基于饱和度分割的叶面积图像测量方法[J]. 林业工程学报, 2021, 6(4): 147-152. LI Q J, YANG Y M, YUAN P C, et al. Image measurement method of leaf area based on saturation segmentation[J]. Journal of forestry engineering, 2021, 6(4): 147-152.

18	ViVEKANANTHAN V, VIGNESH R, VASANTHASEELAN S, et al. Concrete bridge crack detection by image processing technique by using the improved OTSU method[J]. Materials today: Proceedings, 2023, 74: 1002-1007.

19	YUAN H B, ZHU J J, WANG Q F, et al. An improved DeepLab v3+ deep learning network applied to the segmentation of grape leaf black rot spots[J]. Frontiers in plant science, 2022, 13: ID 795410.

20	BHAGAT S, KOKARE M, HASWANI V, et al. Eff-UNet++: A novel architecture for plant leaf segmentation and counting[J]. Ecological informatics, 2022, 68: ID 101583.

21	LU J W, LU B B, MA W L, et al. EAIS-Former: An efficient and accurate image segmentation method for fruit leaf diseases[J]. Computers and electronics in agriculture, 2024, 218: ID 108739.

22	陈从平, 钮嘉炜, 丁坤, 等. 基于深度学习的马铃薯病害智能识别[J]. 计算机仿真, 2023, 40(2): 214-217, 222. CHEN C P, NIU J W, DING K, et al. Intelligent identification of potato diseases based on deep learning[J]. Computer simulation, 2023, 40(2): 214-217, 222.

23	杜鹏飞, 黄媛, 高欣娜, 等. 基于语义分割的复杂背景下黄瓜叶部病害严重程度分级研究[J]. 中国农机化学报, 2023, 44(11): 138-147. DU P F, HUANG Y, GAO X N, et al. Research on cucumber leaf disease severity classification in complex background based on semantic segmentation[J]. China agricultural machinery chemistry, 2023, 44(11): 138-147.

24	RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[M]// NAVAB N, HORNEGGER J, WELLS W M, et al, eds. Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015: 234-241.

25	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

26	管博伦, 张立平, 朱静波, 等. 农业病虫害图像数据集构建关键问题及评价方法综述[J]. 智慧农业(中英文), 2023, 5(3): 17-34. GUAN B L, ZHANG L P, ZHU J B, et al. The key issues and evaluation methods for constructing agricultural pest and disease image datasets: A review[J]. Smart agriculture, 2023, 5(3): 17-34.

27	PASZKE A, CHAURASIA A, KIM S, et al. ENet: A deep neural network architecture for real-time semantic segmentation[EB/OL]. arXiv: 1606.02147, 2016.

28	CHEN J R, KAO S H, HE H, et al. Run, don't walk: Chasing higher FLOPS for faster neural networks[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 12021-12031.

29	KIM K H, SHIM P S, SHIN S. An alternative bilinear interpolation method between spherical grids[J]. Atmosphere, 2019, 10(3): ID 123.

30	GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: A survey[J]. Computational visual media, 2022, 8(3): 331-368.

31	NIU Z Y, ZHONG G Q, YU H. A review on the attention mechanism of deep learning[J]. Neurocomputing, 2021, 452: 48-62.

32	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021: 13713-13722.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引 言

1 实验材料

1.1 图像数据采集

表1 室内山药叶片采集数据分类

图1 山药图像标注方法示例

1.2 数据增强

图2 山药图像数据增强方法

表2 山药叶片研究训练集数据增强统计

2 研究与方法

图3 改进ENet网络结构图

2.1 改进的瓶颈结构

图4 PConv结构示意图

图5 瓶颈结构改进图

2.2 基于双线性插值的上采样

图6 双线性插值原理

2.3 引入CA注意力机制

图7 CA注意力机制

3 实验与分析

3.1 实验环境与训练

3.2 评价指标

3.3 消融实验

图8 山药叶片分割消融实验模型预测对比

图9 山药叶片图像使用CPBA-ENet模型训练及验证损失曲线

表3 山药叶片图像分割消融实验

3.4 不同算法分割性能比较

图10 不同模型山药叶片分割效果比较

图11 不同模型FLOPs与mIoU关系对比图

图12 不同模型Params与mIoU关系对比图

表4 不同模型的山药叶片分割性能比较

图13 不同分割模型对于山药叶片图像热力图对比

3.5 叶面积计算

图14 山药叶片分割面积与实际测量面积对比

4 结 论

利益冲突声明

References

0 引言

1.1　图像数据采集

1.2　数据增强

2.1　改进的瓶颈结构

2.2　基于双线性插值的上采样

2.3　引入CA注意力机制

3.1　实验环境与训练

3.2　评价指标

3.3　消融实验

3.4　不同算法分割性能比较

3.5　叶面积计算

4 结论