基于改进CycleGAN的水稻叶片病害图像增强方法

严从宽; 朱德泉; 孟凡凯; 杨玉青; 唐七星; 张爱芳; 廖娟

doi:10.12133/j.smartag.SA202407019

智慧农业 >

2024 , Vol. 6 >Issue 6: 96 - 108

DOI: https://doi.org/10.12133/j.smartag.SA202407019

专题--农业知识智能服务和智慧无人农场（上）

基于改进CycleGAN的水稻叶片病害图像增强方法

严从宽 ^,¹ ,
朱德泉 ¹ ,
孟凡凯 ¹ ,
杨玉青 ¹ ,
唐七星 ¹ ,
张爱芳 ² ,
廖娟 ^,¹

展开

^1. 安徽农业大学工学院，安徽合肥 230036，中国
^2. 安徽省农业科学院植物保护与农产品质量安全研究所，安徽合肥 230031，中国

廖娟，博士，副教授，研究方向为机器视觉和农业智能信息处理。E-mail：liaojuan@ahau.edu.cn

严从宽，研究方向为机器视觉、农作物病害识别等领域。E-mail：23721833@stu.ahau.edu.cn

收稿日期: 2024-07-18

网络出版日期: 2024-11-21

基金资助

国家重点研发计划项目子课题(2022YFD2001801-3)

国家自然科学基金项目(32201665)

收起

Rice Leaf Disease Image Enhancement Based on Improved CycleGAN

YAN Congkuan ^,¹ ,
ZHU Dequan ¹ ,
MENG Fankai ¹ ,
YANG Yuqing ¹ ,
TANG Qixing ¹ ,
ZHANG Aifang ² ,
LIAO Juan ^,¹

Expand

^1. School of Engineering, Anhui Agricultural University, Hefei 230036, China
^2. Institute of Plant Protection and Agricultural Product Quality and Safety, Anhui Academy of Agricultural Sciences, Hefei 230031, China

LIAO Juan, E-mail: liaojuan@ahau.edu.cn

YAN Congkuan, E-mail: 23721833@stu.ahau.edu.cn

Received date: 2024-07-18

Online published: 2024-11-21

Supported by

Sub-project of the National Key Research and Development Program(2022YFD2001801-3)

National Natural Science Foundation of China Project(32201665)

Copyright

Fold

摘要

目的/意义 针对水稻病害图像识别任务存在数据集获取困难、样本不足及不同类别病害样本不均衡等问题，提出了一种基于改进CycleGAN（Cycle-Consistent Adversarial Networks）的水稻叶片病害图像数据增强方法。方法以CycleGAN为基本框架，将CBAM（Convolution Block Attention Module）注意力机制嵌入到生成器的残差模块中，增强CycleGAN对病害特征的提取能力，使网络更准确地捕捉小目标病害或域间差异不明显的特征；在损失函数中引入感知图像相似度损失，以指导模型在训练过程中生成高质量的样本图像，并提高模型训练的稳定性。基于生成的水稻病害样本，在不同目标检测模型上进行迁移训练，通过比较迁移学习前后模型性能的变化，验证生成的病害图像数据的有效性。 结果和讨论 改进的CycleGAN网络生成的水稻叶片病害图像质量优于原始CycleGAN，病斑区域的视觉特征更加明显，结构相似性（Structural Similarity, SSIM）指标提升约3.15%，峰值信噪比（Peak Signal-to-Noise Ratio, PSNR）指标提升约8.19%。同时，使用YOLOv5s、YOLOv7-tiny和YOLOv8s这3种模型在生成的数据集上进行迁移学习后，模型的检测性能均有提升，如YOLOv5s模型的病害检测精度从79.7%提升至93.8%。结论本研究提出的方法有效解决了水稻病害图像数据集匮乏的问题，为水稻病害识别模型的训练提供了可靠的数据支撑。

关键词： 水稻叶片病害; 数据增强; CycleGAN; CBAM; 感知相似度损失; 迁移训练

本文引用格式

严从宽 , 朱德泉 , 孟凡凯 , 杨玉青 , 唐七星 , 张爱芳 , 廖娟 . 基于改进CycleGAN的水稻叶片病害图像增强方法[J]. 智慧农业, 2024 , 6(6) : 96 -108 . DOI: 10.12133/j.smartag.SA202407019

Abstract

Objective Rice diseases significantly impact both the yield and quality of rice production. Automatic recognition of rice diseases using computer vision is crucial for ensuring high yields, quality, and efficiency. However, rice disease image recognition faces challenges such as limited availability of datasets, insufficient sample sizes, and imbalanced sample distributions across different disease categories. To address these challenges, a data augmentation method for rice leaf disease images was proposed based on an improved CycleGAN model in this reseach which aimed to expand disease image datasets by generating disease features, thereby alleviating the burden of collecting real disease data and providing more comprehensive and diverse data to support automatic rice disease recognition. Methods The proposed approach built upon the CycleGAN framework, with a key modification being the integration of a convolutional block attention module (CBAM) into the generator's residual module. This enhancement strengthened the network's ability to extract both local key features and global contextual information pertaining to rice disease-affected areas. The model increased its sensitivity to small-scale disease targets and subtle variations between healthy and diseased domains. This design effectively mitigated the potential loss of critical feature information during the image generation process, ensuring higher fidelity in the resulting images. Additionally, skip connections were introduced between the residual modules and the CBAM. These connections facilitate improved information flow between different layers of the network, addressing common issues such as gradient vanishing during the training of deep networks. Furthermore, a perception similarity loss function, designed to align with the human visual system, was incorporated into the overall loss function. This addition enabled the deep learning model to more accurately measure perceptual differences between the generated images and real images, thereby guiding the network towards producing higher-quality samples. This adjustment also helped to reduce visual artifacts and excessive smoothing, while concurrently improving the stability of the model during the training process. To comprehensively evaluate the quality of the rice disease images generated by the proposed model and to assess its impact on disease recognition performance, both subjective and objective evaluation metrics were utilized. These included user perception evaluation (UPE), structural similarity index (SSIM), peak signal-to-noise ratio (PSNR), and the performance of disease recognition within object detection frameworks. Comparative experiments were conducted across multiple GAN models, enabling a thorough assessment of the proposed model's performance in generating rice disease images. Additionally, different attention mechanisms, including efficient channel attention (ECA), coordinate attention (CA), and CBAM, were individually embedded into the generator's residual module. These variations allowed for a detailed comparison of the effects of different attention mechanisms on network performance and the visual quality of the generated images. Ablation studies were further performed to validate the effectiveness of the CBAM residual module and the perception similarity loss function in the network's overall architecture. Based on the generated rice disease samples, transfer learning experiments were conducted using various object detection models. By comparing the performance of these models before and after transfer learning, the effectiveness of the generated disease image data in enhancing the performance of object detection models was empirically verified. Results and Discussions The rice disease images generated by the improved CycleGAN model surpassed those produced by other GAN variants in terms of image detail clarity and the prominence of disease-specific features. In terms of objective quality metrics, the proposed model exhibited a 3.15% improvement in SSIM and an 8.19% enhancement in PSNR compared to the original CycleGAN model, underscoring its significant advantage in structural similarity and signal-to-noise ratio. The comparative experiments involving different attention mechanisms and ablation studies revealed that embedding the CBAM into the generator effectively increased the network's focus on critical disease-related features, resulting in more realistic and clearly defined disease-affected regions in the generated images. Furthermore, the introduction of the perception similarity loss function substantially enhanced the network's ability to perceive and represent disease-related information, thereby improving the visual fidelity and realism of the generated images. Additionally, transfer learning applied to object detection models such as YOLOv5s, YOLOv7-tiny, and YOLOv8s led to significant improvements in disease detection performance on the augmented dataset. Notably, the detection accuracy of the YOLOv5s model increased from 79.7% to 93.8%, representing a considerable enhancement in both generalization ability and robustness. This improvement also effectively reduced the rates of false positives and false negatives, resulting in more stable and reliable performance in rice disease detection tasks. Conclusions The rice leaf disease image generation method based on the improved CycleGAN model, as proposed in this study, effectively transforms images of healthy leaves into those depicting disease symptoms. By addressing the challenge of insufficient disease samples, this method significantly improves the disease recognition capabilities of object detection models. Therefore, it holds considerable application potential in the domain of leaf disease image augmentation and offers a promising new direction for expanding datasets of disease images for other crops.

Key words： rice leaf disease; data enhancement; CycleGAN; CBAM; perceptual similarity loss; transfer learning

0 引言

植物病害是影响农作物健康生长的主要威胁之一，是全球农业生产和生态安全面临的突出问题^［1］。一旦农作物感染病害，将严重影响农作物的生长和发育，导致产量减少和品质下降，进而造成严重的经济损失。据报道，每年因植物病虫害造成的粮食产量损失高达20%~40%，给全球经济造成的损失每年超过2 200亿美元^［2］。因此有效的病害检测方法对于提升农产品的品质、减少经济损失至关重要。

现有的作物病害检测方法较为传统，主要依靠植保专家或农业工作者到场肉眼观察和经验判断，这种方法耗时耗力，且主观性较强。为了提高农作物病害诊断的速度和准确性，一些研究人员开始探索利用机器学习技术实现农作物病害的自动识别，通过设计相应的特征提取算子提取颜色、纹理、形态等特征，并基于机器学习方法对这些特征进行学习，从而实现病害分类^［3-5］。尽管机器学习算法在作物病害检测方面取得了一定的进展，但其准确性严重依赖于人工设计特征的可靠性^［6］。这种依赖导致其难以适用复杂田间环境中作物病害的自动检测。

深度学习技术近年来发展迅速，成为计算机视觉领域的主流方向，在目标识别任务中应用效果显著。深度学习技术具有自动学习和提取图像特征的能力^［7］，可有效地解决传统机器学习算法特征提取问题，并已在农作物病害识别研究方面取得广泛应用，研究者利用Inception^［8］、卷积神经网络（Convolutional Neural Network, CNN）^{［9, 10］}、Transformer^［11］、MobileNet^［12］等网络框架实现了农作物病害的检测，同时，轻量化网络架构的引入显著减少了模型参数，提高了检测速度，注意力机制的融合进一步增强了病害特征的提取能力，有效提升了识别性能。基于深度学习的目标检测算法在自然环境下对不同作物病害的检测表现出良好的学习能力，有效提升了对农作物病害的识别准确性。然而，深度学习是一种数据驱动的学习方法^［13］，其性能很大程度上取决于标记样本的数量和质量，如果训练数据集过少或者质量较差时，模型的泛化能力和鲁棒性可能会受到影响。特别在农业领域，由于图像采集需要投入大量时间成本和人力资源，获取大量的数据集相当困难。虽然公共数据集是可用的，但大多数数据集的规模仍然有限，难以满足实际需求。此外，水稻病害数据样本的采集受季节影响较大，导致数据稀缺且难以收集，且在有限时间内采集的样本往往呈现出类别分布不均衡的现象，这加大了模型准确识别病害的难度。因此，寻找有效的数据增强方法对于扩充图像数据、加速深度学习在病害检测领域的应用具有重要意义。

为扩充数据集并平衡类别，一些研究在原有少量图像数据的基础上，通过调整图像亮度、对比度或进行几何仿射变换来扩增训练样本的数量^［14］。然而，这类方法通过修改图像的颜色、形态等特征，人为地扩展训练数据集，虽然在一定程度上能够提升模型的性能，但所获得的多样性和变化相对较小。此外，这类方法扩充的图像有些看起来不真实^［15］，这可能给网络训练带来不确定性和过拟合问题，从而导致在模型验证过程中识别精度急剧下降，未能有效提高模型的泛化能力。近年来，生成式对抗网络（Generative Adversarial Networks, GAN）的出现为数据增强提供了新的技术和手段，与传统数据增强方法相比，GAN网络模拟真实数据的分布，在生成图像的真实性、多样性，以及保留语义信息的完整性等方面具有显著优势。生成对抗网络可以根据小样本数据分布的特征生成相对应的图像数据，能解决计算机视觉领域中样本不足和分布不均衡的问题^［16］。然而，原始GAN网络难以学习到输入样本间的特征差异，导致生成的图像质量较差、大多数生成图像未能展现出感兴趣的目标特征。为提高生成数据的质量，Guo等^［17］提出在原始循环生成对抗网络（Cycle-Consistent Adversarial Networks, CycleGAN）生成器和鉴别器中融入类别激活映射注意力机制，并在鉴别器中构建特征重组损失函数，以提高生成玉米叶部病害样本的质量。Hu等^［18］提出一种基于小样本学习的茶叶病害识别方法，通过条件深度卷积生成对抗网络（Conditional Deep Convolutional Generative Adversarial Networks, C-DCGAN）将每种病害由20幅增加到4 980幅，并训练分类器（Visual Geometry Group, VGG）、支持向量机、随机森林和决策树，在GAN的数据增强下，VGG获得90%的最好准确率。李天俊等^［19］提出一种基于生成对抗网络GAN生成伪视觉特征，通过引入对比学习来优化生成器的生成质量，添加视觉-语义对齐模块进一步约束生成器，在多个公开数据集上检测精度较之前方法最大提升达到2.8%，在自建20种害虫数据集上取得了零样本设置下77.4%的识别精度和广义零样本设置下78.3%的调和精度，相比之前方法分别提升2.1%和1.2%。Abbas等^［20］提出一种基于深度学习的番茄病害检测方法，利用条件生成对抗网络C-GAN生成番茄叶片图像，在生成图像和真实图像上使用迁移学习训练DenseNet121模型，在含有5种、7种和10种的番茄叶片病害数据集上，模型分别取得了99.51%、98.65%和97.11%的分类精度。

这些研究在一定程度上提高了训练样本的数量和丰富性。然而，水稻病害种类多，自然环境中能够获得的已配对的训练样本较少，导致需配对的GAN网络无法获得理想的生成结果。此外，由于植物疾病最直观的病理表现是病斑，但在实际检测的水稻叶片图像中，健康区域较大，病斑往往呈小目标，且水稻病害病斑会出现类间差异小、类内差异大的特点，这要求生成网络能够有效感知图像中病斑特征。为此，本研究以无需配对信息的CycleGAN网络为基础框架，构建一种基于改进的CycleGAN网络的水稻叶片病害数据生成方法。在CycleGAN网络的生成器中，将卷积注意力机制（Convolutional Block Attention Module, CBAM）嵌入到残差模块中，增强跳跃连接结构之间信息的交互，避免关键信息的丢失，增强网络对病害特征的提取能力，在学习健康叶片和病害叶片两个域之间的病害差异性的同时，更加关注病害区域的局部特征；引入感知图像相似度损失，通过联合损失优化整体网络，提高生成图像的质量和训练的稳定性，避免模式崩溃；最后，结合常用目标检测网络模型进行水稻叶部病害识别，比较模型识别性能的变化，验证生成的水稻叶片病害图像数据的可靠性和适用性。

1 数据与材料

本研究采用的数据集来源于公开网站Kaggle平台（https://www.kaggle.com/）。该数据集包括两部分：健康水稻叶片图像和病害水稻叶片图像。针对江淮地区常见的水稻病害类型，本研究选择3种病害图像作为研究对象，分别为褐斑病、条纹病和稻瘟病。图1为这3种病害的典型症状图像，以及健康叶片的对照图像。在公开数据集中，部分图像存在像素质量差异较大、标签不清晰等问题。因此，本研究对公开数据集进行预处理和清洗，剔除不合格的样本，重新划分和整理了数据集。为确保模型的训练和测试效果，本研究将数据集按照8∶2的比例划分为训练集和测试集，分布情况如表1所示。

显示原图|下载原图ZIP|生成PPT

图1 水稻叶部健康、病害样本示例

Fig. 1 Sample of rice leaf health and disease

表1 训练生成对抗网络的数据集分布情况

Table 1 Data set distribution for training GAN networks

病害种类	样本数量/张	训练集/张	测试集/张
褐斑病	240	192	48
条纹病	245	196	49
稻瘟病	241	193	48
健康叶片	856	685	171

2 水稻病害图像生成网络设计

针对水稻病害数据集的缺乏和种类间不平衡性，以及水稻早期病害特征小、域间差异不明显等问题，本研究基于CycleGAN研究水稻病害图像扩增方法。

2.1　循环生成对抗网络

CycleGAN是GAN网络的一种变体^［21］，不同之处在于它由两个生成器G、F和两个判别器D_X、D_Y组成，相当于使用了两个GAN网络。CycleGAN是一种无监督式的生成式对抗网络，它不需要在训练数据之间建立一对一的映射关系进行图像到图像的转换，不需要完全配对的数据集^［22］，输入健康水稻叶片图像，利用CycleGAN生成病害图像。CycleGAN结构如图2所示，其中X和Y表示真实的水稻健康叶片和病害叶片这两种不同类型的图像域，x和y分别表示X域和Y域中的图像；G和F表示图像域X和图像域Y相互转换过程所需的生成器；D_Y和D_X是对应的判别器。从域X到域Y的转换过程可以描述为：X域中的真实图像x通过生成器G转化得到具有Y风格的生成图像G(x)，将生成图像G(x)输入到生成器F得到重建图像F[G(x)]^［23］。接着将生成病害图像G(x)与真实病害图像y送入判别器D_Y以判断真假，D_Y旨在区分生成样本G（x）和真实样本y，D_Y通过计算得到y和G（x）属于Y域的概率D_Y (y)和D_Y [G(x)]。

显示原图|下载原图ZIP|生成PPT

图2 CycleGAN结构

Fig. 2 Structure of CycleGAN

2.2　改进的CycleGAN网络

2.2.1　生成器设计

在训练过程中，生成器的目标是欺骗判别器，生成相对逼真的图像，使判别器无法区分生成图像与真实图像之间的差异。生成器残差模块的作用是学习到两个域之间的特征差异，本研究3种病害数据集具有病期早、病害区域小等特点，而原CycleGAN中的残差模块对过小病害特征的提取能力有限，导致生成图像的病害特征难以显现。

注意力机制在深度学习中起着至关重要的作用，它允许模型根据输入数据中不同部分的重要程度赋予不同权重，使得模型注意于最相关的部分^［24］。为使生成器更好地学习到水稻病害区域关键特征，提升网络对水稻叶片图像中小目标特征的提取能力，避免关键信息的丢失，将CBAM嵌入到原CycleGAN的残差模块中，具体实现结构如图3所示，优化后的生成器主要为下采样模块、CBAM残差注意力模块、上采样模块构成的编码-转换-解码网络，其中，编码部分的下采样操作主要用于逐渐减小图像的空间尺寸，增加特征图的数量，扩大感受野，捕获丰富的特征信息，并减少计算量；解码部分通过上采样操作逐渐增大图像的空间尺寸，恢复图像中的细节和纹理信息，使输出生成的图像大小与输入图像一致，而中间9个CBAM残差注意力模块进行特征提取和转换，以在训练过程中帮助网络学习到输入和输出之间的残差信息，从而更好地保留图像的细节和结构。

显示原图|下载原图ZIP|生成PPT

图3 生成器网络结构

Fig. 3 Structure of the generator network

CBAM残差注意力模块的结构如图4所示。输入图像先经基本的残差块学习输入与输出之间的残差映射，并基于CBAM增强对图像关键特征的关注度，从而提升模型对关键信息的捕捉能力。最后将残差块和CBAM相结合，使得模型能够在学习残差映射的同时，通过注意力机制分布权重，提取健康域和病害域之间的差异信息，进而增强模型对不同信息的融合能力，并且在残差模块和CBAM间采用跳跃连接，增强了信息的交互，避免关键信息的丢失，缓解了梯度消失现象。

显示原图|下载原图ZIP|生成PPT

图4 CBAM残差注意力模块结构

Fig. 4 Structure of CBAM residual attention module

CBAM由通道注意力模块（Channel Attention Module, CAM）和空间注意力模块（Spatial Attention Module, SAM）组成^［25］。CAM和SAM的原理结构图如图5所示，CBAM先将输入特征图 Z 输入到通道注意力机制，经全局最大池化和全局平均池化传输到一个多层感知机网络中，对特征矢量进行激活，得到权重系数 M _c，最后将权重系数 M _c与输入特征图Z相乘得到特征图 Z ₁，计算过程如公式（1）和公式（2）所示。空间注意力机制则是对特征图 Z ₁进行空间域的处理，在空间维度上对特征图 Z ₁再次进行全局最大池化和全局平均池化，得到二维特征图，然后进行卷积操作，得到权重系数 M _s，实现空间维度的特征加强。最后，将空间注意力权重系数 M _s和特征图 Z ₁相乘得到新的特征图 Z ₂。计算过程如公式（3）和公式（4）所示。

M c = σ M L P M a x P o o l (Z) + σ M L P A v g P o o l (Z)

（1）

Z 1 = M c (Z) × Z

（2）

M s = σ ∫ M a x P o o l Z 1; A v g P o o l Z 1

（3）

Z 2 = M s (Z 1) × Z 1

（4）

式中：

σ •

为sigmoid激活函数；MLP（Multilayer Perceptron）为多层感知机；

∫ •

为卷积运算。

显示原图|下载原图ZIP|生成PPT

图5 CAM和SAM原理结构图

a. CAM b. SAM

Fig. 5 Schematic of CAM and SAM

2.2.2　判别器设计

相比生成器，CycleGAN的判别器结构功能简单，结构如图6所示。传统GAN的判别器是将输入映射成1个实数，而本研究需要考虑到生成的水稻病害图像不同区域的细节特征，使用PatchGAN结构的判别器^［26］。PatchGAN结构的判别器会将输入图像分割成分辨率像素为70×70的小图块，并对每个小图块进行真假判别，从而使得判别器更加关注图像的局部信息和纹理细节，无需对图像整体作真假判别。因此，PatchGAN判别器能够更好地捕获图像的细节信息，有助于生成器学习到更细致的图像特征。如图6所示，该判别器共有5个卷积块，第1个卷积块由卷积层和激活函数LeakyReLU组成；中间3个卷积块由卷积层、实例归一化层和激活函数LeakyReLU组成；最后1个卷积块只有卷积层，输出一个通道数为1的矩阵，以此来判别图像的真假。

显示原图|下载原图ZIP|生成PPT

图6 判别器网络结构

Fig. 6 Structure of the discriminator network

2.2.3　损失函数的优化

CycleGAN的训练过程实质是求取最小化损失函数，获取最优的生成器和判别器，损失函数由生成对抗损失、循环一致性损失和身份一致性损失组成，定义如公式（5）所示。

L (G, F, D X, D Y) = L L S G A N (G, D Y, X, Y) + L L S G A N (F, D X, Y, X) + α L c y c (G, F) + β L i d e n t i t y (G, F)

（5）

式中：L _LSGAN、L _cyc和L _identity分别为生成对抗损失、循环一致性损失和身份一致性损失；α为循环一致性损失的权重系数；β为身份一致性损失的权重系数。

L _LSGAN用以度量生成图像与真实图像之间的差异，指导生成器生成更加逼真的目标域图像。CycleGAN中有生成器G、F两方向的生成对抗损失

L L S G A N (G, D Y, X, Y)

和

L L S G A N (F, D X, Y, X)

，基于最小二乘损失定义L _LSGAN，以生成器G方向的损失为例，定义如公式（6）所示。

L L S G A N (G, D Y, X, Y) = Ε x ∼ P d a t a (x) D Y G (x) 2 + Ε y ∼ P d a t a (y) D Y (y) - 1 2

（6）

式中：

x ∼ P d a t a (x)

表示图像域X的样本分布；

y ∼ P d a t a (y)

则表示图像域Y的样本分布；x和y分别表示域X、Y内的样本；D_Y [G(x)]表示判别器D_Y对生成样本G(x)的预测结果；D_Y (y)表示判别器D_Y对真实样本y的预测结果。

L _identity希望在X域转化到Y域的方向时，若输入为Y域的图像y，生成器G不做任何处理直接输出y图像本身，具体损失函数定义如公式（7）所示。

L i d e n t i t y (G, F) = Ε x ∼ P d a t a (x) F (x) - x 1 + Ε y ∼ P d a t a (y) G (y) - y 1

（7）

L _cyc以确保图像在实现域转换的同时保留图像的内容和结构等信息。如图2所示，对于X域的图像x，图像的循环转换能够实现对x的“还原”，且最大程度保证图像能够“还原”到原来的模样，即x→G(x)→F[G(x)]≈x，称为前向循环一致性。同样对Y域的每一个图像y，也可实现反向循环一致性，即：y→F(y)→G[F(y)]≈y。以上两部分构成了循环一致性，为构建循环一致性损失，CycleGAN引入了二值交叉熵，定义如公式（8）所示。

L c y c (G, F) = Ε x ∼ P d a t a (x) F G (x) - x 1 + Ε y ∼ P d a t a (y) G F (y) - y 1

（8）

由公式（8）可知，L _cyc仅考虑了真实样本和生成样本间的内容相似性，忽略了人类视觉感知系统对图像的感知差异，而本研究生成的病害图像真正需要的是最大程度满足人眼的视觉感知差异。为此，本研究采用符合人类视觉系统的感知图像相似度损失（Learned Perceptual Image Patch Similarity, LPIPS）替换原有的二值交叉熵，构建循环一致性损失。LPIPS^［27］通过深度学习模型来衡量在某种程度上与人类判断的相似程度，即计算两幅图像特征之间的距离，以评估两幅图像之间的感知差异。两幅图像特征之间距离计算原理图如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 感知图像相似度损失计算原理

Fig. 7 The calculation principle of perceptual image similarity loss

利用网络提取原始图像z和生成图像z ₀的特征，在通道维度中对每层l的输出进行激活后归一化处理，记为

z^l

、

z^0 l ∈ R H l × W l × C l

，利用权重向量

w

缩放激活通道并计算欧式距离，最后在空间上求平均值，在通道上求和，如公式（9）所示。

d (z, z 0) = ∑ l 1 H l W l ∑ h, w w l ⊙ (z^h w l - z^0 h w l) 22

（9）

式中：H、W分别为特征图的高、宽，单位为像素；l为特征层数；

w l

为第l层的权重向量；

⊙

为矩阵点乘运算。基于公式（9）所示的两幅图像的感知距离

d (z, z 0)

，循环一致性损失计算如公式（10）所示。

L c y c' (G, F) = Ε x ∼ P d a t a (x) d F G (x) - x + Ε y ∼ P d a t a (y) d G F (y) - y

（10）

结合公式（5）和公式（10），改进后的损失函数定义如公式（11）所示，LPIPS的引入，能够指导网络学习更准确的图像特征表示，有助于生成更自然、符合人类视觉系统的图像，同时可以减少一些在传统损失函数下容易出现的伪影、过度平滑等现象。

L' (G, F, D X, D Y) = L L S G A N (G, D Y, X, Y) + L L S G A N (F, D X, Y, X) + α L c y c' (G, F) + β L i d e n t i t y (G, F)

（11）

2.3　评价指标

分辨率、对比度、亮度、结构相似性、噪声等是影响图像质量的关键因素^［28］。为了综合检验生成图像的效果，实验中结合主观评价指标和客观量化指标，包括用户感知评价（User Perception Evaluation, UPE）、结构相似性（Structural Similarity, SSIM）、峰值信噪比（Peak Signal-to-Noise Ratio, PSNR）和YOLOv5等目标检测模型的病害识别性能4个方面对本研究方法生成的病害图像效果进行比较分析。

UPE是基于用户针对图像清晰度、平滑性和噪声水平而构建的主观评价指标^［29］。本研究结合水稻病害图像的特征，制定符合水稻病害特征的评价标准，当生成的病害图像满足以下3个条件时，会被评为最佳效果图：1）水稻叶片病害区域和健康区域的过渡是否平滑，边缘是否清晰；2）生成图像的伪影区域是否较小；3）病害特征是否明显。UPE的评价步骤为：随机选择多名评测者，将测试集图像在不同模型下输出的病害图像提供给测评者进行评测，判断是否为最佳效果图，并统计各个模型输出图像为最佳效果图的数量，计算测评者获得最佳效果图的平均数，称之为生成模型的UPE值。

SSIM是一种用于衡量两幅图像之间相似度的图像质量评价指标^［30］。它基于人类视觉系统的特性，通过比较图像的结构、亮度和对比度等方面的相似性来评估图像的质量。SSIM的范围为0~1，SSIM的值越大，表示两幅图像结构越相似，图像质量越高。

PSNR是客观评价图像质量最常用的指标之一^［31］，它通常关注的是对应像素之间的差异，通过计算原始图像与生成图像之间的峰值信号与误差之比来评估质量的，PSNR的值越大，表示图像质量越好。

生成的病害数据集是否有效，关键在于其对后续病害识别模型性能的影响。为验证本研究提出的数据增强方法对水稻病害识别模型性能的提升，以及在不同目标检测模型中的通用性，以常用的目标检测模型YOLOv5s、YOLOv7-tiny和YOLOv8s构建水稻病害识别模型，通过比较数据增强前后模型在水稻叶片病害检测性能上的变化，来评估数据增强方法的效果。

3 实验与结果

3.1　实验平台和参数设置

实验采用Windows 11操作系统，硬件平台使用的CPU处理器为Intel I7-11700K，GPU处理器为NVIDIA GeForce RTX 4080，显存大小为32 G。基于Python语言在Pytorch框架下进行网络搭建、调试、训练与测试，其中torch版本为1.13，CUDA版本为12.1。初始学习率为0.000 2，训练200轮，前100轮学习率保持0.000 2不变，后100轮线性衰减到0。

3.2　实验结果与分析

3.2.1　不同网络性能对比实验

为了验证本研究网络生成的水稻病害图像的质量，将其与4种不同模型进行了对比：基于双生成器-判别器结构的U-GAT-IT^［32］模型和基于双生成器-判别器结构的LeafGAN^［33］模型，以及基于原始CycleGAN生成器中不同数量残差块的模型CG-ResNet6（6个残差块）和CG-ResNet9（9个残差块）。对比实验中，采用相同的参数设置和测试集样本，利用测试集对U-GAT-IT、LeafGAN、CG-ResNet6、CG-ResNet9，以及本研究提出的网络CG-CL分别进行测试，基于测试结果比较这5种网络将健康叶片图像转化为褐斑病、条纹病和稻瘟病3种病害叶片图像的能力，图8所示为不同网络生成的病害效果示例图。如图8b所示，U-GAT-IT网络虽能够生成一定的病斑区域，但病斑特征信息表征不充分，且生成图像中健康部分的表观特征较真实图像差异大。图8c为LeafGAN生成的病害图像效果，可见生成的病害图像存在严重的伪影现象，导致生成的图像过于模糊，细节不清，在病害区域的边缘部分表现尤为明显，从而降低了图像的视觉效果和病害特征的可辨识度，使得生成的病害图像难以满足病害识别和诊断的需求。图8d和图8e分别为CG-ResNet6与CG-ResNet9生成的病害图像，与CG-ResNet6相比，CG-ResNet9通过增加残差块数量提升了网络深度和特征提取能力，生成病斑特征的能力得到提升。然而，CG-ResNet9生成图像中的马赛克状伪影现象较为严重，存在病斑区域边缘信息缺失现象，表明其在特征重建过程中仍存在一定的局限性。对比其他4种网络，CG-CL网络生成的3种病害的病斑特征清晰、明显，且在图像去模糊性和平滑处理方面效果显著，如图8f所示。

显示原图|下载原图ZIP|生成PPT

图8 不同网络生成的水稻叶部病害图像示例

Fig. 8 Examples of rice leaf disease images generated by different networks

对U-GAT-IT、LeafGAN、CG-ResNet6、CG-ResNet9和CG-CL这5种网络在测试集中生成图像效果进行用户感知评价，用户感知评价UPE结果如图9所示。对比图9中5种网络的UPE值，可见CG-CL网络生成的图像被评为最佳效果图的数量最多，说明CG-CL网络在病害生成的成功率和用户感知评价上都取得了不错的效果。对于条纹病来说，图像转换成功的数量都远远低于褐斑病和稻瘟病，这是由于条纹病本身病害特征不明显、病斑呈长细条状、病害区域太小，网络学习到病害特征困难，导致所有网络的用户感知评价都降低。

显示原图|下载原图ZIP|生成PPT

图9 不同网络生成水稻叶部病害图像的UPE值

Fig. 9 UPE values of rice leaf disease images generated by different networks

为对网络生成图像质量进行客观评价，获取了5种网络的SSIM和PSNR值，结果如表2所示，可知本研究设计的水稻叶部病害生成网络CG-CL的性能最优，CG-CL在3种病害图像生成中获得的SSIM值分别为0.884、0.852和0.812，均高于其余4种网络的SSIM值，如CG-CL在条纹病生成中SSIM指标较CG-ResNet6、CG-ResNet9、U-GAT-IT和LeafGAN分别提高6.90%、3.02%、5.84%和5.32%，表明生成的病害图像和初始图像在结构相似性上表现更好。同时，网络CG-CL在3种病害生成中对应的PSNR值分别为23.293、22.971和21.090 dB，较其他4种网络均有提升，能够生成质量更好的病害图像。因此，综合主观评价指标和客观指标，均表明本研究网络能够在尽可能维持图像原始信息的基础上，保证病害图像的转换成功率，使得病害特征更加明显、自然，符合人类视觉系统的感知效果，一定程度上满足病害识别任务中对数据集扩充的要求。

表2 不同网络生成水稻叶部病害图像的SSIM和PNSR指标对比

Table 2 Comparison of SSIM and PNSR indexes of rice leaf disease images generated by different networks

病害种类	SSIM↑					PSNR/dB ↑
病害种类	U-GAT-IT	LeafGAN	CG-ResNet6	CG-ResNet9	本研究CG-CL	U-GAT-IT	LeafGAN	CG-ResNet6	CG-ResNet9	本研究CG-CL
褐斑病	0.849	0.867	0.845	0.857	0.884	22.124	22.457	22.042	22.511	23.293
条纹病	0.805	0.809	0.797	0.827	0.852	20.709	20.923	20.618	20.751	22.971
稻瘟病	0.775	0.777	0.771	0.786	0.812	19.009	20.827	18.740	19.494	21.090

3.2.2　不同注意力机制对网络性能的影响

为了验证CBAM对CycleGAN生成图像效果提升的有效性，在原始CycleGAN的残差块中分别嵌入了ECA^［34］、CA^［35］和CBAM，并进行了水稻病害图像的生成，结果如图10所示。对比图10b和图10c，可以看出ECA与原始CG-ResNet9的生成效果相差不大，生成的病害图像中病害特征不明显，主要在于ECA仅通过局部一维卷积捕获通道间的依赖关系，未能提取细致特征信息。图10d为CA注意力机制的生成效果，CA注意力机制通过将通道信息和坐标信息结合，以增强特征表达能力，但对全局信息的关注度不够，导致生成图像的整体颜色改动较大。相较之下，图10e所示CBAM在病害图像生成中表现更优的效果，CBAM具有通道和空间两个注意力模块，在每个模块中利用全局平均池化和全局最大池化来提取全局和局部特征信息，并通过加权机制自适应地调整每个通道的权重，通道权重的动态调整有效提升了网络对局部关键特征与全局的整体信息的感知能力，从而使得网络能够生成病斑清晰且与输入相近的图像，整体效果更符合病害图像生成的实际需求。表3展示了在添加注意力机制后，各个网络生成病害图像的客观评价指标。结果表明，CBAM在SSIM和PSNR指标均高于CA和ECA两种注意力机制。以条纹病为例，CBAM的SSIM值为0.835，较CA和ECA分别提升0.724%和0.845%，其PSNR值为21.386 dB，较CA和ECA分别提升2.335%和1.877%。因此，相比其他2种注意力机制，在残差模块中引入CBAM能够更有效地提升生成图像的质量。

显示原图|下载原图ZIP|生成PPT

图10 不同注意力机制网络生成的水稻叶部病害效果

Fig.10 Effects of rice leaf diseases generated by different attention mechanism networks

表3 不同注意力机制网络生成水稻叶部病害图像的SSIM和PNSR指标对比

Table 3 Comparison of SSIM and PNSR indexes in rice leaf disease images generated by different attention mechanism networks

病害种类	SSIM↑				PSNR/dB ↑
病害种类	CG-ResNet9	CG-ResNet9+ECA	CG-ResNet9+CA	CG-ResNet9+CBAM	CG-ResNet9	CG-ResNet9+ECA	CG-ResNet9+CA	CG-ResNet9+CBAM
褐斑病	0.857	0.855	0.861	0.862	22.511	22.554	22.853	23.109
条纹病	0.827	0.828	0.829	0.835	20.751	20.992	20.898	21.386
稻瘟病	0.786	0.802	0.802	0.804	19.494	19.544	19.550	19.574

3.2.3　消融实验与分析

为了验证本研究设计网络中CBAM残差模块和感知图像相似度损失LPIPS的有效性，对CG-ResNet9、CG-ResNet9+CBAM、CG-ResNet9+LPIPS和本研究网络CG-CL（CG-ResNet9+CBAM+LPIPS）进行了性能对比实验。实验中采用相同的实验配置、训练数据集，以及评价标准。表4为4种网络生成图像质量的客观指标对比结果。从表4中可以看出，与CG-ResNet9相比，CBAM与LPIPS的引入，使得CG-ResNet9+CBAM、CG-ResNet9+LPIPS和CG-CL在3种病害生成中SSIM和PSNR评价指标均优于CG-ResNet9，其中，CG-ResNet9+CBAM在褐斑病、条纹病和稻瘟病3种病害生成中的SSIM相对于CG-ResNet9分别提高0.58%、0.97%和2.29%，PSNR值分别提升2.66%、3.06%和0.41%；CG-ResNet9+LPIPS在3种病害生成中的SSIM相对于CG-ResNet9分别提高2.45%、1.45%和1.27%，PSNR值分别提升0.49%、4.77%和4.38%；而CG-CL在3种病害生成中的SSIM相对于CG-ResNet9分别提升3.15%、3.02%和3.31%，PSNR值分别提升3.47%、10.70%和8.19%。可见，CBAM和LPIPS组合引入到CG-ResNet9网络，所得到的网络相比只有CG-ResNet9以及单独引入CBAM和LPIPS的性能更好，表明CBAM嵌入在生成器中增强网络对水稻病害有效特征的关注，而LPIPS损失的引入对网络产生正向的效果，能够增加网络对病害信息的感知，有效改善生成病害图像的视觉感知效果。

表4 不同结构网络生成水稻叶部病害图像的SSIM和PNSR指标对比

Table 4 Comparison of SSIM and PNSR indexes of rice leaf disease images generated by different structural networks

病害种类	SSIM↑				PSNR/dB ↑
病害种类	CG-ResNet9	CG-ResNet9+CBAM	CG-ResNet9+LPIPS	本研究 CG-CL	CG-ResNet9	CG-ResNet9+CBAM	CG-ResNet9+LPIPS	本研究 CG-CL
褐斑病	0.857	0.862	0.878	0.884	22.511	23.109	22.622	23.293
条纹病	0.827	0.835	0.839	0.852	20.751	21.386	21.741	22.971
稻瘟病	0.786	0.804	0.796	0.812	19.494	19.574	20.347	21.090

为了更直观地展示CBAM和LPIPS损失对生成病害图像质量的作用，图11给出了CG-ResNet9、CG-ResNet9+CBAM、CG-ResNet9+LPIPS和CG-CL的生成病害效果图。对比图11b和图11c可知，加入CBAM后，相较于CG-ResNet9，生成图像的病害特征表观明显增强，病害的特征也更加接近真实的病害效果，但部分图像会出现细节轮廓模糊的现象，病害区域过渡显得不是很自然。对比图11b和图11d可知，感知图像相似度损失LPIPS的引入能改善图像的伪影现象，轮廓细节会更加贴近真实图像，但病害特征较弱或与真实图像有差异，而本研究模型CG-CL生成的图像在病害特征的表观效果和伪影现象的改善上都有很大的提升，更加符合真实的病害图像。结合表4中的数据，CG-CL生成病害图像质量较CG-ResNet9+CBAM、CG-ResNet9+LPIPS有进一步提升，表明CBAM可增强网络对病害区域的局部特征关注，使得网络在训练过程中能够更有效地聚焦于病害特征，学习到病害域与健康域之间的关键信息，同时忽略次要的边缘信息；感知图像相似度损失的引入有助于减少伪影和过度平滑现象的发生概率，进一步提高了生成图像的质量和真实性。通过以上分析可以看出，本研究提出的网络在病害图像生成任务中具有显著优势，能够更好地满足实际应用需求。

显示原图|下载原图ZIP|生成PPT

图11 添加不同模块生成的水稻叶部病害效果

Fig. 11 Effect of rice leaf disease generated by adding different modules

3.2.4　数据增强对病害识别性能的影响

为进一步验证本研究网络生成病害图像样本的有效性，以常用目标检测网络模型YOLOv5s、YOLOv7-tiny、YOLOv8s进行迁移学习训练和性能对比，主要步骤为：1）在真实数据集上分别训练YOLOv5s、YOLOv7-tiny、YOLOv8s这3种模型，得到3种水稻病害检测模型的初始权重；2）利用生成的数据集进行3种模型的迁移学习，得到各自的最终模型；3）从真实数据集中随机抽样出10%的样本数据作为真实数据集和生成数据集的共用测试样本，在迁移学习前后的模型上分别进行测试，比较训练前后的测试结果。表5所示为真实数据集和生成数据集的划分情况。

表5 训练目标检测网络的数据集分布情况

Table 5 Data set distribution of the training target detection network

数据集类型	训练集/张	验证集/张	测试集/张	总数/张
真实数据集	280	80	40	400
增强数据集	280	80	40	400

为定量评估3种模型的性能，采用精确率（Precision, P）、召回率（Recall, R）和平均精度均值（Mean Average Precision, mAP）作为评价指标。表6~表8分别为YOLOv5s、YOLOv7-tiny和YOLOv8s模型在迁移学习前后的具体性能参数对比结果，从表中可以看出，在生成数据集上进行迁移训练后，3种模型对不同叶部病害的识别性能均有提升，这表明本研究提出的数据增强方法是有效的，且具有较强的通用性。如表6所示，相较于使用真实数据集训练的初始模型YOLOv5s，迁移学习后的模型在病害识别的P、R和mAP@0.5上分别从79.7%升至93.8%，从60.4%升至80.9%，从69.1%升至90.1%，分别提升17.69%、33.94%和30.39%，表明生成的数据集有效丰富了原始数据集的多样性，使病害识别模型能够学习到更多的数据分布特征，从而显著提升模型的病害识别性能。

表6 YOLOv5s迁移学习前后水稻叶部病害识别性能

Table 6 Rice leaf disease recognition performance before and after YOLOv5s transfer learning

病害类型	初始模型			迁移训练后模型
病害类型	P/%	R/%	mAP/%	P/%	R/%	mAP/%
褐斑病	78.0	53.9	64.7	94.6	80.0	91.9
条纹病	65.4	45.4	51.5	89.7	64.9	81.0
稻瘟病	95.5	82.0	91.2	97.2	97.7	97.5
综合	79.7	60.4	69.1	93.8	80.9	90.1

表7 YOLOv7-tiny迁移学习前后水稻叶部病害识别性能

Table 7 Rice leaf disease recognition performance before and after YOLOv7-tiny transfer learning

病害类型	初始模型			迁移训练后模型
病害类型	P/%	R/%	mAP/%	P/%	R/%	mAP/%
褐斑病	92.0	91.0	95.0	93.8	98.5	96.9
条纹病	87.0	92.2	95.5	91.9	92.6	97.7
稻瘟病	96.7	97.9	99.3	97.1	100.0	99.6
综合	91.9	93.7	96.6	94.2	97.0	98.1

表8 YOLOv8s迁移学习前后水稻叶部病害识别性能

Table 8 Rice leaf disease recognition performance before and after YOLOv8s transfer learning

病害类型	初始模型			迁移训练后模型
病害类型	P/%	R/%	mAP/%	P/%	R/%	mAP/%
褐斑病	89.8	89.4	94.4	95.2	92.7	96.3
条纹病	83.3	84.1	89.5	91.4	85.0	92.7
稻瘟病	96.5	97.8	97.9	98.4	98.9	98.4
综合	89.9	90.4	93.9	95.0	92.2	95.8

为了直观显示本研究网络生成的病害图像对病害识别效果的影响，图12所示为YOLOv5s模型迁移学习前后在测试样本图像中识别的效果。对比图12b和图12c，可以看出迁移学习后模型较初始模型，改善了原始模型的误检和漏检问题，迁移学习后模型在生成数据集中学习到更多的病害特征分布，模型的泛化性更好，提升了模型的病害整体识别性能。泛化性能的提升说明YOLOv5s模型在生成数据集中的学习到的病害特征与真实的病害特征是高度一致的，进而使得迁移学习后的YOLOv5s模型能够对原模型出现的病害漏检、误检、精度较低的情况得到改善。综上，改进的CycleGAN能在一定程度上模拟真实数据的特征分布，生成多样化的样本，使病害识别模型可学习到更多的病害分布，从而提升模型的泛化能力和鲁棒性，降低了模型的误判率和漏检率，使得目标检测模型具有更稳定和可靠的病害检测性能。

显示原图|下载原图ZIP|生成PPT

图12 YOLOv5s模型的水稻叶部病害识别效果

Fig. 12 Results of rice leaf disease identification of YOLOv5s

4 结论

针对水稻病害检测中存在数据集获取困难、样本不足等问题，本研究提出了一种基于改进CycleGAN的水稻病害数据增强方法。在CycleGAN的生成器中嵌入CBAM，增强网络的特征提取能力，并在损失函数中引入感知图像相似度损失，提升了网络训练的稳定性和生成样本的质量。

使用本研究网络对褐斑病、条纹病和稻瘟病3种水稻病害数据集进行增强，通过人眼直观感受、客观评价指标进行主客观评价，本研究模型在用户感知评价、SSIM和PSNR等指标上均高于原始的CycleGAN模型；并在生成的样本上进行YOLOv5s、YOLOv7-tiny和YOLOv8s迁移训练，在真实样本构成的测试集中获取的精确率、召回率等指标均有显著提升，进一步验证了本研究提出的生成对抗网络生成图像的有效性和真实性，能够有效解决水稻数据集缺乏的问题，可为后续的水稻病害识别提供有效的数据支撑。在后续的研究中将结合实际田间环境开展网络的优化研究。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

王辉, 陈睿鹏, 余志雪, 等. 基于卟啉和半导体单壁碳纳米管的场效应气体传感器检测草莓恶疫霉[J]. 智慧农业(中英文), 2022, 4 (3): 143-151.

WANG

, CHEN

R P

, YU

Z X

, et al. Porphyrin and semiconducting single wall carbon nanotubes based semiconductor field effect gas sensor for determination of phytophthora strawberries[J]. Smart agriculture, 2022, 4(3): 143-151.

2	FUENTES A F, YOON S, LEE J, et al. High-performance deep neural network-based tomato plant diseases and pests diagnosis system with refinement filter bank[J]. Frontiers in plant science, 2018, 9: ID 1162.

3	KUMAR SAHU S, PANDEY M. An optimal hybrid multiclass SVM for plant leaf disease detection using spatial Fuzzy C-Means model[J]. Expert systems with applications, 2023, 214: ID 118989.

4	AHMED I, YADAV P K. Plant disease detection using machine learning approaches[J]. Expert systems, 2023, 40(5): ID e13136.

5	高荣华, 冯璐, 张月, 等. 基于多维随机森林的番茄灰霉病高光谱图像早期检测[J]. 光谱学与光谱分析, 2022, 42(10): 3226-3234. GAO R H, FENG L, ZHANG Y, et al. Early detection of tomato gray mold based on multidimensional random forest hyperspectral image[J]. Spectroscopy and spectral analysis, 2022, 42(10): 3226-3234.

6	FERENTINOS K P. Deep learning models for plant disease detection and diagnosis[J]. Computers and electronics in agriculture, 2018, 145: 311-318.

7	LIAO J, CHEN M H, ZHANG K, et al. SC-Net: A new strip convolutional network model for rice seedling and weed segmentation in paddy field[J]. Computers and electronics in agriculture, 2024, 220: ID 108862.

8	HASSAN S M, MAJI A K. Plant disease identification using a novel convolutional neural network[J]. IEEE access, 2022, 10: 5390-5401.

9	RAHMAN C R, ARKO P S, ALI M E, et al. Identification and recognition of rice diseases and pests using convolutional neural networks[J]. Biosystems engineering, 2020, 194: 112-120.

10	FU G, LIU C, ZHOU R, et al. Classification for high resolution remote sensing imagery using a fully convolutional network[J]. Remote sensing. 2017, 9(5): ID 498.

11	SOEB M J A, JUBAYER MF. TARIN T A,et al. Tea leaf disease detection and identification based on YOLOv7 (YOLO-T)[J]. Scientific reports, 2023, 13: ID 6078.

12	崔金荣, 魏文钊, 赵敏. 基于改进MobileNetV3的水稻病害识别模型[J]. 农业机械学报, 2023, 54(11): 217-224, 276. CUI J R, WEI W Z, ZHAO M. Rice disease identification model based on improved MobileNetV3[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(11): 217-224, 276.

13	PASALKAR J, GORDE G, MORE C, et al. Potato leaf disease detection using machine learning[J]. Current agriculture research journal, 2023; 11(3): 949-954.

14	CUBUK E D, ZOPH B, MANE D, et al. AutoAugment: Learning augmentation strategies from data[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 113-123.

15	CONG W Y, ZHANG J F, NIU L, et al. DoveNet: Deep image harmonization via domain verification[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 8394-8403.

16	HONG Y J, HWANG U, YOO J, et al. How generative adversarial networks and their variants work[J]. ACM computing surveys, 2020, 52(1): 1-43.

17	GUO H L, LI M Y, HOU R Z, et al. Sample expansion and classification model of maize leaf diseases based on the self-attention CycleGAN[J]. Sustainability, 2023, 15(18): ID 13420.

18	HU G S, WU H Y, ZHANG Y, et al. A low shot learning method for tea leaf's disease identification[J]. Computers and electronics in agriculture, 2019, 163: ID 104852.

19	李天俊, 杨信廷, 陈晓, 等. 基于生成对抗网络和视觉-语义对齐的零样本害虫识别方法[J]. 智慧农业(中英文), 2024, 6(2): 72-84. LI T J, YANG X T, CHEN X, et al. Zero-shot pest identification based on generative adversarial networks and visual-semantic alignment[J]. Smart agriculture, 2024, 6(2): 72-84.

20	ABBAS A, JAIN S, GOUR M, et al. Tomato plant disease detection using transfer learning with C-GAN synthetic images[J]. Computers and electronics in agriculture, 2021, 187: ID 106279.

21	ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2223-2232.

22	BARTH R, HEMMING J, VAN HENTEN E J. Optimising realism of synthetic images using cycle generative adversarial networks for improved part segmentation[J]. Computers and electronics in agriculture, 2020, 173: ID 105378.

23	VAN MARREWIJK B M, POLDER G, KOOTSTRA G. Investigation of the added value of CycleGAN on the plant pathology dataset[J]. IFAC-papers on line, 2022, 55(32): 89-94.

24	GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: A survey[J]. Computational visual media, 2022, 8(3): 331-368.

25	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018: 3-19.

26	ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017: 1125-1134.

27	ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 586-595.

28	ZHAI G, MIN X. Perceptual image quality assessment: A survey[J]. Science China information sciences, 2020, 63: 1-52.

29	韩烨, 侯睿峥, 陈霄. 基于循环一致对抗网络的玉米灰斑病图像迁移方法研究[J]. 中国农机化学报, 2023, 44(2): 163-171. HAN Y, HOU R Z, CHEN X. Research on images migration method of maize gray disease based on cyclic consistent adversarial network[J]. Journal of Chinese agricultural mechanization, 2023, 44(2): 163-171.

30	WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE transactions on image processing, 2004, 13(4): 600-612.

31	KORHONEN J, YOU J Y. Peak signal-to-noise ratio revisited: Is simple beautiful?[C]// 2012 Fourth International Workshop on Quality of Multimedia Experience. Piscataway, New Jersey, USA: IEEE, 2012: 37-38.

32	KIM J, KIM M, KANG H, et al. U-GAT-IT: Unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[EB/OL]. arXiv: 1907.10830, 2019.

33	CAP Q H, UGA H, KAGIWADA S, et al. LeafGAN: An effective data augmentation method for practical plant disease diagnosis[J]. IEEE transactions on automation science and engineering, 2022, 19(2): 1258-1267.

34	WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 11534-11542.

35	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021: 13713-13722.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 数据与材料

图1 水稻叶部健康、病害样本示例

表1 训练生成对抗网络的数据集分布情况

2 水稻病害图像生成网络设计

2.1 循环生成对抗网络

图2 CycleGAN结构

2.2 改进的CycleGAN网络

2.2.1 生成器设计

图3 生成器网络结构

图4 CBAM残差注意力模块结构

图5 CAM和SAM原理结构图

2.2.2 判别器设计

图6 判别器网络结构

2.2.3 损失函数的优化

图7 感知图像相似度损失计算原理

2.3 评价指标

3 实验与结果

3.1 实验平台和参数设置

3.2 实验结果与分析

3.2.1 不同网络性能对比实验

图8 不同网络生成的水稻叶部病害图像示例

图9 不同网络生成水稻叶部病害图像的UPE值

表2 不同网络生成水稻叶部病害图像的SSIM和PNSR指标对比

3.2.2 不同注意力机制对网络性能的影响

图10 不同注意力机制网络生成的水稻叶部病害效果

表3 不同注意力机制网络生成水稻叶部病害图像的SSIM和PNSR指标对比

3.2.3 消融实验与分析

表4 不同结构网络生成水稻叶部病害图像的SSIM和PNSR指标对比

图11 添加不同模块生成的水稻叶部病害效果

3.2.4 数据增强对病害识别性能的影响

表5 训练目标检测网络的数据集分布情况

表6 YOLOv5s迁移学习前后水稻叶部病害识别性能

表7 YOLOv7-tiny迁移学习前后水稻叶部病害识别性能

表8 YOLOv8s迁移学习前后水稻叶部病害识别性能

图12 YOLOv5s模型的水稻叶部病害识别效果

4 结 论

利益冲突声明

参考文献

0 引言

2.1　循环生成对抗网络

2.2　改进的CycleGAN网络

2.2.1　生成器设计

2.2.2　判别器设计

2.2.3　损失函数的优化

2.3　评价指标

3.1　实验平台和参数设置

3.2　实验结果与分析

3.2.1　不同网络性能对比实验

3.2.2　不同注意力机制对网络性能的影响

3.2.3　消融实验与分析

3.2.4　数据增强对病害识别性能的影响

4 结论