Welcome to Smart Agriculture 中文

Domain Generalization Method of Strawberry Disease Recognition Based on Instance Whitening and Restitution

  • HU Xiaobo , 1 ,
  • XU Taosheng , 2 ,
  • WANG Chengjun 1 ,
  • ZHU Hongbo 1 ,
  • GAN Lei 1
Expand
  • 1. School of Artificial Intelligence, Anhui University of Science and Technology, Huainan 232001, China
  • 2. Hefei Institutes of Physical Science, Chinese Academy of Science, Hefei 230031, China
XU Taosheng, E-mail:

HU Xiaobo, E-mail:

Received date: 2024-10-30

  Online published: 2025-01-22

Supported by

Scientific Research Foundation for High-level Talents of Anhui University of Science and Technology(2024yjrc05)

National Natural Science Foundation of China(62003001)

University-Level Key Projects of Anhui University of Science and Technology(XCZX2021-01)

Abstract

[Objective] Strawberry disease recognition models based on deep neural networks generally assume that the training (source domain) and the test (target domain) datasets are identically and independently distributed. However, in practical applications, due to the influence of illumination, background and strawberry variety, the target domain often exhibits significant domain shift from the source domain. The domain shift result in accuracy decline of the models in target domain. To address this problem, a domain generalization method based on instant whitening and restitution (IWR) is proposed to improve the generalization performance of strawberry disease identification models in this paper. [Methods] Samples from different source often exhibit great domain shift due to variations in strawberry varieties, regional climate, and photography methods. Therefore, a dataset was constructed for domain generalization research on strawberry disease using two distinct approaches. The first dataset was acquired using a Nikon D810 camera at multiple strawberry farms in Changfeng county, Anhui province, with a fixed sampling schedule and fixed camera distance. In contrast, the second dataset was an open-source collection, primarily comprising images captured using smartphones in multiple strawberry greenhouses in Korea, with varied and random shooting distances and angles. The IWR module mitigated style variations (e.g., illumination, color) through instance whitening, where features were normalized to reduce domain discrepancies between the datasets. However, such operation was task-ignorant and inevitable removed some task-relevant information, which may be harmful to classification performance of the models. To remedy this, the removed task-relevant features were attempted to recover. Specifically, two modules were designed to extract task-relevant and task-irrelevant feature from the filtered style features, respectively. A dual restitution loss was utilized to constraint the modules' feature correlation between the task and a mutual loss was used to ensure the independence of the features. In addition, a separation optimization strategy was adopted to further enhance the feature separation effect of the two modules. [Results and Discussions] The F1-Score was adopted as evaluation metrics. A series of ablations studies and comparative experiments were conducted to demonstrate the effectiveness of the proposed IWR. The ablation experiments proved that the IWR could effectively eliminate the style variations between different datasets and separate task-relevant feature from the filtered style features, which could simultaneously enhance model generalization and discrimination capabilities. The recognition accuracy increased when IWR pluged to AlexNet, GoogLeNet, ResNet-18, ResNet-50, MobileNetV2 and MobileNetV3. It demonstrates that the proposed IWR was an effective way to improve the generalization of the models. Compared with other domain generalization methods such as IBNNet, SW and SNR, the generalization performance of the proposed algorithm on test datasets could be improved by 2.63%, 2.35% and 1.14%, respectively. To better understand how IWR works, the intermediate feature maps of ResNet-50 without and with IWR were compared. The visualization result showed that the model with IWR was more robust when the image style changed. These results indicated that the proposed IWR achieves high classification accuracy and boosts the generalization performance of the models. [Conclusions] An instance whitening and restitution module was presented, which aimed to learn generalizable and discriminative feature representations for effective domain generalization. The IWR was a plug-and-play module, it could be inserted into existing convolutional networks for strawberry disease recognition. Style normalization and restitution (SNR) reduced the style information through instance whitening operation and then restitutes the task-relevant discriminative features caused by instance whitening. The introduced dual restitution loss and mutual loss further facilitate the separation of task-relevant and task-irrelevant feature. The schemes powered by IWR achieves the state-of-the-art performance on strawberry disease identification.

Cite this article

HU Xiaobo , XU Taosheng , WANG Chengjun , ZHU Hongbo , GAN Lei . Domain Generalization Method of Strawberry Disease Recognition Based on Instance Whitening and Restitution[J]. Smart Agriculture, 2025 : 1 -12 . DOI: 10.12133/j.smartag.SA202411016

0 引 言

草莓被誉为“果中皇后”,富含多种维生素、矿物质和微量元素,具有较高的营养和经济价值。此外,其果肉鲜美、香味浓郁,备受人们喜爱,是全球主要经济作物之一。中国自2010年起就成为世界草莓生产第一大国。根据国家统计局数据显示,2022年中国草莓种植面积为1 407.87 km2,年产量达到3.98 ×109 kg。草莓产业已成为中国多地的支柱性产业。但草莓在整个种植过程中易受到各类病原体侵入,导致产量和品质下降1。病害已成为制约草莓产业可持续健康发展的主要因素2, 3。因此,及时、准确地识别病害类别对病害精准防治、降低种植风险,以及促进中国草莓产业健康发展至关重要。
当前,中国的农作物病害识别主要依赖人工观察病灶部位的颜色、纹理形状、大小、位置等形态学特征。这种方法对调查人员的专业知识和实践经验有较高要求,且存在效率低、主观性强等缺点,已无法满足中国草莓产业规模化、现代化的发展需求。近年来,随着计算机视觉技术的发展,一些自动病害识别方法被提出。根据特征选择方式可以分为两大类。第一类是基于手工特征提取的方法,该方法一般先通过颜色空间变换、方向梯度直方图、灰度共生矩阵等传统视觉方法提取病斑特征,再以这些特征为基础构建分类器得到分类结果4-6。尽管部分研究取得了很好的识别效果,但区分病斑特征通常需要根据任务人为选择,因此所构建的病害识别模型泛化性能较差。第二类是基于卷积神经网络的病害识别方法,这类方法通过卷积运算自动提取颜色、纹理、形状、位置等病灶特征7-9。卷积神经网络还能提取更加抽象的语义特征。因此,这类方法的分类精度和泛化性能优于基于手工特征的传统计算机视觉方法10, 11。然而,这类方法的识别性能很大程度上依赖于训练数据集的规模和多样性,且要求模型的训练集和测试集满足独立同分布,当该条件不满足时模型泛化性能会出现退化。如Mohanty等12基于GoogLeNet构建的病害识别模型在PlantVillage数据集上的识别精度高达99.35%,而实际应用场景下的识别精度仅为31%。在农业生产应用中受到光照、环境温湿度、品种、生长阶段、背景条件、拍摄角度等因素的影响,训练集与测试集独立同分布的假设是无法保证的。因此,研究如何缩小模型训练集与测试集间分布差异对提升模型领域泛化性能、实现病害识别模型的生产应用具有重要意义。
在提升模型泛化性能的研究中,习惯称模型训练数据集为源域,测试数据集为目标域。当前缩小源域和目标域差异的研究主要集中于两类方法:领域适应方法和领域泛化方法13。二者的区别在于模型训练时目标域数据是否能够被获取,领域适应方法假设目标域数据是可以被获取的(但标签未知),而领域泛化方法假设目标域数据及其标签都是未知的。实践中目标域数据分布通常是未知的,因此研究目标域未知情况下的领域泛化方法更具应用价值。
领域泛化研究开始于Gilles和Clayton14使用流式细胞术自动诊断血液疾病。他们在研究中发现由于生物学和技术上的不同,每个病人的病理数据是变化的(即不同病人间的数据存在领域差异),导致在历史病人病理数据上训练的模型很难应用于新病例的病理诊断。尽管如此,这些病理数据中仍然存在着某些一般性规律。例如,淋巴细胞表现出低水平的“侧面散射”和高水平的CD45属性。因此,利用领域间的一般性特征(领域不变特征)构建分类器是提升模型的泛化能力的有效手段。此后,领域泛化算法研究逐渐成为机器学习领域的热点,众多领域泛化算法被提出。基于表征学习和风格归一化是其中最具代表性的方法。基于表征学习的领域泛化方法旨在通过对齐源域和目标域的特征分布迫使模型学习领域不变特征,提升模型对不可见域的泛化性能。常用的特征对齐方法有多域迁移成分分析法(Multi-Transfer Component Analysis, Multi-TCA)15、最大均值差异(Maximum Mean Discrepancy, MMD)16和相关性对齐(Correlation Alignment, CORAL)17。基于风格归一化的领域泛化方法认为图像风格是引起领域差异的主要原因,如果一种变换能够消除图像风格或将图像变成统一的风格,则该变换就能提升模型的领域泛化性能18。图像风格迁移领域的研究19-21发现一张图像风格信息主要包含在特征均值、方差和协方差中,因此通过变换使这些值变得相同就能消除图像间的风格差异。实例归一化(Instance Normalization, IN)和实例白化(Instance Whitening, IW)是常用的特征规范化方法均具有良好的风格去除能力22-24。Pan等19将神经网络浅层中的批归一化(Batch Normalization, BN)替换为IN,并构建了一个具有良好泛化性能的网络IBN-Net(Instance Batch Normalization Net)。但IBN-Net中IN和BN数量是手工设计并非最优。为更合理地在卷积神经网络中引入外观不变性以及增强网络对不同任务的适应性,Pan等20将IW、批白化(Batch Whitening, BW)、层归一化(Layer Normalization, LN)、IN和BN统一为一种通用形式:可切换白化(Switchable Whitening, SW)。SW可根据任务自动选择合适的白化或标准化方法实现风格特征消除,增强模型对未知领域的适应能力。尽管BW、IW和IN引入了外观不变性,但它们都是以损失特征均值和标准差为代价的,因此会降低特征的类别区分度,导致模型在源域上的分类精度下降。为减轻风格归一化过程中特征区分性信息的损失,Jin等22设计了一种样式归一化和恢复模块(Style Normalization and Restitution, SNR),尝试从IN滤除的风格特征中恢复任务相关的区分性信息,在增强模型泛化能力的同时保留了模型的判别力。
为提升基于深度神经网络的草莓病害识别模型的泛化性能,加快模型应用于生产实践的步伐,本研究以6种常见草莓病害为研究对象,从风格归一化的领域泛化方法研究中得到启发,设计了一种基于实例白化与特征恢复(Instance Whitening and Restitution, IWR)的领域泛化方法。该方法的设计思想是,首先利用IW消除不同病害图像中的风格特征(亮度、颜色、背景等),减小源域和目标域图像间的特征分布差异;再从去除的风格特征中恢复任务相关特征,以减轻IW对特征类别区分度的影响。该研究有效提升了基于深度神经网络的草莓病害识别模型的泛化性能,为构建精准、可靠的病害识别模型奠定了基础。

1 图像采集与数据集的建立

由于草莓品种、地区气候和拍摄方式等差异,不同来源的数据往往存在较大的领域差异。因此,通过两种方式构建用于领域泛化研究的草莓病害数据集(Domain Generalization Dataset for Strawberry Disease Recognition, DGSR)。
1)田间采集。在安徽省长丰县水湖镇、岗集镇、罗塘乡的多个草莓园,使用尼康D810相机(分辨率像素设置为4 800×3 200)在草莓不同生长期的早晨(6∶00—8∶00)、中午(11∶00—13∶00)、傍晚(16∶30—18∶30)以及晴天、阴天、雨天分别拍摄6类草莓病害的1 890幅图像,拍摄角度为草莓正面、侧面20~50 cm,其草莓品质主要为红颜和白雪公主,该数据集记为DGSR1。
2)开源数据集。采用Afzaal等25于2021年在Kaggle上公开的草莓病害数据集(https://www.kaggle.com/datasets/usmanafzaal/strawberry-disease-detection-dataset),选择其中6类草莓病害的2 292幅图像(分辨率像素为419×419),该数据集主要通过智能手机在韩国的多个草莓大棚中采用随机拍摄距离和角度拍摄,记为DGSR2。表1列出了两个数据集各类病害的详细信息。
表1 草莓病害领域泛化数据集的详细信息

Table 1 Details of domain generalization dataset for strawberry disease recognition

类别标签 病害类别 DGSR1数量/幅 DGSR2数量/幅 合计/幅
0 细菌性叶斑病 509 435 944
1 炭疽病(果实) 121 97 218
2 灰霉病(果实) 396 477 873
3 蛇眼病 312 615 927
4 白粉病(果实) 145 135 280
5 白粉病(叶子) 407 533 940
共计 6类 1 890 2 292 4 182
图1为不同来源领域泛化数据集的典型示例,从中可以看出DGSR1与DGSR2中的样本在背景、拍摄角度、光照度、草莓品种等方面都存在一定的差异,两数据集间领域差异量化比较详见3.3节。
图 1 DGSR数据集草莓病害示例

Fig. 1 Examples of strawberry disease in DGSR dataset

2 基于实例白化与特征恢复的草莓病害识别领域泛化方法

2.1 实例白化与特征恢复模块

本研究提出一种基于实例白化与特征恢复的草莓病害识别领域泛化方法,该方法主要由一个IWR模块构成,其结构如图2所示。该模块可作为一个即插即用的组件用于任何分类、目标检测和语义分割的网络中,结构如图3所示。
图2 IWR模块结构图

Fig. 2 The framework of IWR module

图3 IWR模块插入骨干网络中

注:图中的带下划线的文字表示模型识别结果。

Fig. 3 The IWR modules being plugged in the backbone network

假设 F R N × C × H × WNCHW分别是样本数、特征通道数、特征高和宽)是骨干网络某一中间层的输出特征,本研究所构建IWR模块首先通过IW操作得到白化后特征 F I W F R = F - F I W是白化去除的风格特征;然后,特征提取器 E T R F E T I F分别从风格特征 F R中提取任务相关特征 F T R和任务无关特征 F T I;最后,将 F T R F T I分别加入 F I W,得到增加的白化特征 F I W + = F I W + F T R和削弱的白化特征 F I W - = F I W + F T I F I W +作为IWR的结果,输出至下一层。在模型训练过程中,使用文献[22]所提出的双段恢复损失 L D R监督 F T R F T I与任务的相关性。 D R原理如图4所示,其核心思想是恢复了任务相关特征的 F I W +类别区分度应高于 F I W,而加入任务无关特征的 F I W -类别区分度应低于 F I W,特征的类别区分度可通过计算对应信息熵来进行表示。此外,构建互信息估计器 Φ估计 F T R F T I的互信息值,通过最小化二者间的互信息损失 M I使 F T R F T I相互独立,提高 E T R F E T I F F R中分离任务相关特征的能力。
图 4 双段恢复损失实现原理图

Fig.4 The implementation diagram of dual restitution loss

2.2 IW去除风格特征

不同场景下拍摄的病害图像由于作物品种、生长阶段、环境温湿度、拍摄角度、光照,以及病害严重程度的不同,同一病害在图像中所表现的视觉风格特征(如亮度、饱和度、颜色、纹理等)可能存在较大差异。这种风格差异会降低病害识别模型的泛化性能。
研究表明特征通道的均值、标准差和协方差矩阵编码了图像亮度、颜色、纹理等风格信息18。如果将模型提取的所有图像特征图的均值、标准差和协方差均值变得相同,就可以消除这些图像在风格上的差异,提升病害识别模型的领域泛化性能19, 20, 22。IN标准化了特征图各通道的分布,可消除不同样本在各特征通道的风格差异;IW通过白化变换不仅实现了特征图各通道的标准化,还消除了特征图通道间的相关性,可更有效地去除特征图中的风格特征。因此,IWR先通过IW去除特征图中的风格特征,减小样本间的领域差异。
假设 F n R C × H × W是样本 n的特征图,其白化的标准计算如公式(1)所示。
F I W = Σ n - 1 2 F n - μ n 1 T
式中: μ n R C F n各通道均值组成的行向量; Σ n R C × C F n的协方差矩阵; 1 R 1 × H W是全1的列向量。 μ n Σ n分别如公式(2)公式(3)所示。
μ n = μ n , 1 , μ n , 2 , , μ n , C
Σ n = 1 H W F n - μ n 1 T F n - μ n 1 T T
μ n , i = 1 H W h = 1 H w = 1 W F n , i , h , w
式中: μ n , i为样本 n i个通道的均值。
数学上通过 Σ n的特征分解得到 Σ n - 1 2,即假设 Σ n的特征分解是 Q Λ Q T,其中 Λ = d i a g λ 1 , λ 2 , , λ C Q分别是 Σ n特征值组成的对角矩阵及其对应特征向量组成的特征矩阵。 Σ n - 1 2的计算如公式(5)
Σ n - 1 2 = Q Λ - 1 2 Q T
可以看出,标准白化计算需要通过对 Σ n执行特征分解得到。然而,特征分解计算成本高、运算效率低会使模型的训练和推理速度明显下降。为提高白化变换计算效率,参考文献[24],本研究采用牛顿迭代法计算 Σ n - 1 2,先通过公式(6)到归一化的协方差矩阵 Σ ¯ n,再由公式(7)的迭代算法计算 Σ n - 1 2
Σ ¯ n = Σ n t r Σ n   
P 0 = I P k = 1 2 3 P k - 1 - P k - 1 3 Σ ¯ n ,      k = 1,2 , , K
式中: I为单位矩阵;P为迭代矩阵。 K为迭代次数。 Σ n - 1 2的最终如公式(8)所示。
Σ n - 1 2 = P K - 1 2 t r Σ
文献[24]指出,当 K=5时,牛顿迭代法结果与特征分解效果相同。IWR中第 n个样本特征图 F n的白化变换如公式(9)所示。
F I W = γ P 5 - 1 2 F n - μ n 1 T t r Σ + β
式中: γ β均为可学习参数,用于增强归一化后特征的表示能力。

2.3 特征恢复保留任务相关特征

IW通过特征图协方差矩阵的单位对角化,使特征图标准化、消除通道间关联性,最终实现去除风格特征的目标。然而,在此过程中不可避免地造成部分任务相关的区分性信息损失,造成模型识别精度下降。为此,IWR通过构建特征提取器 E T R F E T I F分别从去除的风格特征 F R = F - F I W中提取任务相关特征 F T R和任务无关的特征 F T I,如公式(10)公式(11)所示。
F T R = E T R F F R
F T I = E T I F F R
F T R F T I分别加入白化特征 F I W得到增强的白化特征 F I W +和削弱的白化特征 F I W -,如公式(12)公式(13)所示。
F I W + = F I W + F T R  
F I W - = F I W + F T I  
E T R F E T I F的详细信息如表2所示。其中, E T R F采用5×5的卷积核,使特征提取器有足够大的感受野感知风格特征中的任务相关特征。
表2 任务相关特征提取器 E T R F和任务无关特征提取器 E T I F详细信息

Table 2 Implementation details of E T R F and E T I F

E T R F提取任务相关特征 E T I F提取任务无关特征

Conv 5×5×128,

stride=1, padding 2

Conv 3×3×128,

stride=1, padding 1

Instance Normalization, ReLU Instance Normalization, ReLU

Conv 5×5×128,

stride=1, padding 2

Conv 3×3×128,

stride=1, padding 1

Instance Normalization, ReLU Instance Normalization, ReLU

Conv 5×5×128,

stride=1, padding 2

Conv 3×3×128,

stride=1, padding 1

Instance Normalization, Sigmoid Instance Normalization, Sigmoid
在模型训练阶段,采用双段恢复损失 D R监督 F T R F T I与任务的相关性,通过最小化二者间的互信息损失 M I使 F T R F T I相互独立。实验结果表明, D R M I可最大程度确保 E T R F F R中恢复任务相关特征。

2.4 损失函数

为了有效地从IW去除的风格特征中恢复任务相关特征,保证在不损失特征类别区分度的情况下,提升模型的泛化性能。本研究采用分类损失、双段恢复损失和互信息损失对模型进行优化,损失函数形式如公式(14)所示。
t o t a l = c l s + D R + M I
式中: c l s是交叉熵损失; D R是双段恢复损失; M I是互信息损失。
下面对双段恢复损失 D R和互信息损失 M I做详细介绍。
1)双段恢复损失[34] D R的作用是监督 F T R F T I与任务的相关性,其设计思想是经IWR增强的白化特征 F I W + = F I W + F T R和削弱的白化特征 F I W - = F I W + F T I与原特征 F I W相比, F I W +类别区分度应高于 F I W F I W类别区分度应高于 F I W -(如图4所示)。因此, F I W +的信息量小于 F I W的信息量,而 F I W的信息量小于 F I W -的信息量。采用信息熵 H = - p l o g p 来度量特征图中的信息量,得到双段恢复损失,如公式(15)~公式(17)所示。
D R = D R + + D R -
D R + = S o f t p l u s H φ F I W + - H φ F I W
D R - = S o f t p l u s H φ F I W - H φ F I W -
式中: S o f t p l u s ( ) = l n   1 + e x p   是单调递增的函数; φ 为分类头(平均池化层+全连接层+Softmax层)。
公式(16)公式(17)通过比较恢复前后特征所包含的信息量, D R +将促使恢复 F T R后的特征类别区分度提高, D R -将使得恢复 F T I后的类别区分度较恢复前降低,从而促使 F T R包含任务相关特征、 F T I包含任务无关特征。显然, D R最小化可同时促进 E T R F提取任务相关特征 F T R以及 E T I F提取任务无关特征 F T I
2)互信息损失。互信息是衡量两变量间相关性的重要指标。对于随机变量 X Z,二者间的互信息定义如公式(18)所示。
I X ; Z = X × Z l o g   d X Z d X Z d X Z
式中:I为随机变量XZ直接的互信息。 X Z为联合分布; X = Z d X Z X的边缘分布; Z = X d X Z Z的边缘分布。
针对应用过程中变量间互信息难于计算问题,文献[26]指出可以通过一个基于卷积神经网络的互信息估计器 Φ估计两变量间的互信息,即公式(19)
I ( X ; Z ) = 1 M i = 1 M Φ ( x i , z i ) - l o g 1 M i = 1 M e Φ x i , z ¯ i
式中: M为样本个数,个; ( x i , z i )为取自联合分布 X Z的样本; z ¯ i为取自边缘分布 Z的样本。
本研究使用包含三个全连接层的网络构建互信息估计器 Φ,具体信息如表3所示。
表3 互信息估计器 Φ的详细信息

Table 3 Implementation details of mutual information estimator Φ

互信息估计器 Φ
FC1 128×128, FC2 128×128
FC3 128×1
F T R F T I间的互信息损失如公式(20)所示。
M I = I F T R ; F T I
显然,在 D R的作用下可促使 F T R包含任务相关特征、 F T I包含任务无关特征,通过最小化 M I可进一步拉开 F T R F T I间的距离,促使 F T R包含更多的任务相关特征。

2.5 优化策略

为了增强模型从风格特征中提取任务相关特征和任务无关特征的能力,同时确保二者间的独立性,本研究采用分离优化策略对病害识别模型进行训练,其详细训练流程如表4算法1所示。
表4 IWR模型训练流程

Table 4 Training process of IWR

算法 1 分离优化算法

Input:输入样本集(X,Y);骨干网络 E b;任务相关特征提取器 E T R F;任务相关特征提取器 E T I F;互信息估计器 Φ

Output:骨干网络 E ̂ b;任务相关特征提取器 E ̂ T R F;任务相关特征提取器 E ̂ T I F;互信息估计器 Φ ̂

1

While 模型不收敛 do

2

从(X,Y)选取一批样本;

3

特征类别区分度优化:

4

固定互信息估计器 Φ参数;

5

计算损失 L f d = L c l s + L D R

6

通过 L f d更新 E b E T R F E T I F

7

特征独立性优化:

8

固定骨干网络 E b参数;

9

计算损失 L f i = L M I + L D R

10

通过 L f i更新 Φ E T R F E T I F

11

End

12

return E ̂ b = E b E T R F = E ̂ T R F E T I F = E ̂ T I F

2.6 实验环境与评价指标

2.6.1 实验设置与环境

本研究提出的基于实例白化与特征恢复的草莓病害识别算法在第1节所构建的DGSR数据集上验证其泛化性能,将DGSR1上训练得到的模型,在DGSR2上的测试结果记为DGSR1→DGSR2;同理,将DGSR2上训练得到的模型,在DGSR1上的测试结果记为DGSR2→DGSR1。由于DGSR1和DGSR2中部分类别样本数量较小,在模型训练过程中采用5折交叉验证方式进行数据集划分。例如,在DGSR1上训练模型时,首先将DGSR1划分为5等份,共进行5次实验,每次从中选择4份作为训练集,1份作为验证集(保证每次实验所用的验证集互不相同);然后将验证集上表现最佳的模型在测试集DGSR2中的测试结果作为该次实验的结果;最后,取5次实验结果的平均值作为模型的最终预测结果。
模型训练过程中采用随机梯度下降算法(Stochastic Gradient Descent, SGD)进行参数优化,其初始学习率、动量和权重衰减分别被设置为1 e - 3、0.9和1 e - 4。所有模型均在ILSVRC 201227上进行预训练,之后在DGSR数据集上训练60个epoch,每隔20个epoch更新一次学习率,学习率更新为前一次的0.1倍。每批次训练64张图像,每张图像像素尺寸被缩放至224 ×224。
本研究所构建的所有算法均在PyTorch 1.9.0框架下实现,在一台硬件环境为Xeon W-2200处理器、NVIDIA GeForce RTX 3090 GPU,软件环境为CUDA 11.3、CUDNN 7.6.4、Ubuntu 18.04操作系统的工作站上执行所有模型的训练和测试。

2.6.2 评价指标

在图像识别任务中,通常采用准确率( A c c u r a c y)、精确率(查准率, P r e c i s i o n)、召回率(查全率, R e c a l l)和 F 1 S c o r e作为模型分类性能评估指标,其计算分别为公式(21)~公式(24)所示。
A c c u r a c y = 1 N c i = 1 N c T P i + T N i T P i + F P i + T N i + F N i
P r e c i s i o n = 1 N c i = 1 N c T P i T P i + F P i
R e c a l l = 1 N c i = 1 N c T P i T P i + F N i
F 1 S c o r e = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l
式中: N c是类别数; T P i是正确识别为类别 i的样本数; T N i是正确识别为非类别 i的样本数; F P i是错误识别为类别 i的样本数; F N i是错误识别为非类别 i的样本数。
一般情况下,准确率、精确率和召回率越高表示模型性能越好。但精确率和召回率是相互矛盾的两个指标。当不同模型在这两个指标上相互冲突时就很难判断哪个模型性能更优。因此,本研究采用 F 1 S c o r e作为评价病害识别模型性能的指标。

3 结果与分析

3.1 消融实验

本节通过3组实验分析不同特征分离方法、双段恢复损失、不同Stage加入IWR对模型泛化性能的影响。所有实验均以ResNet-50为骨干网络。

3.1.1 不同特征分离方法

如2.3节所述, I W R通过两个特征提取器 E T R F E T I F从风格特征 F R中分离任务相关特征 F T R和任务无关特征 F T I。本小节研究不同特征分离方法对模型泛化性能的影响。 I W R T R表示仅使用 E T R F F R中提取 F T R I W R R - T R表示不使用特征提取器提取任务无关特征,直接通过风格特征与任务相关特征的差值分离任务无关特征,即 F T I = F R - F T R I W R - M I表示 I W R不使用互信息损失 M I迫使 F T R F T I相互独立。此外, I W R a t t e n表示使用文献[22]所提出的通道注意力方法分离 F T R F T I。实验结果如表5所示,从中可以得出如下结果。
表5 不同特征分离方法领域泛化性能比较

Table 5 Comparison results of domain generalization performance of different style normalization methods

方法 F 1-Score/%
DGSR1 DGSR2 DGSR2 DGSR1
I W R T R 67.75 66.62
I W R R - T R 68.32 67.89
I W R - M I 68.01 66.63
I W R a t t e n 68.64 68.12
I W R 69.46 68.97
I W R较次优的 I W R a t t e n在DGSR2和DGSR1上的测试精度分别高0.82%和0.85%,说明基于通道注意力的特征恢复方法不足以从白化后的风格特征中恢复足够丰富的任务相关特征。
②IWR比 I W R R - T R在DGSR2和DGSR1上的测试精度分别高1.14%和1.08%,表明风格特征不能简单地分为任务相关和任务无关特征,部分特征与任务的关联性可能模糊的,因此使用 E T I F从风格特征中提取任务无关信息是必要的。
I W R - M I I W R T R在两个数据集上的泛化性能基本没有差别,这表明仅通过 D R并不能保证 F T R F T I的独立性,加入 M I将有助于增强 F T R的任务相关性以及 F T I的任务无关性,迫使 E T R F从白化后的特征中提取足够多的任务相关特征。

3.1.2 双段恢复损失的有效性

表6展示了双段恢复损失 D R对IWR模块泛化性能的影响。可以看出:
表 6 双段恢复损失的消融实验结果

Table 6 Results of ablation experiment on dual restitution loss

方法 F 1-Score/%
DGSR1 DGSR2 DGSR2 DGSR1
ResNet-50 66.65 65.15
IWR w/o L D R 66.81 65.53
IWR w/o L D R - 68.63 68.27
IWR w/o L D R + 67.96 66.92
IWR 69.46 68.97
①不使用双段恢复损失的IWR(即IWR w/o D R)与基准网络(ResNet-50)在两数据集上的泛化性能仅有小幅提升,这表明缺少 D R的监督是无法保证 E T R F E T I F提取特征与任务关联性的。
②最终的IWR较不使用 D R监督的IWR在DGSR2和DGSR1上的测试精度分别上升2.65%和3.44%,这说明 D R能够促进 E T R F E T I F从去除的风格特征中提取任务相关和任务无关特征。除此之外, D R + D R -均有助于IWR从风格特征中恢复任务相关特征,且 D R +的作用更加明显。

3.1.3 不同Stage加入IWR

比较在ResNet-50不同Stage加入IWR模块(如图3所示)对模型病害识别领域泛化性能的影响。实验结果如表7所示,可以看出,IWR对插入模型的位置不敏感,任一Stage加入IWR均能提高模型泛化性能。此外,所有Stage均加入IWR的模型具有最佳的泛化性能。
表7 不同Stage加入IWR对Resnet泛化性能影响

Table 7 Generalization performance of adding IWR to different stages of ResNet

方法 F 1-Score/%
DGSR1 DGSR2 DGSR2 DGSR1
Stage 1 67.54 65.81
Stage 2 67.75 66.35
Stage 3 67.91 66.76
Stage 4 68.19 67.48
Stage 5 68.72 68.39
IWR (All Stage) 69.46 68.97

3.2 模型性能对比

3.2.1 对不同病害识别模型领域泛化性能提升

表8展示了六种经典卷积神经网络以及加入IWR后在DGSR数据集上的领域泛化性能。可以看出,尽管所有模型在源域上的识别精度均超过90%,但由于源域和目标域间的领域差异,在目标域上的识别精度均出现大幅下降,如MobileNetV2在DGSR2验证集上的精度高达97.29%,在目标域DGSR1上的测试结果仅为62.55%,精度下降超34.74个百分点;加入IWR后基本不会影响模型在源域上的识别精度,甚至小幅提升了模型精度;在目标域数据集上加入IWR后的模型泛化性能均有较大幅度提升,如在DGSR1上训练的AlexNet在DGSR2上的测试精度上升3.97%个百分点、在DGSR2上训练的AlexNet在DGSR1上的测试精度上升2.79%个百分点。
表8 IWR对不同网络领域泛化性能提升效果对比

Table 8 Comparison results of IWR domain generalization performance improvement for different networks

方法 F 1-Score/%
DGSR1 DGSR2 DGSR2 DGSR1
DGSR1 DGSR2 DGSR2 DGSR1
AlexNet 90.90 62.12 95.39 62.25
AlexNet-IWR 91.96 66.09 95.48 65.04
GoogLeNet 92.44 62.87 95.62 63.44
GoogLeNet-IWR 92.86 67.45 95.69 65.81
ResNet-18 92.91 64.80 96.85 64.06
ResNet-18-IWR 92.99 67.99 96.82 66.79
ResNet-50 93.90 66.65 97.33 65.15
ResNet-50-IWR 94.21 69.46 97.30 68.97
MobileNetV2 93.47 66.76 97.29 62.55
MobileNetV2-IWR 93.74 68.35 97.38 65.31
MobileNetV3 91.84 62.92 96.01 60.67
MobileNetV3-IWR 92.65 66.43 96.15 63.89

3.2.2 与其他泛化方法比较结果

通过消除图像中风格特征,使模型具有对图像外观的不变性已成为提升模型领域泛化性能的一种重要方法。如文献[19]利用IN去除网络中的风格特征、BN保留特征的区分度,通过IN和BN的组合构建IBNNet(Instance Batch Normalization)实现模型泛化性能提升。文献[20]提出SW模块,根据任务自动选择归一化方法。文献[22]提出SNR模块,该模块先通过IN去除风格特征,再从风格特征中提取任务相关特征。表9展示了IWR与上述三种基于风格归一化方法在DGSR数据集上病害识别泛化性能,统计了5折交叉验证的平均值、标准差和95%置信区间。可以看出,所有方法相较于骨干网络(ResNet-50)在DGSR1和DGSR2上的泛化性能均有所提升,同时这些方法也提高了模型的稳定性,如ResNet-50平均预测精度为66.65%、标准差为1.74%,加入IWR后预测精度提升至69.46%、标准差为1.50%,说明基于归一化的风格特征滤除方法是提升模型泛化性能和预测稳定性的有效手段;基于特征恢复的方法(IWR和SNR)在DGSR1和DGSR2上的泛化性能均优于无特征恢复的方法(IBNNet和SW),如SNR、IWR在DGSR1上的平均测试精度较IBNNet分别高1.49%和2.63%,较SW分别高1.21%和2.35%。这说明仅通过归一化消除风格特征是不够的,还需从风格特征中恢复任务相关特征;IWR较SNR在DGSR2和DGSR1上的测试精度分别高0.84%和1.14%,表明基于IW和特征恢复的方法较基于IN和特征恢复的方法具有更好的领域泛化性能。
表9 不同风格归一化方法领域泛化性能比较

Table 9 Comparison results of IWR domain generalization performance improvement for different networks

骨干网络 方法 DGSR1 DGSR2 DGSR2 DGSR1
平均值/% 标准差/% 95%置信区间/% 平均值/% 标准差/% 95%置信区间/%
ResNet-50 原模型 66.65 1.74 65.12~68.18 65.15 1.98 63.41~66.89
IBNNet 67.72 1.69 66.24~69.20 66.34 1.83 64.74~67.94
SW 67.41 1.65 65.96~68.85 66.62 1.87 64.98~68.26
SNR 68.62 1.54 67.27~69.97 67.83 1.72 66.32~69.34
IWR 69.46 1.50 68.15~70.77 68.97 1.66 67.51~70.43

3.3 特征差异分析

本节使用MMD来说明DGSR1和DGSR2间的领域差异,并通过IWR与其他模型在两数据集上所提取特征的MMD值来进一步说明IWR的先进性。
MMD是评价图像特征间领域差异的常用方法。参考文献[20],本节采用的是具有高斯核的MMD。表9中的4种基于风格归一化的领域方法的基准网络都是ResNet-50。为此,本节比较了所有模型在ResNet-50主干网络上17个ReLU层对应输出特征的MMD值。结果如图5所示,可以看出,未经风格归一化的ResNet-50在两数据集上所提取的特征差异较大,特别是浅层特征差异明显,因为浅层特征包含较多的风格特征,这也验证了DGSR1和DGSR2在风格特征上存在较大差异;经IBNNet、SW、SNR和IWR后,模型在两数据集上所提出特征的差异出现明显下降,特别是浅层特征间的差异;相比于另外3种风格归一化方法,本研究所提出IWR极大地缩减了浅层和深层特征的MMD值,这进一步表明IWR的引入能够更好地消除数据集间的领域差异,使模型具有更强的泛化性。
图5 DGSR1和DGSR2间的最大均值差异距离

Fig. 5 Maximum mean discrepancy distance between DGSR1 and DGSR2

3.4 特征图可视化

特征图可视化有助于理解模型的工作原理。为此,本节采用文献[22]中的方法对IWR模型Stage 5的特征图进行可视化,即先将特征图沿通道维度相加,再经 l 2范数归一化后得到Stage 5的激活图,并以热力图的形式显示在原图中。
图6a分别展示了白化后的特征 F I W、增强后的特征 F I W -、削弱后的特征 F I W +,可以看出,通过从风格特征 F R中恢复任务相关特征增强的 F I W +更加聚焦于包含区分性特征的病灶区域,而任务无关特征削弱的 F I W -会对部分背景产生响应。
图 6 IWR和Resnet-50特征图可视化

a. IWR中各特征图可视化结果 b. ResNet-50(第一行)与IWR(第二行)特征图对比

Fig. 6 Visualization of feature maps in IWR and Resnet-50

图6b比较了ResNet-50(第一行)和IWR(第二行)在图像风格改变时对应激活图的变化,可以看出,在原图中ResNet-50和IWR均能聚焦于病灶区域,且IWR对病灶区域的响应强度更大;随着图像风格发生变化,背景特征开始对ResNet-50的激活图产生影响,特别地,当图像亮度增加时ResNet-50已无法获取病灶特征,而IWR仍能聚焦于病灶区域。由此可以得出,相比于ResNet-50,IWR具有更好的风格去除能力和领域泛化性能。

3.5 复杂度分析

本节将IWR分别加入ResNet-18和ResNet-50的前3个Stage,并比较了加入IWR后对模型计算量和参数量的影响,结果如表10所示。可以看出,IWR的加入会使模型参数量小幅增加,但会使模型计算量出现较为明显的提高。例如,ResNet-18加入IWR后,其参数量仅增加2.86 M,而模型计算量增加6.11 G。计算复杂度的提升主要是因为特征白化的计算量较大,尽管本研究使用牛顿迭代法代替特征分解在一定程度上缓解了白化操作的计算复杂度,但其计算复杂度仍高于一般特征提取操作。
表 10 ResNet加入IWR前后模型复杂度和参数量对比

Table 10 Comparison of complexity and model size before and after IWR added in ResNet

模型 参数量/ M 计算量(FLOPs)/G
ResNet-18 11.18 1.82
ResNet-18-IWR 14.04 7.93
ResNet-50 23.52 4.13
ResNet-50-IWR 30.07 16.02

4 结 论

本研究针对草莓病害识别模型在实际应用中的识别精度低、泛化性能不足的问题,提出了一种基于实例白化和恢复的领域泛化方法(IWR)。同时,构建了一个包含6类、共4 182幅图像的草莓病害领域泛化数据集,并在该数据集上进行了方法有效性的实验与分析,得出如下结论:
1)深度神经网络在相同分布的数据集上表现出色,但当面对数据分布不同的目标域时,其识别精度显著下降。例如,在DGSR2数据集上训练的AlexNet、GoogLeNet、ResNet等主流深度神经网络,测试精度均超过90.00%,但在目标域DGSR1上的精度均低于65.15%。因此,开展领域泛化方法研究,以提升模型在目标域上的泛化性能具有重要意义。
2)IWR方法能够有效提高模型在目标域上的识别精度。实验表明,在加入IWR后,AlexNet、GoogLeNet、ResNet等主流深度神经网络的识别精度均有明显提升,部分模型精度提升超过3.97%。
3)与当前先进的基于风格归一化的领域泛化方法相比,IWR表现出明显的优势。例如,IWR在DGSR1数据集上的测试精度较IBNNet、SW、SNR分别高出2.63%、2.35%和1.14%。
4)通过可视化分析,ResNet-50加入IWR前后的特征图显示,在图像风格(噪声、亮度、饱和度等)变化时,IWR能够聚焦于病灶区域,而原始模型则无法有效获取病灶特征。这说明了IWR在风格去除和领域泛化方面的能力。
尽管IWR方法提升了模型的泛化性能,但白化和特征恢复操作也增加了模型复杂度,导致推理时间延长。后续研究将着重于降低模型复杂度,对方法进行轻量化改进,以满足移动端应用的需求。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
王辉, 陈睿鹏, 余志雪, 等. 基于卟啉和半导体单壁碳纳米管的场效应气体传感器检测草莓恶疫霉[J]. 智慧农业(中英文), 2022, 4(3): 143-151.

WANG H, CHEN R P, YU Z X, et al. Porphyrin and semiconducting single wall carbon nanotubes based semiconductor field effect gas sensor for determination of phytophthora strawberries[J]. Smart agriculture, 2022, 4(3): 143-151.

2
LI Y, WANG J C, WU H R, et al. Detection of powdery mildew on strawberry leaves based on DAC-YOLOv4 model[J]. Computers and electronics in agriculture, 2022, 202: ID 107418.

3
LI G Q, JIAO L, CHEN P, et al. Spatial convolutional self-attention-based transformer module for strawberry disease identification under complex background[J]. Computers and electronics in agriculture, 2023, 212: ID 108121.

4
XIE C Q, HE Y. Spectrum and image texture features analysis for early blight disease detection on eggplant leaves[J]. Sensors, 2016, 16(5): ID 676.

5
DWIVEDI P, KUMAR S, VIJH S, et al. Study of machine learning techniques for plant disease recognition in agriculture[C]// 2021 11th International Conference on Cloud Computing, Data Science & Amp; Engineering (Confluence). Piscataway, New Jersey, USA: IEEE, 2021: 752-756.

6
KHAN M A, AKRAM T, SHARIF M, et al. An automated system for cucumber leaf diseased spot detection and classification using improved saliency method and deep features selection[J]. Multimedia tools and applications, 2020, 79(25): 18627-18656.

7
杜甜甜, 南新元, 黄家興, 等. 改进RegNet识别多种农作物病害受害程度[J]. 农业工程学报, 2022, 38(15): 150-158.

DU T T, NAN X Y, HUANG J X, et al. Identifying the damage degree of various crop diseases using an improved RegNet[J]. Transactions of the Chinese society of agricultural engineering, 2022, 38(15): 150-158.

8
胡晓波, 许桃胜, 黄伟, 等. 交互式双分支特征融合的草莓病害程度快速诊断方法[J]. 农业机械学报, 2023, 54(11): 225-235.

HU X B, XU T S, HUANG W, et al. Interactive bilateral feature fusion network for real-time strawberry disease diagnosis[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(11): 225-235.

9
马盼, 杨子恒, 万虎, 等. 基于YOLOv8网络的棉蚜图像识别算法及软件系统设计[J]. 智能化农业装备学报(中英文), 2023(3): 42-49.

MA P, YANG Z H, WAN H, et al. A new cotton aphid image recognition algorithm and software based on YOLOv8[J]. Journal of intelligent agricultural mechanization, 2023(3): 42-49.

10
NGUYEN H T, TRAN T D, NGUYEN T T, et al. Strawberry disease identification with vision transformer-based models[J]. Multimedia tools and applications, 2024, 83(29): 73101-73126.

11
WANG J P, LI Z Y, GAO G H, et al. BerryNet-lite: A lightweight convolutional neural network for strawberry disease identification[J]. Agriculture, 2024, 14(5): ID 665.

12
MOHANTY S P, HUGHES D P, SALATHÉ M. Using deep learning for image-based plant disease detection[J]. Frontiers in plant science, 2016, 7: ID 1419.

13
WANG J D, LAN C L, LIU C, et al. Generalizing to unseen domains: A survey on domain generalization[J]. IEEE transactions on knowledge and data engineering, 2023, 35(8): 8052-8072.

14
GILLES BLANCHARD G L, CLAYTON SCOTT. Generalizing from several related classification tasks to a new unlabeled sample[C]// Advances in neural information processing systems 24: 25th Annual Conference on Neural Information Processing Systems 2011. San Francisco, USA: Curran Associates Inc, 2011.

15
THOMAS GRUBINGER A B, HOLGER SCHONER, THOMAS NATSCHLAGER, HESKESTOM. Domain generalization based on transfer component analysis[C]// International Work-Conference on Artificial Neural Networks. Cham, Germany: Springer, 2015: 325-334.

16
TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: Maximizing for domain invariance[EB/OL]. arXiv: 1412.3474, 2014.

17
GANG HUA H J G. Deep CORAL: Correlation Alignment forDeep Domain Adaptation[C]// European Conference on Computer Vision. Cham, Germany: Springer, 2016: 443-450.

18
ULYANOV D, VEDALDI A, LEMPITSKY V S. Instance normalization: The missing ingredient for fast stylization[EB/OL]. arXiv: 1607.08022, 2017.

19
PAN X G, LUO P, SHI J P, et al. Two at once: Enhancing learning and generalization capacities via IBN-net[C]// Computer Vision-ECCV 2018. Cham, Germany: Springer, 2018: 484-500.

20
PAN X G, ZHAN X H, SHI J P, et al. Switchable whitening for deep representation learning[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2019: 1863-1871.

21
CHOI S, JUNG S, YUN H, et al. RobustNet: Improving domain generalization in urban-scene segmentation via instance selective whitening[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021: 11575-11585.

22
JIN X, LAN C L, ZENG W J, et al. Style normalization and restitution for domain generalization and adaptation[J]. IEEE transactions on multimedia, 2022, 24: 3636-3651.

23
YIJUN LI C F, JIMEI YANG, ZHAOWEN WANG, XIN LU, MING HSUAN YANG. Universal style transfer via feature transforms[C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. San Francisco, USA: Curran Associates Inc, 2017.

24
HUANG L, ZHOU Y, ZHU F, et al. Iterative normalization: Beyond standardization towards efficient whitening[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 4869-4878.

25
AFZAAL U, BHATTARAI B, PANDEYA Y R, et al. An instance segmentation model for strawberry diseases based on mask R-CNN[J]. Sensors, 2021, 21(19): ID 6565.

26
BELGHAZI M I, BARATIN A, RAJESHWAR S, et al. Mutual information neural estimation[C]// Proceedings of the 35th International Conference on Machine Learning. New York, USA: PMLR. 2018: 531-540.

27
DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2009: 248-255.

Outlines

/