Welcome to Smart Agriculture 中文
Topic--Intelligent Agricultural Sensor Technology

Using a Portable Visible-near Infrared Spectrometer and Machine Learning to Distinguish and Quantify Mold Contamination in Wheat

  • JIA Wenshen , 1, 2 ,
  • LYU Haolin 1 ,
  • ZHANG Shang , 1 ,
  • QIN Yingdong 2 ,
  • ZHOU Wei 3
Expand
  • 1. College of Computer and Information Technology, China Three Gorges University, Yichang 443002, China
  • 2. Institute of Quality Standards and Testing Technology, Beijing Academy of Agricultural and Forestry Sciences, Beijing 100097, China
  • 3. Food Inspection and Research Institute, Hebei Food Safety Key Laboratory, Shijiazhuang 050000, China
ZHANG Shang, E-mail:

Received date: 2023-11-27

  Online published: 2024-02-06

Supported by

Key Research and Development Projects of Hebei Province(21375501D)

Innovation and Capacity Building Project of Beijing Academy of Agriculture and Forestry Sciences(KJCX20230438)

National Natural Science Foundation of China(31801634)

Copyright

copyright©2024 by the authors

Abstract

Objective Traditional methods for detecting mold are time-consuming, labor-intensive, and vulnerable to environmental influences, highlighting the need for a swift, precise, and dependable detection approach. Researchers have utilized visible-near infrared (NIR) spectroscopy for the non-destructive, rapid assessment of wheat moisture content, crude protein content, concealed pests, starch content, dry matter, weight, hardness, origin, and other attributes. However, most of these studies rely on research-grade Visible-NIR spectrometers typically found in laboratories. While these spectrometers offer superior detection accuracy and stability, their bulky size, lack of portability, and high cost hinder their widespread use and adoption across various agricultural product distribution channels. Methods A low-resolution Visible-NIR spectrometer (VNIAPD, with a resolution of 1.6 nm) was utilized to gather wheat data. The aim was to enhance the accuracy of moldy wheat detection by identifying suitable spectral data preprocessing methods using corresponding algorithms. A high-resolution Visible-NIR spectrometer (SINO2040, with a resolution of 0.19 nm) served as a control to validate the instrument and method's effectiveness. The Zhoumai (No. 22) wheat variety was adopted, with a total of 100 samples prepared. The spectra of fresh wheat were scanned and then placed in a constant temperature chamber at 35 °C to replicate the appropriate conditions for mold growth, thereby accelerating the reproduction of naturally occurring mold in the wheat. The degree of mold was categorized based on the cultivation time in the constant temperature chamber, with wheat classified as mildly, moderately, or severely moldy after 3, 6, and 9 days of cultivation, respectively. A total of 400 wheat spectral data points were collected, including 100 samples each of fresh wheat, wheat cultured for 3 days, wheat cultured for 6 days, and wheat cultured for 9 days. Preprocessing methods such as standard deviation normalization (SDN), standard normal variation (SNV), mean centrality (MC), first-order derivatives (1ST), Savitzky-Golay smoothing (SG), and multiple scattering correction (MSC) were applied to the spectral data. Outliers were identified and eliminated using the local outlier factor (LOF) method. Following this, the sequential projection algorithm (SPA) and Least absolute shrinkage and selection operator (LASSO) were used to extract characteristic wavelengths from the preprocessed spectra. Subsequently, six algorithms, including k-nearest neighbors (KNN), support vector machines (SVM), random forests (RF), Naïve-Bayes, back propagation neural networks (BPNN), and deep neural networks (DNN), were employed to model and analyze the feature wavelength spectra, differentiating moldy wheat and classifying the degree of mold. Evaluation criteria encompassed accuracy, modeling time, and model size to aid in selecting the most suitable model for specific application scenarios. Results and discussions Regarding accuracy, even when utilizing the computationally slower and more memory-demanding neural network models BPNN and DNN, both the VNIAPD and SINO2040 achieved a perfect 100% accuracy in the binary classification task of distinguishing between fresh and moldy wheat. They also maintained a faultless 100% accuracy in the ternary classification task that differentiates three varying levels of mold growth. Adopting faster and more memory-efficient shallow models such as KNN, SVM, RF, and Naïve-Bayes, the VNIAPD yielded a top test set accuracy of 97.72% when combined with RF for binary classification. Conversely, SINO2040 achieved 100% accuracy using Naïve-Bayes. In the ternary classification scenario, the VNIAPD hit the mark at 100% accuracy with both KNN and RF, while SINO2040 demonstrated 97.72% accuracy with KNN and SVM. Regarding modeling speed, the shallow machine learning algorithms, including KNN, SVM, RF, and Naïve-Bayes, exhibited quicker training times, with Naïve-Bayes being the swiftest at just 3 ms. In contrast, the neural network algorithms BPNN and DNN required more time for training, taking 3 293 and 18 614 ms, respectively. Regarding memory footprint, BPNN had the largest model size, occupying 4 028 kb, whereas SVM was the most memory-efficient, with a size of only 4 kb. Overall, the VNIAPD matched the SINO2040 in detection accuracy despite having lower optical parameters: A slightly lesser optical resolution of 1.6 nm compared to the SINO2040's 0.19 nm—and a lower cost, highlighting its efficiency and cost-effectiveness in the given context. Conclusions In this study, by comparing different preprocessing methods for spectral data, the optimal data optimization choices for corresponding algorithms were identified. As a result, the low-resolution spectrometer VNIAPD was able to achieve performance on par with the high-resolution spectrometer SINO2040 in detecting moldy wheat, providing a new option for low-cost, non-destructive detection of wheat mold and the degree of moldiness based on Visible-NIR spectroscopy.

Cite this article

JIA Wenshen , LYU Haolin , ZHANG Shang , QIN Yingdong , ZHOU Wei . Using a Portable Visible-near Infrared Spectrometer and Machine Learning to Distinguish and Quantify Mold Contamination in Wheat[J]. Smart Agriculture, 2024 , 6(1) : 89 -100 . DOI: 10.12133/j.smartag.SA202311032

0 引 言

小麦是主要粮食作物之一。由于仓储的粮食温湿度与微生物变化复杂,并且存储周期长、粮堆规模大1,全球每年因运输、储存不当造成大量小麦霉变。霉变除了造成小麦色泽、气味、食用和加工品质发生变化,还在霉变过程中产生霉菌毒素,从而导致小麦营养价值和经济效益明显降低2, 3。霉变程度是评估小麦品质和安全的重要指标之一,因此需要对小麦霉变程度进行快速、准确的检测。传统的检测方法需要耗费时间和精力,易受到环境因素的干扰4,因此需要开发一种快速、准确、可靠的检测方法。近年来,近红外光谱技术因其非破坏性、快速、高效、准确等优点被广泛应用于食品品质和安全检测领域5
目前已有学者将近红外光谱用于小麦的水分含量6、粗蛋白含量7、隐蔽性害虫8、淀粉含量9、干物质和重量10、硬度11、产地12等特征的无损快速检测方面,并取得了一定的成果。沈飞等13采用偏最小二乘法(Partial Least Squares Regression, PLSR)和逐步多元性回归(Stepwise Multiple Linear Regression, SMLR)建立了小麦霉菌感染定量检测近红外光谱模型,其中PLSR所建模型的预测集决定系数(R-Square of Prediction, Rp 2)、预测集均方根误差(Root Mean Squard Error of Prediction, RMSEP)分别为0.86和0.438 mg/kg;SMLR所建模型的Rp 2、RMSEP分别为0.86和0.426 mg/kg。宋金鹏等14采用经典卷积神经网络VGG16建立了小麦腥黑穗病与可见-近红外光谱之间的分类模型,准确率达到91.67%。袁莹等15利用傅里叶变换近红外光谱对霉变玉米进行分类,支持向量机(Support Vector Machine, SVM)分类模型对训练集和测试集的预测准确率分别达到93.3%和91.7%,对独立样品集的预测准确率达87.8%。Manuela等16应用近红外光谱技术通过PLSR建立了五个不同草莓品种果实的可溶性固形物含量(Soluble Solids Content, SSC)与其灰芽孢杆菌易感性的回归模型,结果表明,SSC与灰芽孢杆菌易感性之间存在高度相关性(Rp 2高达0.87)。Jiang等17使用二维卷积神经网络(2D-CNN)对霉变花生中的黄曲霉毒素建立了近红外光谱识别模型,模型的Rp 2和RMSEP分别为0.99和2.0 μg/kg。Shen等18利用近红外光谱分辨不同贮藏阶段(第0、3、6和9天)的被接种五种曲霉菌株灭菌花生,使用线性判别分析建立分类模型,检测不同霉变程度花生的准确率为92.11%。总之,结合可见-近红外技术和机器学习对小麦品质建立模型已经成为一种可靠的无损检测技术。
上述研究中鉴别农产品霉变状态的准确率高,但是都是基于实验室研究级可见-近红外光谱仪。虽然实验室研究级光谱仪检测精度高、稳定性好,但体积大、携带不便,价格昂贵,限制了其在农产品各流通环节的应用和推广19, 20。因此,本研究基于低分辨率的可见-近红外光谱仪采集小麦数据,通过找出对应算法合适的光谱数据预处理方法来有效提升分辨霉变小麦的准确率,并以一种高分辨率可见近红外光谱仪作为对照,验证本仪器和方法的有效性。

1 实验与方法

1.1 光谱采集仪器及采集参数

图1为农产品快速无损可见近红外检测仪(型号:VNIAPD,北京市农林科学院自主研制),波长范围640~1 050 nm,像素数256 pixels,光学分辨率1.6 nm,积分时间30 ms,光源型号为飞利浦卤素灯MR11,工作电压12 V,功率为20 W,采集小麦样品反射光谱。VNIAPD采集方式为直接反射,光源和感光镜头在同一侧,即光源直接照射在小麦上再反射到镜头,采集的空间要素是平面。
图1 基于C11708MA-01光电探测器的VNIAPD光谱仪

Fig. 1 VNIAPD spectrometer based on C11708MA-01 photoreceptor

图2为复享光纤光谱仪(型号:SINO2040,上海复享光学),波长范围325~1 100 nm,像素为4 096,光学分辨率0.19 nm,积分时间200 ms,光源型号为复享光学HL2000卤素光源,工作电压12 V,功率为9 W,采集小麦样品反射光谱。SINO2040采集方式为光纤反射,光纤有两端:一端为光纤探头,另一端分两路。一路提供光源,另一路连接光谱仪感光镜头;采集的空间要素是点。
图2 SINO2040光谱仪

Fig. 2 Spectrometer of SINO2040

为了验证自制光谱仪VNIAPD在小麦霉变程度分类中的性能,选择利用光学分辨率更高的SINO2040作为参照,其中SINO2040波长范围比VNIAPD广,因此需要对SINO2040光谱波段进行裁剪,让其和VNIAPD波长保持一致,两者都为640~1 050 nm。

1.2 样品制备与检测原理

实验小麦品种为周麦(22号),共制备100份样品。为避免空气中微生物附于小麦,样品制备环节在无菌实验室进行。样品制备过程中严格佩戴口罩和无菌手套防止人体携带的微生物侵入小麦。首先用蒸馏水清洗100个250 mL的密封罐,在紫外线照射中等待风干;其次用电子天平称取100 g 小麦置于密封罐中,用20 mL规格移液管移取20 mL无菌水加入密封罐中,并用玻璃棒将小麦和无菌水混合均匀;最后扫描完新鲜小麦光谱放入恒温箱中并设定温度为35 °C。
小麦霉变主要是由霉菌引起的。小麦中霉菌来源于小麦在环境中暴露、收割、储存、加工等过程。实验中通过在恒温箱中保持35 ℃,向每份重量100 g 的小麦样品中加20 mL无菌水模拟合适的霉变温湿度,从而加速小麦自带的霉菌繁衍。霉变程度按照小麦在恒温箱中培养的时间划分,按照培养3、6、9 d将小麦划分为轻度霉变、中度霉变和重度霉变3种程度。SINO2040为光纤光谱仪,扫描时需要将探头插入小麦中。为避免样品间霉菌交叉感染,每扫描完一份样品都对光纤探头进行消毒清洁。VNIAPD为直接光谱仪,可以直接扫描密封罐底部。每次扫描前对密封罐底部玻璃进行清洁降低光谱噪声。扫描的小麦光谱数据一共有400份,新鲜小麦、霉变培养3 d的小麦、霉变培养6 d的小麦和霉变培养9 d的小麦光谱各100份。新鲜小麦和不同霉变程度小麦如图3所示。
图3 新鲜小麦及3种不同霉变程度小麦

Fig. 3 Fresh wheat and three levels of moldy wheat

相同霉变状态的小麦光谱不同是因为小麦霉变过程中微生物分泌水解酶,将小麦中的碳水化合物和蛋白质分解,微生物还能分泌脂肪酶,将脂肪水解为脂肪酸和甘油。小麦霉变的过程就是内部化学物质组成变化的过程,而可见近红外光谱与小麦中有机分子的含氢集团(OH、NH、CH等)振动的合频和各级倍频的吸收区一致,因此可以通过反射光谱来辨别不同状态的小麦,图4是可见近红外光谱检测小麦霉变状态的原理示意图。
图4 基于可见-近红外光谱检测小麦霉变状态原理示意图

Fig. 4 Diagram of the principle of detecting mould status in wheat based on visible-near infrared spectroscopy

1.3 数据预处理

可见近红外光谱分析的本质是通过分析物质和光谱信息之间的关联信息而建立分析模型,从而实现对物质的快速检测分析,其中光谱信息来源于光子和样品分子之间的相互作用,表征物质类型和含量的特征信息和测量参数等引起的背景信息混合加载到光谱中,形成样品的真实光谱和表观光谱,而样品的真实光谱是确定的,背景光谱无法确定。小麦的光谱信息构成如图5所示。因此,样品的表观光谱基本组成为“真实光谱(确定信息)+背景光谱(不确定信息)”。
图5 小麦可见-近红外光谱信息构成

Fig. 5 Composition of visible-near infrared spectral information in wheat

为了消除不确定信息,排除仪器本身、采集环境对光谱数据造成的噪声与冗余信息,需要对光谱数据进行合适的预处理。
首先,对SINO2040光谱波段进行裁剪,将325~640 nm波段截掉,使其波段与VNIAPD保持一致,两者都为640~1 050 nm。这样可以消除波段不一致性对后续分析的影响,提高数据的可比性和可靠性。其次,对光谱数据进行多种预处理方法,包括标准差标准化(Standard Deviation Normalization, SDN)、标准正态变换(Standard Normal Variation, SNV)、均值中心化(Mean Centrality, MC)、一阶导数(First-Order Derivatives, 1ST)、Savitzky-Golay平滑(Savitzky-Golay Smoothing, SG)和多元散射校正(Multiple Scattering Correction, MSC)。表1列出了上述预处理方法的详细说明及预期效果。其中,Savitzky-Golay平滑窗口大小取决于具体的数据集特征。图6为原始光谱数据和Savitzky-Golay的3种不同平滑窗口处理的光谱数据,可以看出,当窗口数量过大时会导致信号失真,因此,本实验的Savitzky-Golay平滑窗口取3。接下来,对经过不同预处理的光谱数据进行主成分分析(Principal Component Analysis, PCA),将数据降为3维,并通过3维坐标进行数据可视化,最后使用离群点检测算法(Local Outlier Factor, LOF)筛选出第3、6、9天分别有4、2、6个离群点并剔除。
表1 本研究中使用的预处理方法及应用效果概览表

Table 1 Pre-treatment methods used in this study and the effects of their application

预处理方法 描述 参数设置 预期效果
标准差标准化 将数据转换为均值为0,标准差为1的形式 无特定参数 消除量纲影响,使不同特征具有可比性
标准正态变换 转换数据以符合标准正态分布 无特定参数 改善数据分布,使其更接近正态分布
均值中心化 从每个数据点中减去整体均值 无特定参数 消除数据的长期趋势或基线漂移
一阶导数 计算数据的一阶导数 前向差分 强调光谱特征的变化,减少基线干扰
Savitzky-Golay平滑 通过局部多项式拟合来平滑数据 平滑窗口大小 减少随机噪声,保留信号的基本形状和特征
多元散射校正 校正由散射引起的光谱变异 无特定参数 减少或消除光谱变异,提高不同样本间的可比性
图6 Savitzky-Golay平滑选择不同窗口大小的光谱曲线

Fig. 6 Spectral curves for different window sizes selected by Savitzky-Golay smoothing

预处理并剔除离群点后将光谱数据分为训练集、验证集和测试集3部分,其中,分辨新鲜、霉变小麦的二分类模型中,训练集、验证集和测试集分别为300、44和44份;分辨小麦3种霉变程度的三分类模型中,分别为200、44和44份。训练集数据用于分类模型的建立,验证集数据来评估相应模型的性能,作为模型参数的调整依据,测试集数据用于对最佳参数模型的适应性检验。

1.4 特征提取方法

可见近红外光谱波长范围、分辨率和像素数具有以下关系如公式(1)所示。
波长 范围 = 分辨 × 像素
像素数决定光谱数据的维度。VNIAPD光谱维度为256;SINO2040光谱维度为4 096。保持波长范围一致对SINO2040光谱裁剪后仍然有2 160维。高维数据具有多重共线性和稀疏性,多重共线性会导致解空间不稳定,稀疏性导致模型比较难找到关键数据特征。光谱数据为非线性数据,因此使用连续投影算法(Sequential Projection Algorithm, SPA)和最小绝对收缩和选择算法(Least Absolute Shrinkage and Selection Operator, Lasso)对光谱数据进行特征提取。
SPA是一种用于多元数据分析的统计方法,可以用于特征选择、分类、聚类等问题。它基于数据在低维空间中的投影,通过逐一地选择和保留最具区分性的投影向量,实现对数据的降维和特征提取。Lasso是一种基于线性回归的特征选择技术,它可以自动选择最重要的特征,同时将不重要的特征的系数设为0。Lasso算法通过在目标函数中添加L1正则化项来实现特征选择。L1正则化项可以将一些系数压缩到0,从而达到特征选择的效果。

1.5 机器学习模型选择与模型评价指标

由于本实验小麦霉变程度分为3个等级,因此需要用多分类效果较好的算法。SVM可使用核函数有效处理光谱数据这种非线性的分类问题;KNN是基于样本距离的,对于异常值的影响较小,有较强的鲁棒性;RF通过集成多个决策树的预测结果,可以有效减少过拟合问题;朴素贝叶斯(Naïve-Bayes)可以通过假设特征之间相互独立来减少参数估计的不确定性,它在处理小样本数据时表现较好;BPNN可以通过权重和偏置的值来解释模型的预测结果,从而可以更好地理解模型的预测过程;深度神经网络(Deep Neural Networks, DNN)具有多层隐藏层,每一层都可以提取不同层次的特征,从而可以逐步提高特征的表达能力,提高模型的准确性和泛化能力。因此,本研究采用SVM、KNN、RF、Naïve-Bayes、BPNN、DNN对训练集和验证集进行多分类建模,并采用K折交叉验证降低模型的过拟合。在模型训练过程中,采用网格搜索法寻找最优超参数,以提高模型的准确性和稳定性。
评价指标综合考虑准确率、建模时间和模型大小。其中,准确率包括训练集准确率、验证集准确率、测试集准确率3个方面。在训练集准确率和验证集准确率达到较高准确率时,采用没有对模型暴露过的测试集数据对模型进行最终评估,以验证模型的可靠性和泛化能力。建模时间和模型大小在模型嵌入移植方面可以提供参考。

2 光谱可视化分析与模型讨论

2.1 光谱曲线分析

图7为100份小麦分别在第0、3、6、9天分4次采集的全部原始光谱曲线。可以看出,同光谱仪型号的光谱曲线之间的基线差异较大,表明光谱大多数特征都为背景信息,而光谱的有效信息被噪声信号和测量环境信号干扰。而VNIAPD和SINO2040光谱曲线之间的差异主要是因为光源不同,采集方式不同。
图7 基于VNIAPD和SINO2040分辨霉变小麦中2种光谱仪采集的小麦原始光谱

Fig. 7 Two spectrometers based on VNIAPD and SINO2040 to discriminate between mouldy wheat Raw spectra of wheat collected

图8是VNIAPD、SINO2040新鲜小麦原始光谱经过SDN-MC、SG-SNV、SG-MSC、SG-1ST这4种不同的预处理方式的光谱,小麦光谱曲线的噪声信号明显减弱,光谱曲线之间的基线差异被消除,有效波段的差异更加明显,对应的吸收峰信号有效加强。不同的预处理各有特点。例如,SG-SNV对于数据“振幅”的压缩最大;SG-MSC则反之。SDN-MC则体现了曲线间的交汇点,交汇点很可能是小麦状态的关键特征;而SG-1ST使波峰波谷更加明显。
图8 不同方法预处理后的小麦光谱

Fig. 8 Spectra after pretreatment by different methods

2.2 光谱主成分分析

分别对VNIAPD和SINO2040光谱数据进行预处理,包括标准差标准化和一阶导数处理,然后进行PCA。对于VNIAPD光谱数据,是否霉变的PCA显示前3个主成分具有显著的贡献率,前3主成分贡献率分别为91.46%、7.69%和0.48%,三者累计解释了原始数据99.63%的方差。这表明通过PCA降维后,前3个主成分几乎保留了原始数据的全部信息,且第一主成分在区分是否霉变上起主导作用。霉变程度的PCA中,前3个主成分的贡献率分别为71.28%、24.05%和3.24%,累计解释了原始数据98.57%的方差。尽管第一主成分的贡献率依然显著,但第二和第三主成分也具有一定的解释力度,表明霉变程度的变化可能涉及多个因素的共同作用。对于SINO2040光谱数据,是否霉变的PCA中,前3个主成分的贡献率分别高达97.51%、2.18%和0.21%,累计解释了原始数据99.90%的方差。与VNIAPD数据类似,第一主成分在区分是否霉变上占据了绝对主导地位。霉变程度的PCA结果显示,前3个主成分的贡献率分别为97.38%、2.23%和0.27%,累计解释了原始数据99.88%的方差。这表明霉变程度同样可以通过少数几个主成分进行有效描述。此外,通过绘制小麦可见近红外的PCA前3主成分得分图(图9),可以直观地观察到在是否霉变的散点图中,新鲜小麦和霉变小麦之间的边界非常明显。这进一步证实了PCA在区分这两类小麦上的有效性。霉变程度的散点图呈现出更为明显的聚类表现,尤其是图9(b)中的聚类趋势更为直观。这表明分辨新鲜、霉变小麦与分辨不同霉变程度小麦都具有可行性。
图9 VNIAPD和SINO2040小麦状态主成分分析图

Fig. 9 VNIAPD and SINO2040 wheat status PCA analysis plots

2.3 模型讨论

2.3.1 模型运行环境

本研究的网络模型在Windows 10系统下运行,IDE为PyCharm,解释器为Pthon3.9版本,机器学习框架使用Scikit-learn;处理器为AMD Ryzen7 5800H with Radeon Graphics 3.20 GHz。

2.3.2 模型参数

在KNN中,K值表示选择最近的邻居数量,较小的K值会使模型对噪声更敏感,而较大的K值可能会使模型过于泛化。在SVM中,C是惩罚系数,即对误差的宽容度。C越高,说明越不能容忍出现误差,容易过拟合;C越小,容易欠拟合;C过大或过小,泛化能力都会变差。Gamma是选择径向基函数核(Radial Basis Function Kernel, RBF Kernel)作为核函数后,该函数自带的一个参数,它隐含地决定数据映射到新的特征空间后的分布。Gamma越大,支持向量越少;gamma值越小,支持向量越多。在RF中,增加决策树的数量可以提高模型的性能,但也会增加计算复杂度和内存消耗,最大特征数用于限制每个决策树节点分裂时考虑的特征数量,最大深度用于限制决策树的最大深度,较小的最大深度可以使模型更简洁,但可能会导致欠拟合,较大的最大深度可以使模型更复杂,但可能会导致过拟合。在Naïve-Bayes中,通常不需要过多地调整参数,因为模型本身相对简单,一般根据数据集特征选择合适的分布。本研究根据可见近红外光谱数据的特点选择高斯分布。在BPNN和DNN中,学习率用于控制参数更新的步长大小,较大的学习率可能加快收敛速度,但也可能导致不稳定或跳过最优解,较小的学习率可能更加稳定,但收敛速度较慢。迭代次数指的是整个训练集被遍历的次数。增加迭代次数可以增加网络的训练时间,并可能提高网络的性能,但也可能导致过拟合。表2是KNN、SVM、RF、Naïve-Bayes、BPNN、DNN模型利用网络搜索法找出的最佳参数组合。
表2 分辨霉变小麦各模型配置参数

Table 2 Configuration parameters of each model for distinguishing mouldy wheat

模型 VNIAPD(2分类) VNIAPD(3分类) SINO2040(2分类) SINO2040(3分类)
KNN Neighbors = 3e-0 Neighbors = 3e-0 Neighbors = 5e-0 Neighbors = 5e-0
SVM

C = 1e-0

Gamma = 1.19e-0

C = 1e-0

Gamma = 1.05e-0

C = 1.25e-0

Gamma = 1.15e-0

C = 1.25e-0

Gamma = 1.08e-0

RF

n = 2e+1, features = 5e-0

depth = 1.6e+1

n = 1.5e-1, features = 3e-0

depth = 2e+1

n = 2e+1, features = 5e-0

depth = 1.8e+1

n = 1e+1, features = 5e-0

depth = 2e+1

Naïve-Bayes Gaussian Gaussian Gaussian Gaussian
BPNN

learning-rate = 1e-4

epoch = 3e+2

learning-rate = 1e-4

epoch = 4e+2

learning-rate = 1e-4

epoch = 5e+2

learning-rate = 1e-3

epoch = 6e+2

DNN

learning-rate = 1e-5

epoch = 8e+1

learning-rate = 1e-5

epoch = 1e+2

learning-rate = 1e--4

epoch = 1e+2

learning-rate = 1e-4

epoch = 2e+2

注:Neighbors为K值;C为惩罚系数;gamma为RBF核函数的参数;n为决策树的数量;features为最大特征数;depth为最大深度;Gaussian为高斯分布;learning-rate为学习率;epoch为迭代次数。

2.3.3 模型结果

表3~表6是VNIAPD、SINO2040采用不同的数据预处理方法结合KNN、SVM、RF、Naïve-Bayes、BPNN、DNN算法的测试集准确率。其中,表3表5分别是VNIAPD和SINO2040区分新鲜、霉变小麦的二分类模型结果;表4表6分别是VNIAPD和SINO2040区分轻度、中度、重度3种霉变程度小麦的三分类模型结果。
表3 基于VNIAPD的新鲜小麦、霉变小麦分类测试集准确率 (%)

Table 3 Accuracy of VNIAPD-based test set for classification of fresh and mouldy wheat

预处理方法 MSC-1ST SDN-1ST 1ST MC-1ST SG-1ST
KNN 93.18 93.18 90.90 88.63 90.90
SVM 90.90 90.90 86.36 93.18 90.90
RF 86.36 93.18 95.45 97.72 93.18
Naïve-Bayes 75.00 77.27 95.45 84.09 86.36
BPNN 97.72 100 97.72 84.09 86.36
DNN 97.72 93.18 97.70 97.70 100.00
表4 基于VNIAPD的小麦轻度、中度、重度霉变分类测试集准确率 (%)

Table 4 Accuracy of VNIAPD-based test set for classification of mild, moderate and severe mould in wheat

预处理方法 MSC-1ST SDN-1ST 1ST MC-1ST SG-1ST
KNN 100.00 90.90 86.36 95.45 86.36
SVM 90.90 95.45 93.18 97.72 93.18
RF 93.18 90.90 86.36 100.00 90.90
Naïve-Bayes 90.90 86.36 97.72 88.63 93.18
BPNN 97.72 100.00 95.45 93.18 93.18
DNN 95.54 97.72 93.18 97.72 100.00
表5 基于SINO2040的新鲜小麦、霉变小麦分类测试集准确率 (%)

Table 5 Accuracy of SINO2040-based test set for classification of fresh and mouldy wheat

预处理方法 MSC-1ST SDN-1ST 1ST MC-1ST SG-1ST
KNN 97.72 97.72 93.18 93.18 93.18
SVM 93.18 95.54 90.90 90.90 93.18
RF 95.54 93.18 90.90 95.54 95.54
Naïve-Bayes 97.72 93.18 97.72 100.00 97.72
BPNN 97.72 97.72 97.72 100.00 97.72
DNN 97.72 97.72 95.54 95.54 100.00
表6 基于SINO2040的小麦轻度、中度、重度霉变分类测试集准确率 (%)

Table 6 Accuracy of SINO2040-based test set for classification of mild, moderate and severe mould in wheat

预处理方法 MSC-1ST SDN-1ST 1ST MC-1ST SG-1ST
KNN 97.72 97.72 95.54 95.54 97.72
SVM 97.72 97.72 93.18 95.54 95.54
RF 93.18 90.90 90.90 93.18 93.18
Naïve-Bayes 93.18 95.54 88.63 95.54 90.90
BPNN 97.72 97.72 100.00 100.00 97.72
DNN 97.72 97.72 95.54 97.72 100.00
可以看出,不同的机器学习算法的最优预处理方法也不同,但是都需要用到一阶导数,主要因为一阶导数可以去除常数基线,并可以增加重叠峰的分离程度。KNN、SVM、RF、Naïve-Bayes分别使用LASSO和SPA进行特征提取,而BPNN和DNN神经网络类算法本身就具有较好的特征提取功能。
将二分类模型结果表3表5、三分类结果表4表6进行对比可以发现VNIAPD各算法在不同的数据预处理方法下的准确率波动比SINO2040大,对于SINO2040而言,除1ST预处理的Naïve-Bayes算法准确率为88.63%,其他数据预处理方法的各算法准确率都在90%以上。原因是SINO2040分辨率高,采集的光谱数据包含更多更密集的有效信息,而低分辨率的VNIAPD光谱包含的有效信息相对较少、稀疏。从整体上看,对于同一模型,具有更高分辨率的SINO2040准确率比VNIAPD高,而VNIAPD在某些数据预处理方式下的准确率反而高出SINO2040有以下两方面可能的原因:一是模型适应性方面。不同的模型对于输入数据的适应性不同。虽然SINO2040提供了更高质量的数据,但VNIAPD可能更适合于处理该数据集的特性。二是过拟合与泛化能力。VNIAPD可能由于使用较低分辨率的数据而具有更好的泛化能力,从而在测试集上获得更高的准确率。
VNIAPD在分辨新鲜小麦和霉变小麦时,KNN、SVM、RF、Naïve-Bayes、BPNN和DNN模型的最佳测试集准确率分别达到93.18%、93.18%、97.72%、95.45%、100%和100%。在分辨小麦霉变程度时,上述算法最佳测试集准确率分别达到100%、97.72%、100%、97.72%、100%和100%。SINO2040在分辨新鲜小麦和霉变小麦时,各算法的最佳测试集准确率分别达到97.72%、95.43%、95.54%、100%、100%和100%。在分辨小麦霉变程度时,最佳测试集准确率依次达到97.72%、97.72%、93.18%、95.54%、100%和100%。VNIAPD、SINO2040最佳测试集准确率总体上处于同一个水平,说明选择合适的算法和数据预处理方式,可以让低分辨率可见近红外光谱仪应用于分辨霉变小麦。
表7列出了6种算法的最优预处理建模时间和模型内存大小。其中KNN、SVM、RF、Naïve-Bayes几种浅层机器学习算法建模时间较短,其中建模速度最快的为Naïve-Bayes算法,建模时间为3 ms,而BPNN和DNN两种神经网络算法建模时间较长,分别为3 293与18 614 ms。在模型内存大小方面,最大的为BPNN模型,内存大小为4 028 kb;最小的为SVM模型,大小为4 kb。
表7 最优预处理建模时间与模型内存大小

Table 7 Optimal preprocessing modelling time and model size

参数 KNN SVM RF Naïve-bayes BPNN DNN
建模时间/ms 255 4 36 3 3 293 18 614
模型内存/kb 324 4 48 7 4 028 706

3 结 论

本研究以高分辨率光谱仪SINO2040为参照,验证分辨率较低的便捷式可见近红外光谱仪VNIAPD分辨霉变小麦的性能,使用KNN、SVM、RF、Naïve-Bayes、BPNN、DNN算法并寻出各算法相应的最优光谱数据预处理方法,从而有效提升了VNIAPD分辨霉变小麦的准确率,为基于可见-近红外光谱技术的小麦霉变快速无损检测提供了性价比更高的选择。其中,使用建模慢、内存大的神经网络模型BPNN、DNN时,VNIAPD、SINO2040在分辨新鲜和霉变小麦的二分类任务与分辨3种不同霉变状态小麦的三分类任务中均可达到100%的测试集准确率。
使用建模快、内存小的浅层模型KNN、SVM、RF和Naïve-Bayes时,VNIAPD在二分类中测试集准确率最高的是RF的97.72%,SINO2040是Naïve-Bayes的100%;VNIAPD在三分类中测试集准确率最高的是KNN和RF的100%,SINO2040是KNN和SVM的97.72%。
分辨率相对较低的VNIAPD经过合理的光谱数据预处理和算法选择,在分辨霉变小麦中可以达到和分辨率高的SINO2040同等水平。VNIAPD分辨霉变小麦的KNN、SVM、RF、Naïve-Bayes、BPNN和DNN最优预处理方法分别为MSC-1ST、MC-1ST、MC-1ST、1ST、SDN-1ST、SG-1ST。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
王小萌, 吴文福, 尹君, 等. 基于温湿度场云图的小麦粮堆霉变与温湿度耦合分析[J]. 农业工程学报, 2018, 34(10): 260-266.

WANG X M, WU W F, YIN J, et al. Analysis of wheat bulk mould and temperature-humidity coupling based on temperature and humidity field cloud map[J]. Transactions of the Chinese society of agricultural engineering, 2018, 34(10): 260-266.

2
悦燕飞, 王若兰, 渠琛玲. 小麦储藏过程中发热霉变研究进展[J]. 粮食与油脂, 2018, 31(7): 18-20.

YUE Y F, WANG R L, QU C L. Research progress on fever and mildew of wheat during storage[J]. Cereals & oils, 2018, 31(7): 18-20.

3
ZHANG Y Y, PEI F, FANG Y, et al. Interactions among fungal community, fusarium mycotoxins, and components of harvested wheat under simulated storage conditions[J]. Journal of agricultural and food chemistry, 2019, 67(30): 8411-8418.

4
张红涛, 张亮, 谭联, 等. 基于近红外高光谱成像的单籽粒小麦品种分类研究[J]. 粮食与油脂, 2022, 35(12): 59-62.

ZHANG H T, ZHANG L, TAN L, et al. Classification of single wheat grain varieties based on near-infrared hyperspectral imaging[J]. Cereals & oils, 2022, 35(12): 59-62.

5
MAGWAZA L S, LANDAHL S, CRONJE P J R, et al. The use of Vis/NIRS and chemometric analysis to predict fruit defects and postharvest behaviour of 'Nules Clementine' mandarin fruit[J]. Food chemistry, 2014, 163: 267-274.

6
孙晓荣, 郑冬钰, 刘翠玲, 等. 小麦粉品质在线无损快速检测系统设计与实现[J]. 食品与机械, 2022, 38(12): 87-91.

SUN X R, ZHENG D Y, LIU C L, et al. Design and implementation of on-line nondestructive rapid testing system for wheat flour quality[J]. Food & machinery, 2022, 38(12): 87-91.

7
田静, 陈斌, 陆道礼, 等. 不同分光原理近红外光谱仪光谱标准化方法在小麦粉品质检测中的应用[J]. 中国食品学报, 2022, 22(10): 286-294.

TIAN J, CHEN B, LU D L, et al. Application of spectral standardization of different spectral types of near-infrared analyzers in the quality detection of wheat flour[J]. Journal of Chinese institute of food science and technology, 2022, 22(10): 286-294.

8
鲁玉杰, 王文敬, 张俊东, 等. 基于近红外光谱技术及ELM对小麦中不同生长阶段米象的分类识别[J]. 河南工业大学学报(自然科学版), 2023, 44(1): 104-111.

LU Y J, WANG W J, ZHANG J D, et al. Classification and recognition of Sitophilus oryzae in different growth stages of wheat based on near-infrared spectroscopy and ELM[J]. Journal of Henan university of technology (natural science edition), 2023, 44(1): 104-111.

9
王晓琼, 陈丽, 向娜娜, 等. 基于近红外光谱分析技术测定小麦淀粉的含量[J]. 粮食与饲料工业, 2021(6): 58-60.

WANG X Q, CHEN L, XIANG N N, et al. Determination of wheat starch content based on near infrared spectroscopy analysis technology[J]. Cereal & feed industry, 2021(6): 58-60.

10
陈岩, 何鸿举, 欧阳娟, 等. 近红外结合线性回归算法快速预测小麦籽粒干物质和重量[J]. 食品工业科技, 2022, 43(4): 323-331.

CHEN Y, HE H J, OUYANG J, et al. NIR combined with linear regression algorithm for rapid prediction of dry matter and weight in wheat grain[J]. Science and technology of food industry, 2022, 43(4): 323-331.

11
姜明伟, 王彩红, 张庆辉. 基于CARS变量选择方法的小麦硬度测定研究[J]. 河南工业大学学报(自然科学版), 2020, 41(6): 91-95, 105.

JIANG M W, WANG C H, ZHANG Q H. Study of wheat hardness determination based on CARS variable selection method[J]. Journal of Henan university of technology (natural science edition), 2020, 41(6): 91-95, 105.

12
邹小波, 封韬, 郑开逸, 等. 利用近红外及中红外融合技术对小麦产地和烘干程度的同时鉴别[J]. 光谱学与光谱分析, 2019, 39(5): 1445-1450.

ZOU X B, FENG T, ZHENG K Y, et al. Simultaneous identification of wheat origin and drying degree using near-infrared and mid-infrared fusion techniques[J]. Spectroscopy and spectral analysis, 2019, 39(5): 1445-1450.

13
沈飞, 刘潇, 裴斐, 等. ATR-FTIR在小麦及其制品呕吐毒素污染水平快速测定中的应用[J]. 食品科学, 2019, 40(2): 293-297.

SHEN F, LIU X, PEI F, et al. Rapid identification of deoxynivalenol contamination in wheat and its products by attenuated total reflectance fourier transform infrared spectroscopy (ATR-FTIR)[J]. Food science, 2019, 40(2): 293-297.

14
宋金鹏, 梁琨, 张驰, 等. 基于深度学习与可见-近红外光谱的患腥黑穗病小麦籽粒分类研究[J]. 分析测试学报, 2023, 42(7): 784-793.

SONG J P, LIANG K, ZHANG C, et al. Research on classification of common bunt of wheat kernels based on visible-near infrared spectroscopy combined with deep learning algorithms[J]. Journal of instrumental analysis, 2023, 42(7): 784-793.

15
袁莹, 王伟, 褚璇, 等. 基于傅里叶变换近红外和支持向量机的霉变玉米检测[J]. 中国粮油学报, 2015, 30(5): 143-146.

YUAN Y, WANG W, CHU X, et al. Detection of moldy corns with FT- NIR spectroscopy based on SVM[J]. Journal of the Chinese cereals and oils association, 2015, 30(5): 143-146.

16
MANCINI M, MAZZONI L, QADERI R, et al. Prediction of soluble solids content by means of NIR spectroscopy and relation with botrytis cinerea tolerance in strawberry cultivars[J]. Horticulturae, 2023, 9(1): ID 91.

17
JIANG H, DENG J H, ZHU C Y. Quantitative analysis of aflatoxin B1 in moldy peanuts based on near-infrared spectra with two-dimensional convolutional neural network[J]. Infrared physics & technology, 2023, 131: ID 104672.

18
SHEN F, WU Q F, LIU P, et al. Detection of Aspergillus spp. contamination levels in peanuts by near infrared spectroscopy and electronic nose[J]. Food control, 2018, 93: 1-8.

19
刘建学, 尹晓慧, 韩四海, 等. 便捷式近红外光谱仪研究进展[J]. 河南农业大学学报, 2019, 53(4): 662-670.

LIU J X, YIN X H, HAN S Het al. Review of portable near-infrared spectrometers[J]. Journal of Henan agricultural university. 2019, 53(4): 662-670.

20
霍学松, 陈瀑, 戴嘉伟, 等. 微小型近红外光谱仪的应用进展与展望[J]. 分析测试学报, 2022, 41(9): 1301-1313.

HUO X S, CHEN P, DAI J W, et al. Progress and prospect of application of miniatured near infrared spectrometers[J]. Journal of instrumental analysis, 2022, 41(9): 1301-1313.

Outlines

/