Rapid Tea Identification and Polyphenol Detection Method in Fresh Tea Leaves Using Visible/Shortwave and Longwave Near-Infrared Spectroscopy

XU Jinchai; LI Xiaoli; WENG Haiyong; HE Yong; ZHU Xuesong; LIU Hongfei; HUANG Zhenxiong; YE Dapeng

doi:10.12133/j.smartag.SA202505034

2025 , Vol. 7 >Issue 4: 58 - 70

DOI: https://doi.org/10.12133/j.smartag.SA202505034

Topic--Intelligent Sensing and Grading of Agricultural Product Quality

Rapid Tea Identification and Polyphenol Detection Method in Fresh Tea Leaves Using Visible/Shortwave and Longwave Near-Infrared Spectroscopy

XU Jinchai ¹^,²^,³ ,
LI Xiaoli ⁴ ,
WENG Haiyong ¹^,²^,³ ,
HE Yong ⁴ ,
ZHU Xuesong ⁵ ,
LIU Hongfei ⁶ ,
HUANG Zhenxiong ^,¹^,²^,³^,⁷ ,
YE Dapeng ¹^,²^,³

Expand

^1. College of Mechanical and Electrical Engineering, Fujian Agriculture and Forestry University, Fuzhou 350002, China
^2. School of Future Technology Haixia Institute of Science and Technology, Fujian Agriculture and Forestry University, Fuzhou 350002, China
^3. Fujian Key Laboratory of Agricultural Information Sensing Technology, Fuzhou 350002, China
^4. College of Biosystems Engineering and Food Science, Zhejiang University, Hangzhou 310058, China
^5. HMEI Mechanery and Engineering Co. , Ltd. , Hangzhou 311121, China
^6. Optosky Co. , Ltd. , Xiamen 361021, China
^7. The Key Laboratory for Agricultural Machinery Intelligent Control and Manufacturing of Fujian Education Institutions, Nanping 354300, China

HUANG Zhenxiong, E-mail: hzxiong@fafu.edu.cn

XU Jinchai, E-mail: xjc@fafu.edu.cn

Received date: 2025-05-30

Online published: 2025-07-22

Supported by

National Natural Science Foundation of China (General Program)(31771676)

Open Fund Project of Fujian Provincial University Key Laboratory of Agricultural Machinery Intelligent Control and Manufacturing Technology (Wuyi University)(AMICM202402)

Copyright

Fold

Abstract

[Objective] Tea polyphenols, as a key indicator for evaluating tea quality, possess significant health benefits. Traditional detection methods are limited by poor timeliness, high cost, and destructive sampling, making them difficult to meet the demands of tea cultivar breeding and real-time monitoring of tea quality. Meanwhile, rapid identification of tea cultivars and leaf positions is critical for guiding tea production. Therefore, this study aims to develop a non-destructive detection device for quality components of fresh tea leaves based on the combined technology of visible/short-wave near-infrared and long-wave near-infrared spectroscopy, to realize rapid non-destructive detection of tea polyphenol content and rapid identification of tea cultivars and leaf positions. [Methods] A rapid non-destructive detection device for quality components of fresh tea leaves was developed by combining visible/short-wave near-infrared spectroscopy (400~1 050 nm) and long-wave near-infrared spectroscopy (1 051~1 650 nm). The Savitzky-Golay (SG) convolution smoothing method was used for preprocessing the spectral data. The Folin-Ciocalteu method was employed to determine the tea polyphenol content, and abnormal samples were eliminated using the interquartile range (IQR) method. Data-level and feature-level fusion methods were adopted, with the competitive adaptive reweighted sampling (CARS) algorithm used to extract characteristic wavelengths. Prior to modeling, the Kennard-Stone algorithm was applied to partition the dataset into a training set and a prediction set at a ratio of 4∶1. Models such as principal component analysis (PCA), partial least squares-discriminant analysis (PLS-DA), least squares support vector machine (LS-SVM), extreme learning machine (ELM), and 1D convolutional neural network (1D-CNN) were constructed for the identification of 3 cultivars (Huangdan, Tieguanyin, and Benshan) and 4 leaf positions. For predicting tea polyphenol content, models including partial least squares regression (PLSR), least squares support vector regression (LS-SVR), ELM, and 1D-CNN were established for predicting the tea polyphenol content in fresh tea leaves. [Results and Discussions] The results showed that there were significant differences in tea polyphenol contents among different cultivars and leaf positions (P<0.05). Specifically, the tea polyphenol content of Huangdan was 17.54%±1.82%, which was 1.16 times and 1.04 times that of Tieguanyin (15.04%±1.22%) and Benshan (16.81%±1.24%), respectively. For each cultivar, the tea polyphenol content generally showed a decreasing trend from the 1st to 4th leaf positions, with the highest content in the 1st leaf position. Principal component analysis (PCA) revealed that for cultivar identification, the scatter distribution of the principal components of Huangdan, Tieguanyin, and Benshan, as well as their projections in the directions of PC1 and PC2, showed a clear trend of clustering into three groups, indicating a good classification effect, although there was still some overlap among individual samples. For leaf position identification, the scatter distributions of the principal components of the 1st, 2nd, 3rd, and 4th leaf positions overlapped with each other, with no obvious clustering among leaf positions. Compared with single-source data, models based on data fusion effectively improved prediction performance. Among them, the PLS-DA model established by combining SG preprocessing with feature-level fusion achieved prediction accuracies of 100% and 87.93% for the identification of 3 tea cultivars and 4 leaf positions, respectively. Furthermore, the 1D-CNN model based on data-level fusion exhibited superior performance in predicting tea polyphenol content, with a coefficient of determination (R²_P), root mean square error of prediction (RMSEP), and residual predictive deviation (RPD) of 0.802 0, 0.636 8%, and 2.268 4, respectively, which outperformed models using only visible/short-wave near-infrared spectroscopy or long-wave near-infrared spectroscopy. [Conclusions] The developed detection device combining visible/short-wave near-infrared and long-wave near-infrared spectroscopy, mainly composed of spectrometers, Y-type optical fibers, plant probes, polymer lithium batteries, DC uninterruptible power supplies, voltage conversion modules, and aluminum alloy casings, could synchronously collect multi-source spectral data of visible/short-wave near-infrared and long-wave near-infrared from fresh tea leaves. Combined with data fusion methods and machine learning algorithms, it enabled rapid detection of tea polyphenol content and efficient identification of cultivars and leaf positions in fresh tea leaves, providing new insights for the application of multi-source data fusion technology in elite tea cultivar breeding and non-destructive detection of fresh tea leaf quality.

Key words： fresh tea leaves; tea polyphenols; non-destructive detection; data fusion; one-dimensional convolutional neural network (1D-CNN)

Cite this article

XU Jinchai , LI Xiaoli , WENG Haiyong , HE Yong , ZHU Xuesong , LIU Hongfei , HUANG Zhenxiong , YE Dapeng . Rapid Tea Identification and Polyphenol Detection Method in Fresh Tea Leaves Using Visible/Shortwave and Longwave Near-Infrared Spectroscopy[J]. Smart Agriculture, 2025 , 7(4) : 58 -70 . DOI: 10.12133/j.smartag.SA202505034

0 引言

茶多酚（Tea Polyphenols）是衡量茶叶品质的重要指标，主要由儿茶素和黄酮类等组成^［1］，具有清除自由基、抗氧化活性强和预防心血管疾病等保健功效^［2-4］。传统的茶多酚含量检测主要采用福林酚比色法、电位分析法和分光光度法等^{［5, 6］}，这些方法虽然检测精度高，但存在时效性差、成本高和破坏样本等问题，难以满足实际茶树品种选育和茶叶品质实时监测的需求。因此，迫切需要一种快速无损检测茶鲜叶品质指标的方法及检测装置。

可见/近红外光谱（Visible and Near-Infrared, Vis/NIR）作为一种快速、无损和低成本的现代光谱分析技术，可反映有机物质中含氢基团（如C-H、N-H和O-H等）振动的倍频和合频吸收特性，已广泛应用于茶叶品质和食品检测等领域^［7-9］。Chen等^［10］使用Vis/NIR光谱仪（400~2 498 nm）采集茶叶发酵过程中的光谱数据，建立的修正偏最小二乘回归（Modified Partial Least-Squares Regression, MPLSR）模型对总儿茶素和茶氨酸含量检测的训练决定系数（Coefficient of Determination of Calibration, R ² _c）均大于0.94。Sanaeifar等^［11］应用可见/近红外光谱仪（XDS型，丹麦FOSS公司）检测绿茶加工过程中茶多酚和咖啡碱含量。结果表明，Vis/NIR技术结合主成分分析（Principal Component Analysis, PCA）可实现对2个茶树品种和5个茶叶加工步骤的分类。此外，通过连续投影算法（Successive Projections Algorithm, SPA）提取特征波段并结合多元线性回归（Multiple Linear Regression, MLR）建立的SPA-MLR模型，对茶多酚和咖啡碱含量反演效果较好，其R ² _P均高于0.834。李晓丽等^［12］利用可见/近红外光谱仪采集不同茶树品种和叶位的茶鲜叶光谱信息，建立的深度卷积神经网络（Convolutional Neural Network, CNN）模型预测儿茶素和咖啡碱含量的R ² _P和残差预测偏差（Residual Predictive Deviation, RPD）均分别大于0.930和3.280。上述研究表明，Vis/NIR技术结合机器学习算法能够实现茶叶品质指标的快速检测，但目前使用的商业光谱仪器价格普遍比较昂贵。

近年来，市面上出现了多款低成本的可见/短波近红外光谱仪和长波近红外光谱仪^{［13, 14］}。王凡等^［15］研发了一台集成USB2000+可见/短波近红外光谱仪（350~1 000 nm）的茶鲜叶品质检测装置，采集英红九号品种茶鲜叶的光谱数据结合偏最小二乘（Partial Least Squares, PLS）模型，结果表明，经概率商归一化（Probabilistic Quotient Normalization, PQNOR）预处理后建立的PLS模型预测茶叶品质成分精度较好，所构建模型对茶叶干物质、水浸出物和茶多酚含量预测的相关系数分别为0.905、0.896和0.747。李文萃等^［16］开发了一款集成了长波近红外光谱（1 000~1 799 nm）的便携式茶叶品质快速检测仪，采集不同等级绿茶的光谱数据建立绿茶中咖啡碱、茶多酚和氨基酸等品质成分含量的PLS模型，该模型的建模集相关系数和RPD均分别大于0.760和1.490。为了克服单一光谱仪获取光谱信息不足的缺陷，Wang等^［17］联用可见/短波近红外与长波近红外光谱对猪肉的蛋白质、脂肪和pH值等品质参数的检测精度优于单一数据源，所构建偏最小二乘法回归（Partial Least Squares Regression, PLSR）模型预测猪肉品质成分含量的R ² _P均达到0.90以上。Ryckewaert等^［18］将SCIO（740~1 070 nm）、NIRscan（901~1 701 nm）和NIRone（1 750~2 150 nm）三种微型光谱仪组合并获取了甘蔗的光谱信息，建立序列最小二乘法（Sequential and Orthogonalised-Partial Least Squares, SO-PLS）模型对甘蔗总糖的预测效果与商用昂贵的光谱仪（FieldSpec 4 HR NG，美国ASD公司）相当。董春旺等^［19］融合近红外光谱和机器视觉技术，建立了绿茶杀青过程中水分含量的预测模型，结果表明，与单一传感器数据相比，采用竞争自适应重加权采样（Competitive Adaptive Reweighted Sampling, CARS）提取特征波段进行特征级融合，结合归一化预处理和PCA建立的支持向量回归（Support Vector Regression, SVR）模型效果最优，其预测集相关系数和RPD分别为0.971和4.154。上述研究表明，采用不同传感器获取的样本信息，并结合数据融合方法能够有效提高模型检测精度，且仪器设备的性价比较高。

鉴于对茶树品种、叶位识别及茶鲜叶内茶多酚含量的快速检测是辅助茶树育种和茶叶品质监控的关键。本研究以3个茶树品种的鲜叶为研究对象，设计一款集成两台光谱仪的检测装置，采用多源数据融合方法及机器学习算法，建立基于可见/短波与长波近红外光谱联用的茶树识别及茶鲜叶茶多酚检测模型，以期实现不同品种、叶位识别和茶多酚含量的快速无损检测，为优质茶树品种选育和茶叶品质管控提供技术支持。

1 材料与方法

1.1　试验样本制备

本次试验选自福建泉州安溪主要栽培的3个茶树品种，分别为黄旦、铁观音和本山。鲜叶采摘于2023年11月18日，从不同茶树品种各摘取大小相近的嫩梢，选取含有一芽四叶样本（叶位从完全展开的第1叶至第4叶），每个品种各120个样本，共获得1 440个新鲜茶叶（3个品种×4个叶位×120次重复），不同品种和叶位如图1所示。采摘后将样本放入黑色密封袋中，待后续光谱数据采集。在室内，为了获得与田间环境下采集茶鲜叶的光谱数据相近的结果，对样本不做任何茶叶表面处理，并在密封袋外贴上标签，确保所采集的样本光谱数据与实测化学值对应。

显示原图|下载原图ZIP|生成PPT

图1 不同茶树品种、叶位示意图

Fig. 1 Illustration of different tea cultivars and leaf positions

1.2　试验装置的工作原理及研制

茶鲜叶品质成分无损检测的工作原理如图2a所示，卤素灯光源照射到被测样本表面，从样本表面反射回来的漫反射光通过Y型光纤把样本的光信号同时传输至两台光谱仪，光信号转换为数字信号后，通过USB接口连接至PC端，最后在计算机上完成数据的存储与分析。

显示原图|下载原图ZIP|生成PPT

图2 无损检测装置工作原理和实物图

Fig.2 Working principle and physical prototype of the non-destructive detection device

本试验装置主要依据光谱仪、电源和电压转换模块等配件尺寸大小、定位孔位置、连接方式，以及加工工艺要求，应用Solidworks 2016软件进行整机结构设计，检测装置实物如图2b所示，其主机质量约4.61 kg，外观尺寸为300 mm×224 mm×163 mm。光谱仪、植物探头和Y型光纤是该检测装置的关键部件。光谱仪1（FieldSpec HandHeld 2便携式分光辐射光谱仪，美国ASD公司），其光谱范围为325~1 075 nm，光谱分辨率为3 nm，采用512硅光电二极管阵列（Photodiode Array, PDA）传感器；光谱仪2（SW2520响尾蛇2号128近红外NIR光谱仪，OtO超微光学公司），其光谱范围为900~1 700 nm，光谱分辨率为15 nm，采用128像素线阵铟镓砷（Indium Gallium Arsenide, InGaAs）传感器；选用美国ASD公司的植物探头叶片夹，自带标准白板和钨石英卤素灯，可拆卸；Y型光纤（SIH400 Y6+1型光纤，深圳市鑫锐光子科技有限公司）的纤芯直径为400 μm，长度为1 m，可传输光谱范围为400~2 200 nm；选用格耐尔12 V聚合物锂电池作为装置电源，并配备鑫源公司的12 V/5 A直流不间断电源，既能防止锂电池过放电损坏，又可实现交直流电源的不间断切换，满足室内外的交直流双模式切换实际需求。

1.3　茶鲜叶光谱信息采集及校正

茶鲜叶光谱信息采集前，先开启检测装置预热约30 min。本次试验光谱仪1参数设置为10次光谱平均次数扫描茶鲜叶光谱信息，20次光谱平均次数扫描暗电流，10次光谱平均次数扫描标准白板光谱信息；光谱仪2参数设置的最佳积分时间为40 ms、平滑度为3、扫描次数为10次。此后，每间隔15 min对光谱仪参数进行优化。为了对原始光谱进行黑白校正，以减少仪器噪声干扰和光照强度不稳定对茶鲜叶光谱数据的影响。首先获取标准白板的光谱数据，记作R _ref；然后关闭光源并将叶片夹头翻转至黑色背景面获取暗电流的光谱数据，记作R _dark。其次采用植物探头叶片夹住茶鲜叶正面进行光谱信息采集，每个茶鲜叶重复采集3次，取其平均值作为原始光谱反射率，记作R _raw。最后按公式（1）进行校正，得到该叶片的光谱反射率。

R = ［R _raw-R _dark］ / ［R _ref-R _dark］（1）

式中：R为校正后的茶鲜叶光谱反射率；R _raw为原始光谱反射率；R _ref为标准白板的光谱数据，该反射率接近为1；R _dark为暗电流的光谱信息，该反射率接近为0。

1.4　茶鲜叶内茶多酚含量测定

采集茶鲜叶光谱数据后，参照国家标准GB/T 8313—2018《茶叶中茶多酚和儿茶素类含量的检测方法》测定其茶多酚含量^［20］。由于单个茶鲜叶质量较少，取每个品种同一叶位的5片鲜叶烘干后过80目筛作为一份样本，对同一份茶粉重复测定三次，取两个相对误差较小的茶多酚含量的平均值作为该样本的实测化学值。

1.5　数据分析方法

1.5.1　数据预处理

为消除异常值对模型性能的影响，本研究采用四分位法（Interquartile Range, IQR）剔除样本集中的异常样本^［21］。利用Savitzky-Golay卷积平滑法（Savitzky-Golay Smoothing, SG）对原始光谱进行噪声滤除，通过1次多项式对移动窗口为3的光谱数据进行最小二乘拟合，以减少随机噪声对茶鲜叶有效光谱特征的干扰^［22］。

1.5.2　数据融合方法

多源数据融合可分为数据级、特征级和决策级三个不同层次。数据级融合，也称为早期数据融合，是在数据处理的早期阶段，直接将不同传感器采集的原始数据进行融合；特征级融合或中期数据融合是将来自不同传感器的数据经特征提取后再进行融合；决策级融合或后期数据融合是不同传感器的数据单独建模，再将各自结果整合以得到最终决策，但该方法若未考虑不同传感器之间的数据相关性，可能会丢失部分有用信息^［19］。因此，本研究选用数据级和特征级融合对不同传感器获取的光谱数据进行融合，如图3所示。其中，特征级融合采用CARS算法提取特征波段，该算法是一种将蒙特卡罗采样（Monte Carlo, MC）与PLS模型回归系数相结合的特征变量选择方法，其原理是模仿达尔文进化论的“适者生存”原则进行特征波段筛选^{［23, 24］}。

显示原图|下载原图ZIP|生成PPT

图3 不同光谱仪的数据融合方法

a. 数据级融合 b. 特征级融合

Fig. 3 Data fusion methods for different spectrometers

1.5.3　识别模型

为提高模型的泛化能力，在建立模型前，使用Kennard-Stone（KS）算法将数据集划分为训练集和预测集，该KS算法通过计算不同样本在 X 的特征向量方向上的欧氏距离来划分数据集^［24］。本研究采用多种机器学习算法构建不同茶叶品种和叶位的识别模型，包括PCA、PLS-DA、最小二乘支持向量机（Least Squares Support Vector Machine, LS-SVM）、极限学习机（Extreme Learning Machine, ELM）和一维卷积神经网络模型（One-Dimensional Convolutional Neural Network, 1D-CNN）的深度学习模型。其中，PCA是典型的无监督学习方法，通过正交变换将原始数据中可能存在相关性的变量转换为一组线性不相关的变量，从而实现数据降维和可视化^［19］。PLS-DA是结合PLS和判别分析方法的有监督分类模型，有效降低高光谱数据中不同波段之间的多重共线性问题。LS-SVM采用最小二乘线性系统作为损失函数，通过求解等式约束代替传统SVM的不等式约束，降低模型计算复杂度，从而加快模型收敛速度^［25］。ELM是一种单隐藏层前馈神经网络，通过随机初始化输入层权重和隐藏层偏置，并利用最小二乘法计算输出层权重^［26］。本研究采用交叉验证方法（Cross-Validation, CV）确定PLS-DA的最佳主成分个数；利用粒子群算法（Particle Swarm Optimization, PSO）寻找LS-SVM的最佳惩罚因子C和核函数参数γ，核函数为径向基函数（Radial Basis Function, RBF）；采用网络搜索法（Grid Search, GS）确定ELM模型的隐藏层神经元个数，激活函数为Sigmoid。

CNN作为深度学习的代表算法之一，其采用端到端的学习方式，具有自动提取特征能力^［12］。1D-CNN由卷积层、池化层和全连接层等组成，通过卷积操作提取一维光谱数据的局部特征，并利用池化层进行降维，最终通过全连接层完成分类或回归任务。在本研究中，通过反复训练和调试来优化经典CNN网络结构和参数，构建了适用于不同茶树品种、叶位识别和茶多酚含量预测的最佳1D-CNN模型，其结构如图4所示。该模型包括1个输入层，3个一维（1D）卷积层，2个最大池化层，1个展平层、2个全连接层和1个输出层。每个卷积层依次使用批量归一化（Batch Normalization, BN）和Sigmoid激活函数。池化层为下采样操作，可对输入特征图进行降维，有效减少特征图的空间维度。本研究采用常见的最大池化操作（Max pooling），通过在特征图的局部区域内选择最大值作为该区域的代表值，保留了特征图中的关键信息。展平层将多维的特征图转换为一维向量，然后将其输入到由128个神经元与3个神经元构成（对应3个品种识别），或128个神经元与4个神经元构成（对应4个叶位识别）的全连接层。最后，输出层的Softmax函数将最后一个全连接层输出转换为概率分布，并采用交叉熵损失函数计算模型输出的概率分布与真实标签之间的差距^［27］。

显示原图|下载原图ZIP|生成PPT

图4 用于不同茶叶品种、叶位识别和茶多酚含量预测的1D-CNN网络架构

Fig.4 Architecture of the 1D-CNN for identifying different tea varieties, leaf positions, and predicting tea polyphenol content

为最大程度地减少损失函数，提高模型的性能，训练过程中需不断调整超参数。本研究采用自适应矩估计（Adaptive Moment Estimation, Adam）优化器，初始学习率为0.001，且根据分段衰减策略，每250轮训练后学习率下降因子为0.1。在训练过程中，最大迭代次数设置为300次，批量大小为32，同时使用L₂正则化防止过拟合，其正则化系数为10^-4。

1.5.4　定量模型

本研究选取PLSR、最小二乘支持向量机回归（Least Squares Support Vector Regression, LS-SVR）、ELM和1D-CNN用于预测茶鲜叶内茶多酚含量。其中，PLSR作为一种线性回归方法，能够同时考虑光谱矩阵和浓度矩阵，适用于处理自变量间存在高度相关性的回归问题^［19］。定量模型侧重于对连续数值的预测，而识别模型主要对离散的类别标签进行分类。例如，在回归任务中，1D-CNN回归模型的全连接层由128个神经元与1个神经元构成（对应茶多酚含量预测），其损失函数为均方误差（Mean Squared Error, MSE），用于计算模型输出值与实测化学值之间的均方误差，并在训练过程中实现误差最小化^［12］。

1.5.5　模型性能评估

为评估模型对不同茶树品种和叶位的识别效果，选用准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F ₁分数（F ₁ -Score）作为识别模型的评估指标。其中，准确率是正确分类样本的数量与总样本数的比例；精确率衡量模型预测为正例的样本中，真实为正例的概率；召回率是在实际为正例的样本中，被模型预测为正例的比例；F ₁分数是精确率和召回率的调和平均值，综合考虑了精确率和召回率的平衡。通常，准确率、精确率、召回率和F ₁分数越大，表示分类器的识别能力越强^［27］。具体计算如公式（2）~公式（5）所示：

Accuracy = （TP+TN） / （TP+TN+FP+FN）（2）

Precision = TP / （TP+FP）（3）

Recall = TP / （TP+FN）（4）

F ₁ -Score = （2×TP） / （2×TP+FP+FN）（5）

式中：TP为真正例；FP为假正例；TN为真反例；FN为假反例。

对于定量模型预测茶多酚含量的性能评价，采用决定系数（Coefficient of Determination, R ²）、均方根误差（Root Mean Square Error, RMSE）和RPD作为模型性能评价指标。一般来说，R ²越靠近1、RMSE越靠近0，且RPD值越大，表明模型预测性能越强。当RPD值在1.0~1.4之间，表明模型预测效果较差；当RPD值在1.4~1.8之间，表明模型可以应用，但预测性能一般；当RPD值在1.8~2.0之间，表明模型性能较好；当RPD值大于2.0时，表明模型具有很好的预测效果^{［10, 19］}。

上述数据处理分析在Matlab 2022b（The Math Works，美国）、DPS（Data Processing System，中国）和Origin 2024b（Origin Lab，美国）中完成。

2 结果与讨论

2.1　茶鲜叶的茶多酚含量统计分析

图5显示了3个茶树品种和4个叶位茶鲜叶的茶多酚含量，采用IQR方法剔除了黄旦品种中的12个异常样本，不同品种的茶多酚含量如图5a所示。黄旦的茶多酚含量（17.54%±1.82%）分别是铁观音（15.04%±1.22%）和本山（16.81%±1.24%）的1.16倍和1.04倍。不同叶位的茶多酚含量如图5b所示，每个茶树品种的茶多酚含量从第1叶位到第4叶位均大致呈递减趋势，其中第1叶位的茶多酚含量最高。双因素方差分析表明，品种因素和叶位因素对茶鲜叶茶多酚含量的影响均具有显著差异（P<0.05），但品种与叶位交互作用对茶多酚含量无显著影响（P=0.452>0.05）。因此，从不同茶树品种和叶位可获取具有不同浓度梯度的茶多酚含量，这有利于后续建立稳健的定量模型。

显示原图|下载原图ZIP|生成PPT

图5 不同品种和叶位的茶鲜叶茶多酚含量分布情况

注：不同小写字母表示Tukey检测下不同品种和叶位的茶多酚含量具有显著差异（P < 0.05）。

Fig.5 Distribution of tea polyphenol content in fresh tea leaves of different varieties and leaf positions

2.2　光谱数据分析

检测装置共获取了1 440个茶鲜叶的光谱信息。将每个品种相同叶位的5个样本光谱数据取平均值，得到288份样本的原始反射光谱数据，如图6所示。其中，图6a为FieldSpec HandHeld 2光谱仪采集到的样本可见/短波近红外光谱反射率曲线，图6b为SW2520光谱仪采集到的样本长波近红外光谱反射率曲线。可以看出，所有茶鲜叶的原始光谱反射率曲线变化趋势相似，但光谱反射强度存在差异，这表明不同品种和叶位的茶鲜叶内成分相似，其成分含量有所不同。在可见/短波近红外光谱范围内（400~1 050 nm），550 nm附近处有明显的强反射峰（绿峰），这主要由绿色植物叶片对绿光吸收少；480和680 nm附近分别出现了2个明显的吸收峰（蓝谷和红谷），主要由叶绿素的强吸收引起^{［12, 15］}；在700~780 nm范围内出现反射率急剧上升的红边效应，可能是叶绿素在可见光区域吸收较强，而在近红外区域吸收较弱；970 nm附近出现较弱的吸收峰，这是由茶鲜叶水分子中O-H基团伸缩振动的二级倍频引起^［19］。在长波近红外光谱范围内（1 051~1 650 nm），1 200 nm附近处出现平缓的吸收峰，主要由-CH₂的C-H基团伸缩振动的二级倍频引起^［12］；1 465 nm附近处的吸收峰，主要归因于水分子中O-H基团伸缩振动的一级倍频^{［10, 12］}；在1 600~1 650 nm附近处的光谱信息变化与-CH₃的C-H基团伸缩振动的一级倍频有关^［25］。因此，有必要将可见/短波近红外和长波近红外光谱进行数据融合，以提取更多有用的光谱信息，从而表征不同品种和叶位的茶鲜叶成分含量差异。

显示原图|下载原图ZIP|生成PPT

图6 在不同波段范围茶鲜叶的原始光谱曲线

Fig.6 Original spectral curves of fresh tea leaves in different band ranges

2.3　特征波段提取

为降低噪声对光谱信息造成影响，从而提高光谱信噪比，本研究采用SG平滑对光谱数据进行预处理，再将预处理后的可见/短波近红外和长波近红外光谱进行首尾拼接，不同品种和叶位的平均光谱反射率曲线如图7a和图7b所示。可见不同茶树品种的平均光谱反射率在可见/近红外光谱范围内的蓝谷、绿峰、红谷、特征吸收峰，以及近红外光谱存在差异，其中在绿峰（550 nm）附近处黄旦品种的平均光谱反射率依次高于本山和铁观音，而在近红外光谱区域（780~1 200 nm）则为铁观音>本山>黄旦。不同叶位的平均光谱反射率在吸收峰和吸收谷附近也存在差异，但叶位间的差异小于品种差异。

显示原图|下载原图ZIP|生成PPT

图7 对于品种、叶位和茶多酚含量预测的不同波段范围内数据级和特征级融合

Fig.7 Data-level and feature-level fusion of data within different wavelength ranges for the prediction of varieties， leaf positions， and tea polyphenol content

为提取与品种、叶位和茶多酚含量差异相关的特征波段，利用CARS算法分别在可见/短波近红外光谱和长波近红外光谱范围内筛选特征波段，所选取品种、叶位和茶多酚含量的特征变量个数分别为171个（其中可见/短波近红外78个、长波近红外93个）、90个（可见/短波近红外69个、长波近红外21个）和106个（可见/短波近红外48个、长波近红外58个）。以茶树品种识别为例，在400~1 050 nm范围内的CARS变量筛选过程如图7c所示，运行CARS算法时，蒙特卡洛采样次数设为1 000，并采用五折交叉验证的均方根误差作为评价指标。随着采样次数增加，被选择变量个数按照指数衰减函数下降。当采样次数为23时，交叉验证均方根误差（Root Mean Square Error of Cross-Validation, RMSECV）达到最小值0.970，此时剔除了与茶树品种无关信息或者共线的变量；23次采样后，RMSECV值逐渐升高，这可能是由于剔除了表征茶树品种差异的关键波段所致。23次采样时，RMSECV值最小且所选的变量子集最优，该子集包括78个特征波段。如图7d显示了品种、叶位和茶多酚含量的特征波段融合后分布情况，可以看出这些特征波段主要集中在412~462 nm、480~600 nm、608~739 nm、860~960 nm、977~1 130 nm、1 150~1 223 nm、1 367~1 403 nm和1 513~1 601 nm，这可能与茶鲜叶内助色团（如-OH、-NH和-SH等）和生色团（如羧基、酯基、芳香体系等）的吸收特性，以及酚类的O-H、C-H基团伸缩振动、-CH₃/-CH₂中C-H基团伸缩振动等相关^{［12, 20, 25］}。

2.4　品种和叶位识别模型构建

2.4.1　主成分分析

对于不同茶树品种和叶位识别，可见/短波近红外、长波近红外、可见/短波与近红外光谱数据级融合，以及特征级融合的前3个主成分累积方差贡献率均高于92.03%，能够解释大部分原始光谱数据。同时，可对品种和叶位的差异进行可视化及初步分析。因此，以前3个主成分（PC1、PC2和PC3）为变量绘制散点分布图，如图8所示。由图8a~图8d可知，对于不同品种识别，黄旦、铁观音和本山品种的主成分散点分布及在PC1和PC2方向上投影呈现明显聚成三个簇的趋势，分类效果较好，但仍存在个别样本相互重叠的情况。由图8e~图8h可知，对于不同叶位识别，叶位1、叶位2、叶位3和叶位4的主成分散点分布互相交叉，叶位之间无明显簇拥现象。这可能由于4个叶位在主成分方向上具有一些相似性，且3个品种之间存在一定聚集现象，导致目标样本无法完全分离。因此，需要采用模式识别方法对光谱数据进一步分析。

显示原图|下载原图ZIP|生成PPT

图8 不同茶树品种、叶位光谱数据的前3个主成分分布图

Fig. 8 Distribution of the first three principal component scores of the spectral data of different tea varieties and leaf positions

2.4.2　识别模型建立

不同输入变量下，机器学习模型对3个茶树品种和4个叶位的识别性能如表1所示。对于不同品种识别，基于单一数据源或数据融合建立的线性/非线性识别模型均取得了良好的分类效果，其单一数据源预测准确率均超过94.83%，且经数据融合后所有模型的预测准确率均达到100.00%，这表明3个品种之间的光谱信息差异较大，利用单一数据源或多源数据融合结合线性模型PLS-DA即可实现品种的精准识别。对于不同叶位识别，相较于单一数据源，基于数据融合建立的识别模型性能明显提升。例如，特征级融合后建立的PLS-DA模型，其预测准确率较可见/短波近红外光谱和长波近红外光谱的模型分别提高了8.62%和18.96%，且变量数从651个和600个减少至90个，下降幅度超过85%，不仅提高了模型的识别精度，还缩短了模型运算时间。此外，非线性模型（LS-SVM、ELM和1D-CNN）结合数据融合策略后，预测性能优于或接近单一数据源，准确率均超过74.14%。其中，基于特征级融合的PLS-DA模型对叶位的识别优于非线性模型，该模型预测准确率为87.93%。同时，基于特征级融合的PLS-DA模型识别品种效果也较好，预测准确率为100%。这说明通过可见/短波近红外光谱和长波近红外光谱的特征级融合建立的PLS-DA模型分类效果稳定性更好，但叶位识别准确率相对较低，有待进一步提升。

表1 单一数据源和多源数据融合的茶树品种、叶位识别模型性能比较

Table 1 Performance comparison between single-source and multi-source data fusion models for tea variety and leaf position identification

类别	识别模型	输入变量	变量数	训练集				预测集
类别	识别模型	输入变量	变量数	准确率/%	精确率%	召回率/%	F ₁分数	准确率/%	精确率%	召回率/%	F ₁分数
3个品种	PLS-DA	可见/短波近红外	651	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		长波近红外	600	87.83	87.94	88.17	0.879 9	94.83	94.11	93.70	0.938 5
		数据级数据融合	1 251	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		特征级数据融合	171	99.13	99.12	99.10	0.991 1	100.00	100.00	100.00	1.000 0
	LS-SVM	可见/短波近红外	651	99.57	99.55	99.55	0.995 5	100.00	100.00	100.00	1.000 0
		长波近红外	600	96.52	96.66	96.60	0.966 1	100.00	100.00	100.00	1.000 0
		数据级数据融合	1 251	99.57	99.58	99.54	0.995 6	100.00	100.00	100.00	1.000 0
		特征级数据融合	171	98.26	98.29	98.22	0.982 1	100.00	100.00	100.00	1.000 0
	ELM	可见/短波近红外	651	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		长波近红外	600	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		数据级数据融合	1 251	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		特征级数据融合	171	98.70	98.69	98.69	0.986 9	100.00	100.00	100.00	1.000 0
	1D-CNN	可见/短波近红外	651	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		长波近红外	600	93.91	93.99	94.02	0.939 8	98.28	98.15	97.92	0.979 7
		数据级数据融合	1 251	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
		特征级数据融合	171	100.00	100.00	100.00	1.000 0	100.00	100.00	100.00	1.000 0
4个叶位	PLS-DA	可见/短波近红外	651	90.87	91.24	90.93	0.909 8	79.31	82.39	79.76	0.804 2
		长波近红外	600	64.35	64.92	64.39	0.644 8	68.97	69.02	69.74	0.689 7
		数据级数据融合	1 251	94.35	94.45	94.40	0.943 9	84.48	86.06	86.87	0.858 2
		特征级数据融合	90	85.65	85.45	85.23	0.853 2	87.93	91.18	88.51	0.889 3
	LS-SVM	可见/短波近红外	651	73.91	74.08	74.31	0.734 1	58.62	58.41	61.62	0.577 0
		长波近红外	600	56.09	56.00	56.57	0.560 9	58.62	58.86	59.93	0.592 1
		数据级数据融合	1 251	80.87	81.00	81.33	0.805 2	74.14	73.42	72.00	0.722 7
		特征级数据融合	90	96.52	96.38	96.46	0.964 1	79.31	81.55	78.57	0.789 3
	ELM	可见/短波近红外	651	95.22	95.24	95.48	0.953 6	75.86	75.45	76.43	0.759 3
		长波近红外	600	65.65	65.57	65.07	0.653 2	67.24	68.20	71.36	0.697 5
		数据级数据融合	1 251	79.57	79.49	79.43	0.794 6	79.31	80.33	78.99	0.796 5
		特征级数据融合	90	86.09	85.64	85.97	0.858 1	74.14	79.29	76.95	0.781 0
	1D-CNN	可见/短波近红外	651	79.57	79.64	79.47	0.794 5	68.97	68.23	69.10	0.684 6
		长波近红外	600	62.17	62.29	63.57	0.630 0	63.79	63.29	64.64	0.638 2
		数据级数据融合	1 251	87.83	87.96	88.28	0.876 2	74.14	75.09	73.62	0.735 8
		特征级数据融合	90	97.39	97.37	97.34	0.973 3	82.76	84.32	86.06	0.842 1

为更详细地观察2种数据融合方法结合PLS-DA模型对叶位的识别效果，图9展示了单一数据源、数据级和特征级融合后建立模型的混淆矩阵。可以看出，特征级融合所建立的PLS-DA模型提高了对叶位1的准确识别能力，但叶位2、叶位3和叶位4之间存在一定误判，这可能是由于这些叶位的茶鲜叶内含物质含量差异较小或类别不平衡，导致光谱特征在部分波段上重叠较多，使得模型难以准确识别。因此，通过可见/短波近红外与长波近红外的有效融合，能够提升模型对茶叶采摘过程中叶位的精准识别。

显示原图|下载原图ZIP|生成PPT

图9 单一数据源和数据融合方法结合PLS-DA模型识别4个茶树叶位的混淆矩阵

Fig.9 Confusion matrices of the PLS-DA model for identifying four tea leaf positions using single data sources and data fusion methods

2.5　茶多酚定量模型构建

2.5.1　样本划分

利用KS算法，从剔除12个异常样本后的数据集里按照4∶1的比例划分训练集和预测集，样本数分别为221个和55个，对单一数据源及多源数据融合下的茶多酚含量进行统计分析如表2所示。在单一数据源400~1 050 nm范围内，全集的茶多酚含量变化范围为12.71%~20.60%，平均值为16.41%，标准差为1.60%，变异系数为9.80%。训练集和预测集的平均值分别为16.44%和16.25%，标准差分别为1.62%和1.55%，变异系数分别为9.86%和9.59%。不同样本的茶多酚含量具有较强的变异性，这是由于采集了3个茶树品种的4个叶位，样本间异质性强，导致茶多酚含量变化较大^［28］。全集和训练集的偏度均大于0，表明数据总体呈右偏态分布。所有的数据集峰度均小于0，说明数据集尾部较正态分布更细，极端数据较少。此外，不同输入变量范围内训练集的茶多酚含量范围均覆盖了预测集的含量范围，且各样本集的茶多酚含量分布均匀，其平均值和标准差相近。因此，样本集划分合理，适用于构建稳健的定量模型。

表2 茶鲜叶茶多酚含量的统计特征

Table 2 Statistical characteristics of tea polyphenol contents in fresh tea leaves

输入变量	数据集	样本数/个	最小值/%	最大值/%	平均值/%	标准差/%	变异系数/%	偏度	峰度
可见/短波近红外（400~1 050 nm）	全集	276	12.71	20.60	16.41	1.60	9.80	0.019	-0.450
	训练集	221	12.71	20.60	16.44	1.62	9.86	0.036	-0.472
	预测集	55	13.13	19.58	16.25	1.55	9.59	-0.089	-0.352
长波近红外（1 051~1 650 nm）	全集	276	12.71	20.60	16.41	1.60	9.80	0.019	-0.450
	训练集	221	12.71	20.60	16.47	1.67	10.17	0.020	-0.571
	预测集	55	13.18	18.36	16.16	1.28	7.97	-0.402	-0.273
数据级数据融合	全集	276	12.71	20.60	16.41	1.60	9.80	0.019	-0.450
	训练集	221	12.71	20.60	16.48	1.64	9.95	0.037	-0.472
	预测集	55	13.18	18.72	16.09	1.44	8.97	-0.288	-0.748
特征级数据融合	全集	276	12.71	20.60	16.41	1.60	9.80	0.019	-0.450
	训练集	221	12.71	20.60	16.51	1.62	9.82	0.064	-0.484
	预测集	55	13.13	18.29	15.98	1.49	9.34	-0.372	-0.855

2.5.2　定量模型建立

如表3所示，基于数据级融合构建的1D-CNN深度学习模型预测茶鲜叶内茶多酚含量获得较好的性能，其R ² _P、RMSEP和RPD值分别为0.802 0、0.636 8%和2.268 4。通过数据级融合分别结合线性模型PLSR和非线性模型（LS-SVR和ELM）优于单一数据源所构建的模型预测效果，而基于特征级融合的PLSR模型相比于单一传感器（光谱范围为400~1 050 nm）获得的模型效果有所降低，这表明不合理的数据融合与机器学习模型相结合并不能有效提高预测精度^［19］。研究发现，可见/短波近红外光谱数据（400~1 050 nm）的建模效果明显优于长波近红外光谱（1 051~1 650 nm），这可能与可见/短波近红外光谱仪具有高信噪比和高分辨率有关。同时，数据级和特征级融合的模型效果均优于长波近红外光谱数据构建的模型，该模型具有更高R ² _P和RPD值，且略大于可见/短波近红外光谱建模效果。这可能是因为不同色泽的茶鲜叶其化学成分含量和组成存在差异，也反映在黄烷醇类化合物的含量和组成上。由于茶多酚的主要成分儿茶素属于黄烷醇类化合物，其特征波段主要分布在450~780 nm的可见光区域^［29］。因此，利用包括可见光区域的光谱数据建模，预测效果较好。此外，茶多酚属于多酚类物质，含有氢基团（如C-H、O-H等）^［30］，数据级融合后的数据能更全面覆盖其倍频和合频的吸收特性，从而克服单一传感器波长范围较窄导致所采集到光学信号具有局限性和预测精度低等问题。因此，本研究研制一款能够同步获取茶鲜叶相同像素点处可见/短波和近红外光谱数据的检测装置，结合深度学习算法的强大特征提取能力，实现了端到端的茶鲜叶茶多酚含量快速无损精准反演。

表3 单一数据源和多源数据融合的茶多酚含量预测模型性能比较

Table 3 Performance comparison of tea polyphenol content prediction models based on single-source and multi-source data fusion

定量模型	输入变量	变量数/个	R ² _C	RMSEC/%	R ² _P	RMSEP/%	RPD
PLSR	可见/短波近红外	651	0.729 5	0.841 5	0.787 2	0.712 3	2.167 8
	长波近红外	600	0.461 4	1.227 0	0.465 6	0.933 1	1.368 0
	数据级数据融合	1 251	0.743 7	0.828 5	0.789 2	0.657 0	2.178 5
	特征级数据融合	106	0.700 1	0.886 2	0.770 2	0.708 9	2.086 3
LS-SVR	可见/短波近红外	651	0.650 4	0.956 7	0.738 3	0.789 8	1.955 0
	长波近红外	600	0.550 4	1.121 0	0.587 0	0.820 3	1.556 1
	数据级数据融合	1 251	0.741 2	0.832 5	0.751 3	0.713 7	2.005 5
	特征级数据融合	106	0.755 7	0.799 9	0.743 6	0.748 7	1.975 2
ELM	可见/短波近红外	651	0.637 7	0.973 9	0.745 6	0.778 7	1.982 8
	长波近红外	600	0.633 4	1.012 2	0.664 5	0.739 4	1.726 6
	数据级数据融合	1 251	0.647 3	0.971 9	0.753 2	0.710 9	2.013 3
	特征级数据融合	106	0.768 3	0.778 9	0.787 0	0.682 5	2.166 8
1D-CNN	可见/短波近红外	651	0.836 3	0.654 5	0.724 2	0.810 8	1.921 9
	长波近红外	600	0.534 0	1.141 2	0.622 0	0.784 4	1.642 4
	数据级数据融合	1 251	0.842 5	0.649 4	0.802 0	0.636 8	2.268 4
	特征级数据融合	106	0.819 6	0.687 3	0.733 4	0.763 5	1.954 8

综上，基于可见/短波与长波近红外光谱数据级融合的1D-CNN模型在茶多酚含量预测中性能最佳，该模型预测值与实测值的散点图如图10a所示。预测集样本预测值与实测值之间对比，如图10b所示。可见预测集样本的茶多酚含量预测值与实测值整体呈线性相关趋势，且大部分数据点分布在1∶1对角线附近和预测带内，表明模型预测结果与实际值的一致性较高。

显示原图|下载原图ZIP|生成PPT

图10 数据级融合的1D-CNN模型检测茶多酚含量预测值与实测值散点及对比图

Fig. 10 Scatter plot and comparison of tea polyphenol content predicted and measured values using a 1D-CNN with data-level fusion

3 结论

本研究以秋季茶树品种黄旦、铁观音和本山的茶鲜叶作为试验材料，设计了一款基于可见/短波近红外光谱与长波近红外光谱联用技术的茶鲜叶品质成分无损检测装置。该装置主要由光谱仪、Y型光纤、植物探头、聚合物锂电池、直流不间断电源、电压转换模块和铝合金壳体等组成，能够实现同步采集茶鲜叶可见/短波近红外和长波近红外的多源光谱数据。经过Savitzky-Golay卷积平滑法预处理后的可见/短波与长波近红外（400~1 650 nm）光谱数据结合特征级融合建立的PLS-DA线性模型，对品种和叶位识别的预测准确率分别达到100%和87.93%；基于数据级融合的1D-CNN深度学习模型对茶鲜叶茶多酚含量预测性能的R ² _P、RMSEP和RPD分别为0.802 0、0.636 8%和2.268 4，优于仅采用单一传感器的可见/短波近红外光谱或长波近红外光谱构建的模型。研究结果为茶树优良品种培育及茶鲜叶品质检测提供了快速无损方法。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	SUN M F, JIANG C L, KONG Y S, et al. Recent advances in analytical methods for determination of polyphenols in tea: A comprehensive review[J]. Foods, 2022, 11(10): ID 1425.

[2]	CHEN G C, YI Z, CHEN X Y, et al. Polyphenol nanoparticles from commonly consumed tea for scavenging free radicals, stabilizing pickering emulsions, and inhibiting cancer cells[J]. ACS applied nano materials, 2020, 4(1): 652-665.

[3]	JANG M, PARK R, PARK Y I, et al. EGCG, a green tea polyphenol, inhibits human coronavirus replication in vitro [J]. Biochemical and biophysical research communications, 2021, 547: 23-28.

[4]	XING L J, ZHANG H, QI R L, et al. Recent advances in the understanding of the health benefits and molecular mechanisms associated with green tea polyphenols[J]. Journal of agricultural and food chemistry, 2019, 67(4): 1029-1043.

[5]	MATSUSHITA K, HONDA C, NAKAMURA Y, et al. Comparison of colorimetric methods for the analysis of total polyphenols in green tea extracts[J]. Bioscience, biotechnology, and biochemistry, 2024, 88(7): 798-803.

[6]	GHARIBZAHEDI S M T, BARBA F J, ZHOU J J, et al. Electronic sensor technologies in monitoring quality of tea: A review[J]. Biosensors, 2022, 12(5): ID 356.

[7]	HUANG Y F, DONG W T, SANAEIFAR A, et al. Development of simple identification models for four main catechins and caffeine in fresh green tea leaf based on visible and near-infrared spectroscopy[J]. Computers and electronics in agriculture, 2020, 173: ID 105388.

[8]	REN G X, LIU Y, NING J M, et al. Assessing black tea quality based on visible-near infrared spectra and kernel-based methods[J]. Journal of food composition and analysis, 2021, 98: ID 103810.

[9]	BIANCOLILLO A, MARINI F. Special issue "application of spectroscopy in food analysis"[J]. Applied sciences, 2021, 11(9): ID 3860.

[10]	CHEN S M, WANG C Y, TSAI C Y, et al. Fermentation quality evaluation of tea by estimating total catechins and theanine using near-infrared spectroscopy[J]. Vibrational spectroscopy, 2021, 115: ID 103278.

[11]	SANAEIFAR A, HUANG X Y, CHEN M Y, et al. Nondestructive monitoring of polyphenols and caffeine during green tea processing using Vis-NIR spectroscopy[J]. Food science & nutrition, 2020, 8(11): 5860-5874.

[12]	李晓丽, 张东毅, 董雨伦, 等. 基于卷积神经网络的茶鲜叶主要内含物的光谱快速检测方法[J]. 中国农业大学学报, 2021, 26(11): 113-122. LI X L, ZHANG D Y, DONG Y L, et al. Spectral rapid detection of phytochemicals in tea(Camellia sinensis)based on convolutional neural network[J]. Journal of China agricultural university, 2021, 26(11): 113-122.

[13]	WANG X Y, CHEN H C, JI R D, et al. Detection of carmine in black tea based on UV-vis absorption spectroscopy and machine learning[J]. Food analytical methods, 2025, 18(2): 149-160.

[14]	HERSHBERGER J, MBANJO E G N, PETETI P, et al. Low-cost, handheld near-infrared spectroscopy for root dry matter content prediction in cassava[J]. The plant phenome journal, 2022, 5(1): ID e20040.

[15]	王凡, 赵春江, 徐波, 等. 便携式茶鲜叶品质光谱检测装置研制[J]. 农业工程学报, 2020, 36(24): 273-280. WANG F, ZHAO C J, XU B, et al. Development of a portable detection device for the quality of fresh tea leaves using spectral technology[J]. Transactions of the Chinese society of agricultural engineering, 2020, 36(24): 273-280.

[16]	李文萃, 周新奇, 范起业, 等. 便携式近红外茶叶品质快速检测仪设计与试验[J]. 现代食品科技, 2021, 37(5): 303-309. LI W C, ZHOU X Q, FAN Q Y, et al. Design and experiment of portable near-infrared tea quality detector[J]. Modern food science and technology, 2021, 37(5): 303-309.

[17]	WANG W X, PENG Y K, SUN H W, et al. Real-time inspection of pork quality attributes using dual-band spectroscopy[J]. Journal of food engineering, 2018, 237: 103-109.

[18]	RYCKEWAERT M, CHAIX G, HÉRAN D, et al. Evaluation of a combination of NIR micro-spectrometers to predict chemical properties of sugarcane forage using a multi-block approach[J]. Biosystems engineering, 2022, 217: 18-25.

[19]	董春旺, 刘中原, 杨明, 等. 基于多源信息融合的绿茶杀青叶水分含量智能感知方法[J]. 食品科学, 2022, 43(20): 242-251. DONG C W, LIU Z Y, YANG M, et al. Intelligent sensing method for detecting moisture content in fixed tea leaves for green tea based on multi-source information fusion[J]. Food science, 2022, 43(20): 242-251.

[20]	XU J C, QU F F, SHEN B H, et al. Rapid detection of tea polyphenols in fresh tea leaves based on fusion of visible/short-wave and long-wave near infrared spectroscopy and its device development[J]. Applied sciences, 2023, 13(3): ID 1739.

[21]	BANAS K, BANAS A M, PASTORIN G, et al. Sensing the changes in stratum corneum using Fourier transform infrared microspectroscopy and hyperspectral data processing[J]. Sensors, 2024, 24(21): ID 7054.

[22]	ZHANG G S, HAO H, WANG Y C, et al. Optimized adaptive Savitzky-Golay filtering algorithm based on deep learning network for absorption spectroscopy[J]. Spectrochimica acta part A: Molecular and biomolecular spectroscopy, 2021, 263: ID 120187.

[23]	WANG S H, ZHANG M Y, ZHAO Z X, et al. Optical properties and Monte Carlo simulation of cotton fibers with different micronaire values[J]. Industrial crops and products, 2025, 223: ID 120254.

[24]	饶利波, 陈晓燕, 庞涛. 基于光谱技术的Bipls算法结合CARS算法的苹果可溶性固形物含量检测[J]. 发光学报, 2019, 40(3): ID 389. RAO L B, CHEN X Y, PANG T. Determination of apple soluble solids content using bipls coupled with CARS algorithm based on spectral technology[J]. Chinese journal of luminescence, 2019, 40(3): ID 389.

[25]	翁海勇, 许金钗, 陶铸, 等. 高EGCG含量茶树品种光谱识别模型构建[J]. 中国农机化学报, 2021, 42(6): 111-117. WENG H Y, XU J C, TAO Z, et al. Construction of spectral screening model for tea cultivars with high EGCG content[J]. Journal of Chinese agricultural mechanization, 2021, 42(6): 111-117.

[26]	安琪, 王占彬, 安国庆, 等. 基于随机森林-遗传算法-极限学习机的非侵入式负荷识别方法[J]. 科学技术与工程, 2022, 22(5): 1929-1935. AN Q, WANG Z B, AN G Q, et al. Non-intrusive load identification method based on RF-GA-ELM[J]. Science technology and engineering, 2022, 22(5): 1929-1935.

[27]	YANG B Y, YANG Z L, XU Y, et al. A 1D-CNN model for the early detection of Citrus Huanglongbing disease in the sieve plate of phloem tissue using micro-FTIR[J]. Chemometrics and intelligent laboratory systems, 2024, 252: ID 105202.

[28]	ZHOU R Q, LI X L, HE Y, et al. Determination of catechins and caffeine content in tea (Camellia sinensis L.) leaves at different positions by Fourier-transform infrared spectroscopy[J]. Transactions of the ASABE, 2018, 61(4): 1221-1230.

[29]	李晓丽, 魏玉震, 徐劼, 等. 基于高光谱成像的茶叶中EGCG分布可视化[J]. 农业工程学报, 2018, 34(7): 180-186. LI X L, WEI Y Z, XU J, et al. EGCG distribution visualization in tea leaves based on hyperspectral imaging technology[J]. Transactions of the Chinese society of agricultural engineering, 2018, 34(7): 180-186.

[30]	姚奉奇, 陶骏骏, 王海晖, 等. 茶多酚热解特性及其反应机理研究[J]. 林产化学与工业, 2017, 37(5): 19-27. YAO F Q, TAO J J, WANG H H, et al. Study of pyrolysis behavior and reaction mechanism of tea polyphenols[J]. Chemistry and industry of forest products, 2017, 37(5): 19-27.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引 言

1 材料与方法

1.1 试验样本制备

图1 不同茶树品种、叶位示意图

1.2 试验装置的工作原理及研制

图2 无损检测装置工作原理和实物图

1.3 茶鲜叶光谱信息采集及校正

1.4 茶鲜叶内茶多酚含量测定

1.5 数据分析方法

1.5.1 数据预处理

1.5.2 数据融合方法

图3 不同光谱仪的数据融合方法

1.5.3 识别模型

图4 用于不同茶叶品种、叶位识别和茶多酚含量预测的1D-CNN网络架构

1.5.4 定量模型

1.5.5 模型性能评估

2 结果与讨论

2.1 茶鲜叶的茶多酚含量统计分析

图5 不同品种和叶位的茶鲜叶茶多酚含量分布情况

2.2 光谱数据分析

图6 在不同波段范围茶鲜叶的原始光谱曲线

2.3 特征波段提取

图7 对于品种、叶位和茶多酚含量预测的不同波段范围内数据级和特征级融合

2.4 品种和叶位识别模型构建

2.4.1 主成分分析

图8 不同茶树品种、叶位光谱数据的前3个主成分分布图

2.4.2 识别模型建立

表1 单一数据源和多源数据融合的茶树品种、叶位识别模型性能比较

图9 单一数据源和数据融合方法结合PLS-DA模型识别4个茶树叶位的混淆矩阵

2.5 茶多酚定量模型构建

2.5.1 样本划分

表2 茶鲜叶茶多酚含量的统计特征

2.5.2 定量模型建立

表3 单一数据源和多源数据融合的茶多酚含量预测模型性能比较

图10 数据级融合的1D-CNN模型检测茶多酚含量预测值与实测值散点及对比图

3 结 论

References

0 引言

1.1　试验样本制备

1.2　试验装置的工作原理及研制

1.3　茶鲜叶光谱信息采集及校正

1.4　茶鲜叶内茶多酚含量测定

1.5　数据分析方法

1.5.1　数据预处理

1.5.2　数据融合方法

1.5.3　识别模型

1.5.4　定量模型

1.5.5　模型性能评估

2.1　茶鲜叶的茶多酚含量统计分析

2.2　光谱数据分析

2.3　特征波段提取

2.4　品种和叶位识别模型构建

2.4.1　主成分分析

2.4.2　识别模型建立

2.5　茶多酚定量模型构建

2.5.1　样本划分

2.5.2　定量模型建立

3 结论