数据级融合,又称低级数据融合(Low-level Data Fusion, LLDF),是一种在原始数据层面对多源传感器信息进行整合的策略。该方法直接融合原始数据,旨在最大程度保留有效信息,并借助多模态协同分析抑制噪声、增强目标与背景的对比度,进而提升检测与分析精度
[60]。以提高苹果霉心病识别准确率为例,有研究融合声振动信号与近红外光谱数据,实现了对正常、轻度、中度和重度病害样本的高精度分类,准确率分别达到100%、97.56%、100%和100%
[60]。尽管数据级融合能够保留数据完整信息,但其对数据处理技术要求较高。由于不同传感器产生的数据在格式、维度和物理意义上差异显著,必须进行复杂的数据预处理,以确保数据一致性和后续分析有效性。标准的数据级融合流程一般首先对各个独立数据集进行预处理,然后将其连接成一个包含所有变量的综合矩阵。随后,可利用主成分分析(Principal Component Analysis, PCA)或各类聚类分析等非监督方法探究样本间相似性,或应用监督学习方法构建分类或回归模型。在回归任务中,常用方法是偏最小二乘回归(Partial Least Squares Regression, PLS)及其变体,在分类任务中,偏最小二乘判别分析(Partial Least Squares-Discriminant Analysis, PLS-DA)、线性判别分析(Linear Discriminant Analysis, LDA)、k近邻算法(K-Nearest Neighbor, KNN)、支持向量机(Support Vector Machine, SVM)、人工神经网络(Artificial Neural Network, ANN),以及随机森林(Random Forest, RF)等方法被广泛应用
[61]。然而,传统处理方法将所有变量置于同一矩阵中分析,忽略了数据来源的异质性,即未能有效考虑不同数据集之间的内在关联。为解决这一局限性,有研究开发了多块分析算法(Multi-Block Algorithms),如共同主成分分析(Common Principal Component Analysis, CPCA)、共同维度分析(Common Dimension Analysis, ComDim)和多块全局正交投影(Multiblock Global Orthogonal Projections to Latent Structures, MBGOPLS),以及由此衍生的集成方法如区块森林(Block Forest, BF),这些算法能够明确处理数据的块结构
[62]。多块算法的核心优势在于,通过对变量进行区块划分,不仅能够量化每个数据块对模型的相对贡献度,还能深入分析块间相互关系,有效解决了不同数据集因变量数量、噪声水平和信息密度不均衡所带来的建模难题。