为提高图像识别的准确性和鲁棒性,已有研究开始将传统的单模态图像分类任务拓展到多模态学习框架中,通过整合文本信息来实现跨模态数据的优势互补。RADFORD等
[11]提出了图像文本对比学习(Contrastive Language-Image Pre-training, CLIP)模型,通过将图像类别转化为文本描述并进行对比学习,显著提升了模型的性能及零样本推理能力。陈燕等
[12]将CLIP模型用于多模态情感分析,取得了比基础模型更好的效果。FU等
[13]提出的CMA-CLIP(Cross-Modality Attention CLIP)模型,通过结合序列注意力和模态注意力,增强了图像与文本之间的交互和融合,显著提升了分类效果。许睿等
[14]利用图文对比学习并结合变分自编码器,提高了预训练特征在广义零样本图像分类任务上的应用能力。这些方法在农作物病虫害识别领域也显示出巨大的潜力,通过引入文本信息丰富图像特征,能进一步提升模型的识别精度和鲁棒性。然而,CLIP的对比学习机制仅实现了模态特征在特征空间的对齐,未实现深入的模态融合。为克服这一限制,LI等
[15, 16]提出了Align before Fuse(ALBEF)和Bootstrapping Language-Image Pre-training(BLIP)系列模型。谢润峰等
[17]基于BLIP-2的Q-Former模块,提出基于视觉语言模型的跨模态多级融合情感分析方法,将图像和文本结合进行情感分析,在情感分析任务中取得了较优性能。这些模型在CLIP特征对齐的基础上,利用注意力机制实现了图像与文本的特征交互与融合,从而提升了模型在图像文本任务中的性能。