欢迎您访问《智慧农业(中英文)》官方网站! English
专题--农业知识智能服务和智慧无人农场(下)

基于多模态融合大模型架构Agri-QA Net的作物知识问答系统

  • 吴华瑞 ,
  • 赵春江 ,
  • 李静晨
展开
  • 北京市农林科学院信息技术研究中心,北京 100079,中国
赵春江,博士,研究员,中国工程院院士,研究方向为大语言模型与农业知识服务。E-mail:

吴华瑞,博士,研究员,研究方向为大语言模型与农业知识服务。E-mail:

收稿日期: 2024-10-31

  网络出版日期: 2025-03-10

基金资助

国家重点研发计划(2021ZD0113604)

科技创新2030重大项目(2022ZD0115705-05)

Agri-QA Net: Multimodal Fusion Large Language Model Architecture for Crop Knowledge Question-Answering System

  • WU Huarui ,
  • ZHAO Chunjiang ,
  • LI Jingchen
Expand
  • Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences, Beijing 100079, China
ZHAO Chunjiang, E-mail:

WU Huarui, E-mail:

Received date: 2024-10-31

  Online published: 2025-03-10

Supported by

National Key Research and Development Program of China(2021ZD0113604)

Scientific and Technological Innovation 2030-Major Project(2022ZD0115705-05)

Copyright

copyright©2025 by the authors

摘要

【目的/意义】 随着农业信息化和智能化的快速发展,多模态人机交互技术在农业领域的重要性日益凸显。本研究提出了一种基于多模态融合的大模型架构Agri-QA Net,旨在针对甘蓝作物的农业知识,设计多模态专业问答系统。 【方法】 该模型通过整合文本、音频和图片数据,利用预训练的BERT(Bidirectional Encoder Representations from Transformers)模型提取文本特征,声学模型提取音频特征,以及卷积神经网络提取图像特征,并采用基于Transformer的融合层来整合这些特征。此外,引入跨模态注意力机制和领域自适应技术,增强了模型对农业领域专业知识的理解和应用能力。本研究通过收集和预处理甘蓝种植相关的多模态数据,训练并优化了Agri-QA Net模型。 【结果和讨论】 实验评估表明,该模型在甘蓝农业知识问答任务上表现出色,相较于传统的单模态或简单多模态模型,具有更高的准确率和更好的泛化能力。在多模态输入的支持下,其准确率达到了89.5%,精确率为87.9%,召回率为91.3%,F1值为89.6%,均显著高于单一模态模型。 【结论】 案例研究展示了Agri-QA Net在实际农业场景中的应用效果,证明了其在帮助农民解决实际问题中的有效性。未来的工作将探索模型在更多农业场景中的应用,并进一步优化模型性能。

本文引用格式

吴华瑞 , 赵春江 , 李静晨 . 基于多模态融合大模型架构Agri-QA Net的作物知识问答系统[J]. 智慧农业, 2025 , 7(1) : 1 -10 . DOI: 10.12133/j.smartag.SA202411005

Abstract

[Objective] As agriculture increasingly relies on technological innovations to boost productivity and ensure sustainability, farmers need efficient and accurate tools to aid their decision-making processes. A key challenge in this context is the retrieval of specialized agricultural knowledge, which can be complex and diverse in nature. Traditional agricultural knowledge retrieval systems have often been limited by the modalities they utilize (e.g., text or images alone), which restricts their effectiveness in addressing the wide range of queries farmers face. To address this challenge, a specialized multimodal question-answering system tailored for cabbage cultivation was proposed. The system, named Agri-QA Net, integrates multimodal data to enhance the accuracy and applicability of agricultural knowledge retrieval. By incorporating diverse data modalities, Agri-QA Net aims to provide a holistic approach to agricultural knowledge retrieval, enabling farmers to interact with the system using multiple types of input, ranging from spoken queries to images of crop conditions. By doing so, it helps address the complexity of real-world agricultural environments and improves the accessibility of relevant information. [Methods] The architecture of Agri-QA Net was built upon the integration of multiple data modalities, including textual, auditory, and visual data. This multifaceted approach enables the system to develop a comprehensive understanding of agricultural knowledge, allowed the system to learn from a wide array of sources, enhancing its robustness and generalizability. The system incorporated state-of-the-art deep learning models, each designed to handle one specific type of data. Bidirectional Encoder Representations from Transformers (BERT)'s bidirectional attention mechanism allowed the model to understand the context of each word in a given sentence, significantly improving its ability to comprehend complex agricultural terminology and specialized concepts. The system also incorporated acoustic models for processing audio inputs. These models analyzed the spoken queries from farmers, allowing the system to understand natural language inputs even in noisy, non-ideal environments, which was a common challenge in real-world agricultural settings. Additionally, convolutional neural networks (CNNs) were employed to process images from various stages of cabbage growth. CNNs were highly effective in capturing spatial hierarchies in images, making them well-suited for tasks such as identifying pests, diseases, or growth abnormalities in cabbage crops. These features were subsequently fused in a Transformer-based fusion layer, which served as the core of the Agri-QA Net architecture. The fusion process ensured that each modality—text, audio, and image—contributes effectively to the final model's understanding of a given query. This allowed the system to provide more nuanced answers to complex agricultural questions, such as identifying specific crop diseases or determining the optimal irrigation schedules for cabbage crops. In addition to the fusion layer, cross-modal attention mechanisms and domain-adaptive techniques were incorporated to refine the model's ability to understand and apply specialized agricultural knowledge. The cross-modal attention mechanism facilitated dynamic interactions between the text, audio, and image data, ensuring that the model paid attention to the most relevant features from each modality. Domain-adaptive techniques further enhanced the system's performance by tailoring it to specific agricultural contexts, such as cabbage farming, pest control, or irrigation management. [Results and Discussions] The experimental evaluations demonstrated that Agri-QA Net outperforms traditional single-modal or simple multimodal models in agricultural knowledge tasks. With the support of multimodal inputs, the system achieved an accuracy rate of 89.5%, a precision rate of 87.9%, a recall rate of 91.3%, and an F1-Score of 89.6%, all of which are significantly higher than those of single-modality models. The integration of multimodal data significantly enhanced the system's capacity to understand complex agricultural queries, providing more precise and context-aware answers. The addition of cross-modal attention mechanisms enabled for more nuanced and dynamic interaction between the text, audio, and image data, which in turn improved the model's understanding of ambiguous or context-dependent queries, such as disease diagnosis or crop management. Furthermore, the domain-adaptive technique enabled the system to focus on specific agricultural terminology and concepts, thereby enhancing its performance in specialized tasks like cabbage cultivation and pest control. The case studies presented further validated the system's ability to assist farmers by providing actionable, domain-specific answers to questions, demonstrating its practical application in real-world agricultural scenarios. [Conclusions] The proposed Agri-QA Net framework is an effective solution for addressing agricultural knowledge questions, especially in the domain of cabbage cultivation. By integrating multimodal data and leveraging advanced deep learning techniques, the system demonstrates a high level of accuracy and adaptability. This study not only highlights the potential of multimodal fusion in agriculture but also paves the way for future developments in intelligent systems designed to support precision farming. Further work will focus on enhancing the model's performance by expanding the dataset to include more diverse agricultural scenarios, refining the handling of dialectical variations in audio inputs, and improving the system's ability to detect rare crop diseases. The ultimate goal is to contribute to the modernization of agricultural practices, offering farmers more reliable and effective tools to solve the challenges in crop management.

0 引 言

随着21世纪信息技术的飞速发展,农业领域正经历着一场由信息化和智能化驱动的深刻变革1。物联网、大数据、云计算,以及人工智能等前沿技术的融合应用,不仅极大地提高了农业生产的效率和精准度,也为农业生产方式的创新提供了强大动力2。在这一背景下,多模态人机交互技术应运而生,它通过整合来自不同来源和形式的数据,如文本、音频和图像,为农业生产提供更加丰富和直观的信息,从而增强了人机交互的自然性和有效性3。这种技术的应用不仅可以帮助农民更准确地获取作物生长信息、监测病虫害,还能提供即时的农业咨询服务,推动智慧农业的发展4。然而,如何有效地融合和处理多模态数据,构建一个能够理解和响应农业领域复杂问题的智能系统,仍然是一个亟待解决的问题5
多模态数据的融合和处理在农业领域面临着一系列挑战6。首先,农业数据的异构性导致了数据整合的复杂性,因为这些数据可能来自不同的传感器、不同的时间和不同的农业实践7。其次,实时性要求高,农业生产环境的变化快速,要求系统能够及时响应和处理数据8。再者,动态环境的适应性也是一个挑战,因为农业环境受到气候、季节和地理位置等多种因素的影响,这些因素都可能影响数据的质量和模型的性能9。现有的研究已经在多模态数据融合算法的智能农业应用方面取得了一定进展。例如,有研究提出了融合田间微环境与高光谱反演信息的多模态预测模型,用于荔枝霜疫霉病的精准预测10。此外,多模态知识图谱在农业智能问答系统、病虫害识别、农产品推荐等方面的应用也被广泛研究,这些研究通过结合图像识别技术、自然语言处理等方法,提高了农业知识的问答能力和病虫害的识别精度11。还有研究探讨了多模态数据融合算法的原理和应用,并在智能农业中进行实证研究,以提高农业生产效率、优化农业资源配置12。这些研究表明,多模态数据融合技术在智能农业中的应用具有重要的应用价值和广阔的发展前景。
多模态数据融合技术在农业领域的应用仍然面临着数据获取难度大、模型训练成本高和融合策略选择困难等挑战13。此外,如何确保模型的泛化能力,使其能够适应不同的农业环境和作物种类,也是一个重要的研究课题14。这些挑战的存在,不仅限制了多模态技术在农业领域的应用范围,也对研究者提出了更高的要求,需要他们在模型设计、数据处理和算法优化等方面进行更深入的探索15。在这一背景下,大语言模型(Large Language Model, LLM)技术的出现为解决上述挑战提供了新的可能性16。LLM,如基于Transformer架构的BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-Trained Transformer)系列,以及更先进的模型,如BLOOM和Llama2,通过在大规模文本数据上的预训练,能够学习到丰富的语言特征和知识,展现出在自然语言处理任务中的卓越能力。这些模型不仅在传统的文本处理任务中表现出色,如文本摘要、机器翻译和情感分析,而且在多模态数据融合方面也显示出巨大的潜力。例如,通过结合图像识别技术和自然语言处理,LLM可以更准确地理解和回答与农业相关的问题,提供定制化的解决方案。LLM在农业领域的应用还涉及构建专用农业模型、研究已有模型的农业能力,以及综合使用模型与外部系统等研究方向。例如,一些研究者已经尝试使用LLM来匹配食物与营养成分,或者通过微调来增强模型在农业领域的特定能力17。此外,LLM的多模态融合能力也被用于提高农业生产的智能化和现代化水平,如通过整合田间微环境与高光谱反演信息来预测作物病害18。尽管LLM技术在农业领域展现出巨大的潜力,但在实现其广泛应用之前,还需要克服许多技术和实践上的障碍。例如,如何确保模型的泛化能力,使其能够适应不同的农业环境和作物种类,以及如何处理模型可能产生的虚假输出等问题,都是当前研究的热点和难点19
在农业领域,多模态数据融合技术的研究正逐渐深入,涉及数据采集、特征提取和模型构建等多个方面。多模态融合技术通过整合来自不同传感器和数据源的信息,如卫星遥感、无人机航拍、地面传感器网络等,为农业生产提供了更为全面和精准的数据支持。例如,无人机遥感技术因其高时空分辨率、快速图像采集、易操作和便携性,以及相对较低的成本,被广泛期待作为作物表型参数的重要工具20。然而,在图像采集过程中,需要平衡飞行高度与图像分辨率或准确性之间的关系,以重建高分辨率图像,提高空间分辨率和图像采集效率。
在实际应用中,多模态数据融合技术已被用于提高作物表型性状监测的精度21。通过结合无人机遥感和地面观测数据,研究者们能够有效监测玉米的表型性状,并提高生物量估测的精度。类似地,无人机遥感与地面观测的多模态数据融合也被用于反演水稻氮含量,为精确施肥提供科学依据。这些研究表明,多模态数据融合技术在提高农业生产智能化水平方面展现出巨大潜力。
此外,多模态数据融合技术在农业领域的应用正逐步从单一的数据采集向深层次的数据融合和智能决策支持发展22。这些研究不仅提高了农业数据的利用效率,也为农业生产的智能化和精准化提供了新的解决方案23。尽管如此,多模态数据融合在农业领域仍面临着数据获取难度大、模型训练成本高,以及融合策略选择困难等挑战。未来的研究需要在模型设计、数据处理和算法优化等方面进行更深入的探索,以实现多模态数据融合技术的广泛应用24
本研究提出了一种基于大模型的多模态融合架构Agri-QA Net,旨在为甘蓝作物的农业知识问答系统提供一种有效的解决方案。该架构通过整合文本、音频和图片数据,利用预训练的BERT模型提取文本特征,声学模型提取音频特征,以及卷积神经网络提取图像特征,并采用基于Transformer的融合层来整合这些特征。此外,引入跨模态注意力机制和领域自适应技术,增强了模型对农业领域专业知识的理解和应用能力。为了实现这一架构,首先进行了多模态数据的收集和预处理,包括甘蓝种植相关的文本资料、农民的口头咨询录音和甘蓝作物的图像数据。随后,设计并实现了模态特定的特征提取器,并通过基于Transformer的融合层将这些特征整合在一起。此外,还引入了跨模态注意力机制,使模型能够根据问题的上下文动态地关注不同模态中最相关的信息。通过领域自适应技术,进一步增强了模型对农业领域专业知识的理解和应用能力。在模型训练和优化阶段,采用了多模态数据对Agri-QA Net模型进行训练,并采用交叉验证和超参数调优来优化模型的性能。重点介绍了农业垂直领域LLM构建流程,包括数据采集和预处理、选择适当的LLM基模型、微调训练、检索增强生成(Retrieval Augmented Generation, RAG)技术、评估过程。介绍了LangChain框架在农业问答系统中的构建。最后,总结出当前构建农业垂直领域LLM的一些挑战,包括数据安全挑战、模型遗忘挑战和模型幻觉挑战,以及提出了未来农业垂直领域大语言模型的发展方向,包括多模态数据融合、强时效数据更新、多语言知识表达和微调成本优化,以进一步提高农业生产的智能化和现代化水平。案例研究进一步展示了Agri-QA Net在实际农业场景中的应用效果。

1 农业大语言模型与建模

1.1 农业大语言模型

在农业领域,LLM的研究和应用正逐渐深入,这些模型通过在大规模文本数据上的预训练,能够学习到丰富的语言特征和知识,展现出在自然语言处理任务中的卓越能力。随着互联网的普及,农业知识和信息的获取变得更加便捷,但信息大多固定且通用,无法针对具体情况提供定制化的解决方案。在此背景下,LLM作为一种高效的人工智能工具,逐渐在农业领域中获得关注和应用。目前,LLM技术在农业领域大模型的相关综述中只是简单描述,并没有系统地介绍LLM构建流程。
此外,LLM强大的文本理解与生成能力,使其能够有效地与其他小型人工智能模型等外部系统结合。例如,Qing等25设计了一套综合使用LLM与计算机视觉模型的病虫害识别系统。该系统依赖YOLO(You Only Look Once)模型来识别植物病害,并提出YOLO的轻量级变体YOLOPC(YOLO for Plant and Crop),来识别图片中的植物虫害。识别后的结果会先进行简单地转换,生成文字描述。之后,检测结果与可选的额外信息(如地点等)合并后传输给GPT-4模型,以产生综合的描述与应对方案,实验结果表明,GPT-4可以有效地生成对病虫害的全面描述并给出相应的解决方案。同时,使用对当前环境的额外描述,以及让GPT-4在生成总结后再进行推理,均对模型能力的提升有较大的帮助25
LLM在农业领域的应用前景广阔,能够为农业生产提供智能化和精准化的解决方案。未来的研究将继续探索LLM在农业领域的更多应用,并进一步优化模型性能,以实现其在农业领域的广泛应用。

1.2 大语言模型建模

LLM在建模方面展现出了强大的能力,特别是在自然语言处理任务中。这些模型通过在大规模文本数据上的预训练,学习到了丰富的语言表示和知识推理能力25。例如,Google的BERT模型在文本分类、问答系统和文本摘要等任务上都取得了显著的性能21。此外,OpenAI的GPT系列模型通过其强大的文本生成能力,在聊天机器人开发、文本内容生成等领域得到了广泛应用。LLM也被用于构建预测模型,如时间序列预测、异常检测等任务。例如,有研究综述系统考察了LLM在预测和异常检测方面的应用,分析了目前的研究现状、挑战和未来发展方向。这些模型能够解析和分析大量数据集以识别模式、预测未来事件及检测各种领域的异常行为。
将LLM应用于蔬菜作物生长建模时,场景任务的复杂性和不确定性难以被忽视。蔬菜作物生长是一个高度复杂的过程,受到遗传、环境、管理措施等多种因素的影响。这些因素的动态变化和相互作用难以通过传统的语言模型完全捕捉。此外,农业领域特定数据的获取和处理也存在一定的难度,数据的质量和完整性直接影响模型的准确性和可靠性。这要求LLM收集和整合更多的农业领域特定数据,进行领域适应性的微调。未来可以探索将LLM与传统的作物生长模型相结合,利用LLM强大的特征提取和知识推理能力,辅助传统模型的参数化和决策过程。

2 研究方法

所提出的Agri-QA Net框架如图1所示,该架构的核心在于整合文本、音频和图像数据,并通过一系列先进的深度学习技术,实现对农业领域专业知识的深入理解和高效应用。
图1 多模态融合架构Agri-QA Net框架

Fig. 1 Framework of multi modal fusion architecture Agri-QA Net

2.1 数据收集与处理

由于缺乏公开的农业领域多模态问答数据集,本研究构建了包含甘蓝种植知识的多模态数据集,包括文本、音频和图像三种模态的数据。具体数据构建如下。
1)文本数据。从农业文献(https://www.continuumforums.com/https://gardening.stackexchange.com)、研究论文(Google Scholar、Project Gutenberg和ArXiv(2019—2024))、在线农业论坛(https://www.reddit.com/r/farming/)和社交媒体平台Reddit等收集了大量甘蓝种植的相关知识,包括种植技术、病虫害防治和管理建议等。文本数据共计10 000条,经过分词、去除停用词和归一化处理,以便模型能够更好地捕捉农业领域的关键信息。
2)音频数据。通过录音收集了约2 000条农民与农业专家的咨询对话,内容涵盖甘蓝种植的不同环节,如种植、病虫害识别和生长管理等。这些对话数据均采用MFCC进行特征提取,并转化为适合输入模型的格式。这些对话数据主要来源于现场录音和在线农业咨询平台,包括全国农技推广网站和Stack Exchange的农业板块。
3)图像数据。采集了甘蓝在不同生长阶段的图像,包括健康与患病叶片、不同气候条件下的生长情况。图像数据共计3 000张,经过尺寸归一化处理,并在数据增强后用于提高模型的泛化能力。这些图像数据主要来源于农业研究数据库、公共领域图片网站以及与农业相关的社交媒体群组。
表1给出了数据集的具体设置和数据量。
表1 Agri-QA Net数据集类型和格式

Tabel 1 Data type and format of the collected dataset for Agri-QA Net

数据源 数据类型 实体与记录数量 格式 备注
农业文献 Text 500 books JSON 每本书平均313页,单页平均523个单词
研究论文 Text 2 000 papers JSON 单篇论文平均23页,平均每页2 107个单词
互联网数据 Text 500 entries JSON 每个实体平均21 654单词
甘蓝图片 Images 50 000 images JPEG 单张图片大约5 MB
问答对话 Audio 49 713 records WAV 每个记录平均43个单词
为了保证模型训练的合理性和泛化能力,数据集划分为训练集、验证集和测试集,三者的比例为7∶1.5∶1.5。具体分配如下。
1)训练集。用于模型训练,包括7 000条文本、1 400条音频和2 100张图像数据。
2)验证集。用于模型训练过程中参数调优,共1 500条文本、300条音频和450张图像数据。
3)测试集。用于模型最终性能评估,包含1 500条文本、300条音频和450张图像数据。
预处理步骤旨在将原始数据转换成适合模型训练的格式。对于每种模态分别执行不同操作。
文本数据经过分词、去除停用词和归一化处理。设 T为原始文本集合, W为所有唯一词汇的集合, D T为分词后的文本数据矩阵,其中每个元素 d i j表示词汇 w j在文本 t i中的频率。预处理步骤可以表示为:
D T = T o k e n i z e T R e m o v e S t o p w o r d s D T N o r m a l i z e ( D T )  
其中,分词( T o k e n i z e)是将文本拆分成更小的单位符号。该步骤是文本预处理中的第一步,目的是将原始文本转化为一个个独立的、可操作的语言单元(称为token)。RemoveStopwords是指删除文本中的常见词汇,这些词汇在文本分析中通常对理解意义没有帮助,如“the”“is”“in”等。归一化( N o r m a l i z e)是对文本数据进行标准化处理的过程,目的是将文本转换为一致的格式,减少词汇的多样性,并提高后续分析的效果。音频数据首先被转换为*.wav格式,然后使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)提取特征。设 A为原始音频集合, F A为音频特征矩阵,其中每个元素 f a k表示第 a个音频的第 k个MFCC特征。预处理步骤可以表示为:
F A = M F C C T F e a t u r e N o r m a l i z a t i o n F A
其中,FeatureNormalization是特征归一化模块,将数据经过尺寸标准化、归一化处理,并使用数据增强技术提高模型的泛化能力。设 I为原始图像集合, D I为预处理后的图像数据矩阵,其中每个元素 d i m表示第 i张图像的归一化像素值。预处理步骤可以表示为:
D I = R e s i z e I N o r m a l i z e D I D a t a A u g m e n t a t i o n D I
其中,Resize模块用来统一数据尺寸,而DataAugmentation则为数据增强模块,进一步炼化数据特征。

2.2 多模态融合模块

在Agri-QA Net架构中,多模态融合模块是整合和处理不同模态数据的核心部分。该模块的设计关键在于如何有效地提取各个模态的特征,并将其融合以获得更丰富的数据表示。对于不同模态的数据,采用专门的模型进行特征提取。
使用预训练的BERT模型来提取文本数据的语义特征。给定分词后的文本数据 D T,BERT模型能够输出每个词的嵌入表示,这些嵌入表示能够捕捉文本中的上下文信息。取每个文本的BERT池化输出作为其特征表示,记为 E T。对于音频数据,采用声学模型提取特征。音频信号 F A经过预处理后,通过声学模型提取其特征,如MFCC。这些特征能够捕捉音频信号中的关键信息,经过全连接层处理后,记为 E A。使用卷积神经网络(Convolutional Neural Network, CNN)提取图像数据的特征。图像数据 D I经过预处理后,通过CNN模型提取其视觉特征,这些特征能够捕捉图像中的关键视觉信息,记为 E I
在特征提取的基础上,采用了基于Transformer的融合层来整合不同模态的特征。Transformer融合层能够处理来自不同模态的特征序列,并输出融合后的特征表示。设计一个融合框架,该框架首先将各个模态的特征映射到一个共同的特征空间,然后通过自注意力机制来整合这些特征。融合过程可以描述为公式(1)
E = T r a n s f o r m e r ( E T , E A , E I ; Θ )
式中: E是融合后的特征表示; Θ是融合层的参数。Transformer融合层通过自注意力机制,能够捕捉不同模态特征之间的相互作用和补充信息。
为了进一步提升模型的性能,引入了跨模态注意力机制。这种机制使得模型能够根据问题的上下文动态地关注不同模态中最相关的信息。具体来说,设计了一个注意力网络,它能够学习不同模态特征之间的权重,从而突出最相关的信息。跨模态注意力机制可以形式化为公式(2)
E a t t e n d e d = A t t e n t i o n ( E T , E A , E I ; α )
式中: E a t t e n d e d是加权后的特征表示; α是学习到的注意力权重。这些权重通过最小化原始特征表示和加权特征表示之间的差异来学习,从而使得模型能够自动学习如何较好地整合不同模态的信息。具体地,使用一个基于缩放点积的注意力机制,其中注意力权重 α通过计算每个模态特征与问题表示之间的相似度来获得。然后,这些权重被用来加权平均不同模态的特征,生成最终的融合特征表示为公式(3)
α = s o f t m a x Q K T d k E a t t e n d e d = α V
式中: Q是问题表示; K V分别是不同模态的特征表示; d k是特征的维度。
为了使模型更好地适应农业领域的特定需求,采用了领域自适应技术。通过在农业领域的专业语料上进行微调,模型能够更加准确地理解和回答与甘蓝种植相关的专业问题。领域自适应过程可以描述为公式(4)
E = D o m a i n A d a p t a t i o n ( E ; Θ A )
式中: E是融合后的特征表示; Θ A是领域自适应层的参数。通过在农业领域的专业语料上进行微调,模型能够学习到农业领域的特定术语和概念,从而提高模型在农业知识问答任务上的性能。具体来说,首先在大规模的通用语料上预训练BERT模型,然后在农业领域的专业语料上进行微调。通过这种方式,模型能够学习到农业领域的特定术语和概念,从而提高模型在农业知识问答任务上的性能。

2.3 模型训练与优化

对于Agri-QA Net模型的训练和优化,采用了一种基于薛定谔微分方程的微调方法。薛定谔方程是量子力学中的一个基本方程,它描述了量子态随时间的演化26。在机器学习中,借鉴这一思想,通过引入一个随时间变化的微调项来优化模型参数。
Θ m为模型的参数; 为损失函数; t为时间,s;训练的目标是最小化损失函数 ( Θ m , t )。薛定谔微分方程可以表示为公式(5),在机器学习中,将这一方程类比为模型参数的优化过程。
i t | Ψ t = H ^ | Ψ t
式中: i是复数; 是普朗克常数简化形式,通常用于量子力学中描述能量和时间的关系;   | Ψ t表示模型参数的状态; H ^表示损失函数的“哈密顿量”。通过求解这一方程,可以得到模型参数随时间的演化,如公式(6)所示。
Θ m t = - i H ^ Θ m Θ m
在实际应用中,通过离散化时间步长 t来近似求解这一方程。在每个时间步长内,更新模型参数 Θ m的计算见公式(7)
Θ m t + t = Θ m t - i H ^ Θ m Θ m
通过这种方式,可以在保持模型大部分参数固定的同时,通过微调少量参数来适应特定的农业领域任务。这种方法不仅提高了模型的适应性,还保持了其在处理多模态数据时的高效性和准确性。在训练过程中,首先使用预训练的Qwen-VL-Chat-Int4模型作为基模型。随后,引入薛定谔微分方程来优化模型参数。通过这种方法,能够在保持模型在通用语言理解能力的同时,使其更好地适应特定的农业领域知识,从而提高了模型在农业知识问答任务上的性能。

3 实验验证与结果分析

3.1 实验设置

为了确保实验评估的科学性和准确性,对Agri-QA Net在问答任务中的回答正确性进行了严格的判定标准,包括人工标注、回答相似度和多模态信息融合验证。为了客观评估模型的问答性能,制定了评判标准,如表2所示。
表2 Agri-QA Net问答判定标准与性能评判标准

Table 2 Question answering criteria and performance criteria for Agri-QA Net

标注类型 回答正确性判定标准 模型性能客观评估标准
人工标注 由于问答的复杂性和回答标准的差异,测试集中所有问题的正确答案均由农业领域专家提供。模型生成的答案与专家答案进行匹配对比 所有问题的正确答案均由农业领域专家提供,确保答案的权威性和准确性
回答相似度 采用基于BERT嵌入的相似度计算方法,将模型生成的答案与标准答案的文本向量进行余弦相似度计算,设定相似度阈值为0.8,超过该阈值的回答视为正确 采用基于BERT嵌入的相似度计算方法,将模型生成的答案与标准答案的文本向量进行余弦相似度计算,设定相似度阈值为0.8,超过该阈值的回答视为正确
多模态信息融合验证 在某些问题中,结合音频或图像模态可以显著提升答案的准确性。例如,对于病害诊断问题,如果模型在文字描述外还能根据图像准确识别病斑位置,则回答更为准确。该类问题的回答正确性需专家判定 对于需要结合音频或图像模态的问题,专家将根据模型的多模态融合能力进行评判,确保答案的准确性和完整性
图2提供了部分测试集样本。
图2 Agri-QA Net甘蓝作物知识问答系统测试集样例及模型输出样例

Fig. 2 Examples of test set and the corresponding outputs of Agri-QA Net cabbage crop knowledge question answering system

3.2 评估指标

为全面评估Agri-QA Net在农业问答任务中的表现,选取了多种评价指标,主要包括准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F 1值。
准确率用于衡量模型在整个测试集上正确回答的比率,如公式(8)所示。
A c c u r a c y = T P + T N T P + T N + F P + F N
式中: T P为正确回答的正类问题数; T N为正确回答的负类问题数; F P为错误回答的正类问题数; F N为错误回答的负类问题数。
精确率主要衡量模型在预测为正类的回答中实际正确的比例,如公式(9)所示。
P r e c i s i o n = T P T P + F P
召回率衡量模型对所有应正确回答的问题中能够正确识别的比例,如公式(10)所示。
R e c a l l = T P T P + F N
F 1值作为精确率和召回率的调和平均,用于综合评价模型在处理多模态问题上的表现,如公式(11)所示。
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l

3.3 结果与分析

在上述实验设置下,如表3所示,Agri-QA Net在测试集上取得了89.5%的准确率,高于对比的单架构模型(基模型Qwen-VL-Chat-Int4)和仅有单模态输入的模型。这一结果表明,多模态融合显著提升了模型在处理农业知识问答任务中的综合表现,尤其在需要结合多种模态的复杂问题上具有更高的准确性。
表3 Agri-QA Net和单模型关于评估指标的实验结果对比

Tabel 3 Experiment results of Agri-QA Net and single models about evaluation metrics

模型/模态 准确率/% 精确率/% 召回率/% F 1值/%
Agri-QA net 89.5 87.9 91.3 89.6
Single Model 83.2 80.5 84.2 82.3
Text Only 75.7 72.4 78.3 75.0
Audio only 70.4 68.2 72.5 70.1
在包含病害诊断问题、栽培管理问题、环境适应性问题等各类问题中,Agri-QA Net在准确率、精确率、召回率和F 1值上均显著优于单一模态模型,这表明多模态融合策略在提高模型性能方面发挥了关键作用。Agri-QA Net的评估指标实验结果较单一模态模型相比,准确率达到了89.5%,高出6.3个百分点;精确率为87.9%,高出7.4个百分点;召回率为91.3%,高出7.1个百分点,而F 1值为89.6%,高出7.3个百分点。这些结果说明Agri-QA Net在平衡精确率和召回率方面表现更好,能够更准确地识别正类样本并减少误报和漏报。相比之下,单一模态模型中文本模型的表现优于音频模型,这可能与文本数据在农业知识问答中提供的信息更为丰富有关。然而,音频模型的回答准确率最低,仅为70.4%,这可能是由于音频数据的不完整性或质量不足。
在少数错误案例中,主要集中在以下两种情况。一是甘蓝病害图像数据中,模型对部分不常见病害表现欠佳,主要原因为训练数据不足;二是部分方言的音频数据难以完全转化为可理解的文本信息,导致回答失误。图3为两个错误案例。这些问题将在未来工作中通过增加少见病害图像数据量、完善方言识别模块进行改进。
图3 Agri-QA Net问答错误案例

a. 文图问答案例 b. 语音问答案例

Fig. 3 Q&A error cases of Agri-QA Net

综上所述,Agri-QA Net在农业知识问答任务上表现优异,尤其在多模态融合和跨模态注意力机制的支持下,提升了对复杂问题的处理能力。实验结果显示,多模态融合的模型相比单模态模型更具综合性和鲁棒性。Agri-QA Net在甘蓝作物的病害识别、栽培管理等方面展现了较高的应用价值。同时,跨模态注意力机制有效促进了各模态信息的融合,使得模型在不同模态数据间的互动更加自然。未来工作将进一步优化模型性能,特别是在音频方言和少见病害图像处理上提升模型的适应性和鲁棒性,以推动其在智慧农业中的广泛应用。

4 结论与展望

本研究提出了一种创新的基于多模态大模型架构——Agri-QA Net,专为农业知识问答任务设计。该模型通过整合文本、音频和图像模态信息,并运用跨模态注意力机制与基于Transformer的融合层,实现了对甘蓝作物的精准问答与诊断。实验结果显著,Agri-QA Net在多模态输入的支持下,展现出卓越的性能,其准确率达到了89.5%,精确率为87.9%,召回率为91.3%,F 1值为89.6%,均显著高于单一模态模型。通过自建的多模态数据集,确保了模型在农业领域的适应性,有效解决了公开数据集缺乏的问题。然而,多轮实验评估也揭示了Agri-QA Net在病害早期识别、方言处理,以及叶片异常诊断上的不足,强调了数据多样性对模型性能的重要性。此外,对于不常见的甘蓝病害,模型的识别准确率也有待提高,这需要更多样化的病害图像数据来增强模型的泛化能力。
本研究的成果为多模态人机交互在农业领域的创新应用提供了参考,在实际农业生产中的应用前景广阔,尤其在促进农民获得便捷、精准的农业知识支持方面具有重要意义。未来的研究将继续在数据扩充、模型优化和农业领域的特定应用上进行探索。计划通过增加少见病害图像数据量、完善方言识别模块来改进模型,进一步优化模型性能,以期在更多作物类型和农业场景中实现智能化管理和精准问答服务,为农业现代化作出贡献。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
AZADI H, MOVAHHED MOGHADDAM S, BURKART S, et al. Rethinking resilient agriculture: From climate-smart agriculture to vulnerable-smart agriculture[J]. Journal of cleaner production, 2021, 319: ID 128602.

2
FRIHA O, FERRAG M A, SHU L, et al. Internet of Things for the future of smart agriculture: A comprehensive survey of emerging technologies[J]. CAA journal of automatica sinica, 2021, 8(4): 718-752.

3
RASENBERG M, ÖZYÜREK A, DINGEMANSE M. Alignment in multimodal interaction: An integrative framework[J]. Cognitive science, 2020, 44(11): ID e12911.

4
PARR C S, LEMAY D G, OWEN C L, et al. Multimodal AI to improve agriculture[J]. IT professional, 2021, 23(3): 53-57.

5
COHN N. A multimodal parallel architecture: A cognitive framework for multimodal interactions[J]. Cognition, 2016, 146: 304-323.

6
GARG S, PUNDIR P, JINDAL H, et al. Towards a multimodal system for precision agriculture using IoT and machine learning[C]// 2021 12th International Conference on Computing Communication and Networking Technologies. Piscataway, New Jersey, USA: IEEE, 2021.

7
BENDER A, WHELAN B, SUKKARIEH S. A high-resolution, multimodal data set for agricultural robotics: A Ladybird's-eye view of Brassica [J]. Journal of field robotics, 2020, 37(1): 73-96.

8
DUAN S S, SHI Q F, WU J. Multimodal sensors and ML-based data fusion for advanced robots[J]. Advanced intelligent systems, 2022, 4(12): ID 2200213.

9
XIA F L, LOU Z X, SUN D, et al. Weed resistance assessment through airborne multimodal data fusion and deep learning: A novel approach towards sustainable agriculture[J]. International journal of applied earth observation and geoinformation, 2023, 120: ID 103352.

10
GUPTA S, TRIPATHI A K. Fruit and vegetable disease detection and classification: Recent trends, challenges, and future opportunities[J]. Engineering applications of artificial intelligence, 2024, 133: ID 108260.

11
TOMER G, CHAUHAN G S, PANIGRAHI P K. Feasibility of m-governance in agriculture: Insights from a multimodal study in rural India[J]. Transforming government: People, process and policy, 2016, 10(3): 434-456.

12
FALANA O B, DURODOLA O I. Multimodal remote sensing and machine learning for precision agriculture: A review[J]. Journal of engineering research and reports, 2022: 30-34.

13
DEFORCE B, BAESENS B, DIELS J, et al. Harnessing the power of transformers and data fusion in smart irrigation[J]. Applied soft computing, 2024, 152: ID 111246.

14
KARMAKAR P, TENG S W, MURSHED M, et al. Crop monitoring by multimodal remote sensing: A review[J]. Remote sensing applications: Society and environment, 2024, 33: ID 101093.

15
BARBEDO J G A. Data fusion in agriculture: Resolving ambiguities and closing data gaps[J]. Sensors, 2022, 22(6): ID 2285.

16
KUSKA M T, WAHABZADA M, PAULUS S. AI for crop production-Where can large language models (LLMs) provide substantial value?[J]. Computers and electronics in agriculture, 2024, 221: ID 108924.

17
LI L D, LIU L, PENG Y P, et al. Integration of multimodal data for large-scale rapid agricultural land evaluation using machine learning and deep learning approaches[J]. Geoderma, 2023, 439: ID 116696.

18
SINGH R, NISHA R, NAIK R, et al. Sensor fusion techniques in deep learning for multimodal fruit and vegetable quality assessment: A comprehensive review[J]. Journal of food measurement and characterization, 2024, 18(9): 8088-8109.

19
NORTON G W, ALWANG J. Changes in agricultural extension and implications for farmer adoption of new practices[J]. Applied economic perspectives and policy, 2020, 42(1): 8-20.

20
LIU W J, CHEN J W, WANG H B, et al. Perspectives on advancing multimodal learning in environmental science and engineering studies[J]. Environmental science & technology, 2024: ID acs.est.4c03088.

21
LI J S, WANG L, LIU J, et al. ViST: A ubiquitous model with multimodal fusion for crop growth prediction[J]. ACM transactions on sensor networks, 2024, 20(1): ID 23.

22
ZHAO F, ZHANG C C, GENG B C. Deep multimodal data fusion[J]. ACM computing surveys, 2024, 56(9): 1-36.

23
SARKAR S, GANAPATHYSUBRAMANIAN B, SINGH A, et al. Cyber-agricultural systems for crop breeding and sustainable production[J]. Trends in plant science, 2024, 29(2): 130-149.

24
LIU Y, WEI C J, YOON S C, et al. Development of multimodal fusion technology for tomato maturity assessment[J]. Sensors, 2024, 24(8): ID 2467.

25
QING J J, DENG X L, LAN Y B, et al. GPT-aided diagnosis on agricultural image based on a new light YOLOPC[J]. Computers and electronics in agriculture, 2023, 213: ID 108168.

26
DE PERALTA L G, POVEDA L A, POIRIER B. Making relativistic quantum mechanics simple[J]. European journal of physics, 2021, 42(5): ID 055404.

文章导航

/