Welcome to Smart Agriculture 中文

Research Progress and Prospects of Multi-Agent Large Language Models in Agricultural Applications

  • ZHAO Yingping , 1 ,
  • LIANG Jinming 1 ,
  • CHEN Beizhang 1 ,
  • DENG Xiaoling 4, 5 ,
  • ZHANG Yi 4, 5 ,
  • XIONG Zheng 1, 2, 3 ,
  • PAN Ming 1, 2, 3 ,
  • MENG Xiangbao , 1, 2, 3
Expand
  • 1. Shenzhen Modern Agricultural Equipment Research Institute, Shenzhen 518001, China
  • 2. Guangdong Modern Agricultural Equipment Research Institute, Guangzhou 510630, China
  • 3. Key Laboratory of Modern Agricultural Intelligent Equipment in South China, Ministry of Agriculture and Rural Affairs, Guangzhou 510630, China
  • 4. School of Electronic Engineering (School of Artificial Intelligence), South China Agricultural University, Guangzhou 510642, China
  • 5. National Center for International Collaboration Research on Precision Agricultural Aviation Pesticides Spraying Technology, Guangzhou 510642, China
MENG Xiangbao, E-mail:

ZHAO Yingping, E-mail:

Received date: 2025-03-25

  Online published: 2025-07-24

Supported by

Guangdong Provincial Modern Agricultural Industry Common Key Technology Research and Innovation Team Construction Project(2024CXTD18)

Key Technology Research and Demonstration of Smart Management and Control in Lingnan Orchards(2023B0202090001)

Copyright

copyright©2025 by the authors

Abstract

[Significance] With the rapid advancement of large language models and multi-agent systems, their integration—multi-agent large language models—is emerging as a transformative force in modern agriculture. Agricultural production involves complex, sequential, and highly environment-dependent processes, including tillage, planting, management, and harvesting. Traditional intelligent systems often struggle with the diversity, uncertainty, and coordination of these stages' demand. Multi-agent large language models offer a new paradigm for agricultural intelligence by combining deep semantic understanding with distributed collaboration and adaptive coordination. Through role specialization, real-time perception, and cooperative decision-making, they can decompose complex workflows, adapt to changing conditions, and enable robust, full-process automation—making them well-suited to the challenges of modern agriculture. More importantly, their application marks a critical step toward the digital transformation, precision management, and sustainable development of agriculture. By enabling intelligent decision-making across the entire agricultural lifecycle, they provide both theoretical foundations and practical tools for building next-generation smart and unmanned farming systems. [Progress] The core concepts of multi-agent large language models are first elucidated, covering the composition and characteristics of multi-agent systems as well as the development and training pipelines of large language models. Next, the overall architecture of multi-agent systems is presented, encompassing both the environments in which agents operate and their internal structures. The collaborative patterns of multi-agent large language models are then examined in terms of coordination structures and temporal organization. Following this, interaction mechanisms are discussed from multiple dimensions, including interactions between agents and the external environment, inter-agent communication, communication protocol frameworks, and communication security. To demonstrate the varying task specializations of different multi-agent frameworks, a comparative benchmark survey table is provided by synthesizing benchmark tasks and results reported in existing studies. The results show that different multi-agent large language model architectures tend to perform better on specific types of tasks, reflecting the influence of agents framework design characteristics such as role assignment strategies, communication protocols, and decision-making mechanisms. Furthermore, several representative architectures of multi-agent large language models, as proposed in existing studies, are briefly reviewed. Based on their design features, their potential applicability to agricultural scenarios is discussed. Finally, current research progress and practical applications of large language models, multimodal large models, and multi-agent large models in the agricultural domain are surveyed. The application architecture of agricultural large models is summarized, using rice cultivation as a representative scenario to illustrate the collaborative process of a multi-agent system powered by large models. This process involves data acquisition agents, data processing agents, tasks allocation and coordination agents, tasks execution agents, and feedback and optimization agents. The roles and functions of each kind of agent in enabling automated and intelligent operations throughout the entire agricultural lifecycle, including tillage, planting, management, and harvesting, are comprehensively described. In addition, drawing on existing research on multimodal data processing, pseudocode is provided to illustrate the basic logic of the data processing agents. [Conclusions and Prospects] Multi-agent large language models technology holds vast promise in agriculture but still confronts several challenges. First, limited model interpretability—stemming from opaque internal reasoning and high-dimensional parameter mappings—hinders decision transparency, traceability, user trust, and debugging efficiency. Second, model hallucination is significant; probabilistic generation may deviate from facts, leading to erroneous environmental perception and decisions that cause resource waste or crop damage. Third, multi-modal agricultural data acquisition and processing remain complex due to non-uniform equipment standards, heterogeneous data, and insufficient cross-modal reasoning, complicating data fusion and decision-making. Future directions include: (1) enhancing interpretability via chain-of-thought techniques to improve reasoning transparency and traceability; (2) reducing hallucinations by integrating knowledge bases, retrieval-augmented generation, and verification mechanisms to bolster decision reliability; and (3) standardizing data formats to strengthen cross-modal fusion and reasoning. These measures will improve system stability and efficiency, providing solid support for the advancement of smart agriculture.

Cite this article

ZHAO Yingping , LIANG Jinming , CHEN Beizhang , DENG Xiaoling , ZHANG Yi , XIONG Zheng , PAN Ming , MENG Xiangbao . Research Progress and Prospects of Multi-Agent Large Language Models in Agricultural Applications[J]. Smart Agriculture, 2025 : 1 -15 . DOI: 10.12133/j.smartag.SA202503026

0 引 言

自然语言处理(Natural Language Processing, NLP)作为人工智能(Artificial Intelligence, AI)的一个分支领域,旨在实现计算机对人类语言的理解与生成1。语言模型(Language Model, LM)作为自然语言处理的核心,经历了从统计语言模型(Statistical Language Model, SLM)、神经语言模型(Neural Language Model, NLM)到预训练语言模型(Pre-trained Language Model, PLM)的演变,最终发展至当前的大语言模型(Large Language Model, LLM)2
统计语言模型最早出现在20世纪90年代,利用简单的概率分布对单词序列进行建模,成为了语言模型的早期基础。进入21世纪之后,神经语言模型借助神经网络的强大能力,开始捕捉人类语言中的复杂模式。直到2017年,谷歌提出的Transformer架构3成为自然语言处理的重要突破,为预训练语言模型奠定了重要基础,通过大规模语料库和自监督学习方法,在往后的3年时间,BERT(Bidirectional Encoder Representations from Transformers)4、GPT(Generative Pre-trained Transformer)-15和GPT-26相继诞生。到了2020年,大语言模型通过整合海量的数据和计算资源,显著提升了语言生成和理解能力,在这一时期,像GPT-37这样的超大规模参数模型展现出了前所未有的语言表现力,不仅能够生成连贯的文章、编写代码,还能在多种任务上进行零样本或者少样本学习。自此,大语言模型的成功激发了AI领域对自然语言处理的广泛关注和研究。在GPT-3之后,越来越多优秀的大语言模型相继出现,如谷歌的PaLM8和Gemini9、继GPT-3之后性能更强的GPT-410系列、xAI的Grok和活跃在开源社区的Qwen11, 12和LLaMA13, 14系列。此外,中国深度求索(DeepSeek)在2025年发布的DeepSeek-V315、DeepSeek-R116和一系列开源版本,凭借其在代码生成、推理能力和数学计算等任务上的卓越表现,超越了同规模的开源模型,并在多个基准测试中居于前列。
大语言模型的快速迭代和发展,不仅推动了自然语言处理技术的进步,也在各个领域催生了一系列新的技术和应用。例如,在医疗领域,使用大语言模型实现自动化病例书写和智能导诊,极大地提升了医疗服务效率;在金融领域,借助大语言模型快速生成投资分析和撰写符合规定的文档,为决策提供数据支持和建议;在农业领域,大语言模型能够为农户提供种植管理、作物病害诊断等实时知识服务;在数字创作领域,大语言模型的应用已经拓展到“文生图”、合成语音和生成指定风格的文案等方面,为内容创作提供了前所未有的灵活性和创意支持。这些应用的背后,往往是基于大语言模型强大的自然语言处理能力,通过构建单一智能体(Single-Agent)来实现任务流程的自动化和提升整体智能水平。然而,随着应用场景的日益复杂和需求多样化,仅依赖单一智能体往往难以覆盖任务中的全部环节,也难以面对动态变化的环境。在复杂任务中,常呈现出多角色分工、多步骤并行和任务周期长的特点,单一智能体需要跨越多个上下文窗口进行持续推理和记忆,容易造成关键信息丢失、性能下降和响应效率降低。
因此,面对真实世界中的复杂任务,仅靠单一智能体的“单打独斗”已难以满足需求。为了解决多角色协作、长期任务记忆和动态环境适应等问题,研究者们基于多智能体系统(Multi-Agent Systems, MAS),开始探索由大模型驱动的多智能体系统的架构设计。通过让多个高度专业化的智能体分工协作、信息共享和动态互动,系统能够更高效地执行任务,借助“专家团队”的方式给出更好的应对策略,从而突破单一智能体在处理复杂任务中的局限,提升系统整体的智能水平和适应能力。
本文围绕多智能体系统与大语言模型展开,系统地阐述了多智能体大模型的基本概念,分析了其架构设计与关键技术进展。结合农业场景的具体应用实践,进一步梳理了当前多智能体大模型在感知、推理与协作等方面面临的主要挑战。最后,基于现有研究和应用趋势,提出了未来发展方向与关键技术突破的思考与建议。

1 多智能体系统与大语言模型

1.1 多智能体系统

1.1.1 多智能体系统的组成

面对系统规模扩大、任务复杂度提升与环境不确定性增加等情况,单一智能体已难以满足实际应用场景的要求。为此,多智能体系统作为一种灵活、高效且具有分布式智能的系统架构,逐渐成为研究与应用的热点方向。多智能体系统是由多个相互作用的智能体组成的协作式计算机系统17,其核心目标是通过分布式的方式协同解决复杂任务18。一个典型的多智能体系统通常包括以下关键部分。
(1)智能体。智能体是多智能体系统中最基本的执行单元,具备记忆、推理、调用工具和行动能力,如图1所示。每个智能体通常担任特定角色,具备某种特定能力和行为策略,用以实现自身的任务目标。
图1 大语言模型驱动的自主智能体系统概览

Fig. 1 Overview of autonomous agent systems driven by LLM

(2)环境。环境是多智能体运行的基础,是智能体能够感知、行动并对其产生影响的外部空间。根据应用场景的不同,环境可以是处于现实的物理场景,例如农田、仓储中心和交通系统;也可以是虚拟的数字平台,如网络空间和仿真环境。智能体通过传感器和程序接口等方式获取环境状态,并做出相应的决策和响应。
(3)交互机制。智能体需要在完成自身目标的情况下,彼此进行协作以实现系统的整体目标。这种协作依赖于预设的通信协议进行智能体间的信息交换、任务协调和策略调整。例如,在一个智慧农业系统中,种植规划智能体与病虫害监测智能体之间可以实时共享数据,以优化施肥和喷药的时机和方式,从而提高整体农业产出效率。
(4)组织结构。为保证多智能体协作的有序进行,通常以一定的组织结构来规范智能体的角色划分、任务分工和决策流程。常见的结构有层级控制架构和自组织架构,前者由中心智能体统一分配和调度,后者则允许智能体根据当前任务状态进行动态组队和调整分工。

1.1.2 多智能体系统的特性

多智能体系统在设计上体现出独特的智能协同优势,使其能在复杂环境的应用中表现出良好的灵活性与适应性,其具备的特性如下。
(1)分工协作和集体智慧。多智能体系统由多个独立的单一智能体构成,通过将复杂任务分解为多个子任务,这些智能体可以通过中心智能体进行统一分配与调度,也可以借助自组织机制进行协同工作,各智能体在系统中承担不同的角色,依靠自身专长进行分工合作19,从而显著提升任务处理的效率和整体性能。此外,智能体之间借助通信机制进行信息交互、任务协调和知识共享,使系统能够展现出远超于单个智能体能力的整体智能17
(2)灵活性与可扩展性。多智能体系统具备高度模块化的结构特征,能够根据不同的任务需求进行灵活配置。智能体作为相对独立的功能单元,可以在不影响整体运行的前提下添加、替换或移除。这种特性使得系统能够快速适应不同规模的应用场景。此外,随着任务复杂度的上升,系统可通过增加智能体的数量来实现系统能力的线性或非线性增长,在保持结构稳定的同时提升系统的运行效率和处理能力。
(3)动态适应与自组织能力。多智能体系统具备良好的动态适应性,能够实时感知环境变化,并通过与中心智能体或其他个体的交互,灵活调整自身的行为策略。智能体之间可依据局部规则或自主学习机制实现自组织,重新分配任务与调整协作关系,无需依赖全局控制,从而显著提升系统在复杂、动态环境中的应变能力与自治水平。
(4)容错性与鲁棒性。作为分布式系统的分支,多智能体系统具备天然的容错能力20。当部分智能体失效或出现故障时,系统能够迅速切换至冗余智能体或由其他智能体接替任务,确保系统运行不中断,维持基本功能的持续性与稳定性。同时,面对突发异常、环境扰动或任务变化,智能体被允许根据环境调整自身行为,增强了系统在面对异常状况时的鲁棒性17

1.2 大语言模型的原理与应用

大语言模型指的是在大规模文本语料上训练的、拥有数十亿、上百亿甚至千亿参数的深度神经网络模型21,主要用于自然语言的理解和生成。研究表明,大语言模型的性能随着模型参数量、训练数据量和计算资源的增加呈现出持续提升的趋势,这一现象被称为规模定律(Scaling Law)22。在一定范围内,增加模型的规模并不会立刻导致过拟合或性能饱和,反而可以显著提升模型在下游任务中的泛化能力。因此,当前的大语言模型倾向于在尽可能大的数据集和模型规模上进行训练,以最大程度挖掘模型潜力。目前主流的大语言模型大多基于Transformer架构,如图2所示,通过自注意力机制(Self-Attention)有效捕捉长距离依赖关系,从而对复杂的语言模式进行建模。
图2 Transformer网络架构

Fig. 2 Transformer network architecture

模型通常采用多阶段的训练策略,包括预训练(Pre-training)、监督微调(Supervised Fine-Tuning, SFT)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)阶段,如图3所示。
图3 大语言模型学习机制

Fig. 3 Learning mechanisms of LLM

在预训练阶段,模型在大规模、高质量的数据集上进行无监督学习。通过语言建模任务学习语言的统计规律和潜在语义结构23,经过多轮反向传播和参数更新,模型开始展现出有序的行为模式,能够输出连贯且有意义的文本。然而,此时训练出的模型不具备指令遵循能力,无法与人类进行对话。
为此,模型需要进一步进行监督微调,在具有明确指令和准确回答的数据集上进行有监督学习。经过微调训练阶段的模型被称为监督微调模型(Supervised FineTuning Model, SFM),此时模型拥有较好的指令遵循能力,能够理解人类提出的具体指令,并给出较为准确和规范的回答。
前两个训练阶段的目的是让大语言模型掌握语言模式和指令遵循能力,而强化学习阶段则是为了进一步提升监督微调模型的输出质量,使其回答更自然、更符合人类偏好。因此,在强化学习之前往往先构建一个奖励模型(Reward Model, RM),模型的训练数据来源于人工标注,即对每个问题的答案进行人工排序打分,最后利用强化学习算法不断引导监督微调模型的回答生成策略,从而输出更合理、更符合人类价值观的文本内容。
经过多阶段训练后,大语言模型已经掌握了丰富的语言模式和知识结构,能够基于学习到的信息和上下文,通过预测下一个词或句子的概率生成连贯且有价值的文本1。随着技术的发展和模型能力的不断提升,其应用已经从文本分词、命名实体识别、情感分析和机器翻译等自然语言处理任务逐步扩展到教育24, 25、医疗26-28、金融29-31、社会模拟32, 33和工程领域34-36

1.3 多智能体大语言模型的概念

随着大语言模型能力的不断迭代和增强,如何进一步拓展其在多任务协作与复杂系统中的应用,成为当前重要的研究方向。为此,研究者提出了多智能体大语言模型(Multi-Agent LLMs),将多智能体系统的分布式协作结构与大语言模型的语义理解、逻辑推理和生成能力相结合,构建一种面向复杂任务的新型智能框架。在该框架中,多个由大语言模型驱动的智能体被赋予特定角色,如数据分析、环境感知和决策执行等,通过引入多智能体系统的分工协作机制19,整个系统可以将复杂任务拆解为多个子任务,并分配给相应功能的智能体执行,通过并行处理与顺序执行的结合,从而显著提升任务效率。
在多智能体大语言模型中,大语言模型不仅仅是信息处理的工具,更是每个智能体的认知核心37。通过对每个智能体制作详细的角色描述,比如身份、职责、背景信息、行为风格和专业能力,这种设定不仅能增强系统的可控性和可解释性,也为智能体的工具使用提供了清晰的行为边界38。在角色设定的指导下,智能体能够明确选择并调用与任务相关的外部工具、如检索接口、专业数据库和代码执行器等,在特定领域内表现出更强的任务执行能力。例如,一个被设定为“法律顾问”的智能体,不仅具备符合法律表达规范与逻辑结构的语言风格和推理方式,还能调用案例检索工具和知识产权系统进行查询,从而展现出更专业的判断与处理能力。
在角色设定的基础上,智能体之间通过自然语言进行信息交换与任务协商,构成一种高度灵活的通信机制。值得注意的是,此处的自然语言并非完全自由表达,而是一种经过设计的通信协议,其表达通常具有一定结构化特征,围绕任务指令、状态通报、请求响应等模式展开,使交流具有一定灵活性的同时,也具备明确的意图边界和可解析性。
有了结构化的自然语言作为通信基础,系统便可以支持更灵活的任务协同机制。系统通常包含一个或多个协调智能体,用于任务拆解、资源调度与执行监控。当某个智能体在执行过程中遇到前置条件缺失、信息不完整或结果冲突等问题时,系统可通过智能体间的反馈机制动态调整任务分配,重新规划流程或引入新的智能体以维持整体任务进度和质量。这种带有自适应能力的动态协作机制,使多智能体大模型具备了在真实复杂环境中运行的稳定性。
综上所述,多智能体大模型通过角色驱动、工具调用、结构化自然语言交互和任务协同机制,能够有效应对复杂任务。这一框架不仅提升了多智能体系统的泛化能力和适应性,也为大语言模型的实际应用提供了新的实现路径。然而,当前在架构设计、交互协议和协作机制等方面,依然存在一定的技术挑战,需进一步研究和完善。

2 多智能体大模型的架构与核心技术

2.1 系统总体架构

随着任务复杂度的不断提升,单一智能体因其在计算能力、知识覆盖和适应性方面的局限,难以胜任跨领域、强协同和高动态性的场景。为此,多智能体系统应运而生,成为构建复杂智能体应用的重要架构基础。
多智能体系通过引入多角色、多模块协同机制,将原本复杂的任务拆分为若干子任务,分别由具备特定能力的智能体并行处理,从而显著提升系统的执行效率、灵活性与鲁棒性。多智能体系统架构通常包含若干关键模块:(1)智能体功能定义与角色划分,用于明确各智能体的行为模式与任务边界;(2)协作模式,指导智能体间的协调方式与决策流程;(3)多智能体的通信协议,支撑系统内部协作与对外响应;(4)用于增强智能体能力的工具模块,如记忆存储、外部工具调用等。
多智能体架构如图4所示,系统以类人组织结构为灵感,具备高度自主性与协同性,能够适应复杂任务的动态变化,并在多种实际场景中展现出良好的可扩展性与问题解决能力。接下来将从协作模式、交互与通信机制、智能体能力机制等维度,对多智能体系统的核心组成进行详细阐述。
图4 多智能体系统总体架构

Fig. 4 Overall architecture of multi-agent system

2.2 多智能体协作模式

在多智能体架构中,智能体根据分工不同承担各异角色。例如,游戏中各智能体作为玩家拥有特定角色和技能,针对游戏目标发挥差异化功能;软件开发过程中,智能体可担任产品经理、架构师、开发/测试工程师等角色,分别负责开发流程的不同环节。每个角色通过功能定义描述获得其特征、能力、行为、约束和目标。智能体定义的构建主要采用三种方式:一是人工定义,由系统设计者显式赋予角色与能力;二是模型生成,由大语言模型根据指示自动生成智能体描述;三是数据衍生,基于历史数据集从业务场景中提取和衍生角色功能。
多智能体系统的协作模式对系统性能和效率具有决定性影响。根据智能体间关系和任务执行方式,协作模式以两个维度进行分类:基于智能体协作结构的协作结构类型和基于任务阶段的协作时序类型。这两种分类视角共同构成了多智能体协作的理论框架,为系统设计提供了多元化的实现路径。

2.2.1 协作结构类型

协作结构决定了智能体之间的关系和信息流动方式。在多智能体系统中,主要有两种协作结构:水平结构和垂直结构。
(1)水平协作结构(Flat Structure)强调智能体之间的对等关系,典型的水平结构包括去中心化结构与信息池共享结构。去中心化结构强调点对点通信,各智能体之间直接交换信息,常用于开放世界模拟等应用;而在共享消息池结构中,例如 MetaGPT系统39,所有消息统一广播到公共信息池,智能体可根据任务需求自主订阅和处理相关信息。基于大语言模型的多智能体协作系统的框架如图5所示。水平结构下,各智能体独立运行,通过共享感知数据、局部状态和中间决策结果,协同推动全局任务的完成。该结构常依赖分布式通信机制,智能体借助多轮迭代式的信息交互,实现全体状态的动态一致性。最终决策可通过多数表决或共识算法达成。水平结构的协作模式特别适合需要整合多源建议或多技能协作的场景,如咨询问答、协商和摘要生成等。
图5 基于大语言模型的多智能体协作系统框架

Fig. 5 Framework for multi-agent collaborative systems based on LLM

(2)垂直协作结构(Hierarchical Structure)是一种强调控制层级与信息集中管理的组织方式,常见的结构形式包括分层结构与中心化结构。分层结构中,智能体按照层级进行组织,仅与同层或相邻层之间进行通信;中心化结构则依赖一个中心节点负责协调信息流动,其他智能体仅与该中心节点进行交互。垂直结构的系统设有中枢智能体,负责全局任务规划、分解与调度,下层智能体则专注于子任务的执行与反馈。垂直结构有助于复杂任务的分解与标准化调度,适用于任务目标清晰且执行精度需求高的场景,例如数学求解、程序生成和逻辑推理任务等。
总体来说,水平结构更适合需要动态调整和多方参与的场景,而垂直结构则能够高效地处理结构化、精确要求较高的任务。根据具体的应用需求,系统可以采用不同的协作结构或二者的组合,以充分发挥多智能体系统的优势。

2.2.2 协作时序类型

协作时序决定了智能体在任务执行中的互动方式,通常可以分为早期协作、中期协作和晚期协作三个阶段。每个阶段的协作重点不同,分别对应任务的不同生命周期。
(1)早期协作。这个阶段的协作通常涉及任务目标的设定、角色的明确,以及数据的共享。通过共享感知数据和任务信息,确保每个智能体的角色和任务分配清晰,确保任务顺利开展17
(2)中期协作。这个阶段发生在任务执行过程中,核心在于即时交互、参数协调和冲突缓解。在这个阶段,智能体之间需要同步信息、调整参数,并根据任务进展进行动态调整。此阶段系统已经部分产生智慧与智能,在此阶段共享中间成果有助于提高协作效率和增强团队的鲁棒性,以确保任务能够顺利执行并应对突发情况。例如,智能体可以动态剔除表现不佳的成员,或者实时同步位置信息和观测数据,以优化任务执行。
(3)晚期协作。这个阶段重点在于将各智能体输出集成、验证,并提升系统完成任务的整体性能,此阶段的协作处于任务的下游即靠近系统输出的状态,目标是确保系统输出的结果最优,并减少单个决策节点的失误。

2.3 交互与通信协议

2.3.1 多智能体与外部交互机制

在多智能体系统中,智能体通过与外部环境的持续交互来获取信息、规划决策、执行动作并对环境产生反馈,这一过程不仅是任务推进的基础,也构成了智能体学习与演化的核心机制。外部环境主要包括三类:(1)物理环境,如机器人与真实世界交互的场景;(2)虚拟环境,如软件开发中的代码解释器环境、游戏中的规则等;(3)用户交互,即智能体基于用户输入与反馈做出的响应和优化。
在实际应用中,任务目标和外部环境往往具有动态性和不确定性。为实现系统的稳定运行和适应性提升,智能体需要具备根据环境变化动态调整行为的能力。例如,某一智能体在执行任务过程中发现新的挑战或信息,可通过与其他智能体的协同沟通重新制定计划,从而确保系统整体的灵活性与鲁棒性。为支持这种动态适应能力,部分系统引入了反思机制和策略调整模块。例如,AutoAgents40能够根据具体任务需求,动态生成和协调多个具有特定功能的智能体,从而应对不同类型的复杂任务。该系统分为两个阶段:在草拟阶段,通过分析输入的任务或问题,自动生成定制化的智能体团队,并制定相应的执行计划,确保各个智能体的角色和任务分配最符合需求;在执行阶段,系统支持智能体在执行过程中不断进行自我反馈与行为修正,从而增强系统在复杂环境中的稳定性与适应性。

2.3.2 多智能体间的交互机制

多智能体系统的核心优势之一在于智能体间的协调能力,每个智能体根据其专长承担不同子任务,协同推进整体目标的完成。实现协调的关键在于高效的交互机制与通信策略设计。例如,MacNet41通过组织成有向无环图(Directed Acyclic Graph, DAG)结构,使多个智能体进行协作式推理以完成复杂任务。
在任务执行过程中,智能体之间通常需要共享信息、交换反馈,甚至根据其他智能体行为调整自身策略。例如,在多机器人系统中,机器人需要实时交换位置信息、任务进度和环境感知数据,以确保任务协同和避免冲突。针对交互效率的提升,GPTSwarm框架42将基于大语言模型的智能体看作可优化的图,图中的节点代表大模型推理、工具使用等操作,图中的边表示节点间的信息流,通过自主优化节点和边的连接,能够有效提升多智能体系统的性能。AgentVerse框架43通过专家招募、协同决策、动作执行和评估四个阶段,模拟了人类群体解决问题的过程,有效组织了多智能体小组协同完成任务。为了反映不同智能体交互机制在多种任务类型下的表现差异,表1展示了部分上述多智能体框架在多任务基准评测任务的表现,这些基准任务涵盖多领域知识理解(Massive Multitask Language Understanding, MMLU)、代码生成(HumanEval)、软件需求结构化描述(Software Requirement Description Dataset, SRDD)和常识文本生成(CommonGen)四个方面。
表1 多智能体系统在多任务基准中的表现41

Table 1 Performance of multi-agent systems on multi-task benchmarks

方法 MMLU HumanEval SRDD CommonGen 平均分
测试集规模(条) 14 042 164 1 201 1 497
GPTSwarm 0.236 8 0.496 9 0.709 6 0.622 2 0.516 3
AgentVerse 0.297 7 0.725 6 0.758 7 0.539 9 0.580 5

MacNet

(链式结构)

0.663 2 0.372 0 0.805 6 0.590 3 0.607 8

注:表中数值为对应任务的得分,得分满分为1.0,数值越高表示性能越好。

多智能体系统的交互范式包括合作(Cooperation)、竞争(Competition)与竞合(Coopetition)三种模式。在合作模式下,智能体围绕共同目标交换信息、协同决策;在竞合模式中,智能体提出并维护不同观点,通过互评与调整达成最终共识;而在竞争模式下,智能体拥有各自的独立目标,目标间可能存在冲突,需要通过博弈寻求利益平衡。
合作是指多智能体系统中的各个智能体,为实现共同目标而协同工作,主动地共享资源和信息,通过分工合作、相互补充以最大化整体系统的利益。在合作模式下,智能体间建立明确的协作机制,共同推进任务完成。合作强调智能体在不同领域的专长互补,智能体之间通过输入和输出的动态对齐,互相补充信息,从而实现协同决策44。举例来说,气象智能体可以输出气象预报信息,而土壤智能体则提供土壤湿度信息,二者通过双向信息交换共同推动作物生长模拟和精准灌溉决策。通过这种信息互换,系统能够在不断变化的环境条件下作出更精确的决策,从而提升整体效率和决策质量。然而,合作也面临诸多挑战。任务协同难度较大,需要合理分配任务以避免资源冗余或工作重复,这要求复杂的协调机制。同时,合作系统需要制定统一的数据和通信协议,以保证信息流畅共享,这在异构智能体系统中尤为困难。此外,合作中可能存在“搭便车”现象,部分个体在合作中付出较少却享受整体成果,这种不公平可能导致各个智能体运行效率不均衡,无法发挥多智能体的最大协作优势。
竞争强调智能体之间为实现各自独立目标而相互争夺有限资源,常常涉及博弈论中的策略选择与利益平衡,可能导致资源抢占或直接冲突。在竞争环境中,智能体倾向于优化自身收益而非系统整体效益。竞争机制在进化算法和强化学习等领域被广泛应用,通过模拟“适者生存”的自然法则,促进系统整体性能的提升。竞争模式也存在明显缺陷。频繁的资源争夺可能造成资源浪费或矛盾激化,降低整体系统效率。过度竞争会导致系统稳定性下降,尤其是在竞争过于激烈时可能出现剧烈波动。另外,竞争环境容易出现纳什均衡陷阱,使整体效率受到限制,个体难以获得最优收益,形成“囚徒困境”式次优结果。
竞合是一种融合竞争与合作特征的混合模式,智能体在某些方面协作共赢,同时在其他方面保持合理竞争,以实现共同与个体利益的动态平衡。这种模式在复杂任务环境中尤为常见,能够灵活应对多变的场景需求。
竞合协作结合了合作与竞争协作结构和交互方式,特别适用于多目标和多约束的复杂问题。在这种模式中,协作和竞争机制并行工作,以确保任务的全局优化和资源的平衡。
(1)协作与竞争并行。在混合协作模式中,协作机制通常依赖于历史数据和全体感知信息来协调任务的执行;而竞争机制则通过引入博弈策略来处理不同目标之间的资源冲突。例如,能耗智能体与产量智能体可能就资源使用进行争论,此协作模式则根据各目标的优先级实时调整权重,以达成平衡45
(2)结果整合与优化。在综合协作模式中,系统通过综合考虑多个目标来优化决策过程。这意味着,在解决复杂问题时,系统会对不同的方案进行比较,剔除不理想的选择,只保留那些最平衡、最优的方案。同时,系统还会根据外部因素的变化(如能源价格波动)及时调整各目标的优先级,确保系统能够灵活应对不同情况。
竞合协作策略突破了传统合作与竞争的二元对立,为多智能体系统提供了更为灵活和高效的交互范式。然而实施竞合协作策略面临诸多挑战。首先是难以合理界定合作与竞争的边界,容易出现角色模糊和责任不清的情况。总体来说,竞合协作通过结合不同的策略和结构,提升了任务的规划效率,减少了资源冲突,并增强了系统在应对挑战时的稳定性和可靠性。
多智能体间的交互结构与协作结构的概念相同,上文已经对多智能体的协作结构有详细的陈述。通信内容通常以自然语言文本为主,在特定应用场景中也可能包含代码片段或结构化数据,以满足多样化的任务交互需求。

2.3.3 通信协议的基础框架

在农业多智能体系统的实际部署与应用中,通常采用多种通信协议混合架构以适应复杂作业场景的要求。协商协议方面,基于FIPA(The Foundation for Intelligent Physical Agents)规范的Contract-Net协议46被广泛用于农机任务的分布式分配,其双向竞价机制有效提升了资源利用率。例如,美国John Deere智能农机系统即采用了此协议实现农机协同作业分工。黑板系统提供了分布式知识库架构,支持各感知节点上传作物生长参数与环境数据,实现全局观测一致性和状态同步。CyVerse农业数据平台是黑板系统理念的典型实践,作为一个基于云的解决方案,它实现了多源异构数据的实时管理,支持数据的无缝共享与协同处理,切实满足农业科研人员在复杂数据处理与分析方面的多样化需求。

2.3.4 安全通信保障

农业多智能体系统中,敏感生产数据的安全传输与可信管理是系统规模化应用的关键。通常包括以下多层次数据保障机制47
(1)数据确权链。利用Hyperledger Fabric进行作物生长记录的区块链存储,实现可审计与防篡改的数据确权。
(2)差分隐私保护。针对智慧灌溉指令传输,在通信内容中引入拉普拉斯噪声,兼顾信息利用率与隐私保障。
(3)可信执行环境。基于ARM Trust Zone等硬件安全模块,构建不可否认日志体系,为关键农事行为提供等级保护。

2.4 适用于农业场景的多智能体架构

当前,已经有多种多智能体框架被提出,虽然它们大都聚焦于多智能体协作和语言模型的应用,但各自侧重有所不同。
MetaGPT强调标准化流程与角色分工机制,这与农业生产中播种、灌溉、施肥、采摘等环节的系统化管理高度契合。通过将这些流程嵌入任务列表,结合标准操作程序(Standard Operating Procedure, SOP)进行调度,有助于减少人为失误,提升协作效率。CAMEL框架38则在多设备协同方面展现出较高的灵活性,适合用于智能农机之间的协作管理场景。例如,无人驾驶拖拉机、播种机与喷雾车等设备可通过基于角色扮演的结构化指令交互机制进行任务分配与协同作业,提升农业装备的联动能力,尤其适用于病虫害防治、精准灌溉等对时效与协调性要求较高的复杂场景。AutoGen48的强大定制能力特别适合农业领域中面向数据分析与场景适应的需求。开发者可利用其灵活的接口设计,构建能够分析土壤信息、气候数据与作物生长状态的农业智能体,进而辅助农民或系统做出更具针对性的决策。例如,根据不同作物和地块情况调整种植方案,实现农业资源的优化配置。
PestMA49是一个专为虫害管理设计的多智能体系统,聚焦于在复杂情境下生成可靠、循证的防治建议。通过编辑、检索与验证三个角色分工协作,能够整合外部知识并强化推理过程,有效提高虫害管理任务的准确性。Chen等50提出了一种应用于果园场景的多智能体系统,结合无人机拍摄图像与大语言模型进行果树定位和成熟度识别,并利用自适应反射进化算法进行路径优化,为地面机器人生成提供最优作业路径。该系统通过任务分析与执行分工实现感知与规划协同,展现了多智能体与大模型结合在农业自动化中的应用潜力。OpenAg51作为一个面向农业多智能体场景设计的框架,提供了一个集成领域知识基础模型、神经农业知识图谱、多智能体协同推理与因果可解释机制的综合方案。该系统专注于解决农业智能决策中常见的上下文理解不足、推荐泛化能力弱和可解释性差的问题,通过多智能体分工协作,融合科学文献、传感器数据及农民经验,生成具有可操作性和本地适应性的决策建议。
此外,Beehive系统52作为专为智慧农场设计的多智能体架构,提出了以大模型为核心的农场操作系统理念,将农业生产任务划分为松耦合的模块化智能体,按需部署并通过大模型实现任务的自动化编排。系统重点从数据可视化转向作物生长过程管理,强化了对复杂农业环境的适应能力,同时降低了系统迁移与扩展成本,展现出较强的可复制性与通用性。
综上所述,尽管部分多智能体框架源自通用领域,其在协作机制、任务分工及定制能力上的设计理念为智慧农业系统提供了重要的理论和方法支持;而专门针对农业场景开发的框架,则结合行业实际需求,能够深入解决农业生产中的复杂问题和具体挑战。未来,借助通用框架的思想与专用系统的落地实践,有望实现更高水平的精准农业管理与自动化应用。

3 多智能体大模型在农业中的应用

3.1 农业全流程智能化管理

农业作为典型的复杂场景,其生产过程涵盖耕、种、管、收多个环节,呈现出显著的系统性特征。具体而言,生产流程具有明显的阶段性,从播种、田间管理到收获形成完整闭环,各环节既相互独立又紧密关联。作业场景具有多样性,不同作物品种、种植模式和地域环境构成了差异化的应用场景53;由于作物对外部环境具有强依赖性,气象条件、病虫害和土壤墒情等动态因素直接影响生产决策。这些高度复杂且动态演化的系统性特征,对智能系统的感知、决策与协同能力提出了更高要求54
AI技术的兴起为农业的数字化转型和智能化升级提供了重要契机55,推动了大模型在农业领域的广泛应用。例如,阿里达摩遥感模型(AI Earth Segmentation Foundation Model, AIE-SEG)56通过多模态图像解析技术,在农田监控和自然灾害预防中展现高效能力。Leaf Only SAM模型57利用零样本分割技术快速检测植物健康。Agri-LLaVA58通过微调和知识注入,支持200多种病害的多模态识别与诊断。AgriBERT59模型提升食品与农业数据的匹配精度,PLLaMa60通过强化自然语言交互能力,支持农业科技文献查询和复杂问题解答。此外,赵春江61等将大语言模型技术引入数字孪生平台,通过对蔬菜生长进行建模,实现了对作物生长过程的高效模拟和预测。
本文对以上应用进行总结,得到农业大模型的应用架构如图6所示。农业大模型架构分为七个关键层:数据层、基础设施层、模型层、应用技术层、交互层、能力层和应用层。在数据层,大模型依托多元化的农业数据资源支持模型训练和优化;基础设施层提供高效的计算和存储资源,确保大模型在复杂任务中的高效运行;模型层集成多种AI技术,融合多模态数据提升农业任务处理能力;应用技术层通过前沿技术如知识图谱和多智能体技术增强模型实用性;交互层优化用户与设备的互动,支持精确农业过程控制;能力层与应用层将模型能力转化为具体应用,如智能决策和风险防控,满足现代农业的多样化需求。
图6 农业大模型应用架构

Fig. 6 Agricultural large model application architecture

随着多智能体大模型的不断发展,其在农业领域的应用潜力逐渐显现,然而,尽管前景广阔,该技术目前仍处于起步阶段,实际应用相对有限,需在实践中不断验证和完善。
多智能体大模型具备的语义理解、逻辑推理和分工协作能力,能够有效适应农业复杂场景。根据作物生长期间中不断变化的任务需求,系统可针对不同环节的特点制定计划,协调完成种植、管理和收获等工作。面对多种数据来源,智能体之间能够协同处理传感器数据、农机信息和遥感影像等,提升整体感知和响应效率,同时结合实时环境变化,辅助农户做出更科学的生产决策62。这种结合了逻辑推理和协作机制的系统,更贴近农业多阶段、多任务的实际需求,能够更高效地感知环境、处理数据并支持智能决策,在农业领域中具有广阔的应用前景63

3.2 典型农业场景示例

图7展示了在整个农业周期内,从耕种到收获,多智能体大模型的运行过程。数据采集智能体持续提供环境与作物信息,数据处理智能体对信息进行处理并转化为决策依据,任务分配与协调智能体基于决策依据进行任务分配与动态调度,执行智能体按照分配执行具体作业,并通过反馈机制不断优化系统决策与作业执行。借助大语言模型的逻辑推理能力和多智能体系统的协同作用,能够推动水稻种植过程的智能化与自动化,助力实现精细化管理、提升生产效率,并为农业现代化提供坚实的技术支撑。
图7 基于大模型的农业多智能体协作系统流程图

Fig. 7 System flowchart of agriculture multi-agents collaborations based on LM

图8所示的水稻种植多智能体大模型系统为例,系统由数据采集智能体、数据处理智能体、任务分配与协调智能体,以及执行智能体等组成。各智能体在水稻种植的全周期内紧密协作,共同推动水稻种植的自动化与智能化进程。
图8 基于大模型的多智能体系统赋能水稻种植全流程示意图

Fig. 8 Schematic diagram of the rice planting full-process empowered by the multi-agent system based on large models

数据采集智能体作为系统的感知前端,负责接收部署在种植区域的各类传感器、遥感设备和外部数据源的信息,实时采集包括土壤湿度、温度、光照强度、水稻的生长状态和地块信息等数据。这些信息构成了多智能体大模型运行的基础,确保其对水稻种植环境和状态具备持续、精准的感知能力。
数据处理智能体负责对采集到的原始数据进行清洗、筛选与融合,如表2中的数据融合伪代码所示64, 65。通过大语言模型的分析和数据处理算法,将原始数据处理成可用于决策的信息,为后续的任务规划与多智能体协同提供了数据支撑,使得决策更加精准、可靠。
表2 多模态数据融合伪代码

Table 2 Pseudocode for Multimodal Data Fusion Process

多模态数据融合伪代码:

输入:

图像数据 I(例如:遥感图像、作物生长图像)

传感器数据 S(例如:温湿度、光照、土壤湿度)

文本数据 T(例如:农业管理日志、天气报告)

步骤:

(1)数据预处理

对图像数据 I 进行标准化、裁剪或增强等

对传感器数据 S 进行去噪、插值、单位标准化

对文本数据 T 进行分词、去停用词

(2)特征提取

使用图像模型(如ViT)提取图像特征:

F i =   I m a g e E n c o d e r ( I )

使用时间序列模型(如长短时记忆Long Short Term Memory, LSTM)提取传感器数据特征:

F s =   S e n s o r E n c o d e r ( S )

使用文本模型(如BERT)提取文本特征:

F t =   T e x t E n c o d e r ( T )

(3)特征对齐

将不同模态的特征映射到相同的维度空间:

F i ' = A l i g n ( F i )

F s ' = A l i g n ( F s )

F t ' = A l i g n ( F t )

(4)特征融合

F a l l = F u s i o n ( F i ' , F s ' ,   F t ' )

输出:

融合后的统一特征表示 F a l l,作为下游任务的输入基础

任务分配与协调智能体是系统的核心决策中枢,基于数据处理智能体提供的信息,结合水稻种植的各阶段生产目标制定任务计划,负责执行智能体任务的合理分配与协同调度。在耕种阶段,智能体根据土壤条件和作物需求,分配播种、施肥、灌溉等任务给相应的执行智能体,并协调各执行智能体之间的作业顺序与区域划分;在管理阶段,依据水稻的生长监测数据,动态调整病虫害防治、修剪等任务的执行策略;在收获阶段,统筹安排采摘、运输等任务,确保水稻能够及时、高效地完成收获。借助高效的通信机制与协作策略,任务分配与协调智能体有助于实现各执行智能体之间的高效协同,避免任务冲突与资源浪费。
执行智能体是系统决策的执行端,依据任务分配与协调智能体下达的指令,通过通信机制控制农业设备,在水稻种植现场执行具体的作业操作。例如,播种智能体负责精准水稻播种,施肥智能体执行按需施肥任务,灌溉智能体根据土壤湿度动态调控灌溉作业;在管理阶段,病虫害防治智能体与除草智能体根据监测数据执行精细管理措施;在收获阶段,收割、烘干与运输智能体协同完成水稻收获与后处理流程。各智能体在独立完成本职任务的同时,通过反馈机制实时上传作业进展与异常情况,为任务分配与协调智能体调整提供依据。

3.3 核心挑战与发展建议

3.3.1 多智能体大模型的可解释性

可解释性指的是用人类可理解的方式解释或呈现大语言模型行为的能力66,良好的可解释性能够帮助使用者理解模型输出背后的推理机制,从而建立对模型的信任67。然而,大语言模型由深度神经网络构成,其推理过程存在可解释性障碍,主要表现在三方面。一是模型内部复杂度高,通过堆叠大量参数层在高维空间进行特征映射和模式建模,使得推理过程极为复杂;二是数据依赖性强,训练数据中的偏见、错误都可能造成影响68;三是“黑箱”性质明显,模型内部推理过程对人类不透明,难以推断输入和输出的因果关系。
在多智能体大模型系统中,这一问题尤为突出,每个智能体依赖于大语言模型驱动,而大模型的决策过程缺乏清晰的推理链条,导致智能体的决策难以追踪和溯源。
在农业的全流程管理中,系统通常涉及感知、分析、规划和执行等多个环节,多个智能体需在复杂环境中协同工作。例如,数据采集智能体借助多光谱成像设备或土壤传感器采集作物生长数据,分析与规划智能体基于处理后的数据进行病虫害识别和任务分配,最后由执行智能体控制无人机、喷药设备完成具体作业。若某一智能体在感知或决策中产生错误,由于缺乏良好的可解释性,系统难以快速定位问题源头,导致事故的分析和责任划分变得极为困难。
当前已有一些工作,如LIME(Local Interpretable Model-agnostic Explanations)69和SHAP(SHapley Additive exPlanations)70,对大语言模型内部参数的行为进行解释,但前者无法完全准确反映原模型的行为,后者的计算复杂度高。与LIME和SHAP不同,推理大模型则是通过引入思维链(Chain of Thought, CoT)技术,以自然语言的方式展示思考过程,引导模型在输出的层面进行推理和反复验证,最终给出结果。
因此,在提升多智能体大模型的可解释性方面,可采取以下措施。首先,结合思维链等技术,通过展示模型的推理过程和关键步骤,增强模型输出的透明度和可追溯性,使得用户能够理解每个决策背后的逻辑。其次,针对农业应用中的高计算资源消耗和长时间推理问题,应优化推理过程,减少不必要的计算负担,确保在提升可解释性的同时,不对效率造成过大影响。最后,可以考虑开发针对特定场景的可解释性工具,使得不同类型的智能体能够根据其任务需求提供适合的解释,从而帮助系统更加高效地应对复杂的农业环境。

3.3.2 多智能体大模型的幻觉

幻觉(Hallucination)同样是大模型应用中一个不可忽视的挑战。大语言模型本质上是基于概率的建模,输入信息经过大量参数的计算后预测最可能的输出结果,因此模型输出的内容并非真正意义上的推理或推导,而是符合统计规律的生成,即模型生成了语义上合理但不符合事实的内容71。因此,在农业应用中,幻觉可能导致多智能体系统进行错误的环境感知和决策,甚至对作物管理产生不可逆的损害。
如果模型输出的内容存在幻觉,会导致分析与规划智能体误判农作物生长情况或病虫害情况,进而影响执行智能体的行为,产生错误的管理策略72。例如,将健康作物误判为患病作物,或识别出错误的处理区域,从而导致不必要的施药,形成资源浪费。这种情况不仅会降低系统效率,还可能危害作物安全,带来经济损失。
目前,缓解大语言模型幻觉现象的主要方法有检索增强生成(Retrieval-Augmented Generation, RAG)73、知识图谱(Knowledge Graph, KG)74、提示词工程(Prompt-Engineering)75和监督微调技术76。借助检索增强生成和知识图谱方法引用外部知识库,结合提示词工程,确保生成内容更符合事实,从而有效减少幻觉现象;监督微调则针对特定任务进行额外训练,使模型在特定场景中表现更可靠。
以上方法虽然能一定程度减少幻觉,提高可靠性,但其本质上是大语言模型的内在特征,只能通过外部手段缓解,并不能完全消除77。为了更有效地应对幻觉现象,未来发展应着重于以下几个方向。首先,完善现有方法,包括构建更加全面和高效的知识库、优化检索策略以及提示词调优。为了减少幻觉现象,模型必须能够访问到及时更新且准确的农业领域知识,因此需要持续更新和扩充知识库。借助精细化的检索策略帮助模型更准确地提取与任务相关的信息,从而减少不符合事实的生成内容。其次,引入纠正机制,在多智能体系统中引入校验智能体,智能体负责在数据采集、数据处理、任务分配与协调以及执行智能体之间的交互中进行实时校验。例如,它可以验证处理后的数据与原始数据是否关联,检查任务分配的决策是否偏离生产目标,并指导执行智能体修正错误,从而有效减少幻觉现象。最后,推理能力的提升是未来发展的关键,在农业应用中,智能体不仅需要生成合理的输出,还需要处理复杂的因果关系和动态变化。未来可以引入更高效的推理机制,使模型能够在推理和反复验证的过程中更好地理解农业中的复杂情境。

3.3.3 多模态农业数据的采集和处理

在多智能体大模型系统中,农业数据的采集与处理是基础环节。然而,农业场景本质上是高度多模态的,采集到的数据不仅包括土壤湿度、温度等数值信息,还包括作物图像、遥感影像、环境监测文本、多光谱数据,甚至未来可能涉及音频、视频和机械操作反馈。这种天然的多模态特性给数据处理带来了新的挑战。
在采集阶段,系统面临设备种类繁多、标准不统一的问题。由于传感器和遥感设备多样,数据在精度、分辨率和采样频率上存在差异,且缺乏统一的数据格式标准,导致不同来源的数据难以融合,增加了数据预处理的复杂度。同时,设备易受环境干扰,如传感器故障、信号中断或极端天气,造成数据丢失和噪声污染,进一步降低数据质量。
在数据处理阶段。农业数据展现出高度异构性与复杂性。传统的多智能体大模型系统主要处理基于文本的信息,在农业环境中,智能体需要同时理解、关联和推理不同类型的数据,如图像、数值、文本甚至物理动作指令。这不仅要求数据处理智能体具备针对不同模态的数据清洗、标准化与融合能力,还能跨模态进行信息关联,以支持大模型的推理与决策。当前,跨模态对齐、特征融合及推理机制仍存在明显不足,容易引入信息丢失或推理偏差。
在生成与执行阶段,智能体的输出也呈现出多样化趋势。不仅包括传统的文本响应,还涉及决策动作和设备控制指令等多种形式,进一步加强了对数据处理、理解和生成能力的要求。
因此,未来需要系统地解决多模态数据处理与跨模态推理的问题。一方面,可以通过引入专门针对农业场景优化的多模态大模型,提升不同数据类型之间的特征对齐与理解能力;另一方面,需要建立统一的数据采集与标注标准,规范设备接口和数据格式,降低异构数据融合的难度,为多智能体协同提供更可靠的数据支撑。

4 总 结

本文基于大语言模型探讨了多智能体系统在农业场景的应用。随着农业现代化进程的加速,传统农业面临的诸多挑战亟需解决。结合大语言模型和多智能体系统协同的优势,能够为农业全流程生产提供更加智能化和自动化的解决方案,助力农业生产向智慧农业和无人农业推进。尽管该技术在理论和应用上具有广阔前景,但农业场景的复杂性、数据的多样性,以及大语言模型当前的推理能力限制,使得该技术在实践中面临不少挑战。因此,提升大语言模型的可解释性和在农业领域的推理准确性,统一数据标准并构建完善的农业高质量知识库,将是未来研究的重点方向。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

[1]
ANNEPAKA Y, PAKRAY P. Large language models: A survey of their development, capabilities, and applications[J]. Knowledge and information systems, 2025, 67(3): 2967-3022.

[2]
WANG Z C, CHU Z B, DOAN T V, et al. History, development, and principles of large language models: An introductory survey[J]. AI and ethics, 2025, 5(3): 1955-1971.

[3]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// 31st Conference on Neural Information Processing System. Red Hook, NY, USA: Curran Associates Inc., 2017: 5998–6008.

[4]
DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL]. arXiv:1810.04805v2, 2019.

[5]
RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training[R]. OpenAI, 2018. [2025-04-30]. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[6]
RADFORD A, WU J, CHILD R, et al. Language models are unsupervised multitask learners[R]. OpenAI blog, 2019. [2025-04-30]. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

[7]
BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[EB/OL]. arXiv: 2005.14165, 2020.

[8]
CHOWDHERY A, NARANG S, DEVLIN J, et al. PaLM: Scaling language modeling with pathways[J]. Journal of machine learning research, 2023, 24(240): 1-113.

[9]
TEAM G, ANIL R, BORGEAUD S, et al. Gemini: a Family of highly capable multimodal models[EB/OL]. arXiv: 2312.11805, 2023.

[10]
ACHIAM J, ADLER S, AGARWAL S, et al. GPT-4 technical report[EB/OL]. arXiv: 2303.08774, 2023.

[11]
YANG A, YANG B S, HUI B Y, et al. Qwen2 technical report[EB/OL]. arXiv: 2407.10671, 2024.

[12]
BAI S, CHEN K Q, LIU X J, et al. Qwen 2.5-VL technical report[EB/OL]. arXiv: 2502.13923, 2025.

[13]
TOUVRON H, MARTIN L, STONE K, et al. Llama 2: Open foundation and fine-tuned chat models[EB/OL]. arXiv: 2307.09288, 2023.

[14]
GRATTAFIORI A, DUBEY A, JAUHRI A, et al. The llama 3 herd of models[EB/OL]. arXiv: 2407.21783, 2024.

[15]
LIU A X, FENG B, XUE B, et al. DeepSeek-V3 technical report[EB/OL]. arXiv: 2412.19437, 2024.

[16]
GUO D Y, YANG D J, ZHANG H Wet al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning[EB/OL]. arXiv: 2501.12948, 2025.

[17]
TRAN K T, DAO D, NGUYEN M D, et al. Multi-Agent Collaboration Mechanisms: A Survey of LLMs[EB/OL]. arXiv: 2501.06322, 2025.

[18]
DORRI A, KANHERE S S, JURDAK R. Multi-agent systems: A survey[J]. IEEE access, 2018, 6: 28573-28593.

[19]
GUO T C, CHEN X Y, WANG Y Q, et al. Large language model based multi-agents: A survey of progress and challenges[EB/OL]. arXiv: 2402.01680, 2024.

[20]
JULIAN V, BOTTI V. Multi-agent systems[J]. Applied sciences, 2019, 9(7): 1402.

[21]
ZHAO W X, ZHOU K, LI J Y, et al. A Survey of large language models[EB/OL]. arXiv: 2303.18223.

[22]
KAPLAN J, MCCANDLISH S, HENIGHAN T, et al. Scaling Laws for neural language models[EB/OL]. arXiv: 2001.08361, 2020.

[23]
LI P F, ZHANG M, LIN P J, et al. Conditional embedding pre-training language model for image captioning[J]. Neural processing letters, 2022, 54(6): 4987-5003.

[24]
DAN Y H, LEI Z K, GU Y Y, et al. EduChat: A large-scale language model-based chatbot system for intelligent education[EB/OL]. arXiv: 2308.02773, 2023.

[25]
KIANIAN R, SUN D Y, CROWELL E L, et al. The use of large language models to generate education materials about uveitis[J]. Ophthalmology retina, 2024, 8(2): 195-201.

[26]
KUNG T H, CHEATHAM M, MEDENILLA A, et al. Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models[J]. PLoS digital health, 2023, 2(2): ID e0000198.

[27]
SALLAM M. ChatGPT utility in healthcare education, research, and practice: Systematic review on the promising perspectives and valid concerns[J]. Healthcare, 2023, 11(6): ID 887.

[28]
SINGHAL K, TU T, GOTTWEIS J, et al. Toward expert-level medical question answering with large language models[J]. Nature medicine, 2025, 31(3): 943-950.

[29]
WU S J, IRSOY O, LU S, et al. Bloomberggpt: A large language model for finance[EB/OL]. arXiv: 2303.17564, 2023.

[30]
HUANG A H, WANG H, YANG Y. FinBERT: A large language model for extracting information from financial text[J]. Contemporary accounting research, 2023, 40(2): 806-841.

[31]
HUANG J M, XIAO M X, LI D, et al. Open-finllms: Open multimodal large language models for financial applications[EB/OL]. arXiv: 2408.11878, 2024.

[32]
PARK J S, O'BRIEN J, CAI C J, et al. Generative agents: Interactive simulacra of human behavior[C]// Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. New York, USA: ACM, 2023.

[33]
RASHEED Z, WASEEM M, AHMAD A, et al. Can large language models serve as data analysts A multi-agent assisted approach for qualitative data analysis[EB/OL]. arXiv: 2402.01386, 2024.

[34]
FRAIWAN M, KHASAWNEH N. A review of ChatGPT applications in education, marketing, software engineering, and healthcare: Benefits, drawbacks, and research directions[EB/OL]. arXiv: 2305.00237, 2023.

[35]
TIRO D. The possibility of applying ChatGPT (AI) for calculations in mechanical engineering[M]// New Technologies, Development and Application VI. Cham: Springer Nature Switzerland, 2023: 313-320.

[36]
PAL S, BHATTACHARYA M, LEE S S, et al. A domain-specific next-generation large language model (LLM) or ChatGPT is required for biomedical engineering and research[J]. Annals of biomedical engineering, 2024, 52(3): 451-454.

[37]
AGASHE S, FAN Y, WANG X E. LLM-coordination: Evaluating and analyzing multi-agent coordination abilities in large language models[EB/OL]. arXiv: 2310.03903, 2023.

[38]
LI G H, HAMMOUD H, ITANI H, et al. Camel: Communicative agents for" mind" exploration of large language model society[EB/OL]. arXiv:2303.17760v2, 2023.

[39]
HONG S R, ZHUNG M C, CHEN J Q, et al. Metagpt: Meta programming for multi-agent collaborative framework[EB/OL]. arXiv: 2308.00352, 2023.

[40]
CHEN G Y, DONG S W, SHU Y, et al. Autoagents: A framework for automatic agent generation[EB/OL]. arXiv: 2309.17288, 2023.

[41]
QIAN C, XIE Z H, WANG Y F, et al. Scaling large-language-model-based multi-agent collaboration[EB/OL]. arXiv: 2406.07155, 2024.

[42]
ZHUGE M C, WANG W Y, KIRSCH L, et al. Language agents as optimizable graphs[EB/OL]. arXiv: 2402.16823, 2024.

[43]
CHEN W Z, SU Y S, ZUO J W, et al. Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents[EB/OL]. arXiv: 2308.10848, 2023.

[44]
LIU Z W, YAO W R, ZHANG J G, et al. Agentlite: A lightweight library for building and advancing task-oriented LLM agent system[EB/OL]. arXiv: 2402.15538, 2024.

[45]
ZHANG B, MAO H Y, RUAN J Q, et al. Controlling large language model-based agents for large-scale decision-making: An actor-critic approach[EB/OL]. arXiv: 2311.13884, 2023.

[46]
SMITH. The contract net protocol: High-level communication and control in a distributed problem solver[J]. IEEE transactions on computers, 1980, C-29(12): 1104-1113.

[47]
PAN Y, SUN J X, YU H F, et al. Building multi-agent copilot towards autonomous agricultural data management and analysis[C]// 2024 IEEE International Conference on Big Data (BigData). Piscataway, New Jersey, USA. IEEE, 2024: 4384-4393.

[48]
WU Q Y, BANSAL G, ZHANG J Y, et al. Autogen: Enabling next-gen llm applications via multi-agent conversation framework[EB/OL]. arXiv: 2308.08155, 2023.

[49]
SHI H R, LI S B, YUAN Z Y, et al. PestMA: LLM-based Multi-Agent System for Informed Pest Management[EB/OL]. arXiv: 2504.09855, 2025.

[50]
CHEN Y J, ZHU K X, CHEN Z D, et al. Intelligent multi-agent systems for UAV-robot path optimization via reflective evolution[M]// Parallel and Distributed Computing, Applications and Technologies. Singapore: Springer Nature Singapore, 2025: 566-577.

[51]
THUDUMU S, FISHER J. OpenAg: Democratizing Agricultural Intelligence [EB/OL] arXiv: 2506.04571, 2025.

[52]
张浩, 蔡晨馨, 屈傲, 等. Beehive: 基于智能体的智慧农场操作系统[J]. 计算, 2025, 1(2): 63-70.

ZHANG H, CAI C X, QU A, et al. Beehive: Agent-based smart farm operating system[J]. Computing Magazine of the CCF, 2025, 1(2): 63-70.

[53]
刘海峰, 孟祥宝, 谢秋波, 等. 我国智能化植物工厂发展现状与对策建议[J]. 广东科技, 2021, 30(7): 69-71.

[54]
万欢, 欧媛珍, 管宪鲁, 等. 无人农机作业环境感知技术综述[J]. 农业工程学报, 2024, 40(8): 1-18.

WAN H, OU Y Z, GUAN X L, et al. Review of the perception technologies for unmanned agricultural machinery operating environment[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(8): 1-18.

[55]
赵春江. 智慧农业发展现状及战略目标研究[J]. 智慧农业, 2019, 1(1): 1-7.

ZHAO C J. State-of-the-art and recommended developmental strategic objectivs of smart agriculture[J]. Smart agriculture, 2019, 1(1): 1-7.

[56]
XU H, MAN Y B, YANG M Y, et al. Analytical insight of earth: a cloud-platform of intelligent computing for geospatial big data[EB/OL]. arXiv: 2312.16385, 2023.

[57]
WILLIAMS D, MACFARLANE F, BRITTEN A. Leaf only SAM: A segment anything pipeline for zero-shot automated leaf segmentation[J]. Smart agricultural technology, 2024, 8: ID 100515.

[58]
WANG L Q, JIN T, YANG J Y, et al. Agri-LLaVA: Knowledge-Infused Large Multimodal Assistant on Agricultural Pests and Diseases[EB/OL]. arXiv: 2412.02158, 2024.

[59]
REZAYI S, LIU Z L, WU Z H, et al. AgriBERT: Knowledge-Infused Agricultural Language Models for Matching Food and Nutrition[C]// the Thirty-First International Joint Conference on Artificial Intelligence AI for Good. Messe Wien, Vienna, Austria: IJCAI, 2022: 5150-5156.

[60]
YANG X J, GAO J F, XUE W X, et al. Pllama: An open-source large language model for plant science[EB/OL]. arXiv: 2401.01600, 2024.

[61]
赵春江, 李静晨, 吴华瑞, 等. 基于大语言模型推理的数字孪生平台蔬菜作物生长模型研究[J]. 智慧农业(中英文), 2024, 6(6): 63-71.

ZHAO C J, LI J C, WU H R, et al. Vegetable crop growth modeling in digital twin platform based on large language model inference[J]. Smart agriculture, 2024, 6(6): 63-71.

[62]
任荣荣, 胡崇宇, 吴国龙. 农业种植智能体(Agri-agent)的构建与应用展望[J]. 农业展望, 2024, 20(6): 92-106.

REN R R, HU C Y, WU G L. Construction and application outlook of agri-agent[J]. Agricultural outlook, 2024, 20(6): 92-106.

[63]
吴华瑞, 李晓锁. 大模型在设施蔬菜智能化生产中的应用[J]. 蔬菜, 2024(11): 1-8.

WU H R, LI X S. Application of large model in intelligent production of protected vegetables[J]. Vegetables, 2024(11): 1-8.

[64]
LIU Z, LIU M J, CHEN J Z, et al. Fusion: fully integration of vision-language representations for deep cross-modal[EB/OL]. arXiv: 2504.09925, 2025.

[65]
JIANG J C, LI Y, NIE J, et al. Integrating large language models with cross-modal data fusion for advanced intelligent transportation systems in sustainable cities development[J]. Applied soft computing, 2025, 177: ID 113278.[LinkOut]

[66]
DU M N, LIU N H, HU X. Techniques for interpretable machine learning[J]. Communications of the acm, 2019, 63(1): 68-77.

[67]
ZHAO H Y, CHEN H J, YANG F, et al. Explainability for large language models: A survey[J]. ACM transactions on intelligent systems and technology, 2024, 15(2): 1-38.

[68]
BLEVINS T, GONEN H, ZETTLEMOYER L. Prompting language models for linguistic structure[EB/OL]. arXiv: 2211.07830, 2022.

[69]
RIBEIRO M T, SINGH S, GUESTRIN C. "Why should I trust you ": Explaining the predictions of any classifier[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA. ACM, 2016: 1135-1144.

[70]
LUNDBERG S M, LEE S I. A unified approach to interpreting model predictions[C]// 31st Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc., 2017: 4768-4777.

[71]
HUANG L, YU W J, MA W T, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. ACM transactions on information systems, 2025, 43(2): 1-55.

[72]
张宇芹, 朱景全, 董薇, 等. 农业垂直领域大语言模型构建流程和技术展望[J]. 农业大数据学报, 2024, 6(3): 412-423.

ZHANG Y Q, ZHU J Q, DONG W, et al. Construction process and technological prospects of large language models in the agricultural vertical domain[J]. Journal of agricultural big data, 2024, 6(3): 412-423.

[73]
BéCHARD P, AYALA O M. Reducing hallucination in structured outputs via Retrieval-Augmented Generation[EB/OL]. arXiv: 2404.08189, 2024.

[74]
MARTINO A, IANNELLI M, TRUONG C. Knowledge injection to counter large language model (LLM) hallucination[M]// The Semantic Web: ESWC 2023 Satellite Events. Cham: Springer Nature Switzerland, 2023: 182-185.

[75]
FELDMAN P, FOULDS J R, PAN S M. Trapping LLM hallucinations using tagged context prompts[EB/OL]. arXiv: 2306.06085, 2023.

[76]
WEI J H, YAO Y S, J-FTON, et al. Measuring and Reducing LLM Hallucination without Gold-Standard Answers[EB/OL]. arXiv: 2402.10412, 2024.

[77]
BANERJEE S, AGARWAL A, SINGLA S. LLMs will always hallucinate, and we need to live with this[EB/OL]. arXiv: 2409.05746, 2024.

Outlines

/