Embodied Intelligent Agricultural Robots: Key Technologies, Application Analysis, Challenges and Prospects

WEI Peigang; CAO Shanshan; LIU Jifang; LIU Zhenhu; SUN Wei; KONG Fantao

doi:10.12133/j.smartag.SA202505008

Smart Agriculture >

2025 , Vol. 7 >Issue 4: 141 - 158

DOI: https://doi.org/10.12133/j.smartag.SA202505008

Overview Article

Embodied Intelligent Agricultural Robots: Key Technologies, Application Analysis, Challenges and Prospects

WEI Peigang ¹^,² ,
CAO Shanshan ¹^,² ,
LIU Jifang ¹^,² ,
LIU Zhenhu ⁴ ,
SUN Wei ^,¹^,² ,
KONG Fantao ^,²^,³

Expand

^1. Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China
^2. National Nanfan Research Institute (Sanya), Chinese Academy of Agricultural Sciences, Sanya 572024, China
^3. Institute of Agricultural Economics and Development, Chinese Academy of Agricultural Sciences, Beijing 100081, China
^4. Institute of Western Agriculture, Chinese Academic of Agricultural Sciences, Changji 831100, China

SUN Wei, E-mail: sunwei02@caas.cn;

KONG Fantao, E-mail: kongfantao@caas.cn

WEI Peigang, E-mail: wpg0115@163.com

Received date: 2025-05-09

Online published: 2025-06-30

Supported by

National Key R&D Programme Project(2024YFD2000305)

Science and Technology Innovation Project of the Chinese Academy of Agricultural Sciences(10-IAED-RC-09-2025)

Copyright

Fold

Abstract

[Significance] Most current agricultural robots lack the ability to adapt to complex agricultural environments and still have limitations when facing variable, uncertain and unstructured agricultural scenarios. With the acceleration of agricultural intelligent transformation, embodied intelligence, as an intelligent system integrating environment perception, information cognition, autonomous decision-making and action, is giving agricultural robots stronger autonomous perception and complex environment adaptation ability, and becoming an important direction to promote the development of agricultural intelligent robots. In this paper, the technical system and application practice of embodied intelligence are sorted out systematically in the field of agricultural robots, its important value is revealed in improving environmental adaptability, decision-making autonomy and operational flexibility, and theoretical and practical references are provided to promote the development of agricultural robots to a higher level. [Progress] Firstly, the key supporting technologies of embodied intelligent agricultural robots are systematically sorted out, focusing on four aspects, namely, multimodal fusion perception, intelligent autonomous decision-making, autonomous action control and feedback autonomous learning. In terms of multimodal fusion perception, the modular artificial intelligence (AI) algorithm architecture and multimodal large model architecture are summarised. In terms of intelligent autonomous decision-making, two types of approaches based on artificial programming and dedicated task algorithms, and on large-scale pre-trained models are outlined. In terms of autonomous action control, three types of approaches based on the fusion of reinforcement learning and mainstream transformer, large model-assisted reinforcement learning, end-to-end mapping of semantics to action and action end-to-end mapping are summarised. In the area of feedback autonomous learning, the focus is on the related technological advances in the evolution of large model-driven feedback modules. Secondly, it analysed the typical application scenarios of embodied intelligence in agriculture, constructed a technical framework with "embodied perception - embodied cognition - embodied execution - embodied evolution" as the core, and discussed the implementation paths of each module according to the agricultural scenarios. The paths of each module are classified and discussed. Finally, the key technical bottlenecks and application challenges are analysed in depth, mainly including the high complexity of system integration, the significant gap between real and virtual data, and the limited ability of cross-scene generalisation. [Conclusions and Prospects] The future development trend of embodied intelligent agricultural robots is summarised and prospected from the construction of high-quality datasets and simulation platforms, the application of domain large model fusion, and the design of layered collaborative architectures, etc. It mainly focuses on the following aspects. Firstly, the construction of high-quality agricultural scenarios of embodied intelligence datasets is a key prerequisite to realise the embodied intelligence landing in agriculture. The development of embodied intelligent agricultural robots needs to rely on rich and accurate agricultural scene task datasets and highly realistic simulators to support physical interaction and behavioural learning. Secondly, the fusion of basic big model and agricultural domain model is the accelerator of intelligent perception and decision-making of agricultural robots. The in-depth fusion of general basic models in agricultural scenarios will bring stronger perception, understanding and reasoning capabilities to the embodied-intelligent agricultural robots. Thirdly, the "big model high-level planning + small model bottom-level control" architecture is an effective solution to balance intelligence and efficiency. Although large models have advantages in semantic understanding and global strategy planning, their reasoning latency and arithmetic demand can hardly meet the real-time and low-power requirements of agricultural robots. The use of large models for high-level task decomposition, scene semantic parsing and decision making, coupled with lightweight small models or traditional control algorithms to complete the underlying sensory response and motion control, can achieve the complementary advantages of the two.

Key words： embodied intelligence; agricultural robotics; embodied perception; embodied cognition; embodied execution; embodied evolution

Cite this article

WEI Peigang , CAO Shanshan , LIU Jifang , LIU Zhenhu , SUN Wei , KONG Fantao . Embodied Intelligent Agricultural Robots: Key Technologies, Application Analysis, Challenges and Prospects[J]. Smart Agriculture, 2025 , 7(4) : 141 -158 . DOI: 10.12133/j.smartag.SA202505008

0 引言

农业机器人是新质生产力的典型代表，在推动农业强国建设中具有关键作用^［1］。农业机器人通过集成自动化与智能化技术，为缓解传统农业劳动力结构性短缺、提升生产效率、降低成本方面提供了有力支撑。然而，农业机器人工作环境复杂多变，面临诸多挑战。当前多数农业机器人缺乏对复杂农业环境的适应能力，在面对多变、不确定、非结构化的农业场景时仍存在局限性^{［2, 3］}。2025年《政府工作报告》提出，要建立未来产业投入增长机制，重点培育包括具身智能在内的前沿领域。具身智能（Embodied Intelligence）作为一种融合感知、认知、运动与交互的智能机制，可为农业机器人赋予环境适应性与自主决策能力，成为推动下一代农业智能机器人发展的重要方向。

具身智能是一种具有物理实体的智能系统，以人工智能（Artificial Intelligence, AI）、传感器、机器人控制及设计等技术和理论为基础，通过与环境的动态交互完成任务，实现感知、理解和行动的全闭环自主决策^{［4, 5］}。具身智能的核心特征是实体设备与智能决策深度融合，构建“感知-决策-行为-反馈”的动态耦合系统，强调智能体本体、智能系统与作业环境的三元协同，使智能行为产生于身体感知与环境交互的持续迭代过程。斯坦福Li等^［6］提出，“具身”的含义是与环境交互及在环境中完成任务的整体需求和功能。英伟达（NVIDIA）创始人黄仁勋在2023年半导体大会上也强调，具身智能是能够理解、推理和与物理世界交互的智能系统，是AI的下一波浪潮。近年来，国内外学者从不同角度对具身智能进行了系统探讨与拓展。沈甜雨等^［7］提出了具身智能驾驶的概念与框架，将具身智能理念融入自动驾驶系统开发中，分析了其在智能驾驶感知控制协同、自主决策等方面的潜力与发展路径。李颂元等^［8］在大模型背景下梳理了具身智能体的研究进展，聚焦于Transformer 架构、自监督预训练、多模态学习，以及强化学习和模仿学习等关键技术路线，展望了未来发展趋势和挑战。Wang等^［9］则从机器人任务规划角度出发，提出了基于GPT-4V（Generative Pre-trained Transformer 4 with Vision）的多模态具身任务规划框架，显著提升了机器人在复杂任务场景中的感知理解与任务执行能力，推动了大模型驱动具身智能的理论与实践发展。随着技术的不断突破，具身智能正成为推动下一代智能机器人从“感知智能”迈向“认知智能”与“行为智能”的关键引擎，为农业复杂动态环境中的高自主性机器人系统提供了坚实的理论基础与技术支撑。

具身智能通过融合多模态感知、自主决策算法与高精度执行机构，借助环境动态建模与自适应控制策略，能够有效增强农业机器人在非结构化场景下的鲁棒性与适应性，具身智能农业机器人内涵及其应用领域如图1所示。相较于传统农业机器人主要依赖固定规则或预设路径完成单一作业任务，具身智能农业机器人在感知-认知-执行一体化能力方面具备显著优势，并已在多项实际应用中展现出量化性能提升。例如，中科原动力研发的具身智能番茄采摘机器人的樱桃番茄检测精度达到 89.9%，平均推理延时仅为22 ms，相较于基于固定角度作业策略的传统机器人，其采收效率提升了 28.7%^［10］。此外，长三角国家技术创新中心智慧农业机器人研究所研发的通用机器人控制单元（Universal Robotic Control Unit, uRCU），通过支持农业具身智能物流机器人的自主路径规划与多机协同任务分配，使整体协同作业效率提升超过20%。相较于基于传统AI视觉及特定场景预训练的农业自动化机器人，具身智能赋能下的农业机器人将显现出四个能力增长点。一是主动感知与环境自适应，通过多传感器协同感知与环境实时交互，实现动态环境中的状态感知与适应性调整，摆脱对场景先验和人工设定的高度依赖。例如，放牧机器人能够自主识别牲畜行为并进行跟踪，实现动态决策与路径调整。二是智能决策与任务泛化，具备对多源异构数据的分析与推理能力，能够进行多任务决策并支持类人交互模式，而非仅执行固定任务。例如，变量施肥机器人可基于作物生长数据动态调整施肥量，提升资源利用效率。三是自主规划与高效执行，具备自主规划运动路径与灵活调整操作策略的能力，显著提高任务执行效率。例如，番茄采摘机器人可实现障碍物规避、路径规划与采摘动作的协同优化。四是智能协同与人机交互，具备与人类或其他智能设备协同工作的能力，提升系统的智能化与操作便捷性。例如，自适应喷洒无人机支持语音指令、远程调度与任务协同，增强作业灵活性与智能响应能力。

显示原图|下载原图ZIP|生成PPT

图1 具身智能农业机器人内涵及其应用领域

Fig. 1 The connotation and application fields of embodied intelligent agricultural robots

为梳理和探讨具身智能农业机器人的应用现状和潜力，本文首先介绍了具身智能农业机器人的关键技术；其次分析了具身智能在农业机器人可能的应用场景，分别从具身感知、具身认知、具身执行和具身进化四个方面介绍了具身智能农业机器人核心框架；最后，阐述具身智能农业机器人发展面临的技术挑战和应用，并给出未来发展趋势。

1 具身智能农业机器人关键技术

具身智能是指利用物理实体进行感知和行动的系统，典型任务包括结合视觉输入和语言指令执行抓取与搬运操作，例如“把红色的杯子放到抽屉里”这样的抓取与搬运操作。与之相对应的离身智能是指不依赖具体物理实体、主要以符号处理和抽象推理为核心的智能形式，常应用于目标检测、围棋对弈、知识图谱构建等任务中。一个高度智能化的具身智能系统能根据环境与任务需求的实时变化动态调整决策，持续获取感知数据与操作经验，进而实现自我学习与决策优化，并高效协调控制各子模块，确保整个智能化系统高效运行^［11］。2022年以来，以ChatGPT、DeepSeek为代表的大模型技术突破，显著提升了机器人在多模态感知融合、复杂决策推理和人机协作交互方面的能力，推动具身智能技术从传统模块化AI算法堆叠向大模型驱动的统一架构演进，在跨场景迁移能力和任务泛化性能上实现里程碑式突破。具身智能技术体系如图2所示，以“感知-决策-执行-反馈”四维闭环为架构核心，通过持续的环境交互实现动态场景的重构建模、约束条件下的优化决策、不确定环境中的自适应执行，以及基于经验反馈的持续学习进化。

显示原图|下载原图ZIP|生成PPT

图2 具身智能关键技术体系

Fig. 2 Key technology system of embodied intelligence

相较于传统AI依赖预设知识库的静态推理模式，具身智能采用嵌入式多模态感知系统实时获取环境状态参数与物理本体运动特性，结合在线强化学习、经验反馈等机制实现决策策略的实时优化，最终通过高精度执行机构完成作业任务。在农业机器人领域，该技术体系展现出以下优势：一是基于多模态感知融合构建的作业对象、作业环境、运行状态全域空间，突破传统单模态感知局限，实现复杂农业场景的跨模态泛化认知；二是通过物理约束嵌入的混合增强决策的端侧模型，在保持人类思维逻辑的同时满足农机动力学约束，提升复杂农艺任务的可行性；三是基于动态场景理解的自主行为规划与控制技术，赋予农业机器人多尺度作业的自适应执行能力；四是依托闭环反馈驱动的自主学习机制，实现农业机器人智能的持续演进升级。以下将聚焦上述技术特征，系统阐述支撑具身智能农业机器人的核心技术体系：多模态融合感知、智能自主决策、自主行动规划与控制，以及反馈自主学习等技术。

1.1　多模态融合感知技术

多模态融合感知技术作为具身智能农业机器人的“感知中枢”，通过异构传感器阵列的时空协同感知与多源信息融合，为可靠的决策和成功完成行动提供支持。多模态融合感知技术的实时性与精度直接决定了农业机器人自主决策的可靠性与行动执行的准确度。该技术体系突破了传统单模态感知的局限性，通过可见光相机、深度相机、多光谱成像仪、激光雷达（LightLaser Detection and Ranging, LiDAR）、毫米波雷达、高精度惯导（Inertial Measurement Unit, IMU）、土壤墒情传感器等多模态传感器的跨域融合，实现农业场景中光照变化、植被遮挡、动态干扰等复杂条件下的鲁棒感知。多模态融合感知任务主要包括对象识别与分类、精准定位与导航、三维场景重建、场景理解与语义分割，以及装备本体监测等。

以无人驾驶联合收割机应用场景为例^［12-14］，对象识别与分类即实时识别田间小麦成熟度与倒伏区域，当LiDAR检测到倒伏的麦穗时，系统自动调整割台高度与滚筒转速，较传统收割方式减少落粒损失；精准定位与导航即融合全球导航卫星系统（Global Navigation Satellite System, GNSS）与实时动态定位（Real-Time Kinematic, RTK）技术、视觉里程计与IMU的多源定位系统实现设备的稳定导航，在GNSS信号失锁区域，通过LiDAR点云匹配技术和压力传感器监测机身位置和姿态，使收割机在泥泞地块仍保持低误差的接行精度；三维场景理解即用LiDAR同步定位与建图（Simultaneous Localization and Mapping, SLAM）与飞行时间（Time-of-Flight, TOF）相机点云配准技术，构建三维作业场景，LiDAR生成田块高程图，ToF相机重建作物密度分布，使收割机在丘陵地块保持割茬高度一致性；场景理解与语义分割即基于双目视觉与毫米波雷达的跨模态特征融合，构建动态语义地图，通过RGB图像分割识别田埂边界与未收割区域，毫米波雷达穿透作物冠层检测隐藏障碍物，使收割机保持高精度的场景解析准确率；装备本体监测即使用振动传感器检测脱粒滚筒轴承异常，温度传感器监测发动机热辐射异常，减少收割机作业故障。在农业机器人应用中，多模态融合感知技术的具体实现正经历从不同AI模型堆叠向多模态统一建模的方向发展，该技术需要对来自多种外接传感设备的输入数据进行处理，进而从各模态的数据中获得多维环境信息，其核心挑战在于不同模态的数据存在格式差异性、时空异步性，以及环境噪声干扰等问题，最终实现多物理量数据的统一语义表达。

1）基于模块化AI算法架构。多模态融合感知技术的早期发展阶段主要采用模块化AI算法架构，通过预定义规则将目标检测、行为识别、SLAM建图等独立算法模型进行任务级组合。该技术范式在空间约束明确、场景结构化且动态扰动可控的封闭环境中展现出稳定性优势，其核心特征表现为感知任务的解耦化设计与算法的强场景依赖性。在目标检测方面，蒋心璐等^［15］通过改进卷积神经网络架构，基于YOLOv5设计了一种小目标害虫检测算法Pest-YOLOv5，在公开数据集AgriPest上的mAP_0.5（mean Average Precision at IoU=0.5）和召回率分别为70.4%和67.8%，有效改善了田间复杂环境下小目标害虫的难检和漏检情况，提升农业场景的适应性。在SLAM建图领域，赵宁磊等^［16］研发的羊舍自主巡检系统，基于激光SLAM技术可实现厘米级环境重建，实验表明巡检机器人偏向均值、纵向偏差均值、航向偏差分别不超过8.3 cm、7.1 cm、6.1°，实现了机器人在羊舍的自主导航。高金喆等^［17］在经典LOAM-SLAM（LiDAR Odometry and Mapping）算法的基础上，提出一种基于LiDAR的LOM-SLAM算法，可同时实现机器人在牧场的定位和环境建图，位姿估计实验中的绝对轨迹误差和相对位姿误差的RMSE值分别为7.28和2.23 m，具有良好的定位精度和稳健性。在动物行为识别方面，付辰伏等^［18］融合场景因素基于YOLOv8s构建FABF-YOLOv8s（FasterNet、AIFI、BiFPN、C2f-Faster, FABF），开发了肉牛行为识别系统，可实时解析肉牛进食、回舔、躺卧、饮水和站立等复杂行为模式，在自建数据集上的平均精度均值为93.6%。许成果等^［19］提出了仔猪姿态识别模型Trans Free，使用Swin-T网络进行特征提取，采用Anchor-Free检测头进行仔猪俯卧、侧卧和站立姿态的识别，姿态识别准确率和召回率分别达到95.68%和91.18%。在模型轻量化部署方面，Hao等^［20］通过将知识蒸馏技术与注意力机制相结合，提出一个轻量级的深度卷积神经网络（Deep Convolutional Neural Network, DCNN），完成了牛的个体识别，识别准确率达到98.91%。当前研究趋势表明，早期的AI算法模块化架构虽在特定场景表现良好，但其感知泛化能力受限于场景先验知识的强依赖性，难以适应开放农田环境中的光照突变、作物形态变异等动态干扰，这为多模态大模型驱动的统一感知范式提供了技术演进空间。

2）基于多模态大模型架构。当前，具身智能的多模态感知技术正经历从任务驱动型算法向大模型驱动方式转变。基于视觉基础模型（Vision Foundation Models, VFMs）与视觉语言大模型（Vision Language Models, VLMs）构建的统一表征框架，突破了传统感知系统的模态壁垒，实现了跨域数据的语义级对齐与动态适应能力。VFMs通过对比预训练构建跨模态语义对齐空间，为农业场景理解提供了可迁移的视觉先验。例如，Yang等^［21］针对无笼养鸡的场景，评估了SAM（Segment Anything Mode）在禽类图像分割任务中的零样本分割性能，并探索了SAM用于目标跟踪的可能性，结果表明，SAM在对鸡的整体和部件分割方面都优于SegFormer和SETR（Semantic Segmentation Transformer）等现有模型。此外，SAM还可以与YOLOX和ByteTracker等模型结合，实现肉鸡运动的实时跟踪，为优化肉鸡生产操作提供有价值的数据。Liu^［22］提出了一种基于SAM模型的大规模农田边界划分方法，通过从遥感图像中提取时空特征作为辅助信息，自动指导SAM模型进行农田划分，无需人工干预。工作流程包括两个阶段：一是全景分割，获取整个区域的整体分割结果；二是基于整体分割结果提供感兴趣区域（Region of Interest, ROI），并生成提示点，重新输入SAM模型进行二次分割。实验结果表明，该方法在超过1 000 km²的实验区域上具有良好的适用性和可行性，为大规模农田边界分割提供了一种低成本低门槛且高效的解决方案。VLMs通过跨模态适配器突破模态壁垒，将多模态知识进行融合，对提升农业机器人的智能化程度，以及落地应用有着很强的现实意义。例如，Cao等^［23］针对黄瓜病害识别数据样本量小的问题，提出了一种基于图像-文本-标签信息的ITLMLP（Multi-Modal Language Pretraining Model Based on Image-Text-Label Information）多模态语言模型识别方法，通过融合CLIP（Contrastive Language-Image Pre-Training）与SimCLR（Simple Framework for Contrastive Learning of Visual Representations）模型的部分结构，结合图像-文本多模态对比学习、图像自监督对比学习和标签信息，在共同的图像-文本-标签空间中衡量样本距离，并在小型多模态黄瓜病害数据集上，实现了94.84%的识别准确率，在公开数据集上也表现出了良好的泛化能力。2024年1月UCLA（University of California, Los Angeles）等机构的研究人员提出具身智能大模型（A Multisensory Object-Centric Embodied Large Language Model in 3D World, MultiPLY），由大规模的多感官交互数据集Multisensory Universe训练得到，能够通过部署一个具身代理与3D 环境进行交互，从而编码以物体为中心的多感官表示（包括视觉、听觉、触觉和温度等）。该模型在多个任务中表现出色，包括问答、操作、导航、工具使用和任务分解等。MultiPLY 在物体检索、工具使用、多感官字幕和任务分解等任务中优于基线模型，在多感官交互任务上的强大能力，为构建更具交互性和理解力的AI系统奠定了基础^［24］。在农业巡检机器人应用场景中，具身智能大模型可同步解析可见光图像、声纹特征与触觉反馈，构建全息环境认知模型，提升复杂任务执行效率。具身智能农业机器人正从单模态感知向多模态耦合的认知维度演进，为农业机器人在开放环境下的自主作业奠定感知基础。

1.2　智能自主决策技术

智能自主决策技术是具身智能农业机器人的“指挥中心”，在接收多源环境感知数据后，能够高效实现任务规划、推理分析及决策指令生成，形成“环境理解-策略生成-指令下发”的闭环决策链路。可靠的决策依赖于感知信息的完备性与环境建模的准确性，精细化的决策可以提升自主行动的准确度和可控性。尤其在动态变化的作业环境中，农业机器人在面对复杂田间地形和实时气象变化时，多模态感知数据的丰富性可以显著提升决策效能。近年来，随着技术不断演进，智能自主决策的实现方式正由依赖人工知识的编程决策和专用任务算法，向以大模型为核心的智能决策方式转变。基于大模型的决策方式依据感知系统的多样化信息，能够结合任务目标进行深入分析，从而制定出具体而高效的行动策略，有效提升具身智能系统的智能化水平。

1）基于人工编程和专用任务算法。在早期的自主决策技术中，人工编程决策与强化学习算法在环境状态变化可控的条件下已能较好地完成简单任务决策。基于确定性算法的任务规划与脚本化行为控制，可在环境扰动可控的封闭场景（如现代化植物工厂）中实现预定作业目标。例如，汪小旵等^［25］设计了一种基于双障碍物评价函数、自适应权重和虚拟目标法的动态窗口法（Dual Obstacle Cost Function, Adaptive Weights and Virtual Target_Dynamic Window Approach, DAV_DWA）算法，用于解决农业机器人在温室环境中路径规划问题。该算法采用动静双策略避障方法降低动态障碍物碰撞风险且防止对静态障碍物过度避障，引入模糊逻辑算法增强机器人在不同复杂环境中的路径寻优能力，通过设置虚拟目标点增强其对于局部最小值的路径规划能力。试验表明，DAV_DWA 算法能够以更短的路径和更短的时间安全顺利地到达目标点，有效解决了农业机器人在温室环境中的路径规划问题。随着强化学习方法的发展，特别是基于近端策略优化算法和Q-learning算法的进步，使得具身智能系统在自主导航、避障及多目标协同采集等核心任务中，通过实时采集运动轨迹序列构建状态-动作概率分布模型，结合环境反馈机制实现策略网络的增量式更新，从而提升了决策灵活性^［26］。Martini等^［27］提出一种基于深度强化学习（Deep Reinforcement Learning, DRL）的方法，用于解决葡萄园中的自主导航问题，该方法利用深度学习模型直接将深度图像和机器人状态信息映射到速度指令，从而引导机器人安全地沿着葡萄园行进，并始终调整航向以保持中心轨迹行进，即使在全球定位系统（Global Positioning System, GPS）和视觉定位不可靠的情况下也能正常工作，实验表明，该方法在模拟环境中取得了良好的效果，并且能够泛化到不同的测试条件和机器人平台。

2）基于大规模预训练模型。近年来，大规模预训练模型在面对动态环境时展现出类似人类的推理能力，能够完成复杂任务的自主决策。借助大语言模型（Large Language Models, LLMs）在海量数据上的预训练，其强大的语言理解能力有效弥合了自然语言与机器指令之间的语义鸿沟。例如，俄亥俄州立大学提出的LLM-Planner采用高级与低级两层任务规划策略，高级规划器利用LLMs将用户指令转化为自然语言规划，而低级规划器则将子任务转换为可执行的动作指令^［28］。这一策略在农业机器人中可用于将农户指令直接转化为自主导航或作业路径规划命令。与此同时，通过将视觉检测、实体物理属性等辅助信息与LLMs相结合，模型得以实时调整规划以适应实际环境的复杂性。Wang等^［29］基于LLMs提出了VisionLLM，用于解决以视觉为中心的任务。VisionLLM使用语言指令将视觉任务与可以灵活定义和管理的语言任务对齐，灵活地处理各种目标检测、实例分割、图像描述任务，而不仅仅是预定义的任务。该模型在COCO（Common Objects in Context）数据集上取得了超过 60%的mAP，与特定检测模型相当，为视觉和语言任务的统一建模开辟了新的可能性。Zhen等^［30］设计了三维视觉语言动作（Three Dimensions Vision-Language-Action, 3D-VLA），通过生成世界模型无缝链接3D感知、推理和动作。该模型引入交互式标记来与具身环境互动，训练了一系列具身扩散模型并将其与LLMs对齐，以预测目标图像和点云。在机器人数据集上的实验结果表明，3D-VLA显著提高了具身环境中的推理、多模态生成和规划能力，展示了其在现实世界应用中的潜力。

1.3　自主行动控制技术

自主行动控制技术作为具身智能农业机器人的“执行单元”，承担着接收决策指令并高效执行各项操作任务。其执行任务主要包括导航控制、物体操控与环境交互。导航控制任务要求系统通过自主移动到达目标位置，如通过动态路径规划算法自动引导拖拉机到田间指定作业点自动播种或收割农作物；物体操控则涉及与目标物体接触并通过精准操作改变其状态，包括简单地抓取、推拉、滑动等基本动作，如使用农业机器人进行果实采摘等精细操作；环境交互则是指与环境中的设施或设备进行互动，例如调整灌溉系统的阀门开关来控制水流，自动控制农用机械中的阀门开启、抽屉拉动等任务。

当前，自主行动控制的精准实现面临多重挑战，其核心在于动态环境下的鲁棒性保障与跨模态指令转化效率。农业场景的复杂环境（如土壤湿度变化、作物倒伏随机性、农机部件磨损等）导致感知-决策-执行链路的级联误差累积，传统控制架构在作业环境相对复杂时，动作执行成功率将会下降。因此，仅依赖大模型难以充分应对操作对象的多样化变化与复杂作业要求，亟须优化奖励策略并整合环境数据、运动信息等多维信息，以提升整体控制精度和稳定性。近年来，为了应对精细动作控制所面临的挑战，自主行动控制技术主要集中在强化学习与Transformer架构的融合提升策略泛化能力、引入大模型辅助强化学习改善低样本效率问题VLA模型实现语义到动作的端到端映射等方面。

1）强化学习与主流Transformer架构融合方法。在强化学习与Transformer架构的融合提升策略泛化能力方面，强化学习依托于环境的反复交互不断优化策略，但在面对未知作业场景时往往难以将既有经验高效迁移，类似于农业机器人在新环境中的路径规划和精细作业的精度下降。Multi-Agent Transformer（MAT）是将TransRL（Transformers for Reinforcement Learning）扩展到多智能体环境的开创性工作，为提升策略泛化能力提供了一个新的视角和思路。MAT将多智能体强化学习问题转化为序列决策模型，利用 Transformer模型来学习每个智能体的策略，采用了多代理优势分解定理将联合策略优化问题完全转化为顺序决策过程，并设计了编码器-解码器Transformer结构（图3），以增强邻近策略优化（Proximal Policy Optimization, PPO）的并行化^［31］。这种设计采用强化学习与Transformer架构融合的方法，不仅降低了多智能体强化学习问题复杂性的增长速度，还允许模型处理不同数量和类型的智能体^［32］。在训练阶段，Transformer编码器用于建模多智能体的联合状态表征，策略解码器以自回归方式输出各智能体的动作序列，编码器的参数通过最小化时间差分误差（TD error）进行更新，如公式（1）所示。

ℒ E n c o d e r (ϕ) = 1 T n ∑ m = 1 n ∑ t = 0 T - 1 R o t, a t + γ V ϕ ¯ o^t + 1 i m - V ϕ o^t i m 2

（1）

式中：

R o t, a t

表示t时刻智能体采取动作后的奖励；

o t

和

a t

分别表示t时刻的全局观测信息和联合动作；

γ

是强化学习中的折扣因子；

o^t i m

表示第m个智能体在时间步t经过编码器后的特征表示；

V ϕ o^t i m

和

V ϕ ¯ o^t + 1 i m

分别表示当前时刻和下一时刻第m个智能体编码表示下的状态价值函数估计；T表示每条轨迹的时间步总数；n表示智能体数量；

T n

表示总的采样数量。

显示原图|下载原图ZIP|生成PPT

图3 MAT的编码器-解码器体系结构^［31］

Fig. 3 The encoder-decoder architecture of MAT

解码器的训练通过最小化以下剪切PPO目标函数进行，如公式（2）所示。

ℒ D e c o d e r (θ) = - 1 T n ∑ m = 1 n ∑ t = 0 T - 1 m i n r t i m θ A^t, c l i p r t i m θ, 1 ± ϵ A^t

（2）

式中：t表示时间步索引；m表示智能体索引；

A^t

表示时间步t的优势函数估计值；

ϵ

表示PPO算法中的剪切阈值，用于限制策略更新的幅度，防止训练过程中的策略崩溃。

其中，

r t i m θ

如公式（3）所示。

r t i m θ = π θ i m a t i m o^t i 1 : n, a^t i 1 : m - 1 π θ o l d i m a t i m o^t i 1 : n, a^t i 1 : m - 1

（3）

式中：

r t i m θ

表示前策略与旧策略概率比值；

a t i m

表示第m个智能体在时间步t所采取的实际动作；

o^t i m

表示第m个智能体在时间步t经过编码器处理后的特征表示；

π θ i m

表示第m个智能体在给定历史动作序列

a t i m

和当前编码表示

o^t i 1 ∶ n

的条件下，根据参数

θ

所定义的策略网络输出的动作分布。

2）大模型辅助强化学习方法。在引入大模型辅助强化学习改善低样本效率问题上，一方面利用大型语言模型自动设计奖励函数，显著降低了人工调试的工作量；另一方面，利用大模型通用的先验知识，整合文本、图像和音频等多模态信息提取技术，改善了低样本效率的问题。Text2Reward利用大模型自动生成和编写强化学习任务中的密集奖励函数，无需额外数据便能够将自然语言描述的目标转化为可执行的Python代码，从而指导智能体学习达成目标。Text2Reward还允许通过用户反馈不断改进奖励函数，从而进一步提高学习策略的成功率。实验结果表明，使用Text2Reward生成的奖励函数训练的智能体在机器人操作和运动任务中取得了与专家设计的奖励函数相当甚至更好的性能，能够学习到新的运行行为，提高学习效率和任务执行成功率^［33］。

3）语义到动作的端到端映射方法。在VLA模型实现语义到动作的端到端映射方面，VLA实现了从自然语言指令到可执行动作命令的直接转换，通过融合互联网知识、物理世界概念与运动信息，使机器人能够通过自然语言指令执行任务。谷歌DeepMind的RT-2（Robotic Transformer 2）模型，通过将机器人动作表示为文本token，并与互联网规模的视觉-语言数据进行联合训练，实现了将网络知识迁移到机器人控制中，在机器人控制任务中的泛化能力、语义理解和推理能力表现出优异性能，优于VC-1（Visual Cortex-1）、R3M（Pre-Training Reusable Representations for Robot Manipulation）和MOO（Manipulation of Open-World Objects）等基线模型，但数据采集和模型计算成本仍然较高^［34］。

1.4　反馈自主学习技术

反馈自主学习是具身智能农业机器人的“自优化器”，通过多层次交互不断采集环境反馈信息，并实时调整和优化感知、决策与行动模块，从而增强农业机器人对复杂动态环境的适应能力。具体而言，反馈自主学习利用视觉、触觉、听觉等多模态数据持续提升感知精度，使得配备高清摄像头与精密触觉传感器的农业机器人能更准确地识别作物形态、土壤质地和障碍物位置。同时通过不断反馈的行动结果和语言指令，决策模块能够迅速甄别有效策略与无效策略，从而在精准采摘、智能灌溉及病虫害监测等应用中做出更为合理的调整。行动模块则通过实时反馈结果灵活调整运动轨迹、力量输出或操作顺序，以确保在不确定环境下仍能高效执行任务。

为加速反馈自主学习并形成闭环优化过程，当前研究前沿主要依赖大模型技术驱动反馈模块的进化。一方面，利用LLMs和VLMs大模型将环境属性和多模态输入提示自然转换为特定行动指令，有效简化从交互经验到决策优化的反馈链路。斯坦福大学Li团队设计的VoxPoser^［35］，利用LLMs和VLMs直接生成机器人3D运动轨迹，无需预训练数据集或人工标注，能够将自然语言指令转化为机器人轨迹，实现各种日常操作任务，例如取面包、开抽屉、清理垃圾等。LLMs负责将自然语言指令分解为空间操作逻辑，VLMs将提取出的知识转化为机器人可感知的空间信息，还可以进一步利用在线交互数据，持续提升涉及广泛接触需求的任务执行能力。另一方面，利用大模型生成行动决策，通过强化学习反馈不断整合交互行动经验，对生成的决策进行价值函数重排序，学习最佳行为策略。谷歌提出的SayCan方法使用强化学习方法学习每个技能在当前状态下的成功概率，帮助机器人更好地理解周围环境，并根据指令内容选择最合适的行动方案，从而更有效地完成任务^［36］。

2 具身智能在农业机器人应用的分析

具身智能是指通过机器人等物理实体与环境交互，需要同时具备“本体-智能-环境”三要素（图4），实现“感知-决策-行动-反馈”闭环。随着AI、传感器技术和机器人技术的快速发展，具身智能在农业机器人中释放出巨大的应用潜力。在农业领域，具身智能系统通过多模态感知、自主决策算法和精准执行机构的融合，优化农业机器人的物理交互能力，同时通过环境动态建模与自适应控制提升机器人的鲁棒性。

显示原图|下载原图ZIP|生成PPT

图4 具身智能“本体-环境-智能”三要素示意图

Fig. 4 Schematic diagram of the three elements of embodied intelligence： substance-environment-intelligence

2.1　具身智能在农业机器人应用的场景

目前，具身智能在农业机器人上的应用处于技术实验探索阶段，已出现部分典型应用案例，但整体仍面临技术成熟度不足、商业化推广受限等挑战，尚未进入大规模普及阶段。从“种-管-收-养”农业生产关键环节出发，依据农业机器人的作业场景与功能特点，划分为四大类别：耕作与种植装备、田间管理装备、采收与分拣装备以及养殖管理装备，如图5所示。在耕作与种植装备方面，具身智能可以使无人驾驶拖拉机通过触觉反馈实时调节耕作深度，播种机器人基于地形力学特征动态调整播种参数；在田间管理装备方面，具身智能可以使植保无人机通过多光谱遥感识别病虫害并自主规划喷洒路径，除草机器人利用视觉反馈区分作物与杂草；在采收与分拣装备方面，具身智能可以使果蔬采摘机器人通过柔性夹持器触觉传感实现低损伤率的采收作业，分拣机器人结合视觉-力学反馈动态优化分拣策略；在养殖管理装备方面，具身智能可以使放牧机器人基于动物行为识别进行自适应操作。

显示原图|下载原图ZIP|生成PPT

图5 具身智能在农业机器人应用场景

Fig. 5 Application scenarios of embodied intelligence in agricultural robots

2.2　具身智能在农业机器人的核心框架

在当前农业机器人不断迈向智能化的背景下，具身智能作为突破传统算法局限的重要途径，正日益受到关注。具身智能在农业机器人的应用主要包括：1）如何通过多模态数据实现环境的具身感知；2）如何基于感知信息实现具身认知；3）如何基于感知和认知结果实现高效具身执行；4）如何借助持续进化机制不断优化系统性能。因此，本文将具身智能农业机器人核心框架分为4个核心模块：具身感知、具身认知、具身执行和具身进化，如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 具身智能农业机器人核心框架

Fig. 6 Core framework of embodied intelligent agricultural robot

2.2.1　具身感知

具身感知的核心目标在于使农业机器人能够主动、全面地理解其所处的环境，从而为具身决策奠定坚实基础。与传统单一依赖计算机视觉的感知方式不同，农业机器人的具身感知更强调多模态信息的融合，对动态环境变化的实时捕捉和自适应机制的构建，从而更好地应对复杂、多变和充满不确定性的野外作业环境。主要包括以下3个方面。

1）多模态信息融合。具身感知不仅依赖于视觉、听觉等传感器的输入，更依赖于物体运动、触觉等身体反馈，从而实现对周围环境的全方位理解。因此，对于农业机器人来说，多模态信息融合显得尤为关键。其基本目标在于将来源、分布和类型各异的数据或特征映射到一个统一的空间中，从而充分挖掘各模态间的互补信息^［37］。近年来，农业领域涌现出多种先进的多模态融合方法，如基于线性融合、多流分支的融合、多阶段的渐进式融合，以及基于Transformer的融合方法等，其详细信息见表1。尽管这些方法在整合异构信息方面展现了显著优势，但在具身智能的实际应用中仍面临着数据同步、实时处理，以及应对复杂环境等诸多挑战。

表1 具身感知不同技术方向的代表性工作

Table 1 Representative work in different technical directions of embodied perception

技术方向	技术方法	优势	不足	代表性工作
多模态信息融合	基于线性的融合	简单易用，适用性强，可处理同质或异质数据，具有较低的计算复杂度	难以充分利用不同模态在语义、空间或时间层次上的深层互补性，复杂交互建模能力有限	［38， 39］
	基于多流分支的融合	更强的模态互补性，易于扩展更多模态分支，适应多源异构数据场景	计算复杂度高，对各模态数据质量要求较高，对噪声与数据缺失敏感	［40， 41］
	基于多阶段的渐进式融合	通过渐进式融合避免信息排斥，允许不同模态在各级别交互	模型复杂度与计算成本高、动态适应性局限、各阶段融合依赖性强	［42， 43］
	基于Transformer的融合	强大的特征提取能力，通过整合浅层特征，能够保留更多的细节信息	模态对齐效果需要进一步优化，模型的复杂性和计算效率仍需平衡	［44， 45］
动态场景三维感知	基于视觉的三维感知	硬件成本低，物体色彩和纹理信息丰富，可融合多帧信息进行结构恢复，较强的场景理解能力	对光照变化敏感，易受遮挡和低纹理区域影响；几何精度和深度估计依赖结构假设，鲁棒性较差；跟踪和重建精度低，易失效于动态物体	［46， 47］
	基于LiDAR的三维感知	能够提供高精度的3D动态目标位置信息，环境鲁棒性强，易于构建高精地图和物体检测	硬件成本高，模型训练推理成本大；点云数据存在稀疏性和不规则性，数据处理和分析比其他数据更为复杂	［48， 49］
	基于跨模态知识蒸馏的三维感知	利用教师模型监督学生模型，融合LiDAR的几何精度与视觉的语义信息，提升检测鲁棒性；可实现轻量化部署，适用于资源受限平台	蒸馏过程依赖高质量标签或教师模型，训练成本高；模态差异大时易导致知识迁移失效，蒸馏性能受限于教师模型质量与模态对齐程度	［50， 51］
场景自适应	无监督领域自适应	无需目标域标注，适用于真实场景中标注缺失或成本高昂的情况；通过生成对抗网络、自编码器等方法对齐源域与目标域特征分布，迁移范围广	难以精确对齐语义级别的特征，易出现负迁移；训练复杂度高，实时性优化困难，边缘计算设备部署受限	［52， 53］
场景自适应	半监督领域自适应	少量目标域标签数据可校准模型，精度提升显著；通过标签监督降低跨域语义歧义，适用于目标域场景复杂度高的任务	需权衡标注成本与性能增益，标签依赖仍存在；相较无监督领域自适应（Unsupervised Domain Adaptation， UDA），训练流程更复杂，需额外设计标签筛选与质量控制机制	［54］

2）动态场景三维感知。动态场景三维感知技术能够显著提升农业机器人对现实世界的理解和交互能力，从而增强其在复杂多变环境下的适应性。这种技术不仅在自动导航、智能避障、目标检测等应用中发挥着关键作用，而且是实现具身智能的关键所在。例如，无人拖拉机和采摘机器人在实际作业过程中，必须具备对三维场景中运动物体的实时检测、跟踪、识别与重建能力，才能确保高效精准地作业执行。近年来，随着深度学习技术的快速发展和消费级RGB-D相机、LiDAR的普及，农业机器人领域出现多种动态场景三维感知方法，如基于视觉、基于LiDAR和基于跨模态的三维感知方法，其详细信息见表1。传统农业机器人在实现高质量动态三维感知时，常常面临运动物体遮挡、形变和光照变化等诸多挑战^［55］。而在具身智能框架下，通过结合光照强度、振动频率、温湿度等多维传感数据，不仅能够弥补单一视觉系统的不足，还可以增强对复杂环境中细微变化的感知能力。此外，为了在确保计算速度和识别精度的前提下处理大规模、多模态数据，农业机器人的具身感知系统需要具备根据实时传感信息动态切换三维感知模型的能力。在异常光照条件下，系统可适时降低对相机数据的依赖，通过滤除部分噪声数据，转而增强雷达或红外传感器数据的权重；在平整田块作业时，针对近距离区域的检测可进行一定程度的简化处理，只需重点判断是否存在障碍物，减少不必要的计算负担。

3）领域自适应。农业机器人的具身感知系统需要在不同复杂度的作业场景和多变的作业环境下实现稳定可靠的感知能力。领域自适应技术能够帮助农业机器人利用现有的数据和模型库，适应不同的领域分布，从而提高系统的泛化能力和安全性。当前，领域自适应方法主要分为两大类：无监督领域自适应（Unsupervised Domain Adaptation, UDA）和半监督领域自适应（Semi-supervised Domain Adaptation, SSDA），其详细信息见表1。其中，无监督领域自适应假设目标域完全没有标注数据，主要通过对齐源域与目标域在特征分布或输出分布上的差异，来实现模型的迁移和适应。典型方法包括基于最大平均差异^［56］和基于对抗学习的无监督领域自适应方法^［57］；而半监督领域自适应则假定目标域存在少量标注数据，这部分数据不仅可以直接用于指导迁移过程，还可以结合自学习、主动学习等技术进一步扩充目标域的标注数据，从而提升迁移效果。典型方法包括基于迁移子空间^［58］和基于主动学习的半监督领域自适应方法^［59］。Chen等^［60］提出了一种基于新型注意机制的领域自适应图像识别方法，利用大田真实种植环境拍摄的水稻病害数据集，在深度子域自适应网络（Deep Subdomain Adaptation Network, DSAN）、多表示自适应网络（Multi-Representation Adaptation Network, MRAN）和深度自适应网络（Deep Adaptation Network, DAN）三个常用领域自适应网络上分别取得了95.25%、91.50%和91.25%的图像识别准确率，为农业场景下小样本农作物病害图像识别提供了新的思路。鉴于目前农业场景数据获取面临多模态数据采集成本高昂、专业农艺标注门槛较高，以及长周期生物生长观测的不可逆性，寻找并优化行之有效的领域自适应策略对于提升系统在各类复杂作业场景下的鲁棒性与适应性显得尤为关键。

2.2.2　具身认知

具身认知的核心目标在于实现虚拟世界与现实世界之间的深度对接，从而确保对人类指令的精准理解与高效执行。具身认知任务强调认知过程不仅仅局限于大脑内部的信息处理，更依赖于身体与环境之间的动态互动来实现。认知活动应当融合感知、决策和运动执行等多重环节，使得整体系统能够在真实世界中展现出更高的适应性和操作精度。例如，无人驾驶智能拖拉机依托多种传感器和自动化控制系统，实时采集土壤湿度、地形变化等环境数据，从而自主调整耕作深度、作业速度及路径规划，实现精准农业作业。这种模式不仅依赖于内部算法的智能决策，还充分利用了传感器获取的外界信息，使得机器在物理世界中的操作更加实时和灵活。相比之下，非具身认知任务主要集中于对图片、文本等静态信息的理解和处理，这类任务往往不直接涉及身体运动或对对象物理属性的操作。例如，农民利用作物病虫害App识别病虫害类型、查询防治措施，整个过程中用户主要通过视觉观察和键盘输入进行信息交互，其核心操作仍停留在大脑层面的数据处理上。

以番茄采摘机器人为例，当系统接收到“开始采摘番茄”的指令后，具身认知系统会首先将这一抽象指令解析为多个可执行的子任务，例如目标识别、路径规划、机械臂动作控制等。在实际执行过程中，每个子任务又会被进一步细化为一系列基本操作动作，如摄像头定位、机械臂伸展、夹持动作等。图7直观展示了番茄采摘机器人在任务规划和技能学习两个阶段中的关键流程与交互机制。总体来说，农业机器人的具身认知过程可划分为任务规划和技能学习两个主要阶段：任务规划阶段主要负责对抽象指令进行深度理解和分解，将其转化为具体的操作步骤；技能学习阶段系统通过不断的试验与反馈，利用已有技能对各个子任务进行优化执行，提升整体系统在真实环境下的鲁棒性与精度。

显示原图|下载原图ZIP|生成PPT

图7 具身认知任务规划及执行示例

Fig. 7 Example of embodied cognition task planning and execution

具身认知技术的发展经历了从传统规则驱动到专家示范数据驱动、再到多模态大模型融合的演进过程，以下从基于规则、基于专家示范、基于大模型三个技术阶段展开分析，并结合农业机器人的应用实践展开分析。

1）基于规则驱动。基于规则驱动的具身认知方法依赖人工预设的规则库和符号系统，通过预设程序和硬编码算法来实现决策与控制任务。典型方法包括有限状态机^［61］、专家系统^［62］等。以农业拖拉机为例，早期的自动驾驶拖拉机在田间作业时，常依赖于固定路径规划和规则控制，系统预先设定好行驶路线、耕作深度和作业速度，每个特定任务的执行步骤均由人工事先设计和硬编码完成。当面对全新的作业任务时，必须由人重新规划并编写相应的规则，且在任务执行过程中，规则和步骤固定不变，无法根据实时环境变化进行灵活调整。因此，基于规则驱动的具身认知方法，虽然在结构化、规律性较强的作业场景中表现出较高的稳定性，但其对动态环境的适应性较低，难以应对现场中突发或复杂的变化。

2）基于专家示范驱动。基于专家示范驱动的具身认知方法通过人类专家的示范动作训练任务技能，结合专家知识库提升任务理解，尽可能减少模型输出与专家标签之间的差距。典型方法包括模仿学习^［63］、行为克隆^［64］、逆向强化学习^［65］等。以葡萄采摘机器人为例，通过动作捕捉系统记录熟练工人采摘时的抓取力度、剪切角度等动作，结合专家知识库中的果实成熟度判定规则，对采摘动作进行标注和优化，其作业成功率需要依赖大量的专家操作数据。因此，基于专家示范驱动的具身认知方法，能够直接有效地借鉴专家经验，更好地适应复杂多变的作业环境，但数据采集成本高，依赖专家示范数据质量。

3）基于大模型驱动。基于大模型驱动的具身认知方法借助大模型强大的通用能力和泛化能力，在跨场景、跨任务上进行智能决策且表现出色。典型方法包括视觉语言模型（如CLIP）、多模态大模型（如GPT-4V、Gemini）、视觉行为编码器（Masked AutoEncoder, MAE）等。在任务规划方面，大模型具备的丰富知识库和强大推理能力使其能够对作物生长周期、气候变化、土壤湿度，以及机械设备状态等多维数据进行综合分析，将抽象的语言指令划分为科学的、合理的和可执行的任务单元^［66］，实现精准播种、定量施肥、智能灌溉，以及高效收割等任务的高效协同。在技能学习方面，大模型的迁移学习与多模态数据融合能力，为农业机器人的技能提升提供了强有力的支持。农业机器人能够在仿真环境和真实场景中交互训练，通过为其设计奖励函数^［67］，从初始操作到复杂任务逐步积累经验。例如，通过VLA模型方法，农业机器人可以学习如何更精准地识别作物生长状态、优化路径规划、实现高效避障，以及灵活应对作业现场的突发状况。这种持续的技能学习过程不仅提高了农业机器人的操作精度和响应速度，也使其在多变的农业环境中保持高水平的自主决策能力。

综上所述，农业机器人在实现任务规划与技能学习方面经历了三个显著不同的发展阶段。每个阶段在实现方法、适应性、自主作业能力、对数据的依赖程度，以及适用的作业场景等方面均表现出显著差异。表2通过对比的方式详细展示了这些差异，为理解不同阶段的技术特点及其应用场景提供了参考。

表2 具身认知不同技术方向的代表性工作

Table 2 Representative work in different technical directions of embodied cognition

技术方向	技术方法	优势	不足	代表性工作
基于规则驱动	有限状态机、专家系统	实现简单，控制逻辑明确；在结构化、稳定的作业场景中表现良好	灵活性不足，难以应对动态环境变化；规则需手动设计和频繁更新	［61， 62］
基于专家示范驱动	模仿学习、行为克隆、逆向强化学习	能直接借鉴专家经验；更好地适应复杂多变的作业环境；可从真实操作数据中学习	数据采集成本高，依赖专家示范数据质量；泛化能力可能受限于示范场景	［63—65］
基于大模型驱动	视觉语言模型、多模态大模型、视觉行为编码器	泛化能力强，适应性更高；能融合多模态数据（视觉、传感器等）；可通过在线学习不断优化	对数据和计算资源要求较高；模型复杂，解释性较差；调试与调优较为困难	［66—69］

2.2.3　具身执行

具身执行通过紧密耦合农业机器人感知、认知与物理动作，将具身感知和认知结果转化为行动。在复杂、开放且动态变化的农业环境中，机器人难以依赖预编程控制策略应对所有场景。具身执行通过强调机器人与环境的实时物理交互，赋予其自适应学习能力，以下将具体探讨基于自然语言交互学习和基于视觉可供性学习（visual affordance learning）的控制方法，并结合农业机器人的应用实践展开分析。

1）基于自然语言交互学习。可通过自然语言指令实时引导机器人，帮助机器人快速适应环境，优化其行为策略。代表性工作包括基于大模型的机器人在线纠错框架（Distillation and Retrieval of Online Corrections， DROC）^［70］、语言模型预测控制框架（Language Model Predictive Contro, LMPC）^［71］、多上下文模仿学习方法（Multicontext Imitation Learning, MCIL）^［72］等（表3）。以番茄采摘机器人为例，通过自然语言指令帮助机器人进行动态任务理解与调整。当农户通过语音指令纠正机器人采摘动作（如“A品种番茄要轻点采摘”）时，利用基于LLMs的机器人在线纠错框架DROC能够对机器人实时纠错与知识提炼，从而提升环境适应性。DROC能够将此类反馈提炼为“A品种番茄需降低夹持力20%”的通用规则，存储不同品种番茄的硬度阈值、果柄位置等采摘经验，新任务中匹配相似品种时直接复用采摘策略。

表3 具身执行不同技术方向的代表性工作

Table 3 Perform representative work in different technical directions

技术方向	技术方法	优势	不足	代表性工作
基于自然语言交互学习	基于大模型的机器人在线纠错框架、语言模型预测控制框架、多上下文模仿学习方法	支持人类实时语言指导，适应性强；能从语言中抽象通用规则，利于跨任务泛化；适用于动态环境中行为调整和快速纠偏	需依赖强大语言理解能力，受限于模型准确率；需将语言指令与环境状态有效绑定，复杂场景感知局限；性能受限于预训练大模型能力和算力成本	［70—72］
基于视觉可供性学习	基于可供性预测网络的机器人控制框架、物体-物体的可供性学习框架	动作预测基于物理交互可行性，精准可控；无需显示符号表示，视觉到动作一体化，物理约束融合强，适用于抓取、移动操作任务	标注成本高，对未见场景/物体的适应性较差；易受限于感知精度与遮挡干扰；对任务意图和语义规则处理能力弱于语言驱动方法	［73， 74］

2）基于视觉可供性学习。是指通过图像、视频等视觉数据的输入，推理出视觉主体与环境或物体的交互方式或行为，涉及场景理解、目标检测、动作识别等相关领域，为实现机器人高效动作执行提供支持。代表性工作包括基于可供性预测网络的机器人控制框架Where2Act^［73］、物体-物体的可供性学习框架O2O-Af-ford^［74］等（表3）。同样以番茄采摘机器人为例，利用基于可供性预测网络的机器人控制框架Where2Act能够将采摘动作分解为“识别定位→路径规划→夹取→旋转调整→放置”5个基元，对番茄图像的每个像素点，预测夹爪闭合位置、夹持力方向及成功率。通过将视觉可供性学习与番茄采摘的物理约束深度融合，提升采摘成功率，降低果实损伤率。

2.2.4　具身进化

具身进化指农业机器人在持续与环境交互中，不断适应复杂情境并实现自我演化的过程，其涵盖了从感知到认知的全链路进化能力。近年来，研究者创新性地提出了深度进化强化学习（Deep Evolutionary Reinforcement Learning, DERL）和在线持续学习（Online Continual Learning, OCL）等混合技术框架，其详细信息见表4。该框架通过深度进化算法优化强化学习策略，在虚拟仿真环境中实现高效训练数据的生成与迭代进化，同时结合在线持续更新机制，使智能体能够在物理空间与数字空间保持认知一致性。

表4 具身进化不同技术方向的代表性工作

Table 4 Representative work in different technical directions of embodied evolution

技术方向	技术方法/工具	优势	不足	代表性工作
DERL	CGP、GA-DRL、Supe-RL	形态-策略协同优化，可跳出局部最优，适应性强，适用于不确定、高动态环境	进化过程需要大量样本与仿真时间，虚拟环境中训练的策略与结构迁移到现实难度大	［76—78］
虚拟仿真学习	格物、Genesis、Habitat	数据获取低成本高效率，安全可控，适合极端或危险任务模拟，支持策略快速迭代与泛化检验	高质量仿真环境构建复杂，仿真现实差距导致迁移后性能下降	［79—81］
OCL	正则化约束方法、经验回放机制、优化策略调整、表征解耦技术和动态架构扩展	支持动态环境适应，针对作物生长、天气变化等时变因素在线调整策略，适用于构建长期智能	新任务引入可能导致旧任务性能大幅下降，需平衡记忆成本、模型容量与计算开销，避免负迁移或干扰旧知识	［82—84］

1）DERL。作为具身进化的核心技术框架之一，创新性地融合了深度强化学习与进化算法的协同优势^［75］。代表性工作包括交叉熵引导策略方法（Cross-Entropy Guided Policy, CGP）^［76］、基于遗传算法的深度强化学习方法（Genetic Algorithm-based Deep Reinforcement Learning, GA-DRL）^［77］、策略演化软更新强化学习方法（Soft Updates for Policy Evolution in Deep Reinforcement Learning, Supe-RL）^［78］等方法。DERL框架由两个相互交织的循环构成：内层循环采用强化学习方法，在既定的具身形态下从环境中学习完成特定任务的最优策略；外层循环则利用进化算法，通过对机器人形态进行突变操作（如增减机械臂、调整构件参数或优化关节属性），并以强化学习反馈得分作为评估标准，对当前形态进行改进。经过多次迭代，系统最终能够同时确定出最优的机器人形态及其执行策略。这种方法通过模拟生物进化机制，借助大规模数据和并行计算的优势，实现对控制策略的高效优化，能够在不同复杂程度的环境中搜索并训练出多种高性能形态的代理。以农业采摘机器人为例，通过虚拟环境生成海量训练数据，模拟田间采摘作业等实际操作条件，进而在不断进化过程中优化机器人结构、感知能力与决策策略，在番茄、草莓等柔性作物采摘中，提升无损采摘率。

2）虚拟仿真学习。该技术已成为加速具身进化的重要技术路径之一，通过构建高保真数字孪生体，正在重塑农业智能机器人的研发与应用模式。以格物、Genesis、Habitat等具身智能仿真平台为代表的高精度仿真系统，基于物理引擎建模和真实环境数据采集，能够构建包含地形特征、作物生长周期、农机作业参数的多维度虚拟试验场^［79］。这些平台支持千万级训练样本的并行生成，实现对智能体的低成本、高效率训练。随后，通过迁移学习方法将仿真中学到的策略有效迁移到真实环境中，从而缓解现实试验中数据稀缺和高昂训练成本的问题^［80］。例如在除草机器人研发中，虚拟仿真平台可用于模拟复杂的农田地形、作物分布和杂草生长状态，帮助智能体学习高效的路径规划和精准的作业策略。经过迁移学习后，这些策略得以无缝应用于实际作业场景，不仅显著提高了除草作业的效率和准确性，还能在面对多变的田间环境时保持良好的适应性^［81］。

3）OCL。为智能农业机器人构建了全生命周期的知识进化体系，使其能够动态适应复杂多变的农业生产环境。在农业生产中，田间环境、作物生长状态，以及天气等因素均呈现出高度的不确定性和时变性，迫使智能农业机器人必须持续优化其认知模型以应对复杂的实际场景。与此同时，受限于物理结构、功耗及计算资源等方面的约束，农业机器人通常难以承担高强度的模型计算任务，这使得对模型泛化能力的要求尤为严格，因此引入持续学习机制显得至关重要。当前主流的在线持续学习技术路径呈现出多维度创新态势，主要包括：正则化约束方法^［82］、经验回放机制^［83］、优化策略调整^{［84, 85］}、表征解耦技术^{［86, 87］}和动态架构扩展^［88］，这些技术各自从不同角度提升模型在差异化任务间的适应性能力，但同时也面临灾难性遗忘的问题——在引入新任务时，可能会导致机器人对已掌握任务性能的显著下降^［89］。因此，如何在引入新知识的同时保持对既有作业能力的稳定掌控，成为当前持续学习领域亟待解决的关键挑战。

3 具身智能农业机器人发展面临的挑战

3.1　技术挑战

在现代农业向智能化、精准化转型的过程中，具身智能农业机器人正逐步成为提升作业效率和降低人力成本的重要工具。然而，其在实际应用过程中仍面临诸多技术挑战，特别是在算法、数据、软件和硬件等关键层面。

一是算法需突破环境适应性、算法鲁棒性与系统集成等核心难题。现有具身智能技术路线多采用将大模型智能简单移植至机器人载体，其智能决策高度依赖先验知识与人工经验输入，在动态开放的农业场景中缺乏足够的适应能力；农业环境复杂多变，光照强度变化、枝叶遮挡与粉尘干扰、温湿度波动这些都对算法的鲁棒性提出了更高要求；在模型落地应用过程中，模型需要在高精度与轻量化设计、实时决策和多模态数据融合之间找到平衡。

二是数据面临采集成本高、可用性不足和虚实差距等多重挑战。与离身智能主要依赖的文本、图像数据不同，具身智能农业机器人所需数据涉及动态环境中的复杂交互，真实数据采集成本昂贵；农业机器人在不同环境中的适应性和泛化能力取决于数据的广泛性和高质量，但获取多样化的数据依然困难，可用的高质量数据集较少；虚拟仿真环境中采集的数据与现实世界存在较大差异，进一步加剧了数据层面的制约。

三是软件亟待解决系统集成、迁移容错的问题。当前缺乏统一的操作系统和标准化的软件开发工具链，导致主流机器人操作系统（如机器人操作系统（Robot Operating System, ROS）的Noetic、Foxy、Humble、Jazzy等多个版本），以及基于Linux自主研发的系统在研发过程中依赖的各类开源组件往往因版本兼容性问题而导致开发难度增加、周期延长；为适应在算力受限的终端硬件上的部署需求，软件必须实现轻量化设计，降低与硬件的耦合度，以便更灵活地适应多样化的硬件环境。

四是硬件面临计算能力、稳定耐用性、软件深度融合的挑战。农业机器人需要在复杂多变的环境中执行任务，要求系统能够在极短时间内作出准确反应，但现有低算力硬件在处理高速、大量数据时往往难以满足这种实时性需求，形成了明显的性能瓶颈；农业机器人在长期、高强度作业中必须保持足够的稳定性和耐用性，以适应环境的持续变化和潜在故障风险；硬件与软件系统之间需要实现深度集成，使软件不仅能实时监控硬件状态，还能精确控制硬件操作。

3.2　应用挑战

具身智能农业机器人作为新一代农业技术革命的载体，其规模化应用仍受制于多重应用挑战。当前，具身智能农业机器人系统需同时破解“场景适配”与“性能平衡”两大核心难题，才能在复杂多变的农业生产环境中实现真正的智能化升级和落地应用。以下从技术通用性缺失与多维性能约束两个维度，深入剖析其应用落地的现实困境。

一是应用场景仍面临技术通用性与农业场景复杂性的失衡。机器人“大脑”与“小脑”发展不平衡，相较于智能“大脑”的智能化程度，灵巧“小脑”能够实现的灵巧操作能力亟待加强。具体而言，当前智能决策算法已具备复杂环境感知与任务规划能力，但运动控制模块的精准执行效能仍滞后于实际需求，不同农业生产场景对作业精度的要求呈现量级化差异。例如，温室番茄采摘与果园苹果采摘对机械臂灵活性的要求有很大不同，而播种与收割场景的决策逻辑更是差异较大。在跨场景、跨任务的通用算法与硬件平台实现突破前，农业机器人开发仍需高度依赖场景化定制。这导致技术迭代成本高、周期长，难以形成规模化应用优势。

二是产品需同时满足算力供给经济性、网络通信实时性和能源续航持久性等多重约束。田间作业要求设备具备高通过性与自适应调节能力，以应对泥泞、坡地等复杂地形，野外作业则需增强抗冲击设计，防止跌落损坏。在实时性敏感场景中，需构建边缘计算与云端协同的混合架构，既保证本地决策的即时性，又支持全局数据优化。农业机器人产品还需具备良好的能源续航和散热能力，电池的续航性能和电机的散热效率已成为制约其发展的关键因素。这种多维性能平衡显著增加了研发复杂度，要实现具身智能农业机器人在田间落地应用，要求开发者对农业作业流程进行深入理解，建立需求驱动的指标优先级体系。

4 总结与展望

本文围绕具身智能农业机器人的关键技术、应用场景、应用框架与挑战进行了系统梳理与深入分析。在关键技术方面，着重围绕多模态融合感知、智能自主决策、自主行动控制及反馈自主学习技术进行全面综述。在应用分析方面，具身智能农业机器人在果园采摘、植物保护、田间除草、畜牧管理等场景展现出巨大潜力，其核心框架包括具身感知、具身认知、具身执行和具身进化四个方面，构成了具身智能农业机器人的完整闭环。在发展挑战方面，从技术和应用两个方面对具身智能农业机器人存在的发展挑战进行了分析与总结。展望未来，具身智能农业机器人发展趋势主要集中在以下方面。

一是构建高质量农业场景具身智能数据集是实现具身智能落地农业的关键前提。具身智能农业机器人的发展需要依托丰富、准确的农业场景任务数据集和高度逼真的模拟器来支撑物理交互与行为学习。一方面，应借助计算机图形学、虚拟仿真引擎和计算机视觉等前沿技术，打造多尺度、多模态的虚拟农田环境，提升作物形态、土壤质感、光照与气候变化等要素的真实感；另一方面，要系统地收集并标注多源人类示范数据（包括手部动作、工具使用、环境反馈等），并通过示范学习或逆强化学习等方法将人类经验有效地融入机器人策略。

二是基础大模型与农业领域模型融合是农业机器人智能感知与决策的加速器。通用基础模型在农业场景的深度融合应用，将为具身智能农业机器人带来更强的感知、理解与推理能力。借鉴盘古气象模型、GeoGPT、扁鹊医疗模型等跨行业经验，通过引入具备农业知识背景的垂直大模型，可以构建具身智能的领域认知体系，使机器人在面对复杂农情、自然变化和人机交互任务时具备更强的语义理解与推理决策能力。例如，中国农业大学开发的神农大模型和哈尔滨工业大学开发的天工开悟大模型。

三是“大模型高层规划+ 小模型底层控制”架构是兼顾智能与效率的有效方案。尽管大模型在语义理解与全局策略规划中具备优势，但其推理延迟和算力需求难以满足农业机器人对实时性与低功耗的要求。将大模型用于高层任务分解、场景语义解析与决策制定，再配合轻量级小模型或传统控制算法完成底层感知响应与运动控制，可实现二者优势互补。一方面，大模型为机器人提供场景洞察与宏观策略；另一方面，小模型在感知反馈、路径跟踪、运动稳定性等环节保持高频次、高可靠性运算。此类分层协同架构，有助于构建既具备深度智能又能高效稳定运行的具身智能农业机器人系统。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	李道亮. 我国农业机器人技术与发展趋势[J]. 人民论坛, 2024(24): 70-74. LI D L. Agricultural robot technology and development trend in China[J]. People's tribune, 2024(24): 70-74.

[2]	赵春江, 范贝贝, 李瑾, 等. 农业机器人技术进展、挑战与趋势[J]. 智慧农业(中英文), 2023, 5(4): 1-15. ZHAO C J, FAN B B, LI J, et al. Agricultural robots: Technology progress, challenges and trends[J]. Smart agriculture, 2023, 5(4): 1-15.

[3]	何勇, 黄震宇, 杨宁远, 等. 设施农业机器人导航关键技术研究进展与展望[J]. 智慧农业(中英文), 2024, 6(5): 1-19. HE Y, HUANG Z Y, YANG N Y, et al. Research progress and prospects of key navigation technologies for facility agricultural robots[J]. Smart agriculture, 2024, 6(5): 1-19.

[4]	卢策吾,王鹤. 具身智能(Embodied Artificial Intelligence)[EB/OL]. (2023-07-22)[2025-04-16].

[5]	张伟男, 刘挺. 具身智能的研究与应用[J]. 智能系统学报, 2025, 20(1): 255-262. ZHANG W N, LIU T. Research and application of embodied intelligence[J]. CAAI transactions on intelligent systems, 2025, 20(1): 255-262.

[6]	LI F F, KRISHNA R. Searching for computer vision North Stars[J]. Daedalus, 2022, 151(2): 85-99.

[7]	沈甜雨, 李志伟, 范丽丽, 等. 具身智能驾驶: 概念、方法、现状与展望[J]. 智能科学与技术学报, 2024, 6(1): 17-32. SHEN T Y, LI Z W, FAN L L, et al. Embodied intelligent driving: Concept, methods, the state of the art and beyond[J]. Chinese journal of intelligent science and technology, 2024, 6(1): 17-32.

[8]	李颂元, 朱祥维, 李玺. 基座模型技术背景下的具身智能体综述[J]. 浙江大学学报(工学版), 2025, 59(2): 213-226, 268. LI S Y, ZHU X W, LI X. Survey of embodied agent in context of foundation model[J]. Journal of Zhejiang university (engineering science), 2025, 59(2): 213-226, 268.

[9]	WANG J Q, SHI E Z, HU H W, et al. Large language models for robotics: Opportunities, challenges, and perspectives[J]. Journal of automation and intelligence, 2025, 4(1): 52-64.

[10]

李兴旭, 陈雯柏, 王一群, 等. 基于级联视觉检测的樱桃番茄自动采收系统设计与试验[J]. 农业工程学报, 2023, 39(1): 136-145.

X X

, CHEN

W B

, WANG

Y Q

, et al. Design and experiment of an automatic cherry tomato harvesting system based on cascade vision detection[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(1): 136-145.

[11]	中国信息通信研究院, 北京人形机器人创新有限公司. 具身智能发展报告(2024年)[R/OL]. [2025-04-16].

[12]	罗锡文, 廖娟, 胡炼, 等. 我国智能农机的研究进展与无人农场的实践[J]. 华南农业大学学报, 2021, 42(6): 8-17, 5. LUO X W, LIAO J, HU L, et al. Research progress of intelligent agricultural machinery and practice of unmanned farm in China[J]. Journal of South China agricultural university, 2021, 42(6): 8-17, 5.

[13]	万欢, 欧媛珍, 管宪鲁, 等. 无人农机作业环境感知技术综述[J]. 农业工程学报, 2024, 40(8): 1-18. WAN H, OU Y Z, GUAN X L, et al. Review of the perception technologies for unmanned agricultural machinery operating environment[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(8): 1-18.

[14]	姜龙腾, 迟瑞娟, 马悦琦, 等. 基于栅格法的农业机器人路径规划方法研究[J]. 农机化研究, 2024, 46(6): 19-24. JIANG L T, CHI R J, MA Y Q, et al. Research on path planning method of agricultural robot based on grid method[J]. Journal of agricultural mechanization research, 2024, 46(6): 19-24.

[15]	蒋心璐, 陈天恩, 王聪, 等. 大田环境下的农业害虫图像小目标检测算法[J]. 计算机工程, 2024, 50(1): 232-241. JIANG X L, CHEN T N, WANG C, et al. Small object detection algorithm for agricultural pest images in field environments[J]. Computer engineering, 2024, 50(1): 232-241.

[16]	赵宁磊, 程曼, 袁洪波, 等. 羊舍自主巡检机器人设计与试验[J]. 中国农机化学报, 2025, 46(1): 78-84. ZHAO N L, CHENG M, YUAN H B, et al. Design and experiment of autonomous inspection robot for sheep house[J]. Journal of Chinese agricultural mechanization, 2025, 46(1): 78-84.

[17]	高金喆, 寇志伟, 孔哲, 等. 基于激光雷达的牧场巡检机器人定位与建图算法设计[J]. 中国农机化学报, 2024, 45(4): 222-230. GAO J Z, KOU Z W, KONG Z, et al. Design of location and mapping algorithm of pasture inspection robot based on LiDAR[J]. Journal of Chinese agricultural mechanization, 2024, 45(4): 222-230.

[18]	付辰伏, 任力生, 王芳. 自动化场景区分下FABF-YOLOv8s轻量化肉牛行为识别方法[J]. 农业工程学报, 2024, 40(15): 152-163. FU C F, REN L S, WANG F. Recognizing beef cattle behavior under automatic scene distinction using lightweight FABF-YOLOv8s[J]. Transactions of the Chinese society of agricultural engineering, 2024, 40(15): 152-163.

[19]	许成果, 薛月菊, 郑婵, 等. 基于自注意力机制与无锚点的仔猪姿态识别[J]. 农业工程学报, 2022, 38(14): 166-173. XU C G, XUE Y J, ZHENG C, et al. Recognition of piglet postures based on self-attention mechanism and anchor-free method[J]. Transactions of the Chinese society of agricultural engineering, 2022, 38(14): 166-173.

[20]	HAO W L, ZHANG K, HAN M, et al. A novel Jinnan individual cattle recognition approach based on mutual attention learning scheme[J]. Expert systems with applications, 2023, 230: ID 120551.

[21]	YANG X, DAI H X, WU Z H, et al. SAM for poultry science[EB/OL]. arXiv: 2305.10254, 2023.

[22]	LIU X Y. A SAM-based method for large-scale crop field boundary delineation[C]// 2023 20th Annual IEEE International Conference on Sensing, Communication, and Networking (SECON). Piscataway, New Jersey, USA: IEEE, 2023.

[23]	CAO Y Y, CHEN L, YUAN Y, et al. Cucumber disease recognition with small samples using image-text-label-based multi-modal language model[J]. Computers and electronics in agriculture, 2023, 211: ID 107993.

[24]	HONG Y N, ZHENG Z S, CHEN P H, et al. MultiPLY: A multisensory object-centric embodied large language model in 3D world[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2024: 26396-26406.

[25]	汪小旵, 祁子涵, 杨震宇, 等. 基于DAV＿DWA算法的农业机器人局部路径规划[J]. 农业机械学报, 2025, 56(2): 105-114. WANG X C, QI Z H, YANG Z Y, et al. Local path planning for agricultural robots based on DAV＿DWA[J]. Transactions of the Chinese society for agricultural machinery, 2025, 56(2): 105-114.

[26]	董豪, 杨静, 李少波, 等. 基于深度强化学习的机器人运动控制研究进展[J]. 控制与决策, 2022, 37(2): 278-292. DONG H, YANG J, LI S B, et al. Research progress of robot motion control based on deep reinforcement learning[J]. Control and decision, 2022, 37(2): 278-292.

[27]	MARTINI M, CERRATO S, SALVETTI F, et al. Position-agnostic autonomous navigation in vineyards with deep reinforcement learning[C]// 2022 IEEE 18th International Conference on Automation Science and Engineering (CASE). Piscataway, New Jersey, USA: IEEE, 2022: 477-484.

[28]	SONG C H, SADLER B M, WU J M, et al. LLM-planner: Few-shot grounded planning for embodied agents with large language models[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2023: 2986-2997.

[29]	WANG W, CHEN Z, CHEN X, et al. VisionLLM: Large language model is also an open-ended decoder for vision-centric tasks[C]// 37th Conference on Neural Information Processing Systems (NeurIPS 2023). New York, USA: Curran Associates Inc., 2023.

[30]	ZHEN H Y, QIU X W, CHEN P H, et al. 3D-VLA: A 3D vision-language-action generative world model[EB/OL]. arXiv: 2403. 09631, 2024.

[31]	WEN M N, KUBA J G, LIN R, et al. Multi-agent reinforcement learning is a sequence modeling problem[J]. Advances in Neural Information Processing Systems, 2022, 35: 16509-16521.

[32]	YUAN W L, CHEN J X, CHEN S F, et al. Transformer in reinforcement learning for decision-making: A survey[J]. Frontiers of information technology & electronic engineering, 2024, 25(6): 763-791.

[33]	XIE T, ZHAO S, WU C H, et al. Text2Reward: Reward shaping with language models for reinforcement learning[EB/OL]. arXiv: 32646-32682, 2024.

[34]	BROHAN A, BROWN N, CARBAJAL J, et al. RT-2: Vision-language-action models transfer web knowledge to robotic control[EB/OL]. arXiv: 2307.15818, 2023.

[35]	HUANG W L, WANG C, ZHANG R H, et al. VoxPoser: Composable 3D value maps for robotic manipulation with language models[EB/OL]. arXiv: 2307.05973, 2023.

[36]	AHN M, BROHAN A, BROWN N, et al. Do as I can, not as I say: Grounding language in robotic affordances[EB/OL]. arXiv: 2204.01691, 2022.

[37]	ZHANG N, LIU J, JIN Y, et al. An adaptive multi-modal hybrid model for classifying thyroid nodules by combining ultrasound and infrared thermal images[J]. BMC bioinformatics, 2023, 24(1): ID 315.

[38]	REN G X, WU R, YIN L L, et al. Description of tea quality using deep learning and multi-sensor feature fusion[J]. Journal of food composition and analysis, 2024, 126: ID 105924.

[39]

李善军, 宋竹平, 梁千月, 等. 基于X-ray和RGB图像融合的实蝇侵染柑橘无损检测[J]. 农业机械学报, 2023, 54(1): 385-392.

S J

, SONG

Z P

, LIANG

Q Y

, et al. Nondestructive detection of Citrus infested by Bactrocera dorsalis based on X-ray and RGB image data fusion[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(1): 385-392.

[40]	CAI J H, ZHANG M, YANG H F, et al. A novel graph-attention based multimodal fusion network for joint classification of hyperspectral image and LiDAR data[J]. Expert systems with applications, 2024, 249: ID 123587.

[41]	CAI Z W, HU Q, ZHANG X Y, et al. Improving agricultural field parcel delineation with a dual branch spatiotemporal fusion network by integrating multimodal satellite data[J]. ISPRS journal of photogrammetry and remote sensing, 2023, 205: 34-49.

[42]	CHEN W J, RAO Y, WANG F Y, et al. MLP-based multimodal tomato detection in complex scenarios: Insights from task-specific analysis of feature fusion architectures[J]. Computers and electronics in agriculture, 2024, 221: ID 108951.

[43]	FAN Y Y, QIAN Y R, GONG W J, et al. Multi-level interactive fusion network based on adversarial learning for fusion classification of hyperspectral and LiDAR data[J]. Expert systems with applications, 2024, 257: ID 125132.

[44]	LOU Z X, QUAN L Z, SUN D, et al. Multimodal deep fusion model based on Transformer and multi-layer residuals for assessing the competitiveness of weeds in farmland ecosystems[J]. International journal of applied earth observation and geoinformation, 2024, 127: ID 103681.

[45]	卞立平, 吕滢, 罗智彬, 等. 基于区块链技术的食品溯源在元宇宙中的应用构想与设计[J]. 智能化农业装备学报(中英文), 2023(4): 11-19. BIAN L P, LYU Y, LUO Z B, et al. Application conception and design of food traceability in the Metaverse based on blockchain technology[J]. Journal of intelligent agricultural mechanization, 2023(4): 11-19.

[46]	HAN C R, YANG J R, SUN J J, et al. Exploring recurrent long-term temporal fusion for multi-view 3D perception[J]. IEEE robotics and automation letters, 2024, 9(7): 6544-6551.

[47]	LIU H S, TENG Y, LU T, et al. SparseBEV: High-performance sparse 3D object detection from multi-camera videos[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2023: 18534-18544.

[48]	HE C H, ZENG H, HUANG J Q, et al. Structure aware single-stage 3D object detection from point cloud[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 11870-11879.

[49]	SHI S S, GUO C X, JIANG L, et al. PV-RCNN: Point-voxel feature set abstraction for 3D object detection[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 10526-10535.

[50]	WANG Y, CHAO W L, GARG D, et al. Pseudo-LiDAR from visual depth estimation: Bridging the gap in 3D object detection for autonomous driving[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2019: 8437-8445.

[51]	PARK D, AMBRUŞ R, GUIZILINI V, et al. Is pseudo-lidar needed for monocular 3D object detection [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2021: 3122-3132.

[52]	GRETTON A, SMOLA A, HUANG J Y, et al. Covariate shift by kernel mean matching[M]// Dataset Shift in Machine Learning. Cambridge: The MIT Press Scholarship Online, 2008: 131-160.

[53]	GANIN Y, LEMPITSKY V. Unsupervised domain adaptation by backpropagation[EB/OL]. arXiv: 1409.7495, 2014.

[54]	BERTHELOT D, ROELOFS R, SOHN K, et al. AdaMatch: A unified approach to semi-supervised learning and domain adaptation[EB/OL]. arXiv: 2106.04732, 2021.

[55]	孙水发, 汤永恒, 王奔, 等. 动态场景的三维重建研究综述[J]. 计算机科学与探索, 2024, 18(4): 831-860. SUN S F, TANG Y H, WANG B, et al. Review of research on 3D reconstruction of dynamic scenes[J]. Journal of frontiers of computer science and technology, 2024, 18(4): 831-860.

[56]	蔡瑞初, 李嘉豪, 郝志峰. 基于类内最大均值差异的无监督领域自适应算法[J]. 计算机应用研究, 2020, 37(8): 2371-2375. CAI R C, LI J H, HAO Z F. Unsupervised domain adaptive algorithm with intra-class maximum mean discrepancy[J]. Application research of computers, 2020, 37(8): 2371-2375.

[57]	WANG J, WANG C Y, LIN Q Z, et al. Adversarial attacks and defenses in deep learning for image recognition: A survey[J]. Neurocomputing, 2022, 514: 162-181.

[58]	陶洋, 杨雯, 翁善, 等. 基于迁移子空间的半监督领域自适应方法[J]. 计算机工程与设计, 2021, 42(8): 2308-2315. TAO Y, YANG W, WENG S, et al. Semi-supervised domain adaptation via transfer subspace[J]. Computer engineering and design, 2021, 42(8): 2308-2315.

[59]	姚明海, 黄展聪. 基于主动学习的半监督领域自适应方法研究[J]. 高技术通讯, 2020, 30(8): 783-789. YAO M H, HUANG Z C. Research of semi-supervised domain adaptation based on active learning[J]. Chinese high technology letters, 2020, 30(8): 783-789.

[60]	CHEN L, ZOU J X, YUAN Y, et al. Improved domain adaptive rice disease image recognition based on a novel attention mechanism[J]. Computers and electronics in agriculture, 2023, 208: ID 107806.

[61]	温舒智, 彭丽莎, 刘杨博, 等. 基于有限状态机的管道自爬行机器人研制[J]. 制造业自动化, 2024, 46(9): 15-19, 214. WEN S Z, PENG L S, LIU Y B, et al. Development of pipeline self-crawling robot based on finite state machine[J]. Manufacturing automation, 2024, 46(9): 15-19, 214.

[62]	杨伟志, 孙道宗, 刘建梅, 等. 基于物联网和人工智能的柑橘灌溉专家系统[J]. 节水灌溉, 2019(9): 116-120, 124. YANG W Z, SUN D Z, LIU J M, et al. Citrus irrigation expert system based on Internet of Things and artificial intelligence[J]. Water saving irrigation, 2019(9): 116-120, 124.

[63]	MEES O, HERMANN L, ROSETE-BEAS E, et al. CALVIN: A benchmark for language-conditioned policy learning for long-horizon robot manipulation tasks[J]. IEEE robotics and automation letters, 2022, 7(3): 7327-7334.

[64]	MENDEZ-MENDEZ J, KAELBLING L P, LOZANO-PÉREZ T. Embodied lifelong learning for task and motion planning[C]// Conference on Robot Learning. New York, USA: PMLR, 2023: 2134-2150.

[65]	JIANG Y, GUPTA A, ZHANG Z, et al. Vima: General robot manipulation with multimodal prompts[EB/OL]. arXiv: 2210.03094, 2022.

[66]	DRIESS D, XIA F, SAJJADI M S M, et al. PaLM-E: An embodied multimodal language model[EB/OL]. arXiv:2303.03378, 2023.

[67]	MA Y J, LIANG W, WANG G Z, et al. Eureka: Human-level reward design via coding large language models[EB/OL]. arXiv: 2310.12931, 2023.

[68]	HUANG W, XIA F, XIAO T, et al. Inner monologue: Embodied reasoning through planning with language models[EB/OL]. arXiv: 2207.05608, 2022.

[69]	HE K M, CHEN X L, XIE S N, et al. Masked autoencoders are scalable vision learners[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2022: 15979-15988.

[70]	ZHA L H, CUI Y C, LIN L H, et al. Distilling and retrieving generalizable knowledge for robot manipulation via language corrections[C]// 2024 IEEE International Conference on Robotics and Automation (ICRA). Piscataway, New Jersey, USA: IEEE, 2024: 15172-15179.

[71]	LIANG J, XIA F, YU W H, et al. Learning to learn faster from human feedback with language model predictive control[EB/OL]. arXiv: 2402.11450, 2024.

[72]	LYNCH C, SERMANET P. Language conditioned imitation learning over unstructured data[EB/OL]. arXiv: 2005.07648, 2020.

[73]	MO K C, GUIBAS L, MUKADAM M, et al. Where2Act: From pixels to actions for articulated 3D objects[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2021: 6793-6803.

[74]	MO K, QIN Y, XIANG F, et al. O2O-afford: Annotation-free large-scale object-object affordance learning[C]// Conference on robot learning. New York, USA: PMLR, 2022: 1666-1677.

[75]	GUPTA A, SAVARESE S, GANGULI S, et al. Embodied intelligence via learning and evolution[J]. Nature communications, 2021, 12: ID 5721.

[76]	SIMMONS-EDLER R, EISNER B, MITCHELL E, et al. Q-learning for continuous actions with cross-entropy guided policies[EB/OL]. arXiv: 1903.10605, 2019.

[77]	SEHGAL A, WARD N, LA H M, et al. GA+DDPG+HER: Genetic algorithm-based function optimizer in deep reinforcement learning for robotic manipulation tasks[EB/OL]. arXiv: 2203.00 141, 2022.

[78]	MARCHESINI E, CORSI D, FARINELLI A. Genetic soft updates for policy evolution in deep reinforcement learning[EB/OL]// International Conference on Learning Representations(ICLR). Vienna, Austria. (2021-05-04)[2025-05-01].

[79]	SAVVA M, KADIAN A, MAKSYMETS O, et al. Habitat: A platform for embodied AI research[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2019: 9338-9346.

[80]	SARACENI L, MOTOI I M, NARDI D, et al. Self-supervised data generation for precision agriculture: Blending simulated environments with real imagery[C]// 2024 IEEE 20th International Conference on Automation Science and Engineering (CASE). Piscataway, New Jersey, USA: IEEE, 2024: 71-77.

[81]	ROBERT C, SOTIROPOULOS T, WAESELYNCK H, et al. The virtual lands of oz: Testing an agribot in simulation[J]. Empirical software engineering, 2020, 25(3): 2025-2054.

[82]	RANNEN A, ALJUNDI R, BLASCHKO M B, et al. Encoder based lifelong learning[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 1329-1337.

[83]	LIU X L, WU C S, MENTA M, et al. Generative feature replay for class-incremental learning[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, New Jersey, USA: IEEE, 2020: 915-924.

[84]	JOSEPH K J, BALASUBRAMANIAN V N. Meta-consolidation for continual learning[EB/OL]. arXiv: 2010.00352, 2020.

[85]	WANG R Q, BAO Y X, ZHANG B C, et al. Anti-retroactive interference for lifelong learning[M]// Computer Vision-ECCV 2022. Cham: Springer Nature Switzerland, 2022: 163-178.

[86]	SHI Y J, ZHOU K Q, LIANG J, et al. Mimicking the oracle: An initial phase decorrelation approach for class incremental learning[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2022: 16701-16710.

[87]	ZHANG G W, WANG L Y, KANG G L, et al. SLCA: Slow learner with classifier alignment for continual learning on a pre-trained model[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2023: 19091-19101.

[88]	KIM G, XIAO C, KONISHI T, et al. A theoretical study on solving continual learning[EB/OL]. arXiv: 2211.02633v1, 2022.

[89]	WANG L Y, ZHANG X X, SU H, et al. A comprehensive survey of continual learning: Theory, method and application[J]. IEEE transactions on pattern analysis and machine intelligence, 2024, 46(8): 5362-5383.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引 言

图1 具身智能农业机器人内涵及其应用领域

1 具身智能农业机器人关键技术

图2 具身智能关键技术体系

1.1 多模态融合感知技术

1.2 智能自主决策技术

1.3 自主行动控制技术

图3 MAT的编码器-解码器体系结构［31］

1.4 反馈自主学习技术

2 具身智能在农业机器人应用的分析

图4 具身智能“本体-环境-智能”三要素示意图

2.1 具身智能在农业机器人应用的场景

图5 具身智能在农业机器人应用场景

2.2 具身智能在农业机器人的核心框架

图6 具身智能农业机器人核心框架

2.2.1 具身感知

表1 具身感知不同技术方向的代表性工作

2.2.2 具身认知

图7 具身认知任务规划及执行示例

表2 具身认知不同技术方向的代表性工作

2.2.3 具身执行

表3 具身执行不同技术方向的代表性工作

2.2.4 具身进化

表4 具身进化不同技术方向的代表性工作

3 具身智能农业机器人发展面临的挑战

3.1 技术挑战

3.2 应用挑战

4 总结与展望

References

0 引言

1.1　多模态融合感知技术

1.2　智能自主决策技术

1.3　自主行动控制技术

图3 MAT的编码器-解码器体系结构^［31］

1.4　反馈自主学习技术

2.1　具身智能在农业机器人应用的场景

2.2　具身智能在农业机器人的核心框架

2.2.1　具身感知

2.2.2　具身认知

2.2.3　具身执行

2.2.4　具身进化

3.1　技术挑战

3.2　应用挑战