2)基于多模态大模型架构。当前,具身智能的多模态感知技术正经历从任务驱动型算法向大模型驱动方式转变。基于视觉基础模型(Vision Foundation Models, VFMs)与视觉语言大模型(Vision Language Models, VLMs)构建的统一表征框架,突破了传统感知系统的模态壁垒,实现了跨域数据的语义级对齐与动态适应能力。VFMs通过对比预训练构建跨模态语义对齐空间,为农业场景理解提供了可迁移的视觉先验。例如,Yang等
[21]针对无笼养鸡的场景,评估了SAM(Segment Anything Mode)在禽类图像分割任务中的零样本分割性能,并探索了SAM用于目标跟踪的可能性,结果表明,SAM在对鸡的整体和部件分割方面都优于SegFormer和SETR(Semantic Segmentation Transformer)等现有模型。此外,SAM还可以与YOLOX和ByteTracker等模型结合,实现肉鸡运动的实时跟踪,为优化肉鸡生产操作提供有价值的数据。Liu
[22]提出了一种基于SAM模型的大规模农田边界划分方法,通过从遥感图像中提取时空特征作为辅助信息,自动指导SAM模型进行农田划分,无需人工干预。工作流程包括两个阶段:一是全景分割,获取整个区域的整体分割结果;二是基于整体分割结果提供感兴趣区域(Region of Interest, ROI),并生成提示点,重新输入SAM模型进行二次分割。实验结果表明,该方法在超过1 000 km
2的实验区域上具有良好的适用性和可行性,为大规模农田边界分割提供了一种低成本低门槛且高效的解决方案。VLMs通过跨模态适配器突破模态壁垒,将多模态知识进行融合,对提升农业机器人的智能化程度,以及落地应用有着很强的现实意义。例如,Cao等
[23]针对黄瓜病害识别数据样本量小的问题,提出了一种基于图像-文本-标签信息的ITLMLP(Multi-Modal Language Pretraining Model Based on Image-Text-Label Information)多模态语言模型识别方法,通过融合CLIP(Contrastive Language-Image Pre-Training)与SimCLR(Simple Framework for Contrastive Learning of Visual Representations)模型的部分结构,结合图像-文本多模态对比学习、图像自监督对比学习和标签信息,在共同的图像-文本-标签空间中衡量样本距离,并在小型多模态黄瓜病害数据集上,实现了94.84%的识别准确率,在公开数据集上也表现出了良好的泛化能力。2024年1月UCLA(University of California, Los Angeles)等机构的研究人员提出具身智能大模型(A Multisensory Object-Centric Embodied Large Language Model in 3D World, MultiPLY),由大规模的多感官交互数据集Multisensory Universe训练得到,能够通过部署一个具身代理与3D 环境进行交互,从而编码以物体为中心的多感官表示(包括视觉、听觉、触觉和温度等)。该模型在多个任务中表现出色,包括问答、操作、导航、工具使用和任务分解等。MultiPLY 在物体检索、工具使用、多感官字幕和任务分解等任务中优于基线模型,在多感官交互任务上的强大能力,为构建更具交互性和理解力的AI系统奠定了基础
[24]。在农业巡检机器人应用场景中,具身智能大模型可同步解析可见光图像、声纹特征与触觉反馈,构建全息环境认知模型,提升复杂任务执行效率。具身智能农业机器人正从单模态感知向多模态耦合的认知维度演进,为农业机器人在开放环境下的自主作业奠定感知基础。