图像分割的传统方法主要依赖于颜色、边缘和纹理特征,例如颜色阈值法、区域生长法和边缘检测法
[5],然而随着机器学习和深度学习技术的发展,研究人员开始采用分类器(如支持向量机、随机森林)结合手工提取的特征来实现分割
[6]。在此基础上,语义分割通过像素级分类显著提升了分割精度
[7],实例分割则进一步结合目标检测和语义分割的优点,对图像中的每个实例目标进行精确的像素级分割。实例分割分为单阶段和两阶段方法,两阶段方法的代表性算法是掩码区域卷积神经网络(Mask Region-Based Convolutional Neural Network, Mask R-CNN)
[8],尽管两阶段方法分割精度较高,但是对计算资源和内存要求较高,模型的运行速度较慢,难以满足实时任务的需求,例如Wang等
[9]通过融合注意力模块对Mask R-CNN进行改进,试验结果表明,模型在遮挡和重叠条件下表现优异,召回率和精确率分别达到了97.1%和95.8%。单阶段方法的代表算法由Joseph
[10]在2015年提出,该算法依赖其快速的处理能力已经发展成为最广泛应用的一种方法。例如,Li等
[11]提出了一种基于多任务分割网络的遮挡苹果果实三维定位方法,实现了对遮挡水果位置和大小的估计,确定了采摘机器人采摘果实时的接近方向,实验结果表明,该方法相较于传统方法,水果位置的中位数误差和平均误差分别减少了59%和43%。为进一步提升分割精度,研究者们基于自注意力机制的Transformer
[12]分割模型展开研究,作为Transformer研究体系的基础框架,Vanilla Transformer
[13]采用编码器-解码器双模块架构处理分词的输入,每个模块包含多头自注意力层
[14]和逐位置的全连接前馈网络
[15]两个子层。贾伟宽等
[16]提出了一种基于优化Transformer网络的绿色目标果实检测模型,通过引入重采样法扩充样本、结合迁移学习提升训练效率,并构建编码器-解码器结构增强对复杂场景下果实特征的建模能力,实验结果表明,该模型检测绿色苹果的准确率为91.35%。