欢迎您访问《智慧农业(中英文)》官方网站! English
专题--面向智慧农业的人工智能和机器人技术

融合VoVNetv2和置换注意力机制的鱼群摄食图像分割方法

  • 王鹤榕 , 1, 3, 4, 5 ,
  • 陈英义 1, 3, 4, 5 ,
  • 柴莹倩 1, 3, 4, 5 ,
  • 徐玲 1, 3, 4, 5 ,
  • 于辉辉 , 2, 6
展开
  • 1. 中国农业大学 国家数字渔业创新中心,北京 100083,中国
  • 2. 北京林业大学 信息学院,北京 100083,中国
  • 3. 农业农村部智慧养殖技术重点实验室,北京 100083,中国
  • 4. 北京市农业物联网工程技术研究中心,北京 100083,中国
  • 5. 中国农业大学 信息与电气工程学院,北京 100083,中国
  • 6. 国家林业和草原局 林业智能信息处理工程技术研究中心,北京 100083,中国
于辉辉,博士,讲师,研究方向为人工智能和农业的交叉应用。E-mail:

王鹤榕,研究方向为计算机科学技术与智能农业的交叉应用。E-mail:

WANG Herong, E-mail:

收稿日期: 2023-10-07

  网络出版日期: 2023-12-21

基金资助

国家自然科学基金青年基金(62206021)

北京市数字农业创新团队项目(BAIC10-2023)

Image Segmentation Method Combined with VoVNetv2 and Shuffle Attention Mechanism for Fish Feeding in Aquaculture

  • WANG Herong , 1, 3, 4, 5 ,
  • CHEN Yingyi 1, 3, 4, 5 ,
  • CHAI Yingqian 1, 3, 4, 5 ,
  • XU Ling 1, 3, 4, 5 ,
  • YU Huihui , 2, 6
Expand
  • 1. National Innovation Center for Digital Fishery, China Agricultural University, Beijing 100083, China
  • 2. School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China
  • 3. Key Laboratory of Smart Farming Technologies for Aquatic Animal and Livestock, Ministry of Agriculture and Rural Affairs, Beijing 100083, China
  • 4. Beijing Engineering and Technology Research Centre for Internet of Things in Agriculture, Beijing 100083, China
  • 5. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
  • 6. Engineering Research Center for Forestry-oriented Intelligent Information Processing, National Forestry and Grassland Administration, Beijing 100083, China
YU Huihui, E-mail:

Received date: 2023-10-07

  Online published: 2023-12-21

Supported by

National Natural Science Foundation of China(62206021)

Beijing Digital Agriculture Innovation Consortium Project(BAIC10-2023)

Copyright

copyright©2023 by the authors

摘要

[目的/意义] 鱼群摄食图像分割是提取鱼群分布特征及量化鱼群摄食行为的前提条件。但在实际的养殖环境中,由于鱼群摄食图像存在鱼群边界模糊、目标相似等问题,使得处于养殖场景下的鱼群摄食图像分割成为难题。 [方法] 为解决上述问题,提出一种用于养殖场景下鱼群摄食图像分割方法。该方法首先通过数据清洗减少因鱼群边界模糊等问题导致的数据集不良标记问题,并在Mask R-CNN(Mask Region-based Convolutional Neural Network)的基础上使用融合置换注意力机制的轻量级神经网络VoVNetv2作为骨干网络,建立鱼群摄食图像实例分割网络SA_VoVNetv2_RCNN,提升模型对鱼群关键特征的提取能力以及对重点信息的关注能力,同时减少网络参数。 [结果和讨论] 该方法的平均分割精度达71.014%,相比于SOLOv2、BlendMask和CondInst分别提升18.258%、3.982%和12.068%。为进一步验证模型对鱼群摄食行为量化的有效性,对真实环境下的鱼群进行验证实验,结果表明,模型对摄食和非摄食状态的鱼群具有良好的分割效果,在一定程度上解决了因分割精度低导致的鱼群摄食行为量化错误的问题。 结论] 本研究提出的SA_VoVNetv2_RCNN网络能够实现鱼群摄食和非摄食图像的准确分割,为水下鱼群的摄食行为量化提供决策支撑。

本文引用格式

王鹤榕 , 陈英义 , 柴莹倩 , 徐玲 , 于辉辉 . 融合VoVNetv2和置换注意力机制的鱼群摄食图像分割方法[J]. 智慧农业, 2023 , 5(4) : 137 -149 . DOI: 10.12133/j.smartag.SA202310003

Abstract

[Objective] Intelligent feeding methods are significant for improving breeding efficiency and reducing water quality pollution in current aquaculture. Feeding image segmentation of fish schools is a critical step in extracting the distribution characteristics of fish schools and quantifying their feeding behavior for intelligent feeding method development. While, an applicable approach is lacking due to images challenges caused by blurred boundaries and similar individuals in practical aquaculture environment. In this study, a high-precision segmentation method was proposed for fish school feeding images and provides technical support for the quantitative analysis of fish school feeding behavior. [Methods] The novel proposed method for fish school feeding images segmentation combined VoVNetv2 with an attention mechanism named Shuffle Attention. Firstly, a fish feeding segmentation dataset was presented. The dataset was collected at the intensive aquaculture base of Laizhou Mingbo Company in Shandong province, with a focus on Oplegnathus punctatus as the research target. Cameras were used to capture videos of the fish school before, during, and after feeding. The images were annotated at the pixel level using Labelme software. According to the distribution characteristics of fish feeding and non-feeding stage, the data was classified into two semantic categories— non-occlusion and non-aggregation fish (fish1) and occlusion or aggregation fish (fish2). In the preprocessing stage, data cleaning and image augmentation were employed to further enhance the quality and diversity of the dataset. Initially, data cleaning rules were established based on the distribution of annotated areas within the dataset. Images with outlier annotations were removed, resulting in an improvement in the overall quality of the dataset. Subsequently, to prevent the risk of overfitting, five data augmentation techniques (random translation, random flip, brightness variation, random noise injection, random point addition) were applied for mixed augmentation on the dataset, contributing to an increased diversity of the dataset. Through data augmentation operations, the dataset was expanded to three times its original size. Eventually, the dataset was divided into a training dataset and testing dataset at a ratio of 8:2. Thus, the final dataset consisted of 1 612 training images and 404 testing images. In detail, there were a total of 116 328 instances of fish1 and 20 924 instances of fish2. Secondly, a fish feeding image segmentation method was proposed. Specifically, VoVNetv2 was used as the backbone network for the Mask R-CNN model to extract image features. VoVNetv2 is a backbone network with strong computational capabilities. Its unique feature aggregation structure enables effective fusion of features at different levels, extracting diverse feature representations. This facilitates better capturing of fish schools of different sizes and shapes in fish feeding images, achieving accurate identification and segmentation of targets within the images. To maximize feature mappings with limited resources, the experiment replaced the channel attention mechanism in the one-shot aggregation (OSA) module of VoVNetv2 with a more lightweight and efficient attention mechanism named shuffle attention. This improvement allowed the network to concentrate more on the location of fish in the image, thus reducing the impact of irrelevant information, such as noise, on the segmentation results. Finally, experiments were conducted on the fish segmentation dataset to test the performance of the proposed method. [Results and Discussions] The results showed that the average segmentation accuracy of the Mask R-CNN network reached 63.218% after data cleaning, representing an improvement of 7.018% compared to the original dataset. With both data cleaning and augmentation, the network achieved an average segmentation accuracy of 67.284%, indicating an enhancement of 11.084% over the original dataset. Furthermore, there was an improvement of 4.066% compared to the accuracy of the dataset after cleaning alone. These results demonstrated that data preprocessing had a positive effect on improving the accuracy of image segmentation. The ablation experiments on the backbone network revealed that replacing the ResNet50 backbone with VoVNetv2-39 in Mask R-CNN led to a 2.511% improvement in model accuracy. After improving VoVNetv2 through the Shuffle Attention mechanism, the accuracy of the model was further improved by 1.219%. Simultaneously, the parameters of the model decreased by 7.9%, achieving a balance between accuracy and lightweight design. Comparing with the classic segmentation networks SOLOv2, BlendMask and CondInst, the proposed model achieved the highest segmentation accuracy across various target scales. For the fish feeding segmentation dataset, the average segmentation accuracy of the proposed model surpassed BlendMask, CondInst, and SOLOv2 by 3.982%, 12.068%, and 18.258%, respectively. Although the proposed method demonstrated effective segmentation of fish feeding images, it still exhibited certain limitations, such as omissive detection, error segmentation, and false classification. [Conclusions] The proposed instance segmentation algorithm (SA_VoVNetv2_RCNN) effectively achieved accurate segmentation of fish feeding images. It can be utilized for counting the number and pixel quantities of two types of fish in fish feeding videos, facilitating quantitative analysis of fish feeding behavior. Therefore, this technique can provide technical support for the analysis of piscine feeding actions. In future research, these issues will be addressed to further enhance the accuracy of fish feeding image segmentation.

0 引 言

在水产养殖中,科学合理的投喂是提高养殖效率、降低成本的主要因素1。鱼群摄食行为量化分析可以为工厂精准投喂提供主要数据依据。随着中国水产养殖产量的逐年增长,实现水产养殖的智能化、数字化及现代化是水产养殖领域可持续发展的必然趋势之一2。近年来,机器视觉技术作为一种图像处理的新兴手段,在水产养殖领域引起了广泛关注。由于水下鱼群分布与摄食行为密切相关,使得基于图像分割技术提取鱼群的空间特征成为鱼群摄食行为量化的研究热点。然而,在实际养殖环境中,鱼群摄食图像存在鱼群边界模糊、目标相似等问题,需要探索一种适用于鱼群摄食图像分割的方法,实现图像的精准分割,为鱼群摄食行为的量化提供技术支撑。
传统的图像分割方法,如背景建模3、基于颜色的分割4等,可在简单的图像上取得较好的分割效果,但由于其受控于单一场景,此类方法在复杂场景下会导致特征提取不充分,使得群体计数的准确率降低,无法满足精确养殖作业的需求5。与传统的分割方法相比,基于深度学习的分割方法具有出色的特征提取能力6,目前已被广泛应用于鱼群图像分割领域。Alshdaifat等7提出一种新的水下视频鱼类实例分割框架,首先建立鱼类实例分割数据集并使用Blender软件实现鱼类的分割;其次,使用区域建议网络增强网络对多种鱼的分割与检测。该框架结构在多种先进的分割算法中获得了最高的性能。田志新等8设计了融合边缘监督的改进Deeplabv3+[9]水下鱼类分割模型,在网络的浅层增加卷积块注意力机制(Convolutional Block Attention Module,CBAM)10,改进空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,ASPP),提升了模型的语义分割性能,实现了水下鱼类的精准分割。覃学标等11基于YOLO(You Only Look Once)目标检测与边缘支持搭建分割网络,将全局分割问题转换成检测区域内局部分割问题,并结合Canny边缘支持算法实现了较高精度的鱼类分割。Yu等12建立了基于注意力的全卷积实例分割网络,通过串联方式融合低级特征与高级特征,并将像素位置信息与通道注意力机制相结合,最终解决了由于鱼类遮挡、弯曲等因素带来的问题,与多种实例分割网络相比具有最佳的分割精度,实现了鱼类重量的准确估算。Chang等13对水下鱼类声纳图像进行分割,使用卷积网络PreCNN(Preprocessing Convolutional Neural Network)为Mask R-CNN14提供标准化的特征图,并通过半监督的学习方式降低标注成本,实现了准确的鱼类声纳图像分割。郭奕等15为提升分割网络在实际水产养殖环境图像上对鱼类的分割能力,在Mask R-CNN实例分割网络的基础上融合SimAM注意力机制16,并在网络数据集Open Images DatasetV6和自建数据集上进行两次网络预训练,在一定程度上缓解了网络对真实场景鱼类图像分割精度低的问题,提升了真实环境下的鱼类分割精度。
上述研究成果表明,基于深度学习的分割方式在水下鱼类分割应用中具有明显优势,然而由于鱼群摄食图像存在更多的聚集和遮挡现象,与非摄食图像之间差异较大,因此对鱼群摄食图像的分割具有更大的挑战。基于深度学习的水下鱼群分割方式主要分为语义分割和实例分割。语义分割根据像素所属类别进行划分,不区分像素所属实例;实例分割在语义分割的基础上,进一步划分像素所属的不同实例,与语义分割相比,满足区分目标个体需求,能够提取更加丰富的图像特征,为鱼群摄食行为的量化分析提供可能性。
本研究针对水下鱼群摄食图像存在目标相似、鱼群边界模糊等问题,在Mask R-CNN的基础上,提出一种在养殖场景下鱼群摄食图像实例分割方法,并利用分割模型统计鱼群摄食视频中不同类型鱼群的类别数量和像素数量,实现鱼群摄食行为的量化分析,为鱼群摄食行为分析提供技术支撑。

1 材料与方法

1.1 鱼群摄食图像采集及标注

本研究采用的数据采集时间为2020年7月24日~9月11日,采集地点为莱州明波养殖试验基地,数据采集装置如图1所示,设备主要由水池、摄像机、显示器和支架组成,水池直径3.3 m,高度64 cm,水深43 cm。摄像机使用支架安置在水池上方1.87 m的高度,在显示中调整摄像机角度,保证拍摄画面能够覆盖整个水面。数据采集以斑石鲷为对象,每天投喂两次。利用摄像机获取鱼群摄食前、摄食中与摄食后的视频。在获取视频过程中,保持车间走廊灯打开,为视频补充适宜的光照强度,并将水池正上方的灯关闭,防止拍摄画面出现反光现象,同时,保持水池水面稳定,减少外界因素对水池中水面波动的干扰。
图1 鱼群图像采集装置结构图

Fig. 1 Structure diagram of image acquisition device

获取视频数据后,每隔一帧截取一张图像,并删除部分相似图像,使用Labelme软件对图像进行像素级别标注。根据鱼群摄食聚集、非摄食分散的特点将数据集标记为两个类别,分别是非遮挡重叠鱼群(fish1)和遮挡重叠鱼群(fish2)。标记规则:当个体鱼与其他个体鱼或群体鱼之间存在明显距离,或距离不明显但肉眼可明确粘连边界的情况,将每一个个体鱼标记为fish1;当两条鱼重叠面积小于1/3时,认为两条鱼未重叠,每条个体鱼标记为fish1;当个体鱼被圆柱遮挡,露出的部分标记为fish1;当个体鱼被其他鱼体遮挡,且遮挡面积超过1/3时,将互相遮挡、粘连的整体标记为fish2。按照以上规则对图像进行标注。标记示意图如图2所示。
图2 鱼群分割数据集标签制作示例

Fig. 2 Example of fish school segmentation dataset labeling

最终得到原始数据集1 361张,图像大小为2 560×1 440,平均每张图像含有65个目标,目标数量超过大多数鱼类分割数据集,同时,由于采集过程中鱼类摄食、游动等行为导致图像局部区域目标分布密集、鱼群边界模糊,为鱼群摄食图像的准确分割带来挑战。

1.2 数据预处理

鱼群摄食图像中存在目标分布密集、鱼群边界模糊等问题,为数据集的准确标记带来一定影响,容易出现不良数据样本。在某些情况下,不良数据样本的破坏性会变得十分显著,对网络训练造成恶性影响17。为进一步提升数据集质量,同时增强数据多样性,通过数据清洗与图像增强的方式对数据集进行预处理操作。

1.2.1 数据清洗

数据清洗是对数据进行重新检查和校正的过程,用于删除冗余、错误的数据信息,提升数据质量18。通过对原始数据集的观察发现,由于原始图像中存在鱼群边界模糊、鱼群分布密集等问题,数据集中出现了标注不准确的不良图像数据。如图3右侧深紫色标记区域所示,该区域未严格遵守标注规则,将若干可独立鱼群整体进行了标记,此类标记中含有较多的背景像素,如图3(a)中红色箭头所示,会对后续网络学习造成干扰。根据观察到的现象,针对图像中不良标记问题编写数据清洗脚本,统计原始数据集中每张图像目标标注区域的面积分布,如图4所示,并根据分布设定目标面积阈值,去除离群标记图像数据。
图3 鱼群分割图像不良标记示例

(a)原始图像 (b)不良标记图像

Fig. 3 Example of bad labeling in fish feeding segmentation images

图4 鱼群分割图像标记面积统计结果

Fig. 4 Statistics of fish school segmentation image target marker area

依据数据清洗方法中的“异常值处理”方法,结合数据集的特点,制定清洗规则:1)为避免数据清洗直接影响大面积聚集鱼群的学习效果,设定主标记数和副标记数,赋予不同标注面积大小不同的比重。副标记数比重为主标计数的1/3,当副标记数大于等于3时,主标计数加1,副标记数清零。2)当标注面积位于[9 000,25 000]时,主标计数加1。3)当标注面积位于[8 000,9 000]时,此类标记面积相对较小,对于标注质量的影响程度较小,出现一次副标记数加1。依照此规则遍历图像中所有目标,遍历结束后若当前图片的主标计数大于等于3,说明此图像目标存在离群标注的可能性,则清除此图像。

1.2.2 数据增强

数据增强是训练深度神经网络的一个直接且关键因素19。数据清洗后数据集中的数据量下降,在后续训练过程中存在过拟合的风险。为避免网络过拟合现象,同时增强网络训练的稳定性,实验采用5种数据增强方式对数据集进行混合数据增强。增强方式分别为随机平移、随机翻转、亮度变化、随机噪声添加和随机点添加20。每张图像增强3次,每次随机混合3种数据增强方式,其中一张图像的增强结果如图5所示。通过数据增强,最终数据集扩充3倍,按照8∶2的比例对数据集进行划分,最终获得训练集数据1 612张,测试集数据404张,其中,fish1的数量共计116 328个;fish2的数量共计20 924个。
图5 原始及数据增强后的鱼群摄食图像

Fig. 5 Original and data-augmented fish feeding images

1.3 鱼群分割模型构建

实验整体流程如图6所示。方法主要分为两个阶段:实验阶段使用数据清洗和数据增强操作对数据集进行预处理,处理后的数据被传输到SA_VoVNetv2_RCNN网络中进行训练,训练结束后,保存模型最高权重,并将其用于模型的应用阶段;模型应用阶段,将输入数据传输到训练好的模型中对目标进行分割,以每种目标类型的数量变化作为鱼群摄食行为量化的关键因素,当遮挡聚集鱼群的数量明显上升时说明鱼群的聚集行为增加,鱼群可能发生了摄食行为。
图6 鱼群摄食量化方法总体流程图

Fig. 6 The overall flow chart of fish feeding quantification method

1.3.1 Mask R-CNN网络结构

Mask R-CNN由He等14于2017年提出。Mask R-CNN在Faster R-CNN21的基础上添加用于分割的掩膜生成分支,可以同时完成目标分类、目标检测与目标分割这3项任务。
Mask R-CNN的框架如图7所示,主要分为4部分:第1部分,特征图生成,使用主干网络提取图片的特征,结合特征金字塔22获得不同采样率的特征层;第2部分,候选框生成,利用区域建议网络生成不同尺度的锚框,经过非极大值抑制算法23筛选候选框,将候选框映射到不同尺寸的特征图;第3部分,RoIAlign操作,用双线性插值的方法取代RoIPooling中直接取整的操作,将候选框内的区域池化为相同的大小;第4部分,将特征区域分别传送给目标检测分支与掩码生成分支,预测目标的边界框、类别与掩码。
图7 Mask R-CNN结构图

Fig. 7 Structure of Mask R-CNN

1.3.2 置换注意力机制

在鱼类摄食图像中不同语义类别之间存在相似性问题,将注意力机制整合到网络中已被证明可以加强模型的表征能力24。通过注意力机制,网络可以更加有效地关注鱼群目标,从而缓解图像中存在的相似性问题。
置换注意力机制(Shuffle Attention,SA)25是一个高效、轻量的卷积神经网络注意力模块。该模块采用置换单元实现空间注意力和通道注意力的有效结合,其结构如图8所示。
图8 Shuffle attention结构图

Fig. 8 Structure of shuffle attention

模块首先将C维特征图X沿通道维度分为G组, X = [ X 1 , . . . , X G ] R C / G × H × W,将每组特征沿通道维度拆分成两组 X k 1 , X k 2 R C / 2 G × H × W,分别进行通道和空间维度的学习。
在通道注意力的学习分支,首先采用全局平均池化( F g p)嵌入全局信息,生成通道统计权重 s R C / 2 G × 1 × 1;其次通过归一化操作( F c)和Sigmoid激活函数[ σ ( )]获得通道注意力的最终输出,实现不同特征通道表达能力的强化。具体实现方法如公式(1)公式(2)所示。
s = F g p ( X k 1 ) = 1 H × W i = 1 H j = 1 W X k 1 ( i , j )
X k 1 ' = σ ( F c ( s ) ) X k 1 = σ ( W 1 s + b 1 ) X k 1
式中: W 1 R C / 2 G × 1 × 1 b 1 R C / 2 G × 1 × 1;其中,HW分别表示特征图的高度和宽度。
在空间注意力分支,首先对特征图采用组归一化( G N)操作;其次通过变换增强分支的输入表示;最终得到空间注意力权重图,为特征层不同像素赋予不同权重,以突出重要区域并抑制无关区域。具体实现方法如公式(3)所示。
X k 2 ' = σ [ W 2 G N ( X k 2 ) + b 2 ] X k 2
式中: W 2 R C / 2 G × 1 × 1 b 2 R C / 2 G × 1 × 1
在完成两种注意力计算后,对所有子特征进行聚合。模块首先采用拼接操作融合两种特征;其次利用置换单元实现通道维度的组间通信;最终得到与输入特征图相同大小的特征图。

1.3.3 改进的VoVNetv2结构

以ResNet26为骨干网络的Mask R-CNN网络结构在分割非摄食鱼群图像时效果较好,但在具有多尺度目标、鱼群边界模糊的摄食图像上的分割精度还有待进一步加强。VoVNetv227在VoVNet28的基础上提出,是一种具有较强计算能力的骨干网络。VoVNetv2由一次聚合模块(One-Shot Aggregation,OSA)组成。该模块由连续的卷积层组成,仅在最后一层一次性聚合所有的特征。VoVNetv2的特征聚合能够有效实现不同层次特征的融合,提取多样化的特征表示,从而更好地捕获鱼群摄食图像中不同尺寸和形状的鱼群,实现图像中目标的准确识别与分割。
VoVNetv2中OSA模块如图9(a)所示。该模块在上一版本的基础上添加两处改进,首先通过添加残差连接解决深层网络退化问题;其次通过添加通道注意模块(Effective Squeeze and Excitation Block,eSE)进一步提高VoVNet性能。VoVNetv2常见的结构配置如表1所示。
图9 改进前后的OSA模块结构图

(a)OSA模块 (b)改进的OSA模块

Fig. 9 Structure of the original and improved OSA module

表1 VoVNetv2网络配置

Table 1 The network configuration of VoVNetv2

阶段 VoVNetv2-39 VoVNetv2-57 VoVNetv2-99

起始

阶段1

3 × 3   c o n v ,   64 ,   s = 2

3 × 3   c o n v ,   64 ,   s = 1

3 × 3   c o n v ,   128 ,   s = 1

3 × 3   c o n v ,   64 ,   s = 2

3 × 3   c o n v ,   64 ,   s = 1

3 × 3   c o n v ,   128 ,   s = 1

3 × 3   c o n v ,   64 ,   s = 2

3 × 3   c o n v ,   64 ,   s = 1

3 × 3   c o n v ,   128 ,   s = 1

OSA模块

阶段2

3 × 3   c o n v ,   128 ,   × 5 c o n c a t & 1 × 1   c o n v ,   256 × 1 3 × 3   c o n v ,   128 ,   × 5 c o n c a t & 1 × 1   c o n v ,   256 × 1 3 × 3   c o n v ,   128 ,   × 5 c o n c a t & 1 × 1   c o n v ,   256 × 1

OSA模块

阶段3

3 × 3   c o n v ,   160 ,   × 5 c o n c a t & 1 × 1   c o n v ,   512 × 1 3 × 3   c o n v ,   160 ,   × 5 c o n c a t & 1 × 1   c o n v ,   512 × 1 3 × 3   c o n v ,   160 ,   × 5 c o n c a t & 1 × 1   c o n v ,   512 × 3

OSA模块

阶段4

3 × 3   c o n v ,   192 ,   × 5 c o n c a t & 1 × 1   c o n v ,   768 × 2 3 × 3   c o n v ,   192 ,   × 5 c o n c a t & 1 × 1   c o n v ,   768 × 4 3 × 3   c o n v ,   192 ,   × 5 c o n c a t & 1 × 1   c o n v ,   768 × 9

OSA模块

阶段5

3 × 3   c o n v ,   224 ,   × 5 c o n c a t & 1 × 1   c o n v ,   1   024 × 2 3 × 3   c o n v ,   224 ,   × 5 c o n c a t & 1 × 1   c o n v ,   1   024 × 3 3 × 3   c o n v ,   224 ,   × 5 c o n c a t & 1 × 1   c o n v ,   1   024 × 3
eSE通道注意力模块关注特征图的全局特征,但其忽略了对图像中像素点之间的关注,导致特征图的像素关联关系不能被充分提取,影响图像分割的精度。为利用有限资源实现更多的特征映射,实验将OSA模块中的通道注意模块替换成更加轻量且有效的SA注意力机制,以便网络能够更加关注图像中鱼群所在位置,减少噪声等不相关信息对分割结果的影响。OSA模块改进后的结构如图9(b)所示。

1.4 分割评价指标

为验证模型的性能,使用模型参数量和平均精度(Average Precision,AP)作为模型的评估指标。模型的参数量是指在模型训练过程中需要训练的参数总数量,用来描述模型的大小。AP是评价深度学习分割模型性能最常见的指标之一,其计算方法为:
交并比(Intersection over Union,IoU):表示两个目标区域的重叠程度,其大小为两个区域重叠的面积与两个区域总面积之比。
真正例(True Positive, TP):IoU>某一阈值时成功检测到的目标数量。
假正例(False Positive, FP):IoU≤某一阈值的时候检测到的目标数量。
假负例(False Negative, FN):没有检测到的目标数量。
查准率(Precision)的计算如公式(4)所示。
P r e c i s i o n = T P T P + F P
查全率(Recall)的计算如公式(5)所示。
R e c a l l = T P T P + F N
P-R曲线:查准率随着查全率增加的变化曲线。
AP的大小为P-R曲线下半部分的面积,其计算如公式(6)所示。
A P = 0 1 p ( r ) d r
式中:p表示查准率的值;r表示查全率的值。实验数据集为COCO格式,其平均分割精度的描述如表2所示。
表2 鱼群分割结果评价指标

Table 2 Evaluation metric of fish school segmentation

指标 描述
mAP IoU=0.5∶0.05∶0.95时的平均精度
AP50 IoU=0.5
AP75 IoU=0.75
APs 小型目标(面积<32²)的AP值
APm 中型目标(32²<面积<96²)的AP值
Apl 大型目标(96²<面积)的AP值

2 结果与分析

2.1 模型参数设置

实验迭代30 000次,初始学习率设置为0.01,采用学习率衰减策略,当训练的迭代次数为24 000~29 000次时,以0.1的比例缩小学习率,batch size设置为4,优化器为SGD。实验基于Pytorch深度学习框架训练模型,在Ubuntu20.04.3操作系统上运行。

2.2 数据预处理对分割精度的影响

在数据的预处理阶段,采用数据清洗和数据增强的方式处理数据,以去除数据集中的不良数据样本,同时增加训练数据的多样性,提升模型的鲁棒性和泛化能力。为验证数据预处理对网络在图像分割任务中的影响,在相同训练条件下对处理前后的数据集进行训练。
表3中列出数据处理前后在原始Mask R-CNN网络上的分割精度。从分割结果中可以看出,经过数据清洗后,网络的平均分割精度为63.218%,相较于原始数据集提升7.018%,经过清洗和增强后,网络对数据集的平均分割精度为67.284%,相较于原始数据集提升11.084%,相较于清洗后数据集的精度进一步提升4.066%。数据预处理对于图像分割精度的提升具有积极作用。通过有效的数据清洗和数据增强,能够提高模型对图像内容的理解和表达能力,从而实现更好的分割结果。
表3 数据预处理前后鱼群分割精度对比

Table 3 Comparison of fish school segmentation accuracy before and after data preprocess

预处理方式 mAP AP50 AP75 APs APm APl
56.200 79.421 67.694 29.384 57.247 62.929
数据清洗 63.218 85.584 75.698 67.920 63.628 68.854
数据清洗+增强 67.284 93.265 83.317 35.457 68.135 75.056

2.3 改进骨干网络的对比实验

实验使用以ResNet50为骨干网络的Mask R-CNN作为实验基线,得到网络的基准分割精度和模型参数量。
VoVNetv2作为一种基于注意力机制的轻量级卷积神经网络,能够更好地关注图像中的关键信息,通过多尺度特征融合模块有效地将不同层级的特征进行融合,具有更加丰富的特征表示,将Mask R-CNN的骨干网络替换成不同配置的VoVNetv2进行训练,其结果如表4所示。
表4 改进骨干网络在鱼群摄食分割数据集上的分割结果对比

Table4 Comparison of segmentation results of the improved backbone networks on fish feeding segmentation dataset

骨干网络 mAP AP50 AP75 APs APm APl 参数量/M
ResNet50 67.284 93.265 83.317 35.457 68.135 75.056 44.3
VoVNetv2-39 69.795 93.382 85.457 35.878 70.792 75.716 45.7
VoVNetv2-57 70.624 93.828 86.959 37.708 71.447 77.152 62.0
VoVNetv2-99 71.580 94.151 88.369 36.168 72.363 77.860 90.0
SA_VoVNetv2-39 71.014 93.864 87.081 38.231 71.967 76.095 42.1
表4可知,使用VoVNetv2作为骨干网络时分割精度较基准网络上升2.511%,但同时也增加了模型的参数量。置换注意力机制不仅能够保证模型的精度,而且能够减少模型的参数量。实验将VoVNetv2-39的eSE模块改进为置换注意力机制,结果显示,其精度与未添加SA注意力机制时进一步提升1.219%,参数量下降7.9%,同时,该模型的分割精度超过结构更深的VoVNetv2-57模型,虽然较低于VoVNetv2-99的分割精度,但模型参数量相较于VoVNetv2-99下降53%,实现了精度和轻量化的平衡。
综合以上结果说明,通过将置换注意力机制与VoVNetv2网络相结合,使得改进后的模型与基线模型相比精度从67.284%增加到71.014%,同时参数量下降2.2 M,证明提出的模型能够在减少模型参数量的同时保证更优质的分割性能。

2.4 与其他分割算法的性能比较

为验证本研究方法在鱼群摄食图像分割效果上的优越性,使用相同的数据集及训练参数,对比3种代表性的实例分割网络SOLOv229、CondInst30、BlendMask31和本研究提出模型的鱼群分割效果。从表5可以看出,本研究提出的模型在各种目标尺度上均具有最高的分割精度,在鱼群分割数据集上平均分割精度相较于BlendMask、CondInst、SOLOv2分别提升3.982%、12.068%和18.258%。
表5 不同模型在鱼群摄食分割数据集上的分割结果对比

Table 5 Comparison of segmentation results of different models on fish feeding segmentation dataset

网络 mAP AP50 AP75 APs APm APl
SOLOv2 52.756 85.905 63.905 16.737 53.644 69.141
CondInst 58.946 92.196 73.463 23.803 60.100 71.053
BlendMask 67.032 93.261 82.548 34.583 67.962 76.676
SA_VoVNetv2-39_RCNN 71.014 93.864 87.081 38.231 71.967 76.095
为直观显示网络的分割效果,对不同模型的分割结果进行可视化,如图10所示。第1行为鱼群非摄食图像;后3行为鱼群摄食过程中的图像。图10中红框圈出了明显分割错误的部分。从分割结果中可以看出,本研究提出的分割方法对图像中绝大部分目标做出了正确的分类与分割,其余算法均出现不同情况的错误。进一步证实本研究提出的模型性能在分割鱼群摄食图像方面表现卓越。
图10 各模型在鱼群摄食图像上的分割结果可视化

(a)原图 (b)标注图 (c)SA_VoVNetv2_RCNN (d)BlendMask (e)SOLOv2 (f)CondInst

注: 第一行为非摄食阶段图像,后三行为摄食阶段图像。

Fig. 10 Visualized segmentation results for each model on the fish school feeding images

图11显示了4个分割网络在训练过程中总损失随迭代次数的变化情况。随着迭代轮数的增加,4个网络的损失均呈现下降趋势,SOLOv2和SA_VoVNetv2-39_RCNN的收敛速度明显大于BlendMask和CondInst,虽然SA_VoVNetv2-39_RCNN收敛的速度相较于SOLOv2较低,但其分割精度比SOLOv2具有明显的提升,说明SA_VoVNetv2-39_RCNN很好地平衡了网络学习的速度和网络的性能,使得模型可以更好地完成鱼群摄食图像的分割。
图11 不同分割模型在鱼群摄食分割数据集上的损失

Fig. 11 Loss function of different segmentation models on fish school feeding dataset

2.5 模型局限性分析

虽然本研究所提出的方法能够对鱼群图像的分割取得较好效果,但仍存在一些局限性。首先,算法存在一些错误分割的情况。图12给出了错误分割的示意图。从图12中可以看出,当鱼群与背景颜色接近或鱼群颜色较浅时,会出现目标漏检现象;当目标附近存在阴影时,会出现阴影分割错误或分割面积超出鱼群面积的情况;由于水面波动或饲料遮挡等原因,会出现分割类别错误的情况。在未来的研究中,将针对以上问题进行探讨,进一步提升算法对鱼群摄食过程中的分割准确度。
图12 改进模型(SA_VoVNetv2-39_RCNN)在鱼群摄食分割数据集上的错误分割结果示意图

(a)原图 (b)标记图 (c)改进模型分割结果图

注: 第2列和第3列图像中红框内为改进模型的错误分割区域,文字为错误分割类型标注。

Fig. 12 Error segmentation results on fish school feeding dataset for the improved model (SA_VoVNetv2-39_RCNN)

2.6 鱼群摄食行为量化分析

在实际养殖场景中,鱼群的聚集程度与摄食行为之间具有显著的相关性,且鱼群聚集程度与不同类型的鱼群数量和像素数量之间同样存在密切关联。通过统计不同类型鱼群(非遮挡重叠鱼群fish1和遮挡重叠鱼群fish2)的数量和像素数量变化情况,可以判断鱼群的分散聚集程度,进一步实现对鱼群摄食行为的判断。
为评估本研究提出的SA_VoVNetv2-39_RCNN方法在实际应用中的效果,对一段时长3 min的鱼群视频进行分割。在视频中期,投饵操作使得鱼群从非摄食状态转为摄食状态。获取这段时间中两种类型的鱼群数量变化曲线。图13展示了3 min内两种鱼群类型的数量变化情况;图14展示了3 min内两种鱼群类型的像素数量变化情况。可以看出,在非摄食阶段,鱼群聚集程度较低,非遮挡重叠鱼群(fish1)的数量显著多于遮挡重叠鱼群(fish2)的数量,且fish1像素的数量较多;在摄食阶段,非遮挡重叠鱼群(fish1)的数量和像素数量下降,遮挡重叠鱼群(fish2)的数量和像素数量上升,鱼群的聚集程度明显增强。
图13 不同摄食状态下鱼群类别变化曲线图

Fig.13 Curve of fish school category change under different feeding states

图14 不同摄食状态下鱼群像素数量变化曲线图

Fig. 14 Curve of fish school pixel change under different feeding states

实验结果表明,SA_VoVNetv2-39_RCNN方法可以有效地应用于养殖场景下的鱼群分割。通过分析两种类型鱼群的数量及像素数量的变化趋势,推断鱼群的聚集程度,进一步实现对鱼群摄食行为的判断,从而为相关领域的研究提供更丰富的数据支持和理论依据。

3 结 论

在本研究中,面对养殖场景下鱼群摄食图像分割的挑战,提出了一种融合VoVNetv2和置换注意力机制的SA_VoVNetv2_RCNN实例分割算法,实现了对鱼群的准确分割。算法不仅取得了显著的分割精度提升,而且在实际应用中成功实现了鱼群摄食行为的量化分析,为鱼群摄食分析领域的研究提供了有力支持,为未来的养殖管理和行为研究带来了新的可能性。主要结论如下:
1)构建了养殖场景下鱼群摄食图像分割数据集。鱼群分割数据集目标数量多、鱼群边界模糊,易产生不良标记,首先根据数据特点对数据集进行清洗,过滤可能影响模型学习的图像;其次对数据集进行平移、翻转等混合扩充操作,增加样本数量,提高模型的鲁棒性和泛化能力。
2)提出了基于深度学习的鱼群摄食图像分割算法SA_VoVNetv2_RCNN。算法通过引入轻量级骨干VoVNetv2代替Mask R-CNN原有的主干网络,同时优化VoVNetv2结构,通过融合轻量级注意力机制实现更加精准的鱼群摄食图像分割。实验结果显示,本研究提出的算法对鱼群数据集的分割精度达71.014%,与SOLOv2、BlendMask、CondInst相比分别提升18.258%、3.982%、12.068%,同时,通过置换注意力机制的改进,模型参数量从原始的45.7 M下降到42.1 M,参数量下降7.9%,实现了精度和轻量化的平衡。
本研究实现了鱼群摄食行为的量化。将算法应用于鱼群视频,对视频中不同类型的鱼群进行分割,通过不同类别鱼群的类别数量和像素数量变化实现鱼群摄食行为的量化分析,为鱼群摄食分析领域的研究提供了有力的支持。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
李道亮, 刘畅. 人工智能在水产养殖中研究应用分析与未来展望[J]. 智慧农业(中英文), 2020, 2(3): 1-20.

LI D L, LIU C. Recent advances and future outlook for artificial intelligence in aquaculture[J]. Smart agriculture, 2020, 2(3): 1-20.

2
杨玲. 基于机器视觉的工厂化鱼群摄食行为智能分析方法研究[D]. 北京: 中国农业大学, 2022.

YANG L. Computer vision technologies for fish school feeding behavior analysis in industrial aquaculture[D]. Beijing: China Agricultural University, 2022.

3
LIU H Y, LIU T, GU Y Z, et al. A high-density fish school segmentation framework for biomass statistics in a deep-sea cage[J]. Ecological informatics, 2021, 64: ID 101367.

4
ZHANG L, WANG J P, DUAN Q L. Estimation for fish mass using image analysis and neural network[J]. Computers and electronics in agriculture, 2020, 173: ID 105439.

5
KHALID EL MOUTAOUAKIL, NOUREDDINE FALIH. Deep learning-based classification of cattle behavior using accelerometer sensors[J]. IAES international journal of artificial intelligence, 2024, 13(1): 524-5532.

6
ZHANG T W, ZHANG X L. A mask attention interaction and scale enhancement network for SAR ship instance segmentation[J]. IEEE geoscience and remote sensing letters, 2022, 19: 1-5.

7
ALSHDAIFAT N F F, TALIB A Z, OSMAN M A. Improved deep learning framework for fish segmentation in underwater videos[J]. Ecological informatics, 2020, 59: ID 101121.

8
田志新, 廖薇, 茅健, 等. 融合边缘监督的改进Deeplabv3+水下鱼类分割方法[J]. 电子测量与仪器学报, 2022, 36(10): 208-216.

TIAN Z X, LIAO W, MAO J, et al. Improved Deeplabv3+ underwater fish segmentation method combining with edge supervision[J]. Journal of electronic measurement and instrumentation, 2022, 36(10): 208-216.

9
CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Computer Vision-ECCV 2018: 15th European Conference. New York, USA: ACM, 2018: 833-851.

10
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[M]// Computer vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

11
覃学标, 黄冬梅, 宋巍, 等. 基于目标检测及边缘支持的鱼类图像分割方法[J]. 农业机械学报, 2023, 54(1): 280-286.

QIN X B, HUANG D M, SONG W, et al. Fish image segmentation method based on object detection and edge support[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(1): 280-286.

12
YU X N, WANG Y Q, LIU J C, et al. Non-contact weight estimation system for fish based on instance segmentation[J]. Expert systems with applications, 2022, 210: ID 118403.

13
CHANG C C, WANG Y P, CHENG S C. Fish segmentation in sonar images by mask R-CNN on feature maps of conditional random fields[J]. Sensors, 2021, 21(22): ID 7625.

14
HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2980-2988.

15
郭奕, 黄佳芯, 邓博奇, 等. 改进Mask R-CNN的真实环境下鱼体语义分割[J]. 农业工程学报, 2022, 38(23): 162-169.

GUO Y, HUANG J X, DENG B Q, et al. Semantic segmentation of the fish bodies in real environment using improved Mask-RCNN model[J]. Transactions of the Chinese society of agricultural engineering, 2022, 38(23): 162-169.

16
YANG L, ZHANG R, LI L, et al. SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks[C/OL]// Proceedings of the 38 th International Conference on Machine Learning. New York, USA: PMLR, 2021: 11863-11874.

17
VARKARAKIS V, CORCORAN P. Dataset cleaning: A cross validation methodology for large facial datasets using face recognition[C]// 2020 Twelfth International Conference on Quality of Multimedia Experience (QoMEX). Piscataway, New Jersey, USA: IEEE, 2020: 1-6.

18
姜波. 基于计算机视觉与深度学习的奶牛跛行检测方法研究[D]. 杨凌: 西北农林科技大学, 2020.

JIANG B. Detection of dairy cow lameness based on computer vision and deep learning[D]. Yangling: Northwest A & F University, 2020.

19
WU S F, CHANG M C, LYU S W, et al. FlagDetSeg: Multi-nation flag detection and segmentation in the wild[C]// 2021 17th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). Piscataway, New Jersey, USA: IEEE, 2021: 1-8.

20
KAMILARIS A, PRENAFETA-BOLDÚ F X. Deep learning in agriculture: A survey[J]. Computers and electronics in agriculture, 2018, 147: 70-90.

21
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

22
LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017: 2117-2125.

23
NEUBECK A, VAN GOOL L. Efficient non-maximum suppression[C]//18th International Conference on Pattern Recognition (ICPR'06). Piscataway, New Jersey, USA: IEEE, 2006: 850-855.

24
CHEN Y Y, LIU H H, YANG L, et al. A lightweight detection method for the spatial distribution of underwater fish school quantification in intensive aquaculture[J]. Aquaculture international, 2023, 31(1): 31-52.

25
ZHANG Q L, YANG Y B. SA-net: Shuffle attention for deep convolutional neural networks[C]// ICASSP 2021—2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, New Jersey, USA: IEEE, 2021: 2235-2239.

26
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 770-778.

27
LEE Y, PARK J. CenterMask: Real-time anchor-free instance segmentation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 13906-13915.

28
LEE Y, HWANG J W, LEE S, et al. An energy and GPU-computation efficient backbone network for real-time object detection[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, New Jersey, USA: IEEE, 2019: 752-760.

29
WANG X L, ZHANG R F, KONG T, et al. SOLOv2: Dynamic and fast instance segmentation[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. New York, USA: ACM, 2020: 17721-17732.

30
TIAN Z, SHEN C H, CHEN H. Conditional convolutions for instance segmentation[M]// Computer vision-ECCV 2020. Cham: Springer International Publishing, 2020: 282-298.

31
CHEN H, SUN K Y, TIAN Z, et al. BlendMask: Top-down meets bottom-up for instance segmentation[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 8573-8581.

文章导航

/