Welcome to Smart Agriculture 中文
Topic--Intelligent Agricultural Knowledge Services and Smart Unmanned Farms(Part 1)

Real-time Detection Algorithm of Expanded Feed Image on the Water Surface Based on Improved YOLOv11

  • ZHOU Xiushan , 1 ,
  • WEN Luting 2 ,
  • JIE Baifei 3 ,
  • ZHENG Haifeng 1 ,
  • WU Qiqi 1 ,
  • LI Kene 1 ,
  • LIANG Junneng 2 ,
  • LI Yijian 2 ,
  • WEN Jiayan , 1 ,
  • JIANG Linyuan , 2
Expand
  • 1. Automation College, Guangxi University of Science and Technology, Liuzhou 545006, China
  • 2. Guangxi Academy of Fishery Sciences, Nanning 530021, China
  • 3. Aquatic Technology Promotion Station of Guangxi Zhuang Autonomous Region, Nanning 530022, China
WEN Jiayan, E-mail:
JIANG Lingyuan, E-mail:

ZHOU Xiushan, E-mail:

Received date: 2024-08-23

  Online published: 2024-12-27

Supported by

Guangxi Key Research and Development Program Project(桂科AB21220019)

Chief Expert of Guangxi Shrimp and Mollusk Industry Innovation Team under the National Modern Agricultural Industry Technology System(nycytxgxcxtd-2023-14-01)

Aquaculture Industry Science and Technology Pioneer Team Guangxi Agricultural Science Alliance(202410)

Copyright

copyright©2024 by the authors

Abstract

[Objective] During the feeding process of fish populations in aquaculture, the video image characteristics of floating extruded feed on the water surface undergo continuous variations due to a myriad of environmental factors and fish behaviors. These variations pose significant challenges to the accurate detection of feed particles, which is crucial for effective feeding management. To address these challenges and enhance the detection of floating extruded feed particles on the water surface, ,thereby providing precise decision support for intelligent feeding in intensive aquaculture modes, the YOLOv11-AP2S model, an advanced detection model was proposed. [Methods] The YOLOv11-AP2S model enhanced the YOLOv11 algorithm by incorporating a series of improvements to its backbone network, neck, and head components. Specifically, an attention for fine-grained categorization (AFGC) mechanism was introduced after the 10th layer C2PSA of the backbone network. This mechanism aimed to boost the model's capability to capture fine-grained features, which were essential for accurately identifying feed particles in complex environments with low contrast and overlapping objects. Furthermore, the C3k2 module was replaced with the VoV-GSCSP module, which incorporated more sophisticated feature extraction and fusion mechanisms. This replacement further enhanced the network's ability to extract relevant features and improve detection accuracy. To improve the model's detection of small targets, a P2 layer was introduced. However, adding a P2 layer may increase computational complexity and resource consumption, so the overall performance and resource consumption of the model must be carefully balanced. To maintain the model's real-time performance while improving detection accuracy, a lightweight VoV-GSCSP module was utilized for feature fusion at the P2 layer. This approach enabled the YOLOv11-AP2S model to achieve high detection accuracy without sacrificing detection speed or model lightweights, making it suitable for real-time applications in aquaculture. [Results and Discussions] The ablation experimental results demonstrated the superiority of the YOLOv11-AP2S model over the original YOLOv11 network. Specifically, the YOLOv11-AP2S model achieved a precision ( P) and recall ( R) of 78.70%. The mean average precision (mAP50) at an intersection over union (IoU) threshold of 0.5 was as high as 80.00%, and the F1-Score had also reached 79.00%. These metrics represented significant improvements of 6.7%, 9.0%, 9.4% (for precision, as previously mentioned), and 8.0%, respectively, over the original YOLOv11 network. These improvements showed the effectiveness of the YOLOv11-AP2S model in detecting floating extruded feed particles in complex environments. When compared to other YOLO models, the YOLOv11-AP2S model exhibits clear advantages in detecting floating extruded feed images on a self-made dataset. Notably, under the same number of iterations, the YOLOv11-AP2S model achieved higher mAP50 values and lower losses, demonstrating its superiority in detection performance. This indicated that the YOLOv11-AP2S model strikes a good balance between learning speed and network performance, enabling it to efficiently and accurately detect images of floating extruded feed on the water surface. Furthermore, the YOLOv11-AP2S model's ability to handle complex detection scenarios, such as overlapping and adhesion of feed particles and occlusion by bubbles, was noteworthy. These capabilities were crucial for accurate detection in practical aquaculture environments, where such challenges were common and can significantly impair the performance of traditional detection systems. The improvements in detection accuracy and efficiency made the YOLOv11-AP2S model a valuable tool for intelligent feeding systems in aquaculture, as it could provide more reliable and timely information on fish feeding behavior. Additionally, the introduction of the P2 layer and the use of the lightweight VoV-GSCSP module for feature fusion at this layer contributed to the model's overall performance. These enhancements enabled the model to maintain high detection accuracy while keeping computational costs and resource consumption within manageable limits. This was particularly important for real-time applications in aquaculture, where both accuracy and efficiency were critical for effective feeding management. [Conclusions] The successful application of the YOLOv11-AP2S model in detecting floating extruded feed particles demonstrates its potential to intelligent feeding systems in aquaculture. By providing accurate and timely information on fish feeding behavior, the model can help optimize feeding strategies, reduce feed waste, and improve the overall efficiency and profitability of aquaculture operations. Furthermore, the model's ability to handle complex detection scenarios and maintain high detection accuracy while keeping computational costs within manageable limits makes it a practical and valuable tool for real-time applications in aquaculture. Therefore, the YOLOv11-AP2S model holds promise for wide application in intelligent aquaculture management, contributing to the sustainability and growth of the aquaculture industry.

Cite this article

ZHOU Xiushan , WEN Luting , JIE Baifei , ZHENG Haifeng , WU Qiqi , LI Kene , LIANG Junneng , LI Yijian , WEN Jiayan , JIANG Linyuan . Real-time Detection Algorithm of Expanded Feed Image on the Water Surface Based on Improved YOLOv11[J]. Smart Agriculture, 2024 , 6(6) : 155 -167 . DOI: 10.12133/j.smartag.SA202408014

0 引 言

在鱼群摄食过程中,受养殖环境和鱼群行为的影响,养殖水体中漂浮的膨化饲料在视频图像中的特征在不断地发生变化。目前,检测鱼群摄食行为的热门研究方法主要是机器视觉技术,该技术通过对采集到的水面膨化饲料视频或者图像来分析鱼群摄食行为特征 1。通过摄像机等光学成像设备采集,可以捕捉水面膨化饲料的图像信息,再结合深度学习的相关模型,监测养殖水体表面膨化饲料颗粒数量的变化情况,进而分析出鱼群的摄食强度。但在实际的水产养殖环境中,影响水面膨化饲料成像质量的主要原因有以下几点:第一,残留饲料和鱼群排放的粪便引起养殖水体浑浊,导致图像中水面膨化饲料与背景对比不明显;第二,光照不均匀导致水面膨化饲料受光面不清晰;第三,鱼群抢食行为引起的水花导致饲料的重叠和粘连 1;第四,增氧设备产生的气泡包裹水面膨化饲料,导致饲料成像被遮挡。所以,当涉及通过机器视觉技术检测水面膨化饲料信息以分析鱼群的摄食情况时,存在背景干扰和鱼群行为变异等挑战 2
目前,深度学习算法在直接或间接地分析鱼群摄食行为中具有显著的准确度优势。这些算法利用深度神经网络架构,如卷积神经网络(Convolutional Neural Networks, CNN) 3和循环神经网络(Recurrent Neural Network, RNN) 4,能够从图像或视频数据中学习鱼群的摄食行为模式 5。在饲料检测方面,Hu等 6提出一种使用改进的YOLOv4(You Only Look Once Version 4)网络的水产养殖未食用饲料颗粒检测模型,该网络的检测精度优于原有的YOLOv4网络,平均精度(Average Precision, AP)从65.40%提高到92.61%(交集比联合为0.5时)。在摄食行为分析方面,冯双星 7提出一种3DResNet-GloRe算法,通过捕捉水面水花、纹理等特征,判断鱼群的摄食行为,准确率达到99.62%;张佳林等 8基于真实工厂化水产养殖环境以大西洋鲑鱼为对象提出一种鱼类摄食行为分类算法,准确率达到89.00%;郭强等 9提出一种分析镜鲤的摄食行为的检测算法,该算法结合了形状和纹理特征,并采用反向传播神经网络(Back Propagation Neural Network, BPNN)进行鱼群摄食行为分类,识别正确率达到98.00%;Yang等 10, 11提出了BlendMask-VoVNetV2模型和基于efficientNet-B2的双注意网络算法来量化鱼群的摄食行为,模型准确率达到83.70%和89.56%;王鹤榕等 12针对在实际的陆基圆池循环水养殖环境中鱼群摄食图像存在鱼群边界模糊、目标相似等问题,建立鱼群摄食图像分割网络SA_VoVNetv2_RCNN,平均分割精度达71.14%,表明模型能够分析出鱼群是否摄食的行为。在摄食强度识别方面,徐立鸿等 13针对室外养殖环境提出一种基于改进长期卷积循环网络(Long-term Recurrent Convolutional Networks, LRCN)的鱼群摄食强度分类模型,该模型分类准确率达到97.00%;冯双星等 14基于轻量型S3D算法进行改进,对4类摄食强度的识别准确率可达92.68%,识别摄食强度标签的速率达到17 f/s;黄平 15以浮游型鱼类鲤鱼为研究对象,提出了一种基于深度图像的CNN识别方法,以及基于鱼类摄食强度序列数据的循环神经网络识别方法,在鱼群摄食状态的识别上具有良好的时效性;Zhou等 2针对室内循环水养殖环境,提出一种基于CNN和机器视觉的鱼类摄食强度的自动分级方法来评估鱼类的食欲,分级精度达到90%。朱明等 16以鲈鱼为对象提出一种基于轻量级神经网络——MobileNetV3-Smalld1l的鱼群摄食状态分类方法,准确率达到99.60%。郭俊 17根据计算机视觉技术实时跟踪和鱼群摄食声音信号来分析鱼群的摄食规律,采用模糊集理论融合方法,对图像与声音信号融合分析,构成投饵模型,能够准确分析鱼群摄食状态并实现精准投饵。
然而,尽管国内外学者在鱼群摄食行为识别方面已经取得了一些进展,但现有的检测方法仍存在一些不足,如检测精度有待提升、对复杂环境的适应性不强,以及针对饲料颗粒识别研究较少等。因此,本研究致力于对YOLOv11 18算法进行改进,创新性地提出了YOLOv11-AP2S算法,旨在实现对水面漂浮的膨化饲料颗粒的高效且精准识别。YOLOv11-AP2S不仅有望显著提升鱼群摄食行为的检测精确度,更为渔业养殖的精细化管理提供了强有力的技术支撑,有助于推动水产养殖业的绿色、高效与可持续发展。通过研究,期望能够为水产养殖业带来更加智能化、精准化的管理手段,助力行业的转型升级与长远发展。

1 研究材料

1.1 研究对象与采集系统

为实现实时获取水面膨化饲料图像,本研究通过水上摄像机采集水面膨化饲料的图像视频数据。本研究所有数据集均于2024年3月28日—4月3日在广西壮族自治区水产科学研究院水族实验楼渔业工程研究室的智慧渔业实验室获得。数据采集装置如 图1所示,在距离地面2 m的高度安装摄像头,在竖直截面上,摄像头与灯之间的夹角为60°左右,采集水面膨化饲料图像数据。摄像机分辨率为2 560×1 920。为了控制加州鲈鱼的数量、投食量、投喂频率和时间,选择6个规格一致的陆基圆池来养殖相同规格及数量的加州鲈,用来收集养殖水体中水面膨化饲料图像的数据集。陆基圆池的内部直径120 cm,圆池高120 cm,养殖水体水深为100 cm。每个养殖池内分别养殖30尾加州鲈,平均初始质量为(100±5)g/尾,选择海大5号(粒径为8~9 mm)鲈鱼膨化颗粒饲料,试验期间,养殖水体的平均温度为(25±0.6)℃,溶氧8~10 mg/L,每天按1.5%的投喂率分别在10∶00和17∶00投喂,在正式采集数据图像之前,6个养殖池内的加州鲈已经适应性养殖60 d。
图1 水面图像数据采集装置示意图

Fig. 1 Diagram of water surface image data acquisition device

在数据采集之前,对6个养殖池的鱼采取停料24 h处理,之后恢复正常投喂,并在投喂期间实时收集养殖水体膨化饲料颗粒的图像。

1.2 数据集构建

为了实现水面膨化饲料图像特征信息的有效检测与分析,本研究构建并注释了相关数据集。通过使用GitHub上的开源脚本LabelImg( https://github.com/tzutalin/LabelImg)对数据集进行注释。因为使用YOLOv11算法必须使用YOLO格式的数据集上进行训练 19,故将数据集的信息保存为YOLO格式的标注文件(文件名后缀为.txt),其YOLO格式数据一般包含图片路径、图片宽度和高度、物体类别和物体位置信息等。此外,膨化饲料颗粒因其在水面展现出的细小、众多且密集的特性,给研究带来了诸多挑战。具体而言,这些饲料颗粒在图像中呈现出高密度分布、极小目标难以辨识、气泡遮挡严重以及饲料颗粒粘连等问题(如 图2所示)。这些问题极大地增加了数据集标注工作的难度,对准确性和效率都提出了更高要求。因此,在标注过程中,需要采取更为精细和谨慎的方法,以确保标注结果的准确性和可靠性,为后续的研究和分析提供坚实的数据基础。
图2 膨化饲料颗粒在水面的情况示例图

Fig. 2 Illustration of the behavior of expanded feed pellets on the water surface

在预训练的数据集中,前后共采集33个视频数据,按照每2 s提取1张图像,共提取3 379张图像。由于采集图像是在养殖实验室随机采集,对于受光照不足、反光和气泡等严重影响图像质量的照片予以删除,最终筛选出1 765张图像数据集。其中,1 411张用于训练,178张用于测试,176张用于预测,平均每张图像118个对象,共有4 888个注释样本。

2 算法模型

加州鲈鱼摄食速度快且抢食凶猛 20,水面膨化饲料会快速被鲈鱼吞食,因此,本研究将算法的实时性与准确性作为检测算法的首要考量与选择标准。YOLOv11相较于YOLOv8的变化,虽然在某些方面看似不大,但实际上在检测精度和速度实现了显著提升。YOLOv11在多个模型尺寸,如纳米(Nano)、小型(Small)、中型(Medium)、大型(Large)以及超大型(Extra-large)上均表现出比YOLOv8更高的平均精度均值(Mean Average Precision, mAP)。除此之外,YOLOv11在分类检测头中插入了两个深度可分离卷积(Depthwise Convolution, DWConv),使得模型在保持高精度的同时,能够更高效地利用计算资源,减少延迟和功耗。

2.1 YOLOv11

YOLOv11的模型架构由骨干网络、颈部架构和头部网络3部分组成,共同实现了高效且准确的目标检测。YOLOv11的骨干网络的核心是C3k2模块,这是早期版本中引入的跨阶段部分(Cross Stage Partial, CSP)瓶颈的演变。C3k2模块能够优化网络中的信息流,是因为其内部拥有较小的核卷积,在保留基本图像特征处理能力的同时,相较于较大的核卷积,较小的核卷积处理更快、计算成本更低。颈部架构将骨干网络与系统的其余部分连接起来,收集和组合来自图像不同部分的信息。YOLOv11的颈部架构包含了如C3k2模块、快速-空间金字塔池化层(Spatial Pyramid Pooling-Fast, SPPF)模块和C2PSA机制等组件。其中,SPPF模块旨在以不同的比例池化来自图像不同区域的特征,提高了网络捕获不同大小物体(尤其是小物体)的能力。C2PSA机制是C2机制内部嵌入了1个多头注意力机制,能够提高模型对特征的敏感度和准确性,使之更准确地捕捉到目标的细节特征。YOLOv11使用多尺度预测头来检测不同大小的物体。YOLOv11在分类检测头中插入两个DWConv可以大幅度减少参数量和计算量。检测头根据图像中不同的粒度水平输出3个特征图的预测结果,以确保以更精细的细节检测到较小的物体。
YOLOv11模型引入了创新的C3k2网络架构及优化的损失函数,确保了对水面饲料颗粒这类微小且形态多变目标的准确捕捉,使得YOLOv11成为水面膨化饲料颗粒实时检测任务中的理想选择。

2.2 Slim-neck检测器

在水产养殖智能投喂系统中,水面膨化饲料的精准检测至关重要,这不仅要求检测精度达到高标准,还必须确保精确度满足严苛要求。然而,大型模型往往难以兼顾实时检测的需求。为此,Li等 21提出了一种名为GSConv的新方法,并配套设计了Slim-neck范式,实现了在保持高精度检测的同时,显著降低计算复杂度,缩短了推理时间。
Slim-neck检测器主要包括GSConv、GS bottleneck和VoV-GSCSP模块。其中,GSConv作为一种轻量级卷积方法,通过精简冗余信息和压缩不必要的重复信息,有效降低了计算复杂度,同时巧妙地保留了通道间的隐藏连接,确保了模型的准确性不受影响。GS bottleneck则是基于GSConv的增强型模块,旨在提升特征的非线性表达能力和信息的复用效率。这一设计进一步增强了模型的特征提取能力,为高精度检测提供了有力支持。VoV-GSCSP模块则采用了独特的一次性聚合方法,如 图3所示。 图3a是GS Bottleneck模块的结构图, 图3b— 图3d分别是VoV-GSCSP的三种设计结构,其中 图3b结构简单直接,推理速度更快,而 图3c和 图3d则具有更高的特征复用率。在本文中,采用的是VoV-GSCSP1这一设计方案。其中,该模块不仅降低了计算成本,还保持甚至提高了模型的学习能力。
图3 VoV-SCSP模块结构图

a.GS bottleneck模块 b.VoV-SCSP1模块 c.VoV-SCSP2 模块 d.VoV-SCSP3模块

Fig. 3 VoV-SCSP module structure diagram

通过将这些模块集成到改进的YOLOv11算法中,并应用Slim-neck范式下的VoV-GSCSP模块,该系统成功实现了在保持高精度检测的同时,大幅提升模型的实时性能。

2.3 P2小目标检测层

本模型的输入图像像素大小为640×640。在最小的检测尺寸像素为80×80的情况下,模型对每个网络进行检测,并能在8×8像素的尺度上获得相应的感受野。然而,对于水面膨化饲料这样的小目标对象而言,它们通常具有特征少、语义特征不明显的问题,并且在不断地卷积过程中,这些特征很容易因为卷积操作的特性而被逐渐削弱甚至淹没。特别地,在P3检测头中,其特征层的大小被调整为[80,80],这意味着与原始的输入特征图尺寸[640,640]相比,特征图在空间维度上经过了8倍的下采样,即特征图的宽度和高度都被缩小到了原来的1/8。这意味着,随着卷积操作的深入,特别是针对像水面膨化饲料这样的小目标对象,其特征在P3检测头处可能已经被进一步下采样到小于[4,4]的尺度。由于特征图的尺寸过小,导致包含的有效特征信息大大减少,这给小目标的检测带来了极大的挑战。因此,P3检测头在检测小目标对象时,由于特征信息的不足,其检测能力会受到影响,表现为检测效果不佳。Chen等 22对小目标做了如下定义:目标边界框的宽高与图像的宽高比例小于一定值,较为通用的比例值为0.1。如 图4所示,在YOLO格式的目标检测数据集中,本研究的水面膨化饲料颗粒的标记框的比例值范围在[0.00,0.10],属于极小目标对象。更需要在P2层增加1个检测头,以提高对小目标的检测能力。因此,通过增加P2小目标检测层,即在原始模型的基础上新增1个检测特征图层,图像像素大小为160×160,可以更有效地处理小目标的检测,提高检测效果。
图4 水面图像中饲料颗粒的标记框的比例值

Fig. 4 The proportional value of bounding boxes for feed particles in water surface images

2.4 细粒度分类的注意力机制(AFGC)

细粒度分类的注意力机制(Attention for Fine-Grained Categorization, AFGC) 23是一种专门用于处理细粒度分类任务的注意力机制,它能够帮助模型更加准确地捕捉和区分具有细微差异的对象特征。在水产养殖中,膨化饲料作为重要的养殖投入品,其种类、形状、大小以及在水中的状态等特征都可能对养殖效果产生影响。因此,利用AFGC机制对水面膨化饲料进行精准检测,对于提高养殖效率和效果具有重要意义。
AFGC机制能够通过对水面膨化饲料的图像进行深度学习和特征提取,准确识别出饲料的种类、形状、大小等关键特征,这有助于智能投喂系统根据养殖生物的需求,选择合适的饲料进行投喂,从而提高饲料的利用率和养殖效果。此外,AFGC机制能够实时监测膨化饲料在水中的状态,如是否漂浮、是否溶解等,这对于及时发现和解决饲料投喂过程中的问题具有重要意义,如饲料漂浮可能导致饲料浪费和水质污染,而饲料溶解过快则可能影响养殖生物的摄食效果。AFGC机制还能够对膨化饲料的异常情况进行检测和预警,如饲料变质、污染等。这有助于养殖户及时采取措施,避免对养殖生物造成不良影响,从而提高养殖的安全性和稳定性。

2.5 算法模型

为增进水面膨化饲料图像检测算法的精确度,提出一种改进YOLOv11的网络模型——YOLOv11-AP2S,其网络结构如 图5所示。该模型主要在YOLOv11算法的基础上改进骨干网络(Backbone)、颈部(Neck)和头部(Head)部分。具体改进如下。
图5 YOLOv11-AP2S模型整体网络结构示意图

a. YOLOv11-AP2S模型网络结构 b. C3k2模块网络结构

Fig. 5 The overall network architecture diagram of the YOLOv11-AP2S model

2.5.1 骨干网络(Backbone)

YOLOv11作为YOLO系列的最新成员,已经在目标检测任务中展现了卓越的性能。然而,在细粒度分类任务中,尤其是当需要区分具有细微差异的对象时,模型的性能仍有提升空间。AFGC模块作为一种专注于细粒度分类的注意力机制,能够增强模型对关键特征的捕捉能力,从而提高分类的准确性。AFGC模块的核心在于其注意力机制,该机制能够自动地关注图像中的关键区域,并提取出对分类任务有用的特征。与传统的注意力机制相比,AFGC更加注重对细粒度特征的捕捉和区分。它可能包含多个子模块,如特征提取、注意力分数计算、特征加权等,以实现对图像中关键特征的精准定位。
图5所示,在YOLOv11的骨干网络的第10层C2PSA后增加AFGC模块,是一个旨在提升模型对细粒度特征捕捉能力的创新尝试。在YOLOv11的骨干网络中,第10层C2PSA是一个关键的特征提取层。C2PSA模块通过结合通道和空间信息提供更有效的特征提取,并为后续的注意力机制提供了丰富的特征表示。此外,在C2PSA后增加AFGC模块,可以充分利用C2PSA提取的特征,并通过AFGC的注意力机制进一步提炼关键信息。
增加AFGC模块后,需要对模型的参数进行调整和优化,以确保模型的性能不会因新增模块而下降。在此需要根据应用场景调整学习率、优化器、正则化参数等,以及进行充分的训练和验证,以确保模型的稳定性和准确性。通过在YOLOv11的骨干网络中增加AFGC模块,预期能够提升模型对细粒度特征的捕捉能力,从而提高在细粒度分类任务中的性能。

2.5.2 颈部(Neck)

C3k2模块是YOLO系列网络中常用的一个特征提取模块,通过卷积操作和残差连接来提取图像特征。该模块通常包含多个卷积层,以及可能的批归一化(Batch Normalization)和ReLU激活函数等组件。为了进一步增强网络的特征提取性能,采用VoV-GSCSP模块来代替C3k2模块。这一替换策略的依据在于,VoV-GSCSP模块融合了更为复杂的特征提取和融合机制,如全局上下文感知(Global Spatial Context Perception)、跨尺度特征融合(Cross-scale Feature Fusion)等先进技术 24,从而有望实现更出色的特征表示能力。具体改进内容如 图5a中的Neck部分所示,原为C3k2模块位置均替换为VoV-GSCSP模块。
P2小目标检测层是专为检测图像中的小目标而设计的。在目标检测任务中,小目标的检测通常更具挑战性,因为他们可能只占据图像中的一小部分区域,且特征不明显。P2层利用特征金字塔网络(Feature Pyramid Network, FPN)或其他多尺度特征融合技术,从多个尺度上提取和融合特征,以更好地捕捉小目标的特征信息。增加P2小目标检测层后,网络对小目标的检测能力可能会得到显著提升。同时,由于P2层可能需要额外的计算资源和内存,因此也需要考虑对模型整体性能和资源消耗的影响。此外,为了保持模型的实时性,在P2层使用轻量级的VoV-GSCSP模块进行特征融合策略。详细改进部分如 图5a中的Neck部分所示。
综上所述,将C3k2模块替换为VoV-GSCSP模块并增加P2小目标检测层是一个旨在提升YOLOv11网络特征提取能力和小目标检测能力的有益尝试。然而,在实施这些改动时,也需要充分考虑模型的复杂度、计算量和实时性等因素,并进行相应的优化和调整。

2.5.3 头部(Head)

在YOLOv11的基础上增加P2层可以提供更高分辨率的特征图,从而更好地捕捉小目标的细节特征。但P2层提供的高分辨率特征图与原始YOLOv11中其他尺度的特征图不同。为了充分利用这些高分辨率特征,需要一个专门的检测头来处理这些特征图,并输出针对小目标的检测结果。不同的检测头可能采用不同的检测策略,如锚框(Anchor Box)的尺寸和比例、分类器的设计等。针对小目标的检测,可能需要更密集的锚框、更精细的分类器等,以更好地适应小目标的特征。虽然增加一个检测头会增加一定的计算量,但考虑小目标检测的复杂性和重要性,这种增加是值得的。同时,可以通过优化检测头的结构和参数来减少计算资源的消耗。
图6所示,额外检测头的网络在结构上与原始YOLOv11中的检测头相似,包括残差块CBS (Cross-stage-partial Network(CSP)Block)和DSC(Dynamic Snake Convolution)和卷积层,但其内部需要根据P2层提供的特征图进行调整。例如,参数需要根据具体任务和数据集进行调整。调整锚框的尺寸和比例以更好地匹配小目标的特征,或者调整分类器的参数以提高分类的准确性。另外,在训练过程中,需要确保额外检测头能够充分学习到小目标的特征。还需要使用更多的训练数据、更长的训练时间或更复杂的训练策略。同时,也需要对模型进行充分的验证和测试,以确保其在实际应用中的性能。
图6 Detect模块结构图

Fig. 6 Detect module structure diagram

2.6 模型参数设置与评价指标

本研究中的算法模型在硬件与参数设置上均经过精心配置,具体详情如 表1所示。硬件上采用了高性能的Intel(R) Core(TM) i7-12700H处理器,其卓越的性能为系统的快速运行奠定了坚实基础。同时,系统配备了16 GB的运行内存,确保了在处理庞大数据集时能够保持流畅无阻。为了进一步提升深度学习算法的运行效率,选用了NVIDIA GeForce RTX 4060 Laptop GPU,其显存容量高达8 GB,强大的图形处理能力为深度学习算法的高效运行提供了有力支撑。
表1 鱼群摄食行为检测研究的训练环境

Table 1 Training environment for fish shoal foraging behavior detection research

配置 名称 详细信息
硬件 CPU Intel(R)Core(TM)i7-12700H
运行内存 16 G
GPU NVIDIA GeForce RTX 4060 Laptop GPU
显存 8 G
软件 OS Windows11
Python 3.8.20
CUDA 12.1
深度学习框架 Pytorch 1.11.0
Batch size 4
Learning 0.001
Epoch_max 250
在软件配置上安装了Windows 11操作系统,为用户提供了一个既稳定又高效的运行环境。编程语言方面,选择了主流的Python 3.8.20版本,其丰富的库和工具支持为系统开发和算法实现提供了极大的便利。此外,还配置了CUDA 12.1版本,通过优化GPU的运算性能,显著加速了深度学习模型的训练和推理过程。为了构建鱼群摄食行为检测系统,采用了Pytorch 1.11.0深度学习框架,该框架提供了多样化的神经网络模型和高效的计算接口,为项目的成功开发提供了坚实的支持。
在参数设置上,为了确保模型能够充分学习并达到理想的检测效果,将Batch size设定为4,学习率设置为0.001,并设定了最大迭代次数(Epoch_max)为250次。这些参数的精心配置,旨在确保算法模型能够在训练过程中获得最佳的性能表现。
本研究采用了多个评价指标来评估模型性能,包括精确率(Precision, P)、召回率(Recall, R)、交并比(Intersection over Union, IoU)阈值为0.5时的mAP、 F 1分数、每秒十亿次浮点运算(Giga Floating-Point Operations Per Second, GFLOPs)和每秒帧率 (Frames per Second, FPS) 25。mAP50是指在IoU阈值为0.5时,模型在所有类别上的mAP,是目标检测领域中的一个核心评估指标,能够综合反映 PR、IoU和AP这4个度量指标的性能。GFLOPs作为衡量计算机浮点运算能力的一个重要单位,可以更好地评估计算设备的性能,并选择合适的硬件和算法来满足特定应用场景的需求。FPS是用于评价YOLO算法处理速度的指标,表示每秒处理的图像帧数。对于实时性要求高的场景,如自动驾驶、鱼群摄食等领域,需要快速响应突发情况时更侧重于FPS这一性能指标。高FPS值意味着YOLO算法模型能够更快速地检测目标物体。

3 结果与分析

3.1 消融实验

为了验证每种改进策略的有效性,在保持训练环境参数一致下,本研究设计了在自建数据集下改进YOLOv11模型的消融实验,其实验结果对比如 表2所示。
表2 改进YOLOv11模型检测水面膨化饲料的消融实验结果对比

Table 2 Comparison of ablation experiment results for improved YOLOv11 model of surface extruded feed detection

序号 AFGC P2层 Slim-neck P/% R/% mAP50/% F 1分数/% GFLOPs/G FPS/(帧/s)
1 × × × 72.00 69.70 70.60 71.00 6.4 53.20
2 × × 72.10 70.40 71.60 71.00 6.3 51.10
3 × × 78.00 78.70 79.40 78.00 10.3 43.80
4 × × 77.40 78.90 78.90 78.00 5.9 45.10
5 × 78.60 78.00 79.80 78.00 10.3 42.50
6 × 72.00 70.20 70.80 71.00 6.0 44.30
7 × 77.70 78.50 79.50 78.00 10.0 36.90
8 78.70 78.70 80.00 79.00 10.0 38.30

注:√表示使用该模块;×表示不使用该模块。

根据 表2的数据,可以得出以下结论。首先,引入AFGC注意力机制后,模型的性能得到了显著提升。具体而言, PR分别提高了0.1个百分点和0.7个百分点,同时mAP50也实现了1.0个百分点的小幅度增长。 F 1分数不变,模型的运算量有所减少,具体表现为减小了0.1的GFLOPs,其FPS也相应降低了2.1 s。其次,通过增加P2小目标检测层,与原YOLOv11模型相比,模型的检测性能有了显著提升。 P增加了6.0个百分点, R提高了9.0个百分点,mAP50显著增长了8.8个百分点。此外, F 1分数也增加了7.0个百分点,FPS下降了9.4 s,模型的实时性、精确度得到了大幅提升。最后,本研究提出的YOLOv11-AP2S模型,是对原YOLOv11网络进行多项优化后的结果。具体包括将C3k2模块替换为VoV-GSCSP模块,增加P2小目标检测层,以及在骨干部分增加AFGC注意力机制。与原YOLOv11网络相比,改进后的YOLOv11-AP2S模型在识别 PR上均达到了78.70%,mAP50高达80.00%, F 1分数也达到了79.00%。这些指标分别提高了6.7个百分点、9.0个百分点、9.4个百分点和8.0个百分点,显示出显著的改进效果。尽管GFLOPs值达到了10.0 G,在计算量上有所增加,但FPS为38.30 s,仍能满足大多数实时应用场景的需求,其实时性表现依然值得肯定。

3.2 与其他模型的性能比较

为验证本研究改进模型在实时检测水面膨化饲料图像效果上的优越性,确保验证试验的严格性,数据集和训练参数保持一致,对比几种检测网络YOLOv3-tiny 26、YOLOv5、YOLOv6 27、YOLOv8、YOLOv11和本研究提出的YOLOv11-AP2S模型的实验效果。对比实验效果如 表3所示。
表 3 不同模型在自制数据集上的水面膨化饲料检测结果对比

Table 3 Comparison of detection results among different models on a self-made dataset of surface extruded feed detection

模型 P/% R/% mAP50/% F 1分数/% GFLOPs/G FPS/(帧/s)
YOLOv3-tiny 41.40 37.20 41.30 43.30 19.0 153.82
YOLOv5 71.90 69.40 70.80 71.00 7.2 111.85
YOLOv6 18 71.50 66.70 67.80 70.50 11.9 146.01
YOLOv8 71.30 80.00 71.30 72.00 8.2 92.50
YOLOv11 82.30 81.00 70.60 71.00 6.4 53.20
YOLOv11-AP2S 78.70 78.70 80.00 79.00 10.0 38.30
表3中可以看出,在mAP50方面,YOLOv11-AP2S模型的表现显著优于原YOLOv11模型。YOLOv11-AP2S的mAP50达到了80.00%,而YOLOv11的mAP50为70.60%。与YOLOv11相比,提高了9.4个百分点。此外,YOLOv11-AP2S模型在 PRF 1分数方面也表现出良好的性能。尽管它的帧率(FPS)和计算复杂度(GFLOPs)与原YOLOv11模型相比有所权衡(即帧率降低,计算复杂度增加),但考虑到mAP50的显著提升,这种权衡可以接受,特别是在对检测精度有较高要求的水面膨化饲料图像检测任务中。
综上所述,本研究提出的方法(即YOLOv11-AP2S模型)在应对水面膨化饲料图像检测上具有明显优势,相比原YOLOv11模型在mAP50上提高了9.4个百分点。改进YOLOv11算法与其他YOLO模型相比具有更好的检测性能。
为更直观评价改进模型的检测效果,展示了各模型在自建数据集上的评价指标结果。具体而言, 图7呈现了不同网络模型在训练过程中50%的IoU阈值下计算的mAP值和损失随迭代次数的变化情况。这一图表旨在通过直观的视觉展示,帮助读者更好地理解各模型在训练过程中的性能表现。由 图7可以清晰地观察到YOLOv11-AP2S模型在训练过程中的优势。随着迭代次数的增加,YOLOv11-AP2S模型的AP均值逐渐上升,同时损失逐渐下降,这表明模型在不断地学习和优化。与其他网络模型相比,YOLOv11-AP2S模型在相同的迭代次数下通常具有更高的mAP和更低的损失,从而证明了其在检测效果上的优越性。即说明YOLOv11-AP2S很好地平衡了群里学习的速度和网络的性能,使得模型可以更好地完成水面膨化饲料图像的检测。
图7 不同模型在自建数据集上的水面膨化饲料检测评价指标的结果对比

Fig. 7 Comparison of evaluation metrics results for different models on a self-constructed dataset of surface extruded feed detection

本研究提出YOLOv11-AP2S模型在自建数据集上的可视化结果与其他YOLO模型对比如 图8所示。从检测结果来看,第1行为饲料量较多的图像,第2行为饲料为中等的图像,第3行为饲料较少的图像, 图8中矩形框框起部分为明显漏检部分,圆形框为误检部分。总体来看,本研究提出的模型能够检测绝大部分的目标,而其他算法则存在各种不同的错误。
图8 不同模型在自建数据集上的检测结果可视化对比

注:第1行和第2行图像中的矩形框为模型漏检的区域;第1行、第2行和第3行的圆形框为误检的区域。

Fig. 8 Visual comparison of detection results on a self-built dataset among different models

4 讨论与结论

4.1 讨论

机器视觉技术以其无损、成本低、使用方便等优点成为饲料检测研究的热点。该技术通过捕捉鱼摄食过程中的图像信息,能够精准地检测饲料量,并进一步分析鱼类的活动强度,从而为决定是否继续投喂提供科学依据,最终实现鱼类的智能化投喂管理。本研究通过实验验证,YOLOv11-AP2S展现出以下优势:(1)该模型对目标图像具有高速和高精度检测能力,能够实时捕捉水面膨化饲料的图像特征,并即时提供检测结果,这对于及时了解和调整鱼群的摄食状况至关重要。(2)原YOLOv11自带的C3k2模块能够实现对不同尺度信息的特征融合。在通过水面膨化饲料图像间接分析鱼群摄食行为的检测过程中,鱼群和饲料颗粒的大小和密度会随着鱼群的生长而有所变化。通过多尺度特征融合,YOLOv11-AP2S能够更好地适应不同尺度的鱼群和饲料颗粒,从而提高了检测的鲁棒性。(3)YOLOv11-AP2S的网络结构具有灵活性,可以根据具体问题进行网络结构的优化,以提升水面膨化饲料检测的精度和效果。这一特点使得该算法在实际应用中具有更强的适应性和实用性。为了更直观地展示本研究方法与现有基于机器视觉的饲料检测方法的差异与优势, 表4特地对两者进行了详尽的对比分析。
表4 YOLOv11-AP2S模型与现有基于机器视觉的饲料检测方法对比

Table 4 Comparison between the present study's method and existing machine vision-based feed detection methods

文献 图像处理 检测方法 功能 结果
Hu等 6 图像和数据增强 基于改进的YOLOv4网络的检测模型 水下图像中漏斗饲料颗粒的实时检测 mAP50:92.61%
Li等 28 直方图拟合 分割馈源的自适应阈值方法 在水下发现未食用的鱼类食物

TPR:80.00%~95.90%

FPR:<2.7%

Gao和Xu 29 图像去除、图像建立和图像增强 基于个体颗粒面积的轮廓识别和饲料颗粒数量估计的阈值方法 标识和计数剩余提要 相对误差:大约10%
Hou等 30 图像调整尺寸 改进的多列卷积神经网络的检测方法 检测进料颗粒

MAE:2.32

MSE:3.00

Wang等 31 用于检测未食用饲料颗粒的多任务卷积神经网络 分析养殖鱼类的摄食活性,监测未食用饲料颗粒的数量,并进行动态调整饲养

MAE:4.80

MSE:6.75

YOLOv11-AP2S 基于改进的YOLOv11网络的检测模型 水面膨化饲料颗粒的实时检测 mAP50:80.00%

注: —代表无操作。

根据 表4可知,Hu等 6使用了一种基于改进的YOLOv4模型的饲料检测方法,该方法专注于水下图像中漏斗饲料颗粒的检测。该方法在实际应用中取得了92.61%的mAP50值,表现相当出色。然而,其他现有方法的表现则相对逊色。Li等 28使用直方图拟合方法对水下图像进行图像处理,然后使用分割馈源的自适应阈值方法对目标对象检测,其TPR值达到80.00%~95.90% 。Cao和Xu 29使用了一种基于轮廓识别和饲料颗粒标识的方法,旨在标识和计数剩余饲料。尽管该方法在图像增强方面做了一些努力,但其检测精度的相对误差较大。此外,Hou等 30和Wang等 31也分别采用了深度学习的检测方法。Hou等 30的方法侧重于检测进料颗粒,并分析了养殖鱼类的摄食活性。然而,其MSE值为3.00%,表明检测精度有待提高。Wang等 31的方法则旨在检测未食用饲料颗粒的数量,并进行动态调整饲养。尽管该方法在理论上具有一定优势,但其MSE值高达6.75%,说明在实际应用中仍存在较大误差。相比之下,本研究提出的YOLOv11-AP2S模型则表现出更高的检测精度。该方法使用了YOLOv11网络的检测模型,专注于水面膨化饲料颗粒的实时检测。通过优化模型结构和参数,该方法在实际应用中取得了80.00%的检测精度,显著优于其他现有方法。
综上所述,本研究提出的YOLOv11-AP2S模型在饲料检测方面具有较高的准确性和实时性,为渔业养殖提供了更加精准的管理和指导。然而,需要注意的是,不同养殖环境和饲料类型可能对检测方法产生不同影响,因此在实际应用中还需根据具体情况进行进一步优化和调整。

4.2 结论

本研究不仅在技术层面取得了明显突破,更在水产养殖的智能化管理应用实践中展现了重要价值。
从技术层面分析,YOLOv11-AP2S模型在保持高效处理速度的同时,明显提升了检测精度,这得益于P2层的引入,显著优化了对小目标的检测能力,使得模型能够捕捉到更细微的图像特征。同时,AFGC机制和Slim-neck的VoV-GSCSP的融入,进一步增强了模型在处理多尺度信息时的注意力分配能力,使得模型在复杂环境中依然能够保持稳定的检测性能和更强的鲁棒性。
从应用层面来看,YOLOv11-AP2S模型的成功应用,为水产养殖业的智能化转型提供了强有力的技术支撑。通过实时、准确地检测水面膨化饲料的剩余情况,帮助养殖户可以更加精准地掌握鱼群的摄食需求,从而实现按需投喂,减少浪费,提高饲料利用率。这不仅有助于降低养殖成本,提高经济效益,还能够减少对水环境的污染,促进水产养殖业的可持续绿色发展。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
张镇府. 基于机器视觉的圈养鲈鱼智能决策投饵系统的研究[D]. 武汉: 华中农业大学, 2022.

ZHANG Z F. Research on intelligent decision-making feeding system for cage-cultured seabass based on machine vision[D]. Wuhan: Huazhong Agricultural University, 2022.

2
ZHOU C, XU D M, CHEN L, et al. Evaluation of fish feeding intensity in aquaculture using a convolutional neural network and machine vision[J]. Aquaculture, 2019, 507: 457- 465.

3
KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, Pennsylvania, USA: Association for Computational Linguistics, 2014: 1746- 1751.

4
LIPTON Z C. A critical review of recurrent neural networks for sequence learning[EB/OL]. arXiv: abs/1506.00019, 2015.

5
杨锋, 姚晓通. 基于改进YOLOv8的小麦叶片病虫害检测轻量化模型[J]. 智慧农业(中英文), 2024, 6( 1): 147- 157.

YANG F, YAO X T. Lightweighted wheat leaf diseases and pests detection model based on improved YOLOv8[J]. Smart agriculture, 2024, 6( 1): 147- 157.

6
HU X L, LIU Y, ZHAO Z X, et al. Real-time detection of uneaten feed pellets in underwater images for aquaculture using an improved YOLO-V4 network[J]. Computers and electronics in agriculture, 2021, 185: ID 106135.

7
冯双星. 基于深度学习的鱼类摄食强度探测与智能投喂系统研究[D]. 南宁: 广西大学, 2022.

FENG S X. Deep learning based fish feeding intensity detection and intelligent feeding system[D]. Nanning: Guangxi University, 2022.

8
张佳林, 徐立鸿, 刘世晶. 基于水下机器视觉的大西洋鲑摄食行为分类[J]. 农业工程学报, 2020, 36( 13): 158- 164.

ZHANG J L, XU L H, LIU S J. Classification of Atlantic salmon feeding behavior based on underwater machine vision[J]. Transactions of the Chinese society of agricultural engineering, 2020, 36( 13): 158- 164.

9
郭强, 杨信廷, 周超, 等. 基于形状与纹理特征的鱼类摄食状态检测方法[J]. 上海海洋大学学报, 2018, 27( 2): 181- 189.

GUO Q, YANG X T, ZHOU C, et al. Fish feeding behavior detection method based on shape and texture features[J]. Journal of Shanghai ocean university, 2018, 27( 2): 181- 189.

10
YANG L, CHEN Y Y, SHEN T, et al. A BlendMask-VoVNetV2 method for quantifying fish school feeding behavior in industrial aquaculture[J]. Computers and electronics in agriculture, 2023, 211: ID 108005.

11
YANG L, YU H H, CHENG Y L, et al. A dual attention network based on efficientNet-B2 for short-term fish school feeding behavior analysis in aquaculture[J]. Computers and electronics in agriculture, 2021, 187: ID 106316.

12
王鹤榕, 陈英义, 柴莹倩, 等. 融合VoVNetv2和置换注意力机制的鱼群摄食图像分割方法[J]. 智慧农业(中英文), 2023, 5( 4): 137- 149.

WANG H R, CHEN Y Y, CHAI Y Q, et al. Image segmentation method combined with VoVNetv2 and shuffle attention mechanism for fish feeding in aquaculture[J]. Smart agriculture, 2023, 5( 4): 137- 149.

13
徐立鸿, 黄薪, 刘世晶. 基于改进LRCN的鱼群摄食强度分类模型[J]. 农业机械学报, 2022, 53( 10): 236- 241.

XU L H, HUANG X, LIU S J. Recognition of fish feeding intensity based on improved LRCN[J]. Transactions of the Chinese society for agricultural machinery, 2022, 53( 10): 236- 241.

14
冯双星, 王丁弘, 潘良, 等. 基于轻量型 S3D 算法的鱼类摄食强度识别系统设计与试验[J]. 渔业现代化, 2023, 50( 3): 79- 86.

FENG S X, WANG D H, PAN L, et al. Implementation of fish feeding intensity identification system using light- weight S3D algorithm[J]. Fishery modernization, 2023, 50( 3): 79- 86.

15
黄平. 基于深度学习的鱼类摄食行为识别及精准养殖研究[D]. 南宁: 广西大学, 2022.

HUANG P. Research on fish feeding behavior recognition and precision culture based on deep learning[D]. Nanning: Guangxi University, 2022.

16
朱明, 张镇府, 黄凰, 等. 基于轻量级神经网络MobileNetV3-Small的鲈鱼摄食状态分类[J]. 农业工程学报, 2021, 37( 19): 165- 172.

ZHU M, ZHANG Z F, HUANG H, et al. Classification of perch ingesting condition using lightweight neural network MobileNetV3-Small[J]. Transactions of the Chinese society of agricultural engineering, 2021, 37( 19): 165- 172.

17
郭俊. 基于图像与声音信息的养殖鱼群摄食规律与投饵技术研究[D]. 宁波: 宁波大学, 2018.

GUO J. Research on feeding patterns and bait technology of fish culture based on information of image and sound[D]. Ningbo: Ningbo University, 2018.

18
KHANAM R, HUSSAIN M. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 2410. 17725. 2024.

19
刘杨. 基于深度学习的水下残饵检测方法研究与实现[D]. 扬州: 扬州大学, 2021.

LIU Y. Research and realization on underwater uneaten feed pellets detection method based on deep learning[D]. Yangzhou: Yangzhou University, 2021.

20
ZHAO H S, SHI J P, QI X J, et al. Pyramid scene parsing network[EB/OL]. arXiv: 1612.01105, 2017.

21
LI H L, LI J, WEI H B, et al. Slim-neck by GSConv: A lightweight-design for real-time detector architectures[J]. Journal of real-time image processing, 2024, 21( 3), ID 62.

22
CHEN C Y, LIU M Y, TUZEL O, et al. R-CNN for small object detection[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2017: 214- 230.

23
SERMANET P, FROME A, REAL E. Attention for fine-grained categorization[EB/OL]. arXiv: 1412.7054, 2015.

24
周华平, 宋明龙, 孙克雷. 一种轻量化的水下目标检测算法SG-Det[J]. 光电子·激光, 2023, 34( 2): 156- 165.

ZHOU H P, SONG M L, SUN K L. SG-Det: A lightweight underwater image target detection method[J]. Journal of optoelectronics·laser, 2023, 34( 2): 156- 165.

25
徐彦威, 李军, 董元方, 等. YOLO系列目标检测算法综述[J]. 计算机科学与探索, 2024, 18( 9): 2221- 2238.

XU Y W, LI J, DONG Y F, et al. Survey of development of YOLO object detection algorithms[J]. Journal of frontiers of computer science and technology, 2024, 18( 9): 2221- 2238.

26
ADARSH P, RATHI P, KUMAR M. YOLO v3-Tiny: Object Detection and Recognition using one stage improved model[C]// 2020 6th International Conference on Advanced Computing and Communication Systems (ICACCS). Piscataway, New Jersey, USA: IEEE, 2020: 687- 694.

27
LI C, LI L, et al. YOLOv6: A single-stage object detection framework for industrial applications[EB/OL]. arXiv: 2209.02976, 2022.

28
LI D W, XU L H, LIU H Y. Detection of uneaten fish food pellets in underwater images for aquaculture[J]. Aquacultural engineering, 2017, 78: 85- 94.

29
CAO J H, XU L H. Research on counting algorithm of residual feeds in aquaculture based on machine vision[C]// 2018 IEEE 3rd International Conference on Image, Vision and Computing (ICIVC). Piscataway, New Jersey, USA: IEEE, 2018: 498- 503.

30
HOU S Y, LIU J C, WANG Y Q, et al. Research on fish bait particles counting model based on improved MCNN[J]. Computers and electronics in agriculture, 2022, 196: ID 106858.

31
WANG Y Q, YU X N, LIU J C, et al. Dynamic feeding method for aquaculture fish using multi-task neural network[J]. Aquaculture, 2022, 551: ID 737913.

Outlines

/