欢迎您访问《智慧农业(中英文)》官方网站! English

基于改进YOLOv11的轻量化肉牛面部识别方法

  • 韩宇 1, 2 ,
  • 齐康康 1 ,
  • 郑纪业 , 1, 2 ,
  • 李金瑷 1, 2 ,
  • 姜富贵 3 ,
  • 张相伦 3 ,
  • 游伟 3 ,
  • 张霞 2
展开
  • 1. 山东省农业科学院农业信息与经济研究所,山东 济南 250100,中国
  • 2. 聊城大学 物理科学与信息工程学院,山东 聊城 252000,中国
  • 3. 山东省农业科学院畜牧兽医研究所,山东 济南 250100,中国
郑纪业,博士,副研究员,研究方向智慧农业。E-mail:

韩 宇,硕士研究生,研究方向为深度学习农业应用。E-mail:

收稿日期: 2025-02-12

  网络出版日期: 2025-05-22

基金资助

国家重点研发计划项目(2024YFD1300600)

山东省重点研发计划项目(2022TZXD0013)

泰山产业领军人才工程专项经费

烟台市科技计划项目(2023ZDCX024)

A Lightweight Cattle Facial Recognition Method Based on Improved YOLOv11

  • HAN Yu 1, 2 ,
  • QI Kangkang 1 ,
  • ZHENG Jiye , 1, 2 ,
  • LI Jinai 1, 2 ,
  • JIANG Fugui 3 ,
  • ZHANG Xianglun 3 ,
  • YOU Wei 3 ,
  • ZHANG Xia 2
Expand
  • 1. Institute of Agricultural Information and Economics, Shandong Academy of Agricultural Sciences, Ji'nan 250100, Shandong, China
  • 2. School of Physics Science and Information Engineering, Liaocheng University, Liaocheng 252000, Shandong, China
  • 3. Institute of Animal Science and Veterinary Medicine, Shandong Academy of Agricultural Sciences, Ji'nan 250100, China
ZHENG Jiye, E-mail:

HAN Yu, E-mail:

Received date: 2025-02-12

  Online published: 2025-05-22

Supported by

National Key R&D Program of China(2024YFD1300600)

Key R&D Program of Shandong Province, China(2022TZXD0013)

Taishan Industry Leading Talents Program of Shandong Province

Science and Technology Plan Project of Yantai City(2023ZDCX024)

Copyright

copyright©2025 by the authors

摘要

[目的/意义] 牛只个体的精准识别是现代化畜牧业发展的关键需求,也是推进肉牛精细化管理与高效生产的基础。基于面部特征的精准识别技术对推动畜牧业智能化发展具有重要研究价值和应用前景。针对牛脸识别准确性与效率提升需求,本研究提出一种基于改进YOLOv11的轻量级牛脸识别模型YOLO-PCW。 [方法] 将部分卷积(PConv)设计融合C3K2,借助PConv对特征图的独特卷积特性,在保障识别精度稳定的同时大幅削减模型计算量,以适配实际快速处理场景,此外,引入CBAM注意力机制,引导模型聚焦牛脸关键部位如牛眼、口鼻等,精准捕捉细微特征,显著提升检测精度。采用WIoU损失函数取代CIoU,重新优化目标框定位误差衡量模式,合理分配不同类型误差权重,进一步精细模型训练过程,使牛脸检测框更为精准。 [结果和讨论] 经实验验证,YOLO-PCW模型的准确率P达到了96.4%,召回率R达到96.7%,平均精度均值达到98.7%,其参数量、计算量分别为2.3 M、5.6 GFLOPs。与YOLOv11相比,YOLO-PCW不仅在准确率、召回率、平均精度分别提升了3.6、5、4.4个百分点,同时还将浮点计算量和参数量大小分别降低至原模型的88.9%和88.5%。消融实验表明,CBAM模块使精确率从92.8%提升至95.2%,WIoU优化目标定位精度,精确率提升至93.8%,PConv模块将计算量从6.3 GFLOPs降至5.5 GFLOPs,大幅减少了模型的计算量。多组件协同配合,为牛脸识别模型性能的提升提供了有力支持。将改进后的YOLO-PCW与Faster-RCNN、SSD、YOLOv5、YOLOv7-tiny、YOLOv8算法在相同的条件下进行比对,YOLO -PCW模型优势最为突出,能够兼顾识别精度与运算效率,实现计算资源的高效利用。 [结论] 提出的YOLO-PCW模型不仅提升了检测精度,还降低了模型的部署难度,可在实际生产环境中精准实现牛脸识别,为动物福利养殖、牧场智能化管理等多种场景提供一种可行的个体精准识别方案。

本文引用格式

韩宇 , 齐康康 , 郑纪业 , 李金瑷 , 姜富贵 , 张相伦 , 游伟 , 张霞 . 基于改进YOLOv11的轻量化肉牛面部识别方法[J]. 智慧农业, 2025 : 1 -12 . DOI: 10.12133/j.smartag.SA202502010

Abstract

[Objective] Beef cattle breeding stands as a pivotal element in contemporary animal husbandry, with precise individual identification serving as the cornerstone for the advancement of automated technologies, including intelligent weight measurement, body condition scoring, body conformation assessment, and behavior monitoring. However, the actual breeding environment is fraught with challenges such as soiled conditions, intricate backgrounds, and the constant movement of animals, which contribute to the high variability of cattle face data features. Additionally, the effects of inconsistent lighting and diverse shooting angles can lead to blurred key features, increasing the risk of misjudgment during the detection process. In light of these challenges, an improved model named YOLO-PCW, built upon the YOLOv11 algorithm, was introduced to enhance the detection performance while preserving a lightweight structure to address the complexities of precise cattle face recognition in challenging breeding environments. [Methods] The research leveraged the cow fusion dataset (CFD), a comprehensive collection of real-world cattle face images captured under variable lighting conditions, from multiple angles, and against complex backgrounds, for the purpose of model training and validation. Concurrently, a custom cow monitor dataset (CMD) was created from video footage obtained through the Zhaoyuan Qingyangbao Breeding Farm's monitoring system, providing a robust basis for evaluating the model's generalization capabilities. The YOLOv11 architecture served as the foundational framework for implementing the following performance improvements. The partial convolution (PConv) was seamlessly integrated into the C3K2 module within the YOLOv11 head network. Utilizing the sparse convolutional properties of PConv on the feature maps, the convolutional structure was meticulously optimized, reduceing computational redundancy and memory access while preserving the model's accuracy—rendering it highly suitbale for real-time applications. Additionally, the convolutional block attention module (CBAM) was incorporated to enhance feature map processing through adaptive channel-wise and spatial attentions. This refinement enabled precise extraction of target regions by mitigating background interference, allowing the model to focus on critical anatomical features such as the eyes, mouth, and nose. Furthermore, the weighted intersection over union (WIoU) loss function was adopted to replace the CIoU, optimizing the weighted strategy for bounding box regression errors. This innovation reduced the adverse effects of large or outlier gradients in extreme samples, enabling the model to prioritize average-quality samples for refinement. The resulting improvment in key region localization accuracy bolstered the model's generalization capability and overall performance, establishing a state-of-the-art cattle face recognition framework. [Results and Discussion] The YOLO-PCW model achieved a remarkable accuracy rate (P) of 96.4%, a recall rate (R) of 96.7%, and a mean average precision (mAP) of 98.7%. With a parameter count of 2.3 M and a computational load of 5.6 GFLOPs, the YOLO-PCW not only improved accuracy, recall, and mean average precision by 3.6, 5, and 4.4 percentage point respectively, but also achieved a significant reduction in floating-point computational load and parameter size, down to 88.9% and 88.5% of the original model, respectively. Ablation studies revealed that the CBAM module enhanced precision from 92.8% to 95.2%. The WIoU loss function optimized target positioning accuracy, achieving a precision of 93.8%. The PConv module contributed to a substantial reduction in computational load from 6.3 GFLOPs to 5.5 GFLOPs, thereby significantly lightening the model's computational burden. The synergistic collaboration of these multiple components provided robust support for enhancing the performance of the cattle face recognition model. Comparative experiments demonstrated that the YOLO-PCW model, when benchmarked against algorithms such as Faster-RCNN, SSD, YOLOv5, YOLOv7-tiny, and YOLOv8 under identical conditions, exhibited the most outstanding performance, effectively balancing recognition accuracy with computational efficiency and achieving optimal utilization of computational resources. [Conclusions] The improved YOLO-PCW model, with its lightweight architecture and optimized attention mechanism, could successfully improve detection accuracy while simplify deployment. It is capable of delivering precise cattle face recognition in real-world breeding environments, offering an efficient and practical solution for individual identification in applications such as animal welfare breeding, intelligent ranch management, smart ranch construction, and animal health monitoring.

0 引 言

中国是世界上最早发展畜牧业养殖的国家之一,畜牧业在农业经济中占据重要地位,也是保障国家食物安全、促进农民增收的关键产业1。肉牛养殖作为现代畜牧业的重要组成部分,精准的个体识别是实现牛的智能测重、体况评分、体型鉴定、行为监测等自动化技术的先决条件,是现代化牧场建设和牛精细化养殖的基础2
目前,牛只个体识别技术主要分为接触式与非接触式两大类。常见的接触式识别包括耳标、项圈、截耳法、烙印、无线射频识别(Radio Frequency Identification, RFID)等3。其中,耳标和项圈直观显示编号等信息,但因其较大的尺寸和不合理的形状设计,不利于在复杂养殖环境中保持稳固,导致掉标率高达10%左右,影响数据的连续性与准确性;截耳法和烙印虽能留下永久性标记,但会对牛只造成不可逆的伤害,存在损害动物福利的问题;RFID技术凭借电子芯片存储与识别数据,具有高效、准确的特点,加之其紧密贴合牛耳的设计,有效降低被剐蹭和咬掉风险,掉标率可控制在1%左右。然而,RFID技术在实际应用中仍存在明显短板:在规模化部署时,读写器及管理系统的前期投入较大;在长期使用过程中,电子芯片存在老化问题,后期维护成本较高。同时,RFID系统依赖稳定的电力供应与网络环境,在偏远山区或网络覆盖薄弱的养殖场,数据传输与实时管理难以保障。非接触式识别借助先进的计算机视觉、传感器等技术,可实现远距离、无应激的牛只身份确认,主要包括牛脸识别、鼻纹识别和虹膜识别等。鼻纹识别和虹膜识别由于数据采集难度大、设备成本高昂等问题,在实际应用中尚未普及。相比之下,基于牛脸图像识别的非接触式分类技术具有高效、低成本和动物福利友好等优势,成为肉牛智能化养殖的重要发展方向4, 5。鉴于此,发展非接触式的肉牛面部个体识别技术势在必行。
随着深度学习发展,Faster R-CNN(Faster Region-Based Convolutional Neural Network)6、SSD(Single Shot MultiBox Detector)7、YOLO(You Only Look Once)8, 9系列等目标检测网络的提出,以及FaceNet10人脸识别系统的出现,为进一步开展牛脸识别工作提供了多方面的支持。朱敏玲等11提出以卷积神经网络(Convolutional Neural Networks, CNN)为主体且引入ResNet和支持向量机(Support Vector Mechine, SVM)相结合的牛脸识别与检测的算法与模型,解决了传统CNN网络结构在牛脸识别中存在的训练收敛速度慢、识别率低及泛化性弱等问题。但该算法在光照强度与角度变化比较大时,识别准确率明显下降,难以在实际环境中应用。Kawagoe等12利用提取的特征描述值,采用SVM作为分类器进行奶牛个体识别,在自建的奶牛图像数据集上进行实验,结果表明,所提出的基于图像处理技术的奶牛个体识别方法具有较高的识别准确率。Xu等13通过将轻量级RetinaFace-mobilenet与ArcFace损失函数集成,提出了一种新的牛脸识别框架——CattleFaceNet,识别准确率达到91.3%,检测速度达到24帧/s,仍存在改进空间。Yang等14提出了一种融合RetinaFace和改进FaceNet的奶牛个体识别方法,FaceNet的核心特征网络通过MobileNet集成得到增强,损失函数与Cross Entropy Loss和Triplet Loss联合优化。改进的FaceNet模型在训练集上实现了99.5%的精度,在测试集上得到83.6%的精度,暴露出模型对光照突变和视角变化的泛化缺陷。齐咏生等15提出一种复杂场景下基于自适应注意力机制的牛脸检测算法,通过在YOLOv7-tiny主干特征提取网络引入复合双分支自适应注意力(Composite Dual-branch Adaptive Attention, CDAA)和调整损失函数等方法,检测精度达到89.58%,检测速度达到62帧/s。高洁和曹浩16提出一种基于改进YOLOv7的牛脸识别方法YOLO_C,通过使用FReLU激活函数代替原有激活函数,添加卷积块注意模块(Convolutional Block Attention Module,CBAM)和轻量级上采样算子(Content-Aware ReAssembly of FEatures,CARAFE)对模型YOLOv7进行改进,改进后的算法识别精确率、召回率和平均精度均值分别为89.4%、94.4%和92.9%。但在实际复杂场景中仍存在误检率较高的问题,且由于训练样本覆盖的个体数量有限,模型的泛化能力仍有待提升。
虽然牛脸识别算法的研究取得了一定成果,但在实际养殖环境脏乱、背景复杂,以及动物干扰等情况下,牛脸数据特征复杂多变,识别难度依然较大,且存在光照、角度等因素影响17,检测时易因部分特征不明显而出现误判,检测精度和稳定性需进一步优化。本研究在YOLOv11的基础上,提出了一种改进的YOLO-PCW算法,并通过对比试验和消融实验,验证改进模型的准确性,以期为牛脸识别提供一种高效、准确的解决方案,进而优化饲喂、健康监控和疾病预防等方面的决策,提升养殖效益18,实现更加精细化的养殖管理。

1 材料与方法

1.1 数据集

本研究构建了融合数据集CFD(Cow Fusion Dataset)和自建数据集CMD(Cow Monitor Dataset)两种数据集分别进行模型训练与验证,肉牛面部识别整体技术流程如图1所示。CFD整合了Cowdatanew-20与CSF_8两大公开数据集,经筛选比对后保留8 960张图像,涵盖肉牛侧脸、曝光、暗光、遮挡等复杂情形,为后续研究提供数据支撑。CMD由招远青杨堡养殖场监控系统采集,通过视频分帧技术生成JPG格式图像,对这些图像进行剪裁等预处理操作,最终得到2 400张有效图像,涵盖牛舍内外的自然监控视角。图2展示了CMD数据集的监控视角采集场景;图3为CFD部分数据集展示。
图1 基于改进YOLOv11的肉牛面部识别技术流程图

Fig. 1 Technical flow chart of cattle face recognition using improved YOLOv11

图2 CMD监控采集视角

Fig. 2 Monitoring acquisition perspective of CMD

图3 CFD数据集展示

Fig. 3 The presentation of CFD dataset

本研究将数据集CFD、CMD分别按照8∶1∶1的比例分为训练集、验证集、测试集,进行肉牛个体识别。运用Labelme这款开源的图像标注工具对肉牛数据集的图像进行标注。具体操作流程为:首先生成具有标注形式的json类型文件,随后将其转换为txt类型文件。标注遵循以下原则:1)每头牛独有的编号作为标签。2)鉴于牛角包含重要信息,尽可能将牛角完整标注进去。3)对于图像中部分被遮挡的牛脸区域,应根据可见部分的特征进行合理推测标注,以确保标注的完整性和准确性。

1.2 实验运行环境

采用的硬件设备为一台配备Intel(R)Core(TM)i7-14700KF处理器、NVIDIA GeForce RTX 4060Ti图形处理器(8 GB显存)的电脑。操作系统为Windows 11,深度学习框架选用PyTorch,编程平台为PyCharm,编程语言为Python 3.10。所有比较算法均在相同的环境下进行。
训练参数设定如下:每个批次的图片数量(Batch Size)设为8,此数值经多番调试选定,既能兼顾模型迭代效率,又可避免内存占用过高问题,保障训练平稳推进;输入图像尺寸(Imgsz)为224×224,在能提取特征的同时不会给硬件带来过重的计算负担;训练轮次(Epochs)设为50,既能让模型充分学习数据规律,又可有效预防过拟合,确保良好泛化能力,且能在各个模型之间的对比较为明显;在实际训练阶段,本研究采用了AdamW优化器,配置学习率(lr)为0.000 5且动量值为0.9,利于模型快速、稳定收敛,找到最优参数。

1.3 评价指标

采用精确率、召回率、平均精度均值mAP0.5(IoU阈值为0.5时的平均精度)、mAP0.5-0.95(IoU阈值为0.5~0.95的平均精度)、计算量、参数量作为评价指标。其中,精确率(Precision, P)表示在机器预测为正类的所有样本中实际为正类的样本所占的比例,是衡量对样本预测准确程度的一项重要指标;召回率(Recall, R)为模型成功检测到的真实目标数量与数据集中所有真实目标数量的比率,是衡量模型识别目标方面覆盖能力的一项指标;平均精度均值(Mean Average Precision, mAP)是衡量目标检测模型性能的重要指标,mAP值越高,说明模型在目标检测任务中的性能越好;计算量和参数量是评估深度学习模型复杂度和计算开销的重要指标,以确保模型在保持高性能的同时,能够在计算资源有限的情况下进行有效的训练和推理。各指标计算如公式(1)~公式(4)所示。
P = T P T P + F P
R = T P T P + F N
m A P 0.5 = A P 1 + A P 2 + . . . + A P n n
m A P 0.5 - 0.95 = A P 0.5 + A P 0.55 + . . . + A P 0.95 10
式中:P为精确率;R为召回率;TP、FP、FN分别为模型正确预测正样本、误判负样本为正样本和误判正样本为负样本的个数;AP为每个类别的平均精度。

2 网络模型及改进

2.1 YOLOv11

YOLOv11在YOLOv8的基础上进行了全面且深入的改进。相较于YOLO系列其他模型,YOLOv11在准确率和检测速度上都取得了显著提升,这得益于其对骨干网络、颈部,以及检测头的全面优化和创新改进。具体包括:采用改进的骨干和颈部架构,将C2f模块转变为C3K2模块,其内部拥有较小的核卷积,且结合了卷积和分组卷积的特性,并允许选择使用自定义卷积核大小的C3k模块或标准的Bottleneck模块,能够优化网络中的信息流19,在保持高效特征提取的同时,提供更灵活的配置以适应不同的计算需求。除C3k2模块外,YOLOv11的颈部架构还另外在快速-空间金字塔池化层(Spatial Pyramid Pooling-fast, SPPF)之后添加了一层类似注意力机制的C2PSA。该模块是基于PSA(Pyramid Squeeze Attention)注意力机制的卷积模块,负责处理输入张量并通过注意力机制增强特征表示。这一改进让模型更加聚焦于关键信息,增强对重要特征的捕捉能力。此外,检测头内部有重要更新,将两个传统卷积替换为深度可分离卷积(DWConv),这有助于减少模型的参数量并提高计算效率。同时,模型的深度和宽度参数经过了大幅度的精心调整,以优化模型的性能。在损失函数方面,依旧沿用了CIoU作为边界框回归损失,确保了在目标定位准确性上的优势。

2.2 模型改进方法

本研究在YOLOv11的基础上,提出一种轻量级的YOLO-PCW模型。该模型对以下3个方面进行了优化和改进。
1)将部分卷积(PConv)融合进YOLOv11头部网络中的C3K2模块。利用部分卷积优化卷积结构,减少计算冗余和内存访问,同时可以提高检测精度。
2)引入CBAM注意力机制。同时考虑通道和空间两个维度的注意力,通过对特征图进行自适应的加权调整,使得模型能够准确提取图像目标区域,抑制无关信息的干扰。
3)采用WIoU(Weighted Intersection over Union)损失函数。WIoU损失函数能够根据目标的大小和形状自适应地调整权重,更加准确地衡量预测框与真实框之间的差异。
改进后的YOLO-PCW结构如图4所示。
图4 YOLO-PCW网络结构图

Fig. 4 Network structure diagram YOLO-PCW

2.2.1 PConv

部分卷积(PConv)作为一种创新性的卷积技术,通过同时减少冗余计算和内存访问,更高效地提取空间特征20。其基本原理是利用特征图的冗杂(特征图的某些通道可能会包含与其他通道高度相似的特征,这意味着在进行网络的前向传播时,这部分信息的多次处理并没有提供额外的有用信息,反而增加了计算量和内存访问的开销),只在输入通道的一部分上应用常规卷积进行空间特征提取,保持剩余通道不变,从而减少计算和内存访问。其计算量如公式(5)所示。
F L O P s = h × ω × k 2 × c p 2
内存访问量如公式(6)所示。
MAV= h × ω × 2 c p + k 2 × c p 2 h × ω × 2 c p
式中: F L O P s和MAV表示计算量和内存访问量;h ω分别为输入通道的高和宽; c p为卷积部分通道数;k为卷积核大小。由此可见,若 c p为总通道数1/4时,计算量则为常规Conv的1/16,内存访问量也仅为常规Conv的1/4,能够极大地减少模型的计算量和内存访问。PConv的结构如图5所示。
图5 Partial convolution(PConv)结构图

Fig. 5 Structure diagram of partial convolution (PConv)

PConv引入了掩码(Mask)机制。掩码中的值以0和1来标识:0代表相应像素不参与当前的卷积计算;1则表示参与。在卷积核滑动计算时,依据掩码值决定输入特征图像素的参与与否,掩码为0的像素将被跳过。这一特征使得在YOLOv11的head层中将部分卷积(PConv)与C3K2相结合为牛脸识别带来显著功效:一方面,能大幅削减计算量,在牛脸图像背景及无关纹理区域,PConv依掩码跳过非关键像素计算,如同精准筛选拼图关键块,摒弃冗余,让计算资源得以高效利用;另一方面,极大提升计算效率,使模型前向传播加速,使其在实时牛脸监测场景中能够快速输出识别结果。同时,其掩码可依牛脸特征设计或学习优化,与C3K2协作下,让卷积聚焦牛眼、口鼻等关键部位,强化特征提取针对性,精准捕捉牛脸判别特征,有力助推牛脸识别精度提升。

2.2.2 注意力机制CBAM

为降低复杂背景对牛脸检测的干扰,本研究在YOLOv11架构中融入CBAM注意力机制,强化关键特征提取,进而提高模型检测精度。CBAM的主要是通过关注重要的特征并抑制不必要的特征来增强网络的表示能力,是一种轻量级且高效的注意力模块,它可以无缝集成到任何CNN架构中,几乎不增加额外开销,并能与基础CNN一起端到端训练21。CBAM由通道注意力模块(Channel Attention Module)和空间注意力模块(Spatial Attention Module)两个关键部分协同构成22。模型结构如图6所示。
图6 CBAM原理结构图

Fig. 6 Principle structure diagram of CBAM

通道注意力模块专注于对特征图的不同通道进行重要性加权。在牛脸识别过程中,由于牛脸图像包含多种特征信息,如纹理、颜色、形状等,不同通道所承载的特征对于最终识别的贡献度各异。CBAM能够自动学习并判断各通道的重要性,通过对关键通道赋予更高权重,使模型聚焦于牛脸最具判别力的特征信息。例如,牛眼、口鼻周围的纹理细节通常在特定通道中有突出体现,通道注意力可强化这些关键信息的提取,减少无关或干扰通道的影响;而空间注意力模块,则侧重于特征图的空间维度,精准定位牛脸图像中需要重点关注的区域。考虑牛脸在图像中的位置、角度多变,以及可能存在的遮挡情况。空间注意力机制通过对空间位置上的像素点进行分析,突出牛脸关键部位所在的区域,抑制背景或遮挡物区域的干扰。
为验证CBAM在肉牛面部检测中的性能,运用GradCAM23方法生成类激活热力图,加入CBAM注意力前后热力图可视化效果如图7所示。由图7可知,引入CBAM注意力机制前,热力图对关键区域的凸显精准度欠佳;引入后,肉牛面部关键部位,如眼睛、口鼻等区域,在热力图中被清晰且精准地突出,展现出CBAM能有效引导模型聚焦重要特征,提升肉牛面部检测的针对性与准确性,进而增强YOLO-PCW在牛脸识别领域的实用性。
图7 CBAM热力图效果对比

Fig. 7 Comparison of CBAM heatmap effects

2.2.3 损失函数

YOLOv11继续使用DF Loss和CIoU Loss计算边界框回归损失。CIoU在惩罚项基础上增加了一个影响因子。该因子考虑了预测框与真实框纵横比的匹配,从而加强了长宽比一致性的考量,在一定程度上可以加快预测框的回归收敛过程。CIoU损失函数及相关计算如公式(7)~公式(10)所示。
R C I o U = ρ 2 ( b , b g t ) c 2 + α υ
α = υ ( 1 - I o U ) + υ
υ = 4 π 2 ( t a n - 1 ω g t h g t - t a n - 1 ω h ) 2
L C I o U = 1 - I o U + ρ 2 ( b , b g t ) c 2 + α υ
式中:b b g t分别为预测框和真实框的中心点; ρ为两点之间的欧式距离;c为预测框和真实框的最小外接矩形的对角线长度;IoU为交并比。IoU作为衡量预测框与真实目标框重合程度的重要指标,在目标检测任务里起着核心作用。CIou损失函数在IoU的基础上进一步考虑了预测框与真实框的中心距离以及宽高比等因素,旨在优化模型对目标框的定位精度24。但由于其采用单调聚焦机制,未能充分平衡难例样本与简单样本之间的影响25,当目标检测数据集中存在低质量样本时,模型容易受到这些样本的干扰,进而导致整体检测性能下降,在处理一些复杂场景时仍存在局限性。
WIoU(Wise-IoU)Loss26则针对这些不足进行了改进,它重新定义了对目标框定位误差的衡量方式,通过动态权重分配机制重构边界框误差度量函数,并引入基于离群度(Outlier Degree)的梯度增益调控策略,有效平衡高质量与低质量样本的边界框回归(Bounding Box Regression, BBR)优化过程27。WIoU的计算式如下:
L W I o U = r R W I o U L I o U , r = β δ α β - δ
β = L I o U * L ¯ I o U [ 0 , + )
R W I o U e x p   ( ( x - x g t ) 2 + ( y - y g t ) 2 ( c ω 2 + c h 2 ) * )
式中: β为离群度,其值越小代表锚框质量越高; α δ为超参数,用于调整不同损失项的权重;上标*表示该项不参与反向传播,有效避免模型产生无法收敛的梯度; L ¯ I o U为归一化因子,代表增量的滑动平均值。
与CIoU相比,WIoU更加关注普通质量的样本。WIoU设计了一种合理的梯度增益分配,减少了极端样本中出现的大梯度或有害梯度,且其训练过程减少了因均匀对待所有定位误差而导致的优化方向偏差,让模型朝着提升关键区域定位精度的方向高效前进。本研究使用WIoU作为损失函数,使模型更多地关注普通质量的样本,进而提高牛脸识别网络模型的泛化能力和整体性能。

3 结果与分析

3.1 损失函数对比试验

YOLOv11目标检测模型的损失函数是CIoU,是在DIoU惩罚项的基础上增加了一个影响因子,从而加强了长宽比一致性的考量。但其采用单调聚焦机制,未能充分平衡难例样本与简单样本之间的影响。EIoU在CIoU的惩罚项基础上,将纵横比的影响因子拆分为独立的长宽计算,分别对目标框和锚框的宽度和高度进行优化,提高收敛速度28。虽然解决了CIoU中难易样本不均衡的问题,但其聚焦机制是静态的,并未充分挖掘非单调聚焦机制的潜能。相比之下,WIoU引入了一种动态非单调机制,并设计了一种合理的梯度增益分配,该策略减少了极端样本中出现的大梯度或有害梯度。为了比较不同损失函数的性能,本研究对YOLOv11模型在CIoU、DIoU、EIoU和WIoU损失函数下的收敛情况进行了对比,结果如图8所示。
图8 损失函数对比

Fig. 8 Comparison of loss functions

图8可知,随着迭代次数(Epochs)的增加,4种模型(CIoU、WIoU、EIoU、DIoU)的损失值(Loss)均呈现出逐渐下降的趋势,表明所有模型在训练过程中都在不断收敛,逐渐学习到数据中的模式和规律。在整个训练过程中,WIoU模型的损失值曲线始终处于相对较低的位置,尤其是在训练的中后期,其优势更为明显。这表明WIoU模型能够更高效地学习数据中的特征和规律,从而更快地逼近最优解,具有较强的学习能力和优化能力,为牛脸识别精度和效率的提升提供有力支撑。

3.2 消融实验

为评估本研究模型中各改进模块对识别结果的影响,本研究以YOLOv11作为基线模型,通过多种改进模块的不同组合方式,进行消融实验。具体的试验结果见表1
表1 消融实验结果

Table 1 Results of ablation experiments

试验编号 PConv CBAM WIoU 精确率/% 召回率/% mAP0.5/% mAP0.5-0.95/% 计算量/GFLOPs 参数量/M
1 × × × 92.8 91.7 94.3 73.4 6.3 2.6
2 × × 95.2 94.8 96.5 76.8 6.4 2.7
3 × × 93.8 94.4 95.4 75.9 6.3 2.6
4 × 96.4 95.9 97.2 77.6 6.4 2.7
5 × × 93.1 92 94.8 75.2 5.5 2.2
6 × 94.2 92.4 97.1 76.3 5.5 2.2
7 × 95.6 93.1 96.4 76.9 5.6 2.3
8 96.4 96.7 98.7 78.4 5.6 2.3

注:√表示使用该模块;×表示不使用该模块。

对比试验1和试验2可知,仅添加CBAM后,精确率从92.8%提升至95.2%,召回率由91.7%提升至94.8%,mAP0.5从94.3%增长到96.5%,mAP0.5-0.95也从73.4%提高至76.8%。观察试验1和试验3,引入WIoU损失函数之后,精确率提升至93.8%,召回率达94.4%,mAP0.5~0.95提升至75.9%,证明了其在优化目标定位准确性方面的积极效能,让模型衡量预测框与真实框差异时更为精准,进而全方位提高整体检测精度;比较试验1和试验5,融合PConv模块使得计算量从6.3 GFLOPs降至5.5 GFLOPs,参数量从2.6 M减少至2.2 M,凸显出其对优化模型计算资源利用效率的助力。当试验8同时使用PConv、CBAM和WIoU时,模型各项指标达到试验最高值,精确率为96.4%,召回率为96.7%,mAP0.5高达98.7%,mAP0.5-0.95为78.4%,计算量稳定在5.6 GFLOPs,参数量保持在2.3 M,分别为原模型的88.9%和88.5%。由此可见,三者相辅相成,CBAM强化特征提取针对性,WIoU精准优化目标定位,PConv高效利用计算资源,这些因素相互配合,为牛脸识别模型性能的提升提供了有力支持。

3.3 不同目标检测算法的性能比较

为评估本研究提出的模型与其他主流的卷积神经网络在目标检测任务上的性能差异,将该研究算法YOLO-PCW与Faster-RCNN、SSD、YOLOv5、YOLOv7-tiny、YOLOv8算法在相同的条件下进行对比试验,训练配置均为1.2节所述。试验结果如表2所示。
表2 不同模型在肉牛面部识别任务中的性能对比

Table 2 Performance comparison of different models for cattle face recognition tasks

模型 精确率/% 召回率/% mAP0.5/% 计算量/FLOPs 参数量/M
Faster-RCNN 88.7 73.5 84.3 205.6 38.4
SSD 79.4 72.1 76.5 74.2 19.4
YOLOv5 90.7 92.1 89.8 5.8 2.2
YOLOv7-tiny 91.0 90.4 87.2 13.2 6.0
YOLOv8 91.8 93.3 95.0 8.1 3.0
YOLOv11 92.8 91.7 94.3 6.3 2.6
YOLO-PCW 96.4 96.7 98.7 5.6 2.3
表2可知,本研究提出的模型YOLO-PCW展现出显著优势,与Faster-RCNN、SSD模型相比,其精确率分别提高了7.7个百分点和17个百分点,且计算量与参数量显著减少。在YOLO系列其他模型中,从YOLOv5、YOLOv7-tiny、YOLOv8、YOLOv11到YOLO-PCW,性能逐步提升,在保证相对低计算量和参数量时,识别精度不断提高。其中YOLO-PCW模型优势最为突出,远超其他对比模型,与基准模型YOLOv11相比,YOLO-PCW在准确率、召回率、mAP0.5分别提升了3.6、5、4.4个百分点。试验结果表明,YOLO-PCW在牛脸精准识别任务中表现优越,能够兼顾识别精度与运算效率,实现计算资源的高效利用。

3.4 YOLO -PCW模型的测试与分析

图9展示了YOLO-PCW模型训练和验证过程中的多个关键指标的变化曲线,随着训练轮次增加,模型的损失函数不断降低,精确率、召回率和平均精度均值等评估指标持续上升,说明模型在训练过程中不断优化,性能逐步提高。
图9 YOLO -PCW模型关键指标变化曲线

Fig. 9 Change curves of key indicators of YOLO -PCW model

为了充分展示改进模型的识别效果,本研究挑选了部分牛脸样本进行测试,这些样本涵盖了正面、侧面、低头等角度,并且牛与牛之间存在一定程度的相互遮挡情况,加之地面为沙地,整体场景具有较高的复杂性和挑战性,能够全面检验模型的性能。改进后的YOLO-PCW模型和原始YOLOv11模型的牛脸识别结果如图10所示。
图10 YOLOv11与YOLO-PCW部分牛脸识别结果

Fig. 10 Comparative results of YOLOv11 and YOLO-PCW for partial cattle face recognition

图10识别结果可以看出,原模型在某些特定情况下暴露了明显的缺陷,存在漏检及检测框不够准确等问题。在一些牛脸角度较为特殊或者存在遮挡的情形下,原模型未能完整框出牛脸,而且其检测框的置信度相对较低。与原模型相对比,YOLO-PCW模型则表现出色,能够更加精准地框选出牛脸,无论是面对不同姿态、角度的牛脸,还是存在一定遮挡的情况,都能做到较为准确地检测和框选,检测框与牛脸的贴合度更高,置信度也普遍较高,可以看出YOLO-PCW在牛脸识别任务上的改进是有效的。
此外,为验证YOLO-PCW模型的泛化能力,本研究利用自建数据集CMD开展了对比实验,模型生成的预测标注结果如图11所示,可以看出,在实际监控条件下,该模型也能准确通过牛脸判定个体ID从而精准识别肉牛个体。这表明YOLO-PCW模型能够适配实际牧场的复杂环境,具有在真实养殖场景中应用的潜力。
图11 YOLO-PCW模型在CMD数据集上的肉牛个体识别效果(实际监控场景)

Fig. 11 Cattle individual identification results of YOLO-PCW on CMD dataset (real-world surveillance conditions)

4 结 论

本研究提出的YOLO-PCW轻量级牛脸识别模型,通过将PConv融合进头部的C3k2模块,有效降低了模型的参数量和浮点计算量,使模型在保持较高性能的同时,减少了计算资源的消耗,提高了模型的运行效率。加入CBAM注意力机制,引导模型聚焦牛脸关键部位如牛眼、口鼻等,精准捕捉细微特征,显著提升检测精度,增强了模型对复杂场景下牛脸的鲁棒性。将CIoU损失函数改进为WIoU损失函数,WIoU收敛更快、损失更低,能够更好地引导模型进行优化,增强模型收敛性能的同时可以生成更高质量的检测框,进一步优化了模型的训练过程,使模型在学习牛脸特征时更加精准地拟合目标边界,进一步提升了识别性能。
改进后的YOLO-PCW模型精确率达到96.4%,召回率达到96.7%,mAP0.5高达98.7%,mAP0.5-0.95为78.4%,计算量和参数量分别降低到5.6 GFLOPs和2.3 M,仅为原模型的88.9%和88.5%。因此,YOLO-PCW模型在模型复杂度、识别精度与速度等方面达到更好平衡,为肉牛养殖管理中的个体精准识别提供了一种高效、准确的技术手段,具有重要的实际应用价值和广阔的应用前景。未来,将探索无需大量标注数据的训练方法,提升模型的泛化能力和适应性,进一步将肉牛面部识别技术应用于智能监控系统,实现个体身份追踪、行为分析、健康监测等功能,为畜牧业的智能化发展提供更有力的技术支持。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
张佳莉, 何忠伟, 李博媛, 等. 中国畜牧养殖机械补贴政策演变及优化建议[J]. 农业展望, 2024, 20(7): 17-24.

ZHANG J L, HE Z W, LI B Y, et al. Evolution and optimization suggestions of subsidy policy for animal husbandry machinery in China[J]. Agricultural outlook, 2024, 20(7): 17-24.

2
彭阳翔, 杨振标, 闫奎友, 等. 从人工到智能: 牛个体识别技术研究进展[J]. 中国畜牧兽医, 2023, 50(5): 1855-1866.

PENG Y X, YANG Z B, YAN K Y, et al. From artificial to intelligent: Research progress of individual idendification technology for cattle[J]. China animal husbandry & veterinary medicine, 2023, 50(5): 1855-1866.

3
刘晋维, 郭雷风, 刘东昊, 等. 牛脸识别技术研究进展及应用场景分析[J]. 北方牧业, 2025(1): 13.

4
张帆, 周梦婷, 熊本海, 等. 肉牛生理指标智能监测技术研究进展与展望[J]. 智慧农业(中英文), 2024, 6(4): 1-17.

ZHANG F, ZHOU M T, XIONG B H, et al. Research advances and prospect of intelligent monitoring systems for the physiological indicators of beef cattle[J]. Smart agriculture, 2024, 6(4): 1-17.

5
唐瑜嵘, 沈明霞, 薛鸿翔, 等. 人工智能技术在畜禽养殖业的发展现状与展望[J]. 智能化农业装备学报(中英文), 2023(1): 1-16.

TANG Y R, SHEN M X, XUE H X, et al. Development status and prospect of artificial intelligence technology in livestock and poultry breeding[J]. Journal of intelligent agricultural mechanization, 2023(1): 1-16.

6
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

7
LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[M]// Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.

8
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2016: 779-788.

9
REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2017: 6517-6525.

10
SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2015: 815-823.

11
朱敏玲, 赵亮亮, 和首杰. CNN与SVM和ResNet相结合的牛脸识别系统模型研究与实现[J]. 重庆理工大学学报(自然科学), 2022, 36(7): 155-161.

ZHU M L, ZHAO L L, HE S J. Research and realization on cattle face recognition system model based on CNN combined with SVM and ResNet[J]. Journal of Chongqing university of technology (natural science), 2022, 36(7): 155-161.

12
KAWAGOE Y, ZIN T T, KOBAYASHI I. Individual identification of cow using image processing techniques[C]// 2022 IEEE 4th Global Conference on Life Sciences and Technologies (LifeTech). Piscataway, New Jersey, USA: IEEE, 2022: 570-571.

13
XU B B, WANG W S, GUO L F, et al. CattleFaceNet: A cattle face identification approach based on RetinaFace and ArcFace loss[J]. Computers and electronics in agriculture, 2022, 193: ID106675.

14
YANG L L, XU X S, ZHAO J Z, et al. Fusion of RetinaFace and improved FaceNet for individual cow identification in natural scenes[J]. Information processing in agriculture, 2024, 11(4): 512-523.

15
齐咏生, 焦杰, 鲍腾飞, 等. 基于自适应注意力机制的复杂场景下牛脸检测算法[J]. 农业工程学报, 2023, 39(14): 173-183.

QI Y S, JIAO J, BAO T F, et al. Cattle face detection algorithm in complex scenes using adaptive attention mechanism[J]. Transactions of the Chinese society of agricultural engineering, 2023, 39(14): 173-183.

16
高洁, 曹浩. 基于改进YOLO v7的牛脸识别方法研究[J]. 信阳农林学院学报, 2024, 34(3): 125-130.

GAO J, CAO H. Research on cow face recognition method based on improved YOLO v7[J]. Journal of Xinyang agriculture and forestry university, 2024, 34(3): 125-130.

17
焦杰, 齐咏生, 刘利强, 等. 一种场景自适应的双分支牛脸高效识别算法[J]. 电子学报, 2024, 52(9): 3251-3261.

JIAO J, QI Y S, LIU L Q, et al. A scene-adaptive dual-branch efficient cattle facial recognition algorithm[J]. Acta electronica sinica, 2024, 52(9): 3251-3261.

18
许祯莹, 孙梦, 王晨轩, 等. 牛羊智慧养殖管理模式探索[J]. 四川畜牧兽医, 2024, 51(9): 38-40.

XU Z Y, SUN M, WANG C X, et al. Exploration on management mode of cattle and sheep intelligent breeding[J]. Sichuan animal & veterinary sciences, 2024, 51(9): 38-40.

19
周秀珊, 文露婷, 介百飞, 等. 改进YOLOv11的水面膨化饲料颗粒图像实时检测算法[J]. 智慧农业(中英文), 2024, 6(6): 155-167.

ZHOU X S, WEN L T, JIE B F, et al. Real-time detection algorithm of expanded feed image on the water surface based on improved YOLOv11[J]. Smart agriculture, 2024, 6(6): 155-167.

20
CHEN J R, KAO S H, HE H, et al. Run, don't walk: Chasing higher FLOPS for faster neural networks[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2023: 12021-12031.

21
WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block attention module[C]// Computer Vision-ECCV 2018. Cham, German: Springer, 2018: 3-19.

22
张荣华, 白雪, 樊江川. 复杂场景下害虫目标检测算法: YOLOv8-Extend[J]. 智慧农业(中英文), 2024, 6(2): 49-61.

ZHANG R H, BAI X, FAN J C. Crop pest target detection algorithm in complex scenes: YOLOv8-extend[J]. Smart agriculture, 2024, 6(2): 49-61.

23
SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[J]. International journal of computer vision, 2020, 128(2): 336-359.

24
JAMES M, SUCHLA D A, DUNKEL J, et al. Emergence and melting of active Vortex crystals[J]. Nature communications, 2021, 12: ID 5630.

25
TONG Z J, CHEN Y H, XU Z W, et al. Wise-IoU: Bounding box regression loss with dynamic focusing mechanism[EB/OL]. arXiv: 2301.10051, 2023.

26
CHO Y J. Weighted intersection over union (wIoU) for evaluating image segmentation[EB/OL]. arXiv2107.09858, 2021.

27
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2017: 2999-3007.

28
ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.

文章导航

/