基于改进YOLOv12的肉牛目标检测方法

刘祎恒; 刘立波

doi:10.12133/j.smartag.SA202503018

智慧农业 >

2025 1 - 11

DOI: https://doi.org/10.12133/j.smartag.SA202503018

基于改进YOLOv12的肉牛目标检测方法

刘祎恒 ¹ ,
刘立波 ^,¹^,²

展开

^1. 宁夏大学信息工程学院，宁夏银川 750021，中国
^2. 宁夏“东数西算”人工智能与信息安全重点实验室，宁夏银川 750021，中国

刘立波，博士，教授，博士生导师，研究方向为智能信息处理、计算机视觉。E-mail：liulib@163.com

刘祎恒，研究方向为深度学习、目标检测。E-mail：liuyiheng0711@163.com

收稿日期: 2025-03-12

网络出版日期: 2025-07-23

基金资助

国家自然科学基金(62262053)

宁夏自然科学基金(2024AAC02010)

宁夏科技创新领军人才计划项目(2022GKLRLX03)

收起

Beef Cattle Object Detection Method Based on Improved YOLOv12

LIU Yiheng ¹ ,
LIU Libo ^,¹^,²

Expand

^1. School of Information Engineering, Ningxia University, Yinchuan 750021, China
^2. Ningxia Key Laboratory of Artificial Intelligence and Information Security for Channeling Computing Resources from the East to the West, Yinchuan 750021, China

LIU Libo, E-mail: liulib@163.com

LIU Yiheng, E-mail: liuyiheng0711@163.com

Received date: 2025-03-12

Online published: 2025-07-23

Supported by

National Natural Science Foundation of China(62262053)

Ningxia Natural Science Foundation(2024AAC02010)

Ningxia Science and Technology Innovation Leading Talent Program(2022GKLRLX03)

Copyright

Fold

摘要

【目的/意义】 针对肉牛互相遮挡导致难以有效获取关键特征信息，造成检测精度受限的问题，提出了一种肉牛目标检测算法YOLOv12s-ASR。 【方法】 首先，利用可改变核卷积替代部分标准卷积，充分捕获被遮挡部分的局部特征；然后，融合自集成注意力机制，通过结合空间注意力和特征增强机制，充分捕获全局上下文信息；最后，引入排斥损失函数对原损失函数进行补充，减少因非极大值抑制阈值选取不当造成的漏检或误检，提高模型的检测精度。 【结果和讨论】 在自建肉牛数据集上，YOLOv12s-ASR算法的平均精度均值达到89.3%，相比于YOLOv12s算法提高了1.3个百分点，并优于目前主流的目标检测算法；同时模型参数量仅有8.5 MB，算法检测速度达到136.7 frame/s。 【结论】 本研究提出的改进算法YOLOv12s-ASR能够实时准确地检测肉牛目标。

关键词： 目标检测; 遮挡; YOLOv12s; 可改变核卷积; 自集成注意力机制; 排斥损失函数

本文引用格式

刘祎恒 , 刘立波 . 基于改进YOLOv12的肉牛目标检测方法[J]. 智慧农业, 2025 : 1 -11 . DOI: 10.12133/j.smartag.SA202503018

Abstract

[Objective] With the rapid development of intelligent agriculture, computer vision-based livestock detection technology has become increasingly important in modern farming management. Among various livestock, beef cattle play a crucial role in China's animal husbandry industry. Accurate detection and counting of beef cattle are essential for improving breeding efficiency, monitoring animal health, and supporting government subsidy distribution. However, in real-world farming environments, cattle often gather and move closely together, leading to frequent occlusions. These occlusions significantly degrade the performance of traditional object detection algorithms, resulting in missed detections, false positives, and poor robustness. Manual counting methods are labor-intensive, error-prone, and inefficient, while existing deep learning-based detection models still struggle with occlusion scenarios due to limited feature extraction capabilities and insufficient use of global contextual information. To address these challenges, an improved object detection algorithm named YOLOv12s-ASR, based on the YOLOv12s framework, was proposed. The goal is to enhance detection accuracy and real-time performance in complex occlusion conditions, providing a reliable technical solution for intelligent beef cattle monitoring. [Methods] The proposed YOLOv12s-ASR algorithm introduced three key improvements to the baseline YOLOv12s model. First, it replaced part of the standard convolution layers with a modifiable kernel convolution module (AKConv). Unlike traditional convolutions with fixed kernel shapes, AKConv could dynamically adjust the shape and size of the convolution kernel according to the input image content. This flexibility allowed the model to better capture local features of occluded cattle, especially in cases where only partial body parts were visible. Second, the algorithm integrated a Self-Ensembling Attention Mechanism (SEAM) into the Neck structure. SEAM combined spatial and channel attention through depthwise separable convolutions and consistency regularization, enabling the model to learn more robust and discriminative features. It enhanced the model's ability to perceive global contextual information, which was crucial for inferring the presence and location of occluded targets. Third, a repulsion loss function was introduced to supplement the original loss. This loss function included two components: RepGT, which pushed the predicted box away from nearby ground truth boxes, and RepBox, which encouraged separation between different predicted boxes. By reducing the overlap between adjacent predictions, the repulsion loss helped mitigate the negative effects of non-maximum suppression (NMS) in crowded scenes, thereby improving localization accuracy and reducing missed detections. The overall architecture maintained the lightweight design of YOLOv12s, ensuring that the model remained suitable for deployment on edge deviced with limited computational resources. [Results and Discussions] Extensive experiments were conducted on a self-constructed beef cattle dataset containing 2 458 images collected from 13 individual farms in Ningxia, China. The images were captured using surveillance cameras during daytime hours and include various occlusion scenarios. The dataset was divided into training, validation, and test sets in a 7:2:1 ratio, with annotations carefully reviewed by multiple experts to ensure accuracy. The proposed YOLOv12s-ASR algorithm achieved a mean average precision (mAP) of 89.3% on the test set, outperforming the baseline YOLOv12s by 1.3 percent point. The model size was only 8.5 MB, and the detection speed reached 136.7 frames per second, demonstrating a good balance between accuracy and efficiency. Ablation studies confirmed the effectiveness of each component: AKConv improved mAP by 0.6 percent point, SEAM by 1.0 percent point, and Repulsion Loss by 0.6 percent point. When all three modules were combined, the mAP increased by 1.3 percent point, validating their complementary roles. Furthermore, the algorithm was evaluated under different occlusion levels—slight, moderate, and severe. Compared to YOLOv12s, YOLOv12s-ASR improved mAP by 4.4, 2.9, and 4.4 percent point, respectively, showing strong robustness across varying occlusion conditions. Comparative experiments with nine mainstream detection algorithms, including Faster R-CNN, SSD, Mask R-CNN, and various YOLO versions, further demonstrated the superiority of YOLOv12s-ASR. It achieved the highest mAP while maintaining a compact model size and fast inference speed, making it particularly suitable for real-time applications in resource-constrained environments. Visualization results also showed that YOLOv12s-ASR could more accurately detect and localize cattle targets in crowded and occluded scenes, with fewer false positives and missed detections. [Conclusions] In this paper, a novel beef cattle detection algorithm, YOLOv12s-ASR, is proposed to address the challenges posed by occlusion in real-world farming environments. By integrating AKConv, SEAM, and Repulsion Loss into the YOLOv12s framework, the algorithm significantly improves feature extraction, global context modeling, and localization accuracy. Experimental results show that YOLOv12s-ASR achieves state-of-the-art performance on a self-built beef cattle dataset, with high detection accuracy, fast processing speed, and a lightweight model size. These advantages make it well-suited for practical applications such as automated cattle counting, behavior monitoring, and intelligent farm management. Future work will focus on further enhancing the model's generalization ability in more complex environments and extending its application to multi-object tracking and behavior analysis tasks.

Key words： target detection; occlusion; YOLOv12s; modifiable kernel convolution; self-ensembling attention mechanism; repulsion loss

0 引言

肉牛养殖在农业领域中占据核心地位，其生产性能对推动行业进步和提升民众生活品质至关重要。为促进农业持续繁荣及农民增收，肉牛养殖户不仅能享受政府补贴，还可从当地银行获得贷款资助，申请额度与养殖数量息息相关^［1］。传统的肉牛养殖数量统计方法依赖手工标记和肉眼观察，效率低下、人工成本高且易出错；全球定位系统（Global Positioning System, GPS）项圈、耳标、尾标等高科技手段虽能提供更为精准的数据，但主要用于定位、计步和测温，更适用于大范围散养或大型养殖场^{［2, 3］}。近年来，深度学习在目标检测领域的快速发展，为肉牛数量统计提供了新思路^［4］。

为实现肉牛数量统计，关键在于准确检测肉牛目标，避免误检、漏检现象。邢永鑫等^［5］提出一种基于浅层特征模块的改进单次检测器（Single Shot Detector, SSD），即 SFM-SSD（Shallow Feature Module-based Single Shot Detector）算法，该算法利用空洞卷积增大感受野，获取丰富的特征信息，增加特征多样性，平均准确率高达94.91%，显示出深度学习算法在肉牛数量统计中的巨大潜力，但该算法需要根据不同场景重新设置候选框。宋怀波等^［6］提出了一种融合通道信息的改进YOLOv5s算法（ECA-YOLOv5s），能够快速、准确地检测肉牛目标，但其研究对象限于一个养殖场的肉牛图像，无法验证该算法在不同场景下的泛化能力。Jiang等^［7］以YOLOv3为基本网络，在卷积后的特征图中采用均值滤波和Leaky ReLU对滤波层进行层层集成，减少训练干扰，不过，由于未考虑到全卷积网络在获取图像全局信息方面的不足可能会影响检测精度，导致在测试过程中出现漏检和误检现象。最终，对牛体关键部位的检测平均精度均值（Mean Average Precision, mAP）为93.73%。Shen等^［8］采用微调后的卷积神经网络结合YOLO模型检测侧视图中的奶牛对象，识别准确率较高，然而，当奶牛走动并产生遮挡时，难以捕捉目标对象的关键特征，影响检测精度。

以上方法虽然取得了一定的效果，但仍存在一些问题。一是细节特征提取能力不足。肉牛之间可能存在互相遮挡的现象，导致特征图发生相应变化，从而影响了细节特征的辨识性，进而影响算法检测性能。二是难以捕捉肉牛图像全局信息。目标检测算法中的池化、步长卷积操作使得感受野范围固定且缩小，无法同时有效获取被遮挡肉牛目标的全局上下文信息，容易出现漏检、误检现象。三是肉牛目标预测框错误剔除。肉牛互相遮挡使得多个预测框重叠，算法错误剔除预测框导致漏检情况，使得算法识别准确率下降。YOLO系列算法在训练过程中，通过反向传播算法不断调整模型参数，使其能够更好地适应不同场景的图像数据，展现出强大的泛化能力。自YOLOv1^［9］首次提出实时目标检测的解决方案以来，YOLO系列算法不断进化。YOLOv2^［10］和YOLOv3^［11］在保持实时性的基础上，通过优化网络结构和引入锚框机制，逐步提升了检测精度。然而，这些早期版本在处理复杂场景，尤其是目标遮挡情况时，仍存在一定的局限性。进入YOLOv4^［12］及以后版本，如YOLOv5、YOLOv8和最新的YOLOv12^［13］，开发者们持续引入先进的技术组件，进一步优化了模型性能。这些版本不仅在检测精度上达到了新的高度，还通过改进的网络架构和训练策略，增强了模型对复杂场景的适应能力。特别是YOLOv12，以注意力机制为核心，保持较大的感受野，能够更好地捕捉全局上下文信息，这为解决肉牛遮挡检测问题提供了新的思路。因此，本研究以YOLOv12s为基础网络进行改进。

虽然YOLOv12s具有优秀的检测性能，但其卷积核在标准卷积操作过程中采样形状固定，无法有效应对肉牛因遮挡现象导致难以提取显著且多样性特征问题，本研究利用可改变核卷积^［14］替代部分标准卷积，提高对肉牛图像局部特征信息的捕捉能力，降低遮挡情况对检测精度的影响。为进一步掌握被遮挡肉牛目标的全局上下文信息，融合自集成注意力机制^［15］，通过增强未遮挡区域的特征响应，弥补遮挡区域的响应损失，改善整体特征表示。同时针对检测过程中肉牛目标预测框可能被剔除而导致的漏检问题，在原损失函数添加排斥损失函数^［16］，以降低漏检率。

综上所述，本研究以YOLOv12s为基础进行改进，提出肉牛目标检测算法（YOLOv12s-ASR），以应对肉牛目标互相遮挡问题，能够在保证检测速度较快的同时提高检测精度，通过在真实场景下进行实验验证，以期为肉牛数量统计提供技术支持。

1 研究方法

YOLOv12s是一种高效的目标检测算法，其网络结构主要由Input、Backbone、Neck和Head四部分组成。Input部分采用Mosaic数据增强技术，支持任意尺寸图像输入。Backbone部分使用残差高效层聚合网络（Residual Efficient Layer Aggregation Networks, R-ELAN），该架构改进了原始ELAN^［17］，通过块级残差设计和特征聚合方法，稳定了训练过程并降低了计算成本，同时引入区域注意力机制，有效处理大感受野并降低计算复杂度。Neck部分采用改进的PANet^［18］结构，结合特征金字塔网络（Feature Pyramid Network^［19］, FPN）和路径聚合网络（Path Aggregation Network, PAN），实现不同层次特征的充分融合，提升检测性能。Head 部分采用Anchor-Free机制，直接预测对象中心点，实现目标检测，避免传统Anchor-Based机制中手动设置锚框的步骤，使模型能更自适应地检测不同大小的目标物体。基于YOLOv12s的优势，本研究将其作为基础网络进行改进，提出YOLOv12s-ASR算法，网络结构如图1所示，以应对肉牛目标互相遮挡问题，提高检测精度。

显示原图|下载原图ZIP|生成PPT

图1 YOLOv12s-ASR 网络结构

Fig. 1 YOLOv12s-ASR Network Architecture

首先，为有效应对肉牛在进食和走动过程中可能出现的遮挡问题，将标准卷积Conv模块替换为可改变核卷积AKConv模块。AKConv模块的可变核特性使其能够根据图像内容自适应地调整卷积核的形状和大小，从而更好地捕捉到被遮挡肉牛的局部特征。在肉牛互相遮挡的复杂场景下，AKConv可以灵活地调整卷积核，聚焦于未被遮挡的部分，提取更具代表性的特征，进一步提升对被遮挡肉牛目标整体外观的感知能力。

然后，为增强模型对图像全局信息的获取能力，在Neck部分添加三层SEAM（Self-Ensembling Attention Mechanism）模块。该模块通过自注意力机制，能够使模型在特征融合过程中充分考虑不同位置之间的关联性，将全局信息有效地整合到特征表示中。当肉牛出现遮挡时，模型可以利用全局信息来推断被遮挡肉牛的位置、姿态等关键特征，减少遮挡对检测结果的影响，提升模型对复杂场景下多头肉牛的检测性能。

最后，采用排斥损失函数作为原损失函数的补充，能够进一步优化模型在肉牛遮挡场景下的检测效果。排斥损失函数通过在损失计算中引入排斥项，鼓励不同预测框之间的分离，避免预测框之间的重叠。在肉牛互相遮挡的情况下，这种排斥作用可以使模型更倾向于将每个肉牛个体分配到独立的预测框中，减少因遮挡导致的框重叠和误判，从而提高模型对被遮挡肉牛的定位精度和识别准确率。

1.1　AKConv模块

肉牛作为常见的家养群居动物，在养殖过程中极易形成聚集，使得彼此间易发生遮挡，这一现象严重阻碍了对其关键特征的精准提取。为了提高模型对被遮挡肉牛目标的特征表达能力，在YOLOv12s网络中使用可改变核卷积进行局部特征增强，使网络忽略无关信息干扰，使融合后的特征图包含更多有效信息。AKConv是一种创新的卷积模块，旨在突破传统卷积操作的局限性，为神经网络提供更灵活、更高效的特征提取能力。传统卷积运算存在两个主要缺陷：一是局限于固定的局部窗口，无法捕获其他位置的信息，且采样形状固定；二是卷积核大小固定为k×k的正方形，参数量随大小呈平方增长，难以适应数据集中不同位置、不同形状与大小的目标。AKConv通过引入新的坐标生成算法，为任意大小的卷积核定义初始位置，并通过引入偏移量来调整每个位置的采样形状，从而实现卷积核形状和大小的动态调整，以更好地适应目标的变化。此外，AKConv还允许卷积核具有相同大小但不同初始采样形状，进一步拓展了网络的性能和适应性。这种灵活的卷积机制使得AKConv能够更有效地捕获目标的特征信息，尤其适用于处理形状和大小多变的目标检测任务。

AKConv模块（图2）的动态调整能力使其能够根据肉牛的形状和大小变化，灵活地调整卷积核的形状和大小，从而更精准地提取被遮挡肉牛的特征信息。例如，在肉牛部分被遮挡时，AKConv可以通过调整卷积核的采样位置和形状，聚焦于未被遮挡的部位，如肉牛的头部、背部等关键区域，从而更准确地识别和定位肉牛个体。此外，AKConv模块还能够适应不同遮挡程度下的肉牛检测需求，无论遮挡是轻微的还是较为严重的，它都能通过自适应的特征提取方式，提高检测的准确性和鲁棒性。

显示原图|下载原图ZIP|生成PPT

图2 AKConv 模块

Fig.2 AKConv module

1.2　SEAM模块

SEAM是一种自集成注意力机制，旨在通过多视角特征融合和一致性正则化来增强模型对全局上下文信息的理解和利用能力。SEAM机制通过将输入图像分割成不同大小的patch，并对这些patch进行嵌入处理，生成初步的特征表示。然后，利用深度可分离卷积来学习空间维度和通道之间的相关性，从而捕获不同尺度的特征空间尺度与通道的相关性。此外，SEAM还引入了一致性正则化，对来自各种变换图像的类激活图（Class Activation Mapping, CAM）进行一致性约束，为网络学习提供自监督，进一步提高网络预测的一致性和对全局信息的把握能力。这种多尺度特征融合和一致性正则化的设计，使得SEAM能够从不同视角获取全局上下文信息，增强模型对图像整体的理解和特征提取能力。本研究将SEAM模块应用在YOLOv12s-ASR网络结构的Neck部分，不仅能够增强模型在目标检测任务中的特征捕获能力和泛化性能，还能够将提取的特征与原始图像的空间信息紧密结合，从而带来更为精确和可信的检测结果。这种改进对于处理肉牛等易遮挡目标的检测任务尤为重要，有望显著提高养殖管理的自动化和智能化水平。

显示原图|下载原图ZIP|生成PPT

图3 SEAM 注意力模块

Fig. 3 SEAM attention module

在肉牛目标检测任务中，SEAM模块能够有效应对遮挡问题。当肉牛出现遮挡时，模型可以利用SEAM模块获取的全局信息来推断被遮挡肉牛的位置、姿态等关键特征。例如，即使肉牛的部分身体被遮挡，SEAM模块仍能通过整合全局信息，识别出被遮挡部分的特征，减少遮挡对检测结果的影响，提升模型对复杂场景下多头肉牛的检测性能。具体来说，SEAM模块通过增强未遮挡区域的特征响应，弥补遮挡区域的响应损失，改善整体特征表示，从而提高模型对被遮挡肉牛目标的识别准确率。

SEAM模块被插入到YOLOv12s-ASR网络结构的Neck部分，这是基于Neck部分在特征融合中的关键作用。Neck部分负责对不同尺度的特征进行融合，生成特征金字塔，对于整合全局信息和局部细节至关重要。在Neck部分添加SEAM模块，可以在特征融合的过程中充分考虑不同位置之间的关联性，将全局信息有效地整合到特征表示中。此外，Neck部分的特征图具有较高的分辨率，能够保留更多的空间信息，有利于SEAM模块捕捉到更精细的特征，从而更好地应对遮挡问题。

1.3　损失函数的改进

原YOLOv12s网络中，损失函数主要包括边界框回归损失（Box Loss）、置信度损失（Objectness Loss）、分类损失（Classification Loss）。其中，边界框回归损失用于确保模型能够准确地定位目标，通常使用交并比（Intersection over Union, IoU）或其变体，如完全交并比（Complete Intersection over Union, CIoU）、距离交并比（Distance Intersection over Union, DIoU）等来衡量预测框和真实框的重合程度。置信度损失用于优化预测边界框的置信度，通常使用二值交叉熵损失，衡量模型对目标存在与否的判断能力。分类损失用于确保模型能够正确识别出图像中的对象属于哪个类别，通常使用交叉熵损失。

而排斥损失函数（Repulsion Loss）通过引入排斥效应来优化边界框的预测，从而提高模型在复杂场景下的检测准确性。该模块主要包含两部分：RepGT和RepBox。RepGT的功能是使当前边界框尽可能远离周围的真实边界框，而RepBox的目的是使预测框尽可能远离周围的预测框，从而减少它们之间的IoU，避免一个预测框因非极大值抑制（Non-Maximum Suppression, NMS）而被压制，并归属于两个目标。排斥函数模块通过这种方式，使模型能够更准确地识别和定位被遮挡的目标，减少因遮挡导致的误检和漏检。

如下所示，排斥损失函数分为三部分，如公式（1）所示。

L R e = L A t t r + α × L R e p G T + β × L R e p B o x

（1）

式中：

L R e

为排斥损失函数；

L A t t r

使预测框更接近真实框（即吸引）；

L R e p G T

使预测框远离周围的真实框（即排斥）；参数

α

和

β

用于平衡两者的权重。

第一部分为预测框与真实目标框所产生的损失值（attraction term），如公式（2）所示。

L A t t r = ∑ P ∈ P + S m o o t h L 1 B P, G A t t r P P +

（2）

式中：

P ∈ P +

为所有的正样本，正样本就是根据设定的IoU阈值来划分出来的检测框P的集合；

G A t t r P

为每一个检测框

P

匹配一个有最大IoU值的真实目标框；

B P

是检测框

P

做回归偏移后得到的预测框。

第二部分为预测框与相邻真实目标框所产生的损失值（repulsion term），如公式（3）所示。

L R e p G T = ∑ P ∈ P + S m o o t h l n I o G B P, G R e p P P +

（3）

式中：

G R e p P

是除了与预测框

P

匹配了的真实目标框A以外，其他剩下的真实目标框中与预测框

P

的IoU最大的真实目标框B。

第三部分为预测框与相邻不是预测同一真实目标的预测框所产生的损失值（Repulsion Box（RepBox））。通过两个相关系数α和β来平衡两部分repulsion损失值，如公式（4）所示。

L R e p B o x = ∑ i ≠ j S m o o t h l n I o U B P i, B P j ∑ i ≠ j 1 I o U B P i, B P j > 0 + ϵ

（4）

最终的损失函数可以表示为公式（5）：

L T o t a l = L C l a s s + L O b j e c t n e s s + L B o x + L R e

（5）

式中：

L C l a s s

为分类损失；

L O b j e c t n e s s

为置信度损失；

L B o x

为边界框回归损失；

L R e

为排斥损失函数。

排斥损失函数通过引入

L R e p G T

，使预测框在学习过程中尽可能远离周围的真实框。在肉牛互相遮挡的情况下，这有助于模型更准确地识别每个肉牛个体的边界，避免因遮挡导致的预测框与多个真实框重叠，从而减少误检现象。例如，当两头肉牛部分重叠时，模型能够通过

L R e p G T

的作用，更精准地定位每头肉牛的位置，而不是将它们合并为一个预测框。同时，

L R e p B o x

的引入鼓励预测框之间保持一定的分离度，避免预测框之间的重叠。在存在多个预测框时，这有助于模型更合理地分配预测框给不同的肉牛个体，减少因遮挡导致的漏检和误检。比如，在肉牛密集聚集的场景下，多个预测框可能会集中在同一区域，通过

L R e p B o x

可以使这些预测框更好地分散开来，各自对应不同的肉牛个体，提高检测的准确性。

2 结果与分析

2.1　实验设置与评价标准

实验环境：本实验系统环境为Ubuntu 16.04.3，采用主流的Pytorch框架进行训练及测试。软件环境为cuda11.4和Python3.8.0。硬件配置为NVIDIA Geforce RTX 3090 GPU、24 GB显存；Intel Xeon银牌 4210RIntel（R） Xeon（R） CPU。

参数设置：实验设置统一训练参数，训练时，输入图像的分辨率像素为640×640，使用随机梯度下降作为优化函数对模型进行训练。模型训练周期（epoch）为500，批量大小（batch size）为16，初始学习速率为0.01。本实验采用与原YOLOv12算法相同的数据增强算法。

采用网格搜索法对学习率、批量大小和训练轮数进行优化验证。定义超参数的取值范围为学习率［0.001，0.01，0.1］，批量大小［8，16，32］，训练轮数［300，500，700］。通过实验发现，学习率为0.01时，模型在训练集和验证集上表现良好，损失值下降稳定；批量大小为16，既保证了显存资源的充分利用，又避免了过拟合；训练轮数达到500时，损失值趋于稳定，准确率不再显著提高。最终确定学习率为0.01、批量大小为16、训练轮数为500的超参数组合，此时模型在验证集上的平均精度均值最高，验证了该组合的合理性。

本研究对象为肉牛，数据采集自宁夏回族自治区灵武市13家个体养殖户，图像获取设备为养殖户监控摄像头，拍摄时间为2023年2月28日—2023年4日3日，视频记录时间段为7∶00—17∶00，最终获得20个以上不同视角的监控截图，共得到2 458幅图像。

由于图像采集来源于实际场景，其中可能存在各类遮挡情况的肉牛目标。本文根据图像中大部分肉牛的遮挡情况来判断遮挡程度，并采用等面积网格线方法来近似计算肉牛遮挡面积。在轻微遮挡情况下（如图4a所示），大部分肉牛目标的轮廓较为完整，遮挡比例较小，遮挡面积0%~40%。这种情况下，肉牛目标的特征能够清晰地呈现出来，属于轻微遮挡。在中度遮挡情况下（如图4b所示），大部分肉牛目标的轮廓仍然较为完整，但是场景距离较近，导致部分肉牛目标的特征被部分遮挡，遮挡面积40%~60%。这种情况下，肉牛目标的特征依然可见，但部分特征被遮挡，属于中度遮挡。在重度遮挡情况下（如图4c所示），大部分肉牛目标的轮廓仅剩下臀部，剩余特征较少，遮挡比例很大，遮挡面积60%~90%。这种情况下，肉牛目标的大部分特征都被遮挡，只剩下少量可见的特征，属于重度遮挡。根据轻微、中度和重度遮挡图像的数量分别为849、823和786幅，本研究将监控视频分帧得到的2 458幅图像按照比例7∶2∶1分为训练集、验证集和测试集，用于模型的训练和测试。其中，训练集包含轻微遮挡图像594幅、中度遮挡图像576幅、重度遮挡图像546幅；验证集包含轻微遮挡图像169幅、中度遮挡图像164幅、重度遮挡图像157幅；测试集包含轻微遮挡图像86幅、中度遮挡图像83幅、重度遮挡图像73幅。

显示原图|下载原图ZIP|生成PPT

图4 肉牛不同遮挡情况

Fig. 4 Different shading conditions for beef cattle

在数据标注方面，本研究采用手动标注的方式对肉牛目标进行标注首先由两名经验丰富的标注人员同时对图像进行观察和分析，根据肉牛身体的可见特征（如耳朵、尾巴、背部轮廓等），以及对遮挡物形状和位置的判断，尽量完整地勾勒出被遮挡肉牛的边界框。然后，由另一位资深的审核人员对标注结果进行审核，对比同一场景下其他角度或时间点未被遮挡的肉牛图像，验证标注的边界框是否合理。若审核不通过，则返回标注人员重新标注，直至审核通过。

为确保肉牛遮挡部分的准确标注，采取以下措施：1）对标注人员进行专业培训，使其熟悉肉牛的形态特征和常见的遮挡情况，提高其对遮挡肉牛的识别和标注能力；2）建立标注质量审核机制，由审核人员对标注结果进行严格把关；3）利用标注工具的辅助功能，如设置标注框的比例约束、对标注结果进行可视化预览等，辅助标注人员更准确地标注遮挡部分。

采用mAP，模型参数总量（Params）和每秒处理图片的数量（Frames Per Second, FPS）作为评价指标对算法检测精度进行定量评估。mAP由精确率（Precision）和召回率（Recall）求出。精确率又被称为查准率，用于衡量算法的准确度，召回率又称全查率，用于衡量模型正确检测正样本数量与测试正样本数量的比值，计算如公式（6）和公式（7）所示。

P r e c i s i o n = T P T P + F P

（6）

R e c a l l = T P T P + F N

（7）

式中：TP表示模型正确预测为肉牛的正样本数量，即模型检测出的肉牛与实际存在的肉牛个体相匹配；FP表示模型错误预测为肉牛的正样本数量，即模型将非肉牛区域或不存在的肉牛区域错误地识别为肉牛；FN表示模型错误预测为负样本的数量，即模型未能检测到实际存在的肉牛个体。平均精度（Average Precision, AP）用于计算单类别的检测精度，其表示精确率与召回率所围成曲线的面积，计算如公式（8）所示。

A P = ∑ i = 1 n - 1 (r i + 1 - r i) P i n t e r p (r i + 1)

（8）

式中：

r i

表示按升序排列的Precision插值段对应的

R e c a l l

值；

P i n t e r p

为插值操作。因此，用于计算多个类别平均精度的mAP计算如公式（9）所示。

m A P = ∑ j = 1 M A P M

（9）

式中：

M

代表数据集中所有类别个数。

2.2　模块与机制对性能的影响

为了验证加入的SEAM注意力机制模块对模型性能的影响，本实验将基线模型YOLOv12s算法与不同的注意力机制结合进行对比，如SE（Squeeze-and-Excitation）注意力机制^［20］、CA（Coordinate Attention）注意力机制^［21］、ECA（Efficient Channel Attention）注意力机制^［22］、CBAM（Convolutional Block Attention Module）注意力机制^［23］，以及SEAM注意力机制。实验结果如表1所示。

表1 肉牛目标检测研究多种注意力机制对比结果

Table1 Comparison of multiple attention mechanisms in beef cattle target detection research

Algorithms	mAP/%	Params/MB	FPS/（frame/s）
YOLOv12s	88.0	8.8	125.3
YOLOv12s+SE	88.2	9.1	125.2
YOLOv12s+CA	88.5	8.9	107.9
YOLOv12s+ECA	88.6	9.0	122.6
YOLOv12s+CBAM	88.9	9.3	110.6
YOLOv12s+SEAM	89.0	9.2	117.6

其中，SE注意力机制最初在2018年提出，旨在通过对输入特征进行压缩和激励来增强模型的表现能力。CA注意力机制将位置信息嵌入到通道注意力中，以增强模型的感知能力。ECA注意力机制在卷积操作中引入通道注意力机制，以提升特征表示的能力。CBAM注意力机制通过引入通道注意力和空间注意力来提高模型的感知能力，从而改善性能。相较于其他4种注意力机制，SEAM注意力机制结合了空间和通道两类注意力机制，并通过深度可分离卷积来高效结合这两类注意力。

从表1可以看出，相较于基线模型YOLOv12s，加入不同注意力机制后模型的mAP均有所提升。其中，SE注意力机制使mAP提升了0.2个百分点，CA注意力机制使mAP提升了0.5个百分点，ECA注意力机制使mAP提升了0.6个百分点，CBAM注意力机制使mAP提升了0.9个百分点，而SEAM注意力机制使mAP提升了1.0个百分点，在所有对比的注意力机制中提升幅度最大。

同时，SEAM注意力机制在模型参数量和检测速度方面也表现出较好的平衡。虽然其模型参数量相比基线模型略有增加，达到9.2 MB，但检测速度仍能保持在117.6 frame/s，相较于其他注意力机制如CBAM（110.6 frame/s）和CA（107.9 frame/s），具有一定的速度优势。

为验证在YOLOv12s中融入各改进模块的有效性，在自建肉牛数据集上展开消融实验分析。其中，YOLOv12s-A表示将网络中的Conv模块替换为AKConv模块，YOLOv12s-S表示在YOLOv12s颈部嵌入三层SEAM模块，YOLOv12s-R表示将YOLOv12s中的损失函数替换为Repulsion损失函数，YOLOv12s-ASR是本研究提出的算法，消融实验结果如表2所示。

表2 肉牛目标检测研究消融实验结果

Table2 Results of ablation experiment in beef cattle target detection research

Algorithms	AKConv	SEAM	Repulsion	mAP/%	Params/MB	FPS/（frame/s）
YOLOv12s				88.0	8.8	125.3
YOLOv12s-A	√			88.6	7.6	156.9
YOLOv12s-S		√		89.0	9.2	117.6
YOLOv12s-R			√	88.6	8.9	110.1
YOLOv12s-AS	√	√		89.2	8.1	138.6
YOLOv12s-AR	√		√	88.8	7.8	141.2
YOLOv12s-SR		√	√	89.1	9.2	105.0
YOLOv12s-ASR（Ours）	√	√	√	89.3	8.5	136.7

从表2的结果可以看出，在基线模型YOLOv12s的基础上只替换AKConv模块，改进算法YOLOv12s-A的mAP达到88.6%，检测精度相较于基线模型提升了0.6个百分点。仅嵌入三层SEAM注意力模块后，模型的mAP为89.0%，相较于基线模型提升1.0个百分点。在YOLOv12s的基础上，将损失函数替换为排斥损失函数，mAP为88.6%，相较于基线模型提升0.6个百分点。当添加AKConv模块、SEAM注意力机制模块和更换损失函数为Repulsion损失函数这3种改进策略共同加入时，检测精度为89.3%，相较于基线模型提升1.3个百分点，FPS提高到136.7 frame/s，而且YOLOv12s-ASR的模型参数量降低了0.3 MB，其准确率和精度完全可以满足现实场景下肉牛目标检测的实时性需求。

2.3　与现有方法的对比分析

为进一步验证YOLOv12s-ASR在mAP、Params和FPS三个评价指标上的综合优越性，分别选取Faster-RCNN^［24］、SSD、Mask R-CNN^［25］、YOLOv5s、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s和YOLOv12s九种主流方法，在肉牛数据集上进行对比实验，结果如表3所示。

表3 肉牛目标检测研究不同算法对比结果

Table3 Comparison results of different algorithms in beef cattle target detection research

Algorithms	mAP/%	Params/MB	FPS/（frame/s）
Faster-RCNN	72.5	41.3	70.8
Mask R-CNN	86.5	45.2	35.6
SSD	65.0	31.5	97.6
YOLOv5s	86.9	7.4	110.0
YOLOv8s	87.4	10.4	135.1
YOLOv9s	87.2	7.0	101.0
YOLOv10s	87.8	7.7	105.0
YOLOv11s	87.5	9.0	111.0
YOLOv12s	88.0	8.8	125.3
YOLOv12s-ASR（Ours）	89.3	8.5	136.7

由表3可知，YOLOv12s-ASR的mAP为89.3%，相较于Faster-RCNN、Mask R-CNN、SSD、YOLOv5s、YOLOv8s、YOLOv9s、YOLOv10s、YOLOv11s和YOLOv12s分别提升了16.8、2.8、24.3、2.4、1.9、2.1、1.5、1.8和1.3个百分点，在表3中所列检测模型中拥有最高的mAP，可以实现对肉牛的精准检测。在模型参数量方面，YOLOv12s-ASR相较于Faster-RCNN、Mask R-CNN、SSD、YOLOv8s、YOLOv11s和YOLOv12s分别下降了32.8、36.7、23、1.9、0.5和0.3 MB。改进模型YOLOv12s-ASR检测速度达到136.7 frame/s，而且检测精度最高，模型参数量也仅有8.5 MB，可以满足对养殖户监控摄像头上传的肉牛图像进行准确实时检测。综上分析可知，YOLOv12s-ASR的检测精度、速度和模型性能都表现优异，完全可适用于肉牛养殖户目标检测需求。

为了全面验证YOLOv12s-ASR目标检测算法在不同遮挡情况下的识别准确性，将肉牛图像数据集按肉牛目标的遮挡程度分为轻微、中度、重度三类子数据集，针对这三类子数据集分别使用YOLOv12s算法和YOLOv12s-ASR算法进行测试，检测结果如表4和图5所示。

表4 肉牛目标检测研究改进前后不同遮挡情况的效果对比

Table4 Improved comparison of different occlusion situations before and after in beef cattle target detection research

Algorithms	mAP/%
Algorithms	轻微遮挡	中度遮挡	重度遮挡
YOLOv12s	91.3	86.5	83.2
YOLOv12s-ASR	95.7	89.4	87.6

由表4可知，相较于基线模型YOLOv12s，改进模型YOLOv12s-ASR在轻微遮挡、中度遮挡和重度遮挡情况下，mAP分别提升了4.4、2.9和4.4个百分点。当轻微遮挡时，肉牛目标显露明显，特征点清晰，检测精度高。当中度和重度遮挡时，肉牛目标难以辨别，影响判断，检测精度大大下降。测试结果表明，YOLOv12s-ASR对于不同遮挡情况的检测具有一定的稳定性，该模型可以满足养殖户的实际检测需求。

为了直观展示YOLOv12s-ASR在应对肉牛目标遮挡现象的优越性，选择轻微、中度和重度三种遮挡情况进行可视化结果分析检测，将YOLOv12s-ASR与基线模型进行对比，检测效果如图5所示，改进后的算法能够更有效检测出肉牛目标。

显示原图|下载原图ZIP|生成PPT

图5 肉牛目标检测研究改进前后不同遮挡情况的效果对比

Fig. 5 Improved comparison of different occlusion situations before and after in beef cattle target detection research

3 结论

为应对肉牛目标检测中遮挡问题所导致的准确性挑战，本研究提出了一种创新的检测算法——YOLOv12s-ASR。该算法基于YOLOv12s进行优化，将网络中的部分标准卷积替换为可变核卷积模块，显著提升了对肉牛细节特征的敏感度和识别精度。同时，在Neck部分集成了三层SEAM注意力机制，进一步增强了模型对肉牛图像全局上下文信息的捕捉能力，有效减少了遮挡情况下的漏检问题。此外，通过采用排斥损失函数，算法在减少漏检的同时，也提高了检测的准确度。实验结果表明，YOLOv12s-ASR在自建的肉牛数据集上mAP值为89.3%，模型参数量仅有8.5 MB，且检测速度达到了每秒136.7帧。这些成果充分证明了YOLOv12s-ASR算法在实时处理复杂遮挡情况下肉牛目标检测的高效性和准确性，为实现畜牧业的自动化和智能化提供了有力的技术支持。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	李乾, 王玉斌, 石自忠. 我国肉牛良种补贴政策评价及反思[J]. 中国农业大学学报, 2019, 24(11): 234-240. LI Q, WANG Y B, SHI Z Z. Evaluation and reflection of the beef cattle improved variety subsidy policy in China[J]. Journal of China agricultural university, 2019, 24(11): 234-240.

[2]	宋一凡, 王娟, 李建丽, 等. 精准化养殖模式下牛只个体识别方法综述[J]. 黑龙江畜牧兽医, 2021(22): 48-53, 148-149. SONG Y F, WANG J, LI J L, et al. Review of individual identification methods for cattle in precision breeding mode[J]. Heilongjiang animal science and veterinary medicine, 2021(22): 48-53, 148-149.

[3]	AWAD A I. From classical methods to animal biometrics: A review on cattle identification and tracking[J]. Computers and electronics in agriculture, 2016, 123: 423-435.

[4]	张宇. 基于深度学习的肉牛体侧识别方法研究[D]. 包头: 内蒙古科技大学, 2023. ZHANG Y. Research on beef cattle body side recognition method based on deep learning[D]. Baotou: Inner Mongolia University of Science & Technology, 2023.

[5]	邢永鑫, 孙游东, 王天一. 基于改进SSD算法对奶牛的个体识别[J]. 计算机工程与应用, 2022, 58(2): 208-214. XING Y X, SUN Y D, WANG T Y. Individual recognition of dairy cow based on improved SSD algorithm[J]. Computer engineering and applications, 2022, 58(2): 208-214.

[6]	宋怀波, 李嵘, 王云飞, 等. 基于ECA-YOLO v5s网络的重度遮挡肉牛目标识别方法[J]. 农业机械学报, 2023, 54(3): 274-281. SONG H B, LI R, WANG Y F, et al. Recognition method of heavily occluded beef cattle targets based on ECA-YOLO v5s[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(3): 274-281.

[7]	JIANG B, WU Q, YIN X, et al. FLYOLOv3 deep learning for key parts of dairy cow body detection[J]. Computers and electronics in agriculture, 2019, 166: ID 104982.

[8]	SHEN W, HU H, DAI B, et al. Individual identification of dairy cows based on convolutional neural networks[J]. Multimedia tools and applications, 2019, 79: 14711-14724.

[9]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[EB/OL]. arXiv: 1506.02640, 2015.

[10]	REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[EB/OL]. arXiv: 1612.08242, 2016.

[11]	REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv: 1804.02767, 2018.

[12]	BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. arXiv: 2004.10934, 2020.

[13]	TIAN Y J, YE Q X, DOERMANN D. YOLOv12: Attention-centric real-time object detectors[EB/OL]. arXiv: 2502.12524,2025.

[14]	ZHANG X L, SONG Y, SONG T, et al. AKConv: Convolutional kernel with arbitrary sampled shapes and arbitrary number of parameters[EB/OL]. arXiv: 2311.11587, 2023.

[15]	YU Z P, HUANG H B, CHEN W J, et al. YOLO-FaceV2: A scale and occlusion aware face detector[J]. Pattern recognition, 2024, 155: ID 110714.

[16]	WANG X L, XIAO T T, JIANG Y N, et al. Repulsion loss: Detecting pedestrians in a crowd[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 7774-7783.

[17]	ZHANG X, ZENG H, GUO S, et al. Efficient Long-Range Attention Network for Image Super-resolution[C]// European Conference on Computer Vision. Berlin, Germany: Springer, 2022: 649-667.

[18]	LIU S, QI L, QIN H, et al. Path Aggregation Network for Instance Segmentation[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018

[19]	LIN T Y, Dollár P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2017

[20]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, New Jersey, USA: IEEE, 2018: 7132-7141.

[21]	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2021: 13708-13717.

[22]	WANG Q L, WU B G, ZHU P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, New Jersey, USA: IEEE, 2020: 11531-11539.

[23]	WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block attention module[C]// Computer Vision-ECCV 2018. Cham, Germany: Springer, 2018: 3-19.

[24]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

[25]	He K, Gkioxari G, Dollár P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(4): 1836-1848.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 研究方法

图1 YOLOv12s-ASR 网络结构

1.1 AKConv模块

图2 AKConv 模块

1.2 SEAM模块

图3 SEAM 注意力模块

1.3 损失函数的改进

2 结果与分析

2.1 实验设置与评价标准

图4 肉牛不同遮挡情况

2.2 模块与机制对性能的影响

表1 肉牛目标检测研究多种注意力机制对比结果

表2 肉牛目标检测研究消融实验结果

2.3 与现有方法的对比分析

表3 肉牛目标检测研究不同算法对比结果

表4 肉牛目标检测研究改进前后不同遮挡情况的效果对比

图5 肉牛目标检测研究改进前后不同遮挡情况的效果对比

3 结 论

参考文献

0 引言

1.1　AKConv模块

1.2　SEAM模块

1.3　损失函数的改进

2.1　实验设置与评价标准

2.2　模块与机制对性能的影响

2.3　与现有方法的对比分析

3 结论