Welcome to Smart Agriculture 中文

Accurate Detection of Tree Planting Locations in Inner Mongolia for The Three North Project Based on YOLOv10-MHSA

  • XIE Jiyuan , 1, 2 ,
  • ZHANG Dongyan , 1, 2 ,
  • NIU Zhen 1, 2 ,
  • CHENG Tao 1, 2 ,
  • YUAN Feng 3 ,
  • LIU Yaling 3
Expand
  • 1. College of Mechanical and Electronic Engineering, Northwest A&F University, Yangling 712100, China
  • 2. Shaanxi Key Laboratory of Agriculture Information Perception and Intelligent Service, Yangling 712100, China
  • 3. National Grass Technology Innovation Center (Preparation), Hohhot 010021, China
ZHANG Dongyan, E-mail:

XIE Jiyuan, E-mail:

Received date: 2024-10-16

  Online published: 2025-01-24

Supported by

Science and Technology Program of Inner Mongolia Autonomous Region(2023JBGS000804)

Hohhot Science and Technology Innovation Field Talent Program

Hohhot Basic Research and Applied Basic Research Program

Abstract

[Objective] The purpose of this study is to solve the problem of accuracy and efficiency in the detection of tree planting sites (tree pits) in Inner Mongolia of China's 'Three North Project'. The traditional manual field investigation method of the tree planting sites is not only inefficient but also error-prone, and the low-altitude unmanned aerial vehicle (UAV) has become the best choice to solve these problems. To this end, the research team proposed an accurate recognition and detection model of tree planting sites based on YOLOv10-MHSA. [Methods] In this study, a long-endurance multi-purpose vertical take-off and landing fixed-wing UAV was used to collect images of tree planting sites. The UAV was equipped with a 26 million pixel camera with high spatial resolution, which was suitable for high-precision mapping in the field. The aerial photography was carried out from 11:00 to 12:00 on August 1, 2024. The weather was sunny, the wind force was 3, the flight height was set to 150 m (ground resolution was about 2.56 cm), the course overlap rate was 75 %, the side overlap rate was 65 %, and the flight speed was 20 m/s. After the image acquisition was completed, the aerial images were stitched using Metashape software (v2.1.0) to generate a digital orthophoto map (DOM) covering about 2 000 mu (880 m×1 470 m) of tree planting sites, and it was cut through a 640-pixel sliding window into 3 102 high-definition RGB images of 640×640 size for subsequent detection and analysis. In order to prevent overfitting in the process of network training, the research team expanded and divided the original data set. By increasing the amount of model training data, introducing different attention mechanisms and optimizing loss functions, the quality and efficiency of model training are improved. A more effective EIOU loss function was introduced, which was divided into three parts: IOU loss, distance loss and azimuth loss, which directly minimized the width and height difference between the target frame and Anchor, resulting in faster convergence speed and better positioning results. In addition, the Focal-EIOU loss function was introduced to optimize the sample imbalance problem in the bounding box regression task, which further improves the convergence speed and positioning accuracy of the model. [Results and Discussions] After the introduction of the multi-head self-attention mechanism (MHSA), the model was improved by 1.4% and 1.7% on the two evaluation criteria of AP@0.5 and AP@0.5:0.95, respectively, and the accuracy and recall rate were also improved. It showed that MHSA could better help the model to extract the feature information of the target and improve the detection accuracy in complex background. Although the processing speed of the model decreases slightly after adding the attention mechanism, the overall decrease was not large, and it could still meet the requirements of real-time detection. On the optimization of the loss function, the experiment compared the four loss functions of CIOU, SIOU, EIOU and Focal-EIOU. The results showed that the Focal-EIOU loss function was improved, and the precision and recall rates were also significantly improved. This showed that the Focal-EIOU loss function could accelerate the convergence speed of the model and improve the positioning accuracy when dealing with the sample imbalance problem in small target detection. Although the processing speed of the model was slightly reduced, it still meet the requirements of real-time detection. Finally, an improved model, YOLOv10-MHSA, was proposed, which introduces MHSA attention mechanism, small target detection layer and Focal-EIOU loss function. The results of ablation experiments showed that AP@0.5 and AP@0.5:0.95 were increased by 2.1% and 0.9%, respectively, after adding only small target detection layer on the basis of YOLOv10n, and the accuracy and recall rate were also significantly improved. When the MHSA and Focal-EIOU loss functions were further added, the model detection effect was significantly improved. Compared with the baseline model YOLOv10n, the AP@0.5, AP@0.5:0.95, P-value and R-value were improved by 6.6%, 9.8%, 4.4% and 5.1%, respectively. Although the FPS was reduced to 109, the detection performance of the improved model was significantly better than that of the original model in various complex scenes, especially for small target detection in densely distributed and occluded scenes. [Conclusions] In summary, this study effectively improved the YOLOv10n model by introducing MHSA and the optimized loss function (Focal-EIOU), which significantly improved the accuracy and efficiency of tree planting site detection in the 'Three North Project' in Inner Mongolia. The experimental results show that MHSA can enhance the ability of the model to extract local and global information of the target in complex background, and effectively reduce the phenomenon of missed detection and false detection. The Focal-EIOU loss function accelerates the convergence speed of the model and improves the positioning accuracy by optimizing the sample imbalance problem in the bounding box regression task. Although the model processing speed has declined, it still meets the real-time detection requirements and provides strong technical support for the scientific afforestation of the 'Three North Project'.

Cite this article

XIE Jiyuan , ZHANG Dongyan , NIU Zhen , CHENG Tao , YUAN Feng , LIU Yaling . Accurate Detection of Tree Planting Locations in Inner Mongolia for The Three North Project Based on YOLOv10-MHSA[J]. Smart Agriculture, 2025 : 1 -12 . DOI: 10.12133/j.smartag.SA202410010

1 引 言

“三北”防护林工程历时46年建设,已有效遏制了西北、华北、东北地区自然生态系统的持续恶化,显著缓解了风沙危害和水土流失,对全球生态修复与保护作出了巨大贡献。然而,随着植树造林规模的不断扩大,植树位点(树坑)作为造林关键环节,其数量统计与质量评估逐渐成为一项复杂且耗时的任务。当前,“三北”地区上万亩植树造林的植树位点(树坑)采用挖掘机作业,万个甚至十万个树坑常常需要人工标记和现场勘查。这种传统方法费时且劳动强度大,常常存在错报或漏报情况,难以满足大规模植树项目的管理和质量控制需求1。因此,迫切需要高效、精准的植树位点检测技术,以适应植树任务逐渐规模化和科学化发展要求。
据调查,植树位点(树坑)检测面临着一系列技术挑战。在中国内蒙古稀疏草原环境中,植树位点在图像中呈现出尺寸小、对比度低且背景复杂等特点2。此外,复杂地形和光照条件下易出现遮挡、阴影,以及反光干扰,进一步增加了检测的难度3。综上,受实际作业条件限制,高质量植树位点检测的数据较为稀缺,影响了模型的泛化能力4。为了应对上述挑战,现代植树造林引入并应用无人机遥感技术恰逢其时。采用无人机遥感技术获取图像,具有分辨率高、数据获取灵活、成本效益高等优势5。无人机可以快速覆盖大面积区域,获取厘米级的高分辨率影像,为植树位点的检测提供了可靠的数据来源6
植树位点在无人机航拍的图幅中占比小,是一种小目标的监测对象。在目标检测领域,小目标识别已成为一个备受关注的研究领域。李妹燕等7针对高光谱遥感图像目标检测的难题,利用自动标记分水岭算法和KNN(K-Nearest Neighbors)方法进行目标区域的初分割和分类,提出了一种基于机器学习的高光谱遥感图像目标检测方法。林晓林和孙俊8提出了一种基于机器学习的小目标检测与追踪算法DT(Decision Tree),该方法适用于天空背景,在相对均匀的地面背景下也有一定的追踪能力,而且该算法对于小目标的尺度变化、消失重现等问题也具有一定的鲁棒性。但这些方法在面对复杂场景和高噪声环境时,其性能往往表现出局限性。因此,越来越多的研究开始转向深度学习技术作为解决方案。叶昕怡等9提出一种基于自适应对比度增强的红外小目标检测方法。利用自注意力机制和卷积各自的优势,能够更好地平衡检测精度和召回率。然而,深度学习在林木小目标检测中的应用仍相对较少。尽管彭小丹等10利用无人机图像和改进LSC-CNN(Locally Sensitive Convolutional Neural Network)模型实现密集种植苗木的检测和计数。但是,林两魁等11的研究发现,深度学习方法在处理高密度目标环境时仍面临挑战。
基于此,本研究结合无人机遥感技术和深度学习,提出了一种复杂背景下的小目标检测模型——YOLOv10-MHSA(You Only Look Once version 10-Multi-head Self-attention),旨在解决三北工程内蒙古地区植树位点(树坑)小目标检测的问题。该模型在YOLOv10框架基础上,引入了以下改进:1)增加了小目标检测层,引入了额外的检测头和补充特征融合层,增强网络对小目标的语义信息和特征表达能力,更加精确地检测无人机图像中小尺寸的植树位点(树坑),降低漏检、误检问题。2)将传统的卷积层替换为可改变卷积层(AKConv),通过引入可变内核机制来提高特征提取的灵活性和适应性。进一步提升模型特征提取的性能和计算效率。3)引入多头自注意力机制,强化特征图的全局和局部信息表达,从而提高模型对复杂背景的适应性。4)优化损失函数,采用改进的Focal-EIOU Loss (Focal Efficient Intersection over Union Loss),提高小目标检测的精度和召回率。
该模型聚焦于“三北工程”内蒙古地区植树位点(树坑)在复杂背景下的小目标检测优化,有效减少和避免了错检漏检问题,以期为中国“三北工程”科学化植树造林提供新思路与方法支持。

2 材料与方法

2.1 研究区介绍

研究区位于内蒙古自治区呼和浩特市和林格尔县(新红村),地理坐标位于39°58'~40°41' N,111°26'~112°18' E(图1)。该县总土地面积3 436.47 km2,丘陵山区占总面积的78%,是中国“三北工程”防护林建设的重要县区。和林格尔县地形地貌多样,山、丘、川兼备,植树位点(树坑)计数时,传统的人工现场勘察时工作量大、效率低,且容易出错,低空无人机是解决上述难题的最佳选择。
图1 研究区及植树位点(树坑)无人机图像

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1822号标准地图制作,底图无修改。

Fig. 1 The study area and UAV imagery of tree planting pits

2.2 植树位点图像采集

本研究利用长续航多用途垂直起降固定翼无人机(北京安洲科技有限公司)采集植树位点(树坑)图像。机载相机像素2 600万,空间分辨率高,常用于野外高精度测绘。100~200 m飞行高度下,空载航时达2~3 h,续航里程高达180 km,可拍摄研究区上千公顷面积的植树位点(树坑)图像。无人机航拍于2024年8月1日11∶00—12∶00执行,天气晴朗,风力3级,飞行高度设置为150 m(地面分辨率约为2.56 cm),相机拍照模式为等距间隔拍照,航向重叠率为75%,旁向重叠率为65%,飞行速度为20 m/s。图像采集完成后,使用Metashape软件(v2.1.0)对航拍图片进行拼接,生成约1 293 600 m2 (880 m×1 470 m)植树位点的数字正射影像图(Digital Orthophoto Map, DOM)。为便于后续研究分析,对图像数据进行预处理,采用640像素的滑动窗口对拼接后的图像进行裁剪,裁剪后图像像素大小为640×640,共获得3 102幅高清RGB图像。

2.3 植树位点数据集扩充及划分

为防止网络训练过程中发生过拟合现象,提升网络在泛化性和检测性能的优越性,本研究对采集的原始图像集随机进行了基于常规和图像混叠两种方式的数据增强。常规的数据增强方式包含图形的翻转、多角度旋转、随机裁剪、引入高斯噪声和亮暗变换等12。图像混叠的数据增强包括Mosaic数据增强和Mixup数据增强。最终,数据集经扩充后共得到6 204幅植树位点(树坑)图像,然后按照7∶2∶1的比例将数据集划分成训练集(4 343幅)、测试集(1 241幅)及验证集(620幅)。同时利用Labelme工具对植树位点(树坑)进行标注,随后将以上数据集用于模型的训练与验证。

2.4 YOLOv10-MHSA检测模型

为利用无人机高精度、快速识别三北工程内蒙古地区植树位点(树坑),解决遥感端小目标检测和目标在复杂背景下检测中存在的准确率低等问题,本研究针对性设计了YOLOv10-MHSA检测模型,网络结构如图2所示。具体包括小目标检测层添加、可改变卷积层特征提取、多头自注意力机制引入和损失函数优化共四部分。
图2 YOLOv10-MHSA网络结构

Fig. 2 YOLOv10-MHSA network structure

2.4.1 小目标检测层

在YOLOv10网络中,通过特征融合后的检测层实现了对不同尺寸目标的检测,具体通过输出多种尺寸的特征图来实现。原始模型的输入图像像素尺寸为640×640,检测层最终输出了20×20、40×40和80×80这3个不同尺寸的特征图。其中,较大的特征图具有较小的感受野,能够捕捉更多目标位置和局部特征的细节,因此适用于检测小目标;而较小的特征图具有较大的感受野,虽然语义信息丰富但局部特征不够显著,因此更适合检测大目标13。然而,原始YOLOv10网络中最大特征图尺寸为80×80,这意味着最小检测尺寸为80×80,且其在每个网格上的感受野为8×8。这种较大的下采样倍数可能导致小目标特征信息的过度丢失14,使得深层特征图难以有效捕捉小目标。本研究中植树位点通常在整幅航拍图像中占据较少比例,平均像素占原图总像素的0.592%,传统的检测层难以捕捉这些小目标的特征。因此,YOLOv10在小目标检测时要针对性改进。
图2所示,虚线框标示了添加的小目标检测层。在原网络模型的基础上,通过在主干网络P2层设置特征图流出,增加了一层160×160尺寸的小目标检测层,并引入了额外的检测头和补充的特征融合层,此改进旨在增强网络对更小目标的语义信息和特征表达能力。
具体而言,将Backbone中的第5层80×80尺度特征图与Neck中的上采样特征图进行堆叠,经过C2f和上采样处理后得到含有小目标特征信息的深层语义特征层。该层随后与Backbone中的第3层浅层位置特征图堆叠,进一步完善160×160尺度融合特征层在表达小目标语义特征和位置信息方面的能力。最后,这些特征经过C2f处理后,传递至Head中的额外解耦头(Decoupled Head)。Head部分的补充使得小目标的特征信息能够通过Head结构沿下采样路径传递至其他3个尺度特征层,从而增强网络的特征融合能力,提高小目标的检测精度。
通过引入额外的解耦头实现更深层次的特征传递和特征融合效果,可以扩大植树位点(树坑)的检测范围和检测精度15,使得网络更加精确地检测无人机图像中小尺寸的植树位点(树坑)目标,有效降低小目标因背景复杂等影响因素导致的漏检或误检。经测试,改进后的网络在小目标的识别和定位方面取得了更高的准确率。尽管新模型的计算量较原模型有所增加,但这一改进显著增强了模型对小目标特征的捕捉能力,从而大幅提升其在和林格尔县植树位点数据集中检测小目标的能力。

2.4.2 基于可改变卷积层的特征提取

YOLOv10网络中卷积层(Conv)是特征提取的核心组件。为了进一步提升模型的性能,特别是在特征提取和计算效率方面,本研究提出将传统的卷积层替换为可改变卷积层AKConv,它是一种新型的卷积操作,通过引入可变内核机制来提高特征提取的灵活性和适应性16。不同于传统的卷积操作,可改变卷积层不固定使用一个预定义的卷积核,而是通过一个可调整的内核生成网络来动态生成适应输入特征图的特征卷积核,具体结构见图3。此过程中,AKConv不仅仅关注卷积核在输入特征图上滑动的常规模式,还会根据输入特征图的内容和背景的复杂性动态调整卷积核的权重。通过这种方式,AKConv可以更精确地聚焦于输入特征图中的重要特征,从而提高特征提取的准确性和模型的整体性能。
图3 AKConv可变卷积核结构图

Fig. 3 AKConv variable convolution kernel architecture diagram

本研究改进的YOLOv10网络中,传统的卷积层将被AKConv层所替代。传统的固定尺寸卷积核在处理不同尺度和形状的目标时效果有限。AKConv能够根据目标的自适应调整,使得模型在处理植树位点(树坑)这类不规则形状或不同大小的目标时更具灵活性和鲁棒性。这种替换是在网络的每一个卷积层中进行的,包括但不限于主干与颈部网络中的所有卷积层。
AKConv通过1个小型的生成网络动态生成卷积核。这个生成网络根据输入特征图的上下文信息生成多个不同的卷积核。生成的卷积核是根据特定区域的特征调整过的,这些卷积核反映了特征图中各区域的重要性。生成的内核能够根据每个位置的特征分布进行调整,从而增强关键特征的表达。在AKConv中,生成的可变卷积核用于对输入特征图进行卷积操作。假设使用的卷积核尺寸为 3 × 3,经过调整后的卷积核会对输入特征图进行加权卷积操作。具体地,通过将生成的卷积核应用于输入特征图,AKConv生成的输出特征图能够更加准确地捕捉输入特征图中的重要信息。这种方法确保了特征提取的灵活性和适应性,从而提高了模型的表现。
AKConv的引入显著提升了模型的性能。在标准数据集上,使用AKConv的YOLOv10相较于传统卷积方法,在处理小目标和复杂背景的任务中表现更为突出,且动态调整卷积核,模型更有效地捕捉了不同形状植树位点(树坑)的特征,提高了目标检测精度。

2.4.3 多头自注意力机制

注意力机制是一种帮助网络模型对输入数据以不同权重作重要度区分学习的方法,在计算机视觉领域特别在目标检测任务中获得了广泛应用17。通过引入注意力机制,网络依据输入的不同特征图的重要程度赋予不同权重,将更多的注意力聚焦于对当前任务更关键和有用的空间区域,帮助模型更好地理解图像中的目标信息的同时抑制对其他无关信息的关注度18,从而提高模型的检测性能和任务处理的效率和准确率,也可以避免和缓解过拟合情况的发生,在一定程度上提高了模型的鲁棒性。
由于研究区包括丘陵和洼地、灌木与杂草、裸土沙地等多变的地形与地物,这些复杂背景可能导致植树位点(树坑)的精准识别模型检测效率降低,影响检测性能19。为解决这一问题,引入多头自注意力机制可以帮助模型更好地关注图像中植树位点(树坑)信息,同时抑制无关的背景特征。从而在复杂背景下实现更好的小目标检测效果。
在YOLOv10网络中,主干网络与Neck层之间的连接不仅在特征提取和融合过程中发挥着重要作用,而且直接决定了模型在多尺度特征处理中的能力20。为了进一步提升YOLOv10在小目标检测上的能力,本研究在主干网络中引入多头自注意力机制MHSA。具体来说,MHSA模块被集成到主干网络的快速空间金字塔池化模块(Spatial Pyramid Pooling-Fast, SPPF)与位置感知自注意力模块(Position-Aware Self-Attention, PSA)之间。这一位置的选择是基于MHSA模块在特征提取阶段优化全局信息表示的能力。MHSA模块通过多头自注意力机制,能够在特征图的不同位置之间建立有效的联系,捕捉全局和局部信息的复杂关系,从而增强特征的表达力和区分度21。在SPPF之后加入MHSA模块,确保了特征在经过空间金字塔池化的初步处理后,模型能够对重要信息进行加权处理22,优化主干网络对复杂背景和小目标的捕捉能力。
MHSA模块结构如图4所示。为处理二维图像,MHSA模块通过PatchEmbed模块将二维特征图 x R H × W × C的空间维度调整为一维序列 x p R N × P × C,其中 H , W为原始特征图的分辨率, C为通道数, P , P为每个图像块的尺寸,而 N = H W / P 2为图像块数量,即MHSA模块的有效输入序列长度。MHSA模块处于主干网络底层,考虑到其输入特征图的分辨率为(80,80),将图像块的分辨率设定为(2,2),最终得到输入特征序列的长度 N为1 600。为了使MHSA模块利用序列的顺序信息,特征序列中加入了关于序列的位置信息,并生成了3个特征矩阵—— Q K V,通过线性投影将特征矩阵投影h次到 C q C k C v维度来并行计算点积注意力,计算方法如公式(1)所示。
A t t e n t i o n Q , K , V = S o f t m a x Q K T C k V
图4 多头自注意力机制网络结构图

Fig. 4 Multi-headed self-attention mechanism network architecture diagram

本研究中MHSA模块使用了8个并行自注意力层,对于每一层,特征矩阵的通道数为: C q= C k= C v= C p / h=256。
通过捕捉全局信息,MHSA可以减少模型对植树位点(树坑)的漏检和误检。自注意力机制能够帮助模型更准确地聚焦于目标区域,减少背景噪声的干扰,使得模型在处理不同场景和光照条件下的植树位点(树坑)时更具鲁棒性。

2.4.4 损失函数优化

原始YOLOv10算法模型的损失函数由分类损失和回归损失共同组成。回归损失函数的结构如图5所示,YOLOv10采用CIOU Loss用于计算边界框的重叠损失。CIOU Loss在处理纵横比时虽然有一定优势,但在描述相对值方面存在模糊,并且未能有效解决数据集中样本的不平衡问题23。此外,CIOU Loss未能准确处理锚框与标注框的包含关系24,可能导致检测性能受到影响。
图5 损失函数框结构

Fig. 5 Loss function box structure

由于植树位点(树坑)是无人机图像中的小目标,传统的损失函数对小目标的权重不够高,导致模型很难平衡检测精度和召回率。为解决该问题,本研究将CIOU Loss替换为Focal-EIOU Loss。Focal-EIOU Loss是一种改进的边界框回归损失函数,旨在提升目标检测模型的精度和收敛速度25。它结合了焦点损失(Focal Loss)和增强的交并比损失(EIOU Loss),以解决传统回归损失函数在处理复杂场景中的不足。
测量两个任意形状(体积)之间相似性的IOU损失L IOU公式(2)所示。
L I O U = 1 - A B A B
L IOU具有非负性、对称性、三角形不等式和尺度不敏感性等良好的性质,已被证明是一个度量标准。然而,他有两个主要的缺点:如果两个box没有任何交集,IOU将始终为零,这不能正确反映这两个box之间的紧密程度26。且IOU Loss的收敛速度较慢。为了解决上述问题,本研究引入了一个更有效的IOU损失版本,即EIOU损失L EIOU,其定义如公式(3)所示。
L E I O U = L I O U + L d i s + L a s p = 1 - I O U + ρ 2 b , b g t w c 2 + h c 2 + ρ 2 w , w g t w c 2 + ρ 2 h , h g t h c 2
式中: w c h c是覆盖两个box的最小封闭盒子的宽度和高度。即,将损失函数分为3部分:IOU损失、距离损失和方位损失。EIOU Loss直接使目标框和Anchor的宽度和高度的差异最小化,从而产生更快的收敛速度和更好的定位结果。
在实际模型训练过程中,存在训练实例不平衡的问题,即由于图像中目标的稀疏性,回归误差较小的高质量例子的数量远少于低质量例子(异常值)。最近的研究表明,离群值会产生过大的梯度,这对训练过程有害27。因此,使回归过程专注于高质量锚框是至关重要的。本研究引入了新的损失函数,即Focal-EIOU损失L Focal-EIOU,如公式(4)所示。
L F o c a l - E I O U = I O U γ L E I O U
式中: γ为控制异常值抑制程度的参数,经过训练过程中的参数优化,最终确定为0.5。
Focal-EIOU损失函数引入Focal-Loss优化了边界框回归任务中的样本不平衡问题,同时,引入EIOU Loss使得预测框与真实框的宽度和高度差异最小化,进一步提高了模型的收敛速度和定位精度。改进的损失函数帮助模型减少了对植树位点(树坑)的漏检,同时减少了误检,提高了整体检测性能。

2.4.5 模型评价指标

本研究使用精确率(Precision, P)、平均精度(Average Precision, AP)、召回率(Recall, R)、检测帧率(Frames Per Second, FPS)等作为模型的评价指标。其中,P和R为相互矛盾的指标,故选用AP对两者进行综合考虑,AP值越大代表该算法综合性能更好,在本研究中该指标表示土壤种植点平均的检测精度。AP@0.5是IOU阈值等于0.5时的平均检测精度。AP@0.5:0.95表示IOU阈值以0.05作为步长的检测精度的平均值。FPS用于衡量算法检测速度。各指标的计算方法如公式(5)~公式(7)所示。
P = T P T P + F P
R = T P T P + F N
A P = 0 1 p r d r
式中:P代表模型预测正确的部分占整体预测结果的比例,具体来说,即模型正确识别的植树位点(树坑)数量占其识别出的总数量的百分比。R是指预测正确的正样本数占实际总正样本的比例,即模型正确预测的植树位点(树坑)数量占所有总数的百分比。TP为数据集中被正确分类的实际样本对象的数量;FP为被检测模型误检的样本对象数量;FN为检测模型中被漏掉的样本数。

3 结果与讨论

3.1 实验设置

硬件环境配置方面,CPU为Intel Core i7-9750H@2.60 GHz,GPU为NVIDIA GeForce RTX 1660TI,主机内存为16 GB,显存为6 GB。软件环境设置方面,使用64位Windows 10操作系统,使用的编程语言为Python 3.9,使用CUDA 10.2完成计算加速,采用深度学习框架Pytorch 1.10.1进行训练。
实验中具体训练参数设置如下,输入图像的分辨率(Image_Size)大小为640×640,初始学习率(Learning_Rate)定为0.01,训练没有采用预先训练好的模型,Batch_size设置为16,迭代次数(Epochs)调整为200。在检测帧率过程中,检测图像的分辨率大小为640×640,Batch_size设置为16。

3.2 不同YOLOv10基准模型对比实验

YOLOv10提供6种不同大小的模型,包括 YOLOv10n、YOLOv10s、YOLOv10m、YOLOv10b、YOLOv10l、YOLOv10x。这些模型在大小、速度和精度上有所不同,以满足不同应用场景的需求。其中,YOLOv10l为大型版本,精度更高,但计算资源增加;YOLOv10x为超大型版本,可实现最高精度和性能。这两种模型体量大、速度慢,无法满足低成本、高精度嵌入式无人机边缘计算设备所需的轻量化模型迁移和应用需求,因此本研究对比了另外4种模型在检测时的网络深度、网络宽度、PR、AP,以及模型参数量大小,具体实验结果如表1
表1 YOLOv10模型检测植树位点实验结果

Table 1 Experimental results of YOLOv10 model for tree planting locations recognition

模型名称 网络深度 网络宽度 AP@0.5 AP@0.5:0.95 P/% R/% 参数量/M
YOLOv10n 0.33 0.25 0.921 0.761 0.923 0.876 5.3
YOLOv10s 0.33 0.50 0.933 0.796 0.938 0.881 11.2
YOLOv10m 0.67 0.75 0.939 0.846 0.947 0.886 31.3
YOLOv10b 1.00 1.00 0.951 0.854 0.956 0.894 56.8
表1可以看出,随着网络深度和宽度的增加,模型参数的数量随之增加,对应模型的PR有所提高。YOLOv10n作为最轻的网络,其模型的参数量最小,只有5.3 MB,检测精度虽然相对最低但AP@0.5仍达到了0.921。虽然YOLOv10b的AP@0.5达到了0.951,但模型参数量的大小增加到了56.8 M,这种大幅度参数量的增加在实际检测中会造成检测推理时间的增加。考虑实际使用中计算资源的消耗和快速检测的应用需求,且通过适当改进也可以优化和提升网络模型的检测能力,因此本研究最终选择兼具识别精度和识别速度的YOLOv10n作为改进的基线模型进行相应实验。
在和林格尔县植树位点(树坑)检测数据集上使用YOLOv10n进行检测,结果如图6所示。大量测试结果表明,当植树位点(树坑)目标存在密集分布或遮挡情况时,容易发生漏检或误检问题。在植树位点(树坑)密集的区域,或当植树位点(树坑)周围存在过多绿草(杂草或低矮植被)时,模型的检测精度较低,且易出现漏检现象;当植树位点(树坑)之间出现明显遮挡,即目标的大部分面积被附近物体遮挡时,原始模型常常将两个植树位点(树坑)识别为一个,这种情况会显著降低检测精度。
图6 植树位点YOLOv10n检测效果

a. 原始标签 b. YOLOv10n检测图

Fig. 6 Effect of YOLOv10n detection at tree planting locations

具体来说,图6中展示的处于复杂背景下的图像中,多数原始标签能够被模型检测,且置信度保持在0.7以上,说明模型具有较高的检测准确度和较好的鲁棒性,能够适应多种噪声干扰下的植树位点(树坑)目标检测,因此可以作为本研究的基准模型。然而,当图像中植树位点(树坑)密集分布时,检测中容易发生漏检和误检现象;在高斯噪声干扰下,部分植树位点(树坑)出现误检;当目标处于遮挡环境中时,原始模型容易漏检植树位点(树坑)。基于这些漏检和误检问题,通过优化网络结构等方法,对基准模型YOLOv10n进行改进,以提高植树位点(树坑)检测在密集分布和遮挡场景下的检测能力,提出一个具有更高检测精度的植树位点(树坑)检测模型。

3.3 不同注意力机制性能对比实验

为验证本研究引入的多头自注意力机制MHSA的有效性,设计对比实验分析不同注意力机制嵌入模型后评价指标及检测速度的变化情况。各实验均采用相同的软硬件环境及相同的植树位点(树坑)数据集,以YOLOv10n为基线模型,分别在网络的同一位置引入SA(Spatial Attention Mechanism)、EMSA(Efficient Multi-Scale Attention Mechanism)和MHSA这3种注意力机制进行对比,实验具体结果见表2
表2 不同注意力机制检测植树位点结果

Table 2 Experimental results of different attention mechanisms for tree planting locations recognition

模型名称 AP@0.5 AP@0.5:0.95 P R FPS/(f/s)
YOLOv10n 0.921 0.761 0.923 0.876 134
+SA 0.925 0.752 0.931 0.887 132
+EMSA 0.931 0.763 0.942 0.854 126
+MHSA 0.934 0.774 0.938 0.886 130
表2分析可得,引入不同的注意力机制后,3种模型的AP@0.5值均有所提高,其中MHSA的提升最为显著,相比原始模型的AP@0.5和AP@0.5:0.95分别提升了0.013和0.013,加入SA模块后的AP@0.5:0.95有小幅度下降。除了加入EMSA后模型R值有所下降,其他各模型的P值和R值都有所提升。其中,EMSA在P上提升最大,MHSA在R值提升最大,说明EMSA在提高模型预测准确性方面表现较好,而MHSA在提高模型覆盖所有正样本的能力方面表现较好。另外,各模型的FPS值均有所下降,这是因为注意力机制会增加模型的计算复杂度,但总体的下降幅度并不大且均满足实时检测要求,三者之间的差异也较小。
综上所述,加入多头自注意力机制MHSA后模型计算速度降低不明显,而精度得到较大提升,说明MHSA能够更好地帮助模型提取目标的特征信息进行目标识别。因此,MHSA注意力机制在YOLOv10n模型中的嵌入是有效的,在保持模型实时性的同时能够有效提高植树位点(树坑)的检测精度。

3.4 不同损失函数性能对比实验

原YOLOv10n模型采用的是CIOU作为预测框和真实框之间的损失函数,但由于CIOU损失函数在训练过程中没有分别考虑边界框宽度和高度与其置信度的真实差异,从而导致收敛速度缓慢。因此本实验通过对比不同的IOU损失函数,分别在网络的同一位置引入CIOU、SIOU(Scale-Invariant IoU)、EIOU、Focal-EIOU,分析各损失函数对模型性能的影响,实验结果见表3,不同损失函数在训练集上的损失曲线如图7所示。
表3 植树位点识别不同IOU损失函数实验结果

Table 3 Experimental results of different IOU loss functions for tree planting locations recognition

损失函数 AP@0.5 AP@0.5:0.95 P R FPS/(f/s)
CIOU 0.921 0.761 0.923 0.876 134
SIOU 0.921 0.757 0.932 0.892 132
EIOU 0.928 0.762 0.941 0.871 124
Focal-EIOU 0.931 0.776 0.938 0.885 128
图7 植树位点识别不同IOU损失函数曲线

Fig. 7 Tree planting locations recognize of different IOU loss function curves

表3可知,SIOU损失函数相较于CIOU损失函数AP保持不变为0.921,而EIOU损失函数和 Focal-EIOU损失函数相较于CIOU损失函数AP由0.921提高到了0.928和0.931,相较原始损失函数,其AP@0.5与AP@0.5:0.95分别提高了1%与1.5%。由图7可知,Focal-EIOU 损失函数在定位损失和总损失上整体波动较小,相较于CIOU、SIOU和EIOU这3种损失函数,其损失下降更快且拥有更小的收敛损失。综上可见,Focal-EIOU损失函数的收敛效果最好,具有更快的收敛速度和更高的定位精度。在目标检测任务中,通常会有两种类型的错误:漏检和错检。漏检是指模型没有检测到真实存在的目标,错检是指模型错误地将背景或其他不是目标的物体识别为目标。而Focal-EIOU损失函数通过Focal权重对错误进行加权处理,当预测错误时,Focal权重会增大以放大错误的影响,当预测正确时,Focal权重会减小以降低正确预测的影响,从而使得模型更加关注难以检测的目标,并减轻背景对于错检的影响。通过平衡漏检和错检之间的权衡,模型可以更好地进行目标检测任务。

3.5 消融实验

为了验证本研究算法改进模块的有效性,以原始模型YOLOv10n 为基线模型,并以PR、AP@0.5、AP@0.5:0.95作为评价指标,通过多个改进模块不同的组合方式进行消融实验。通过消融实验可以具体分析各个改进模块对YOLOv10n基线模型性能的影响,以及各模块组合后在YOLOv10-MHSA模型中的检测效果。消融实验结果如表4
表4 植树位点识别消融实验

Table 4 Tree planting locations identification ablation experiments

模型名称 AP@0.5 AP@0.5:0.95 P R FPS/(f/s)
YOLOv10n 0.921 0.761 0.923 0.876 134
+小目标检测层 0.941 0.768 0.932 0.882 119
+ AKConv 0.946 0.784 0.937 0.897 124
+MHSA 0.934 0.774 0.938 0.886 130
+ Focal-EIOU Loss 0.931 0.776 0.938 0.885 128
YOLOv10-MHSA 0.982 0.837 0.961 0.921 109

注:YOLOv10-MHSA为同时引入MHSA注意力机制、小目标检测层和Focal-EIOU Loss的改进模型。

实验结果显示,在YOLOv10n的基础上仅添加小目标检测层后,AP@0.5和AP@0.5:0.95分别提升2.1%和0.9%,P值和R值也有所提高,表明添加小目标检测层有助于模型更好地识别和定位较小的目标,对于无人机遥感端获取的植树位点(树坑)这类小目标的检测是有益的。当在基线模型上仅添加MHSA注意力机制时,AP@0.5和AP@0.5:0.95分别提升了1.4%和1.7%,P值和R值分别提高了1.6%、1.1%。说明多头自注意力机制MHSA的引入使得模型能够在特征提取过程中关注更重要的区域,从而提高了整体的检测性能,特别是在AP@0.5:0.95这一更严格的指标上表现较好。当使用Focal-EIOU Loss替换原有的损失函数后,AP@0.5、AP@0.5:0.95提升了1%和1.9%,且R值也有所提高,表明引入Focal-EIOU Loss有助于模型更准确地计算边界框的损失,使模型在数据集上有更好的检测性能。
YOLOv10-MHSA模型通过综合上述改进策略,实现了显著的性能提升。与基线模型YOLOv10n相比,AP@0.5、AP@0.5:0.95、P值和R值分别提升了6.6%、9.8%、4.4%和5.1%,表明YOLOv10-MHSA的各模块组合改进在植树位点(树坑)检测任务上具有更高的准确性和可靠性。
综上所述,通过消融实验验证了添加小目标检测层、添加MHSA注意力机制,以及使用Focal-EIOU Loss代替CIOU Loss等改进策略的有效性。这些改进不仅单独提升了模型的性能,而且在组合使用时产生了更好的效果,实验结果也表明了YOLOv10-MHSA是一种具有较好检测性能的植树位点(树坑)检测模型。

3.6 不同检测模型对比实验

由于无人机拍摄的植树位点(树坑)目标较小且真实环境中常常存在密集分布与复杂背景的情况,本研究设计了YOLOv10-MHSA结构网络,用来强化小目标复杂背景下识别效果较差的情况。为了评估检测模型在主流网络中的性能,验证本研究算法YOLOv10-MHSA相比当前热门的目标检测模型的优越性,将提出的网络结构与YOLO系列网络、SSD网络和具有代表性的双阶Faster-R-CNN目标检测网络进行实验对比(统一的配置以及相同的数据集),检测结果如表5
表5 不同模型检测植树位点结果对比

Table 5 Comparison of the results of different models for detecting tree planting locations

模型名称 评价指标
AP@0.5 AP@0.5:0.95 P R FPS/(f/s)
YOLOv5s 0.897 0.698 0.841 0.812 138
YOLOv8n 0.915 0.734 0.867 0.795 121
YOLOv10n 0.921 0.761 0.923 0.876 134
SSD 0.784 0.624 0.792 0.743 67
Faster-R-CNN 0.837 0.703 0.823 0.802 58
YOLOv10-MHSA 0.982 0.837 0.961 0.921 109
实验结果表明,在性能表现方面,原始模型中YOLOv10n在AP@0.5、AP@0.5:0.95、PR和FPS等方面均表现出了较高的性能。虽然在FPS指标上相比YOLOv5s略低,但相差不大且FPS满足模型实时检测要求。同时YOLOv10n作为YOLOv10系列的一个轻量级版本,在网络结构和计算复杂度上做了优化,使其相比YOLOv10其他版本能够在保持较高检测性能的同时,减少计算资源的需求。
综上所述,选择YOLOv10n作为改进基准模型是基于其良好的性能和轻量化模型的综合决策。而经过改进的YOLOv10-MHSA模型在保持实时检测速度的同时,显著提升了检测精度,表现出了更强的检测性能。图8展示了最优模型在测试集上的检测效果。
图8 最优模型在植树位点测试集上的检测效果

Fig. 8 Detection effectiveness of the optimal model on the test set of tree planting locations

3.7 模型鲁棒性验证

为了验证模型在复杂背景和不同光线环境下的鲁棒性,本研究对植树位点(树坑)检测结果进行了可视化分析。选取了植树位点(树坑)数据集中常见的复杂背景场景,以展示YOLOv10与改进后的YOLOv10-MHSA在复杂背景和暗光线条件下的检测效果对比。
图9中,植树位点(树坑)处于复杂背景下时,背景中的杂物和干扰使得检测任务变得更加具有挑战性。在这些复杂背景条件下,原模型在区域边缘及植树位点(树坑)分布密集的地方容易发生一定程度的漏检现象。例如,在背景中混杂的树枝和石块会干扰植树位点(树坑)的检测,导致原模型在这些区域的检测性能下降。相比之下,改进后的YOLOv10-MHSA模型能够更好地识别这些复杂背景下的植树位点(树坑)目标,并且在相同目标的检测中表现出更高的置信度。这表明,改进后的模型在处理复杂背景干扰问题时具有更高的检测精度和鲁棒性。
图9 密集场景下模型改进前后植树位点检测效果对比

a. 原图像 b. YOLOv10检测效果 c. YOLOv10-MHSA检测效果

Fig. 9 Comparison of tree planting site detection effect before and after model improvement in dense scenarios

图10中,暗光线环境下的检测任务也面临更大的挑战。以图10a为例,中心区域的植树位点(树坑)由于光线不足和背景干扰,使得目标更加难以辨识。在这种情况下,原模型未能有效识别出中心区域的植树位点(树坑)目标,而改进后的YOLOv10-MHSA模型能够成功检测到这些目标,并且在检测置信度上也有所提升。这说明,改进后的模型在暗环境中能够更好地应对复杂背景下的干扰,展现出较强的鲁棒性,能够在多变光线环境下提供可靠的植树位点(树坑)检测性能。
图10 光照不足条件下模型改进前后植树位点检测效果对比

a. 原图像 b. YOLOv10检测效果 c. YOLOv10-MHSA检测效果

Fig. 10 Comparison of detection effect before and after model improvement in dark environment

4 结 论

本研究提出了一种改进的YOLOv10模型,用于内蒙古地区三北防护林区植树位点(树坑)的快速、精准检测,提出了在原模型中增加小目标检测层、引入可变卷积核AKConv、引入多头自注意力机制(MHSA)和Focal-EIOU损失函数。通过实验验证,改进模型的平均检测精度和检测效率均得到了有效提升,其中MHSA擅长捕捉图像的局部与全局关系,特别适合该地区植树位点(树坑)检测,改进后的模型显著提升了在复杂环境和密集分布目标场景下的小目标检测能力。综上,本研究为实现无人机拍摄的植树位点(树坑)的自动检测及优化内蒙古地区林地种植管理方式提供了一种高效且准确的方法,也可为草原荒漠化治理提供了有力的技术支持。

利益冲突声明

本研究不存在研究者以及与公开研究成果有关的利益冲突。

1
ARASUMANI M, BUNYAN M, ROBIN V V. Opportunities and challenges in using remote sensing for invasive tree species management, and in the identification of restoration sites in tropical montane grasslands[J]. Journal of environmental management, 2021, 280: ID 111759.

2
AL-ALI Z M, ABDULLAH M M, ASADALLA N B, et al. A comparative study of remote sensing classification methods for monitoring and assessing desert vegetation using a UAV-based multispectral sensor[J]. Environmental monitoring and assessment, 2020, 192(6): ID 389.

3
LI D J, XU D Y, WANG Z Y, et al. Ecological compensation for desertification control: A review[J]. Journal of geographical sciences, 2018, 28(3): 367-384.

4
HAO Z B, POST C J, MIKHAILOVA E A, et al. How does sample labeling and distribution affect the accuracy and efficiency of a deep learning model for individual tree-crown detection and delineation[J]. Remote sensing, 2022, 14(7): ID 1561.

5
KUMAR P, DEBELE S E, SAHANI J, et al. An overview of monitoring methods for assessing the performance of nature-based solutions against natural hazards[J]. Earth-science reviews, 2021, 217: ID 103603.

6
KOURGIALAS N N, KOUBOURIS G C, DOKOU Z. Optimal irrigation planning for addressing current or future water scarcity in Mediterranean tree crops[J]. Science of the total environment, 2019, 654: 616-632.

7
李妹燕, 李芬, 徐景秀. 基于机器学习方法的高光谱遥感图像目标检测研究[J]. 激光杂志, 2024, 45(10): 108-113.

LI M Y, LI F, XU J X. Research on target detection in hyperspectral remote sensing images based on machine learning methods[J]. Laser journal, 2024, 45(10): 108-113.

8
林晓林, 孙俊. 基于机器学习的小目标检测与追踪的算法研究[J]. 计算机应用研究, 2018, 35(11): 3450-3453, 3457.

LIN X L, SUN J. Research on small object detection and tracking algorithm based on machine learning[J]. Application research of computers, 2018, 35(11): 3450-3453, 3457.

9
叶昕怡, 高思莉, 李范鸣. 基于自适应对比度增强的红外小目标检测网络(英文)[J]. 红外与毫米波学报, 2023, 42(5): 701-710.

YE X Y, GAO S L, LI F M. ACE-STDN: An infrared small target detection network with adaptive contrast enhancement[J]. Journal of infrared and millimeter waves, 2023, 42(5): 701-710.

10
彭小丹, 陈锋军, 朱学岩, 等. 基于无人机图像和改进LSC-CNN模型的密集苗木检测和计数方法[J]. 智慧农业(中英文), 2024, 6(5): 88-97.

PENG X D, CHEN F J, ZHU X Y, et al. Dense nursery stock detecting and counting based on UAV aerial images and improved LSC-CNN[J]. Smart agriculture, 2024, 6(5): 88-97.

11
林两魁, 王少游, 唐忠兴. 基于深度卷积神经网络的红外过采样扫描图像点目标检测方法[J]. 红外与毫米波学报, 2018, 37(2): 219-226.

LIN L K, WANG S Y, TANG Z X. Point target detection in infrared over-sampling scanning images using deep convolutional neural networks[J]. Journal of infrared and millimeter waves, 2018, 37(2): 219-226.

12
HAO Y, ZHANG C X, LI X Y. Research on defect detection method of bearing dust cover based on machine vision and multi-feature fusion algorithm[J]. Measurement science and technology, 2023, 34(10): ID 105016.

13
HUANG G B, BAI Z, KASUN L L C, et al. Local receptive fields based extreme learning machine[J]. IEEE computational intelligence magazine, 2015, 10(2): 18-29.

14
WU Y H, LIU Y, ZHANG L, et al. EDN: Salient object detection via extremely-downsampled network[J]. IEEE transactions on image processing, 2022, 31: 3125-3136.

15
LI S L, ZHANG S J, XUE J X, et al. A fast neural network based on attention mechanisms for detecting field flat jujube[J]. Agriculture, 2022, 12(5): ID 717.

16
ZHANG X, SONG Y, SONG T, et al. AKConv: Convolutional kernel with arbitrary sampled shapes and arbitrary number of parameters [EB/OL]. arXiv: 231111587, 2023.

17
NIU Z Y, ZHONG G Q, YU H. A review on the attention mechanism of deep learning[J]. Neurocomputing, 2021, 452: 48-62.

18
WU Z W, WANG X F, JIA M, et al. Dense object detection methods in RAW UAV imagery based on YOLOv8[J]. Scientific reports, 2024, 14: ID 18019.

19
DOMINIAK K N, KRISTENSEN A R. Prioritizing alarms from sensor-based detection models in livestock production: A review on model performance and alarm reducing methods[J]. Computers and electronics in agriculture, 2017, 133: 46-67.

20
LIU T, LU Y H, ZHANG Y, et al. A bone segmentation method based on multi-scale features fuse U2Net and improved dice loss in CT image process[J]. Biomedical signal processing and control, 2022, 77: ID 103813.

21
TAN H C, LIU X P, YIN B C, et al. MHSA-net: Multihead self-attention network for occluded person re-identification[J]. IEEE transactions on neural networks and learning systems, 2023, 34(11): 8210-8224.

22
JIN Y Q, MA J H, LIAN Y, et al. Cervical cytology screening using the fused deep learning architecture with attention mechanisms[J]. Applied soft computing, 2024, 166: ID 112202.

23
DU S J, ZHANG B F, ZHANG P, et al. An improved bounding box regression loss function based on CIOU loss for multi-scale object detection[C]// 2021 IEEE 2nd International Conference on Pattern Recognition and Machine Learning (PRML). Piscataway, New Jersey, USA: IEEE, 2021.

24
HUANG P P, TIAN S H, SU Y, et al. IA-CIOU: An improved IOU bounding box loss function for SAR ship target detection methods[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2024, 17: 10569-10582.

25
ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146-157.

26
SHEN Y Y, ZHANG F Z, LIU D, et al. Manhattan-distance IOU loss for fast and accurate bounding box regression and object detection[J]. Neurocomputing, 2022, 500: 99-114.

27
ZHAO Y, HRYNIEWICKI M K. XGBOD: Improving supervised outlier detection with unsupervised representation learning[C]// 2018 International Joint Conference on Neural Networks (IJCNN). Piscataway, New Jersey, USA: IEEE, 2018.

Outlines

/