基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测方法

罗学论; GOUDA Mostafa; 宋馨蓓; 胡妍; 张文凯; 何勇; 张瑾; 李晓丽

doi:10.12133/j.smartag.SA202505023

智慧农业 >

2025 , Vol. 7 >Issue 5: 156 - 168

DOI: https://doi.org/10.12133/j.smartag.SA202505023

专刊--光智农业创新技术与应用

基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测方法

罗学论 ¹ ,
GOUDA Mostafa ¹^,² ,
宋馨蓓 ¹ ,
胡妍 ¹ ,
张文凯 ¹ ,
何勇 ¹ ,
张瑾 ^,³^,⁴ ,
李晓丽 ^,¹

展开

^1. 浙江大学生物系统工程与食品科学学院，浙江杭州 310058，中国
^2. 国家研究中心营养与食品科学部，吉萨省杜基区 12622，埃及
^3. 茶树种质创新与资源利用全国重点实验室，浙江杭州 310008，中国
^4. 中国农业科学院茶叶研究所，浙江杭州 310008，中国

张瑾，博士，副研究员，研究方向为茶树抗性育种。E-mail： zhangjin1369@tricaas.com

李晓丽，博士，教授，研究方向为农业遥感、茶叶信息感知。E-mail： xiaolili@zju.edu.cn

罗学论，博士，研究方向为光谱数据挖掘、茶叶信息感知等。E-mail： 12013020@zju.edu.cn

收稿日期: 2025-05-23

网络出版日期: 2025-08-13

基金资助

国家自然科学基金(32171889)

浙江省科技计划项目“尖兵”“领雁”研发攻关计划(2022C02044;2023C02043;2023C02009)

收起

Detection Method of Ectropis Grisescens Larvae in Canopy Environments Based on YOLO and Diffusion Models

LUO Xuelun ¹ ,
GOUDA Mostafa ¹^,² ,
SONG Xinbei ¹ ,
HU Yan ¹ ,
ZHANG Wenkai ¹ ,
HE Yong ¹ ,
ZHANG Jin ^,³^,⁴ ,
LI Xiaoli ^,¹

Expand

^1. College of Biosystems Engineering and Food Science, Zhejiang University, Hangzhou 310058, China
^2. Department of Nutrition & Food Science, National Research Centre, Dokki 12622, Egypt
^3. State Key Laboratory of Tea Plant Germplasm Innovation and Resource Utilization, Ministry of Agriculture, Hangzhou 310008, China
^4. Tea Research Institute, Chinese Academy of Agricultural Sciences, Hangzhou 310008, China

ZHANG Jin, E-mail: zhangjin1369@tricaas.com

LI Xiaoli, E-mail: xiaolili@zju.edu.cn

LUO Xuelun, E-mail: 12013020@zju.edu.cn

Received date: 2025-05-23

Online published: 2025-08-13

Supported by

National Natural Science Foundation of China(32171889)

The Key R&D Projects in Zhejiang Province(2022C02044;2023C02043;2023C02009)

Copyright

Fold

摘要

［目的/意义］ 灰茶尺蠖（Ectropis grisescens）幼虫对茶树的危害是当前茶叶生产面临的主要生物胁迫之一，实现其早期精准检测具有重要的生产实践意义。 ［方法］ 提出了一种融合可控扩散模型与目标检测深度学习框架的高效识别方法，用于茶树冠层中灰茶尺蠖幼虫4个龄期的实时检测。研究构建了3级检测体系：全龄期检测（1~4龄）、虫龄段检测（1~2龄与3~4龄分组），以及精准龄期检测（各龄期独立识别）。研究引入可控扩散模型，创新性地提出数据集优化与高质量图像筛选策略，旨在提升YOLO系列模型（YOLOv8、v9、v10、v11）在灰茶尺蠖数据集上的检测性能。 ［结果与讨论］ 全龄期检测中YOLO系列模型的最佳平均mAP50达到0.904，虫龄段检测的最佳平均mAP50为0.862，精准龄期检测的最佳平均mAP50为0.697。值得注意的是，可控扩散模型的引入使YOLO系列模型的性能获得普遍提升，其中YOLOv10在3类检测任务中的提升最为显著（配对t检验，p<0.05），平均mAP50从0.811提升至0.821。综合比较发现，YOLOv9在灰茶尺蠖检测中表现最优，其3类检测任务的平均mAP50达0.826，F₁值为0.767。 ［结论］ 本研究证实，基于可控扩散模型与深度学习相结合的创新方法，能够有效实现田间灰茶尺蠖幼虫各龄期的精准识别，为茶园灰茶尺蠖智能监测提供了可靠的理论基础和技术支撑。

关键词： 灰茶尺蠖幼虫; 目标检测; 茶冠层环境; YOLO; 扩散模型

本文引用格式

罗学论 , GOUDA Mostafa , 宋馨蓓 , 胡妍 , 张文凯 , 何勇 , 张瑾 , 李晓丽 . 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测方法[J]. 智慧农业, 2025 , 7(5) : 156 -168 . DOI: 10.12133/j.smartag.SA202505023

Abstract

[Objective] Tea has become one of the most important economic crops globally, driven by the growing popularity of tea-based beverages. However, tea production is increasingly threatened by biotic stressors, among which Ectropis grisescens stands out as a major defoliating pest. The larvae of this moth species cause substantial damage to tea plants by feeding on their leaves, thereby reducing yield and affecting the overall quality of the crop. The manual methods are not only time-consuming and labor-intensive but also suffer from low efficiency, high costs, and considerable subjectivity. In this context, the development of intelligent, accurate, and automated early detection techniques for Ectropis grisescens larvae is of vital significance. Such advancements hold the potential to enhance pest management strategies, reduce economic losses, and promote sustainable tea cultivation practices. [Methods] The recognition framework was proposed to achieve real-time and fine-grained identification of E. grisescens larvae at four distinct instar stages within complex tea canopy environments. To capture the varying morphological characteristics across developmental stages, a hierarchical three-level detection system was designed, consisting of: (1) full-instar detection covering all instars from the 1st to the 4th, (2) grouped-stage detection that classified larvae into early (1st－2nd) and late (3rd－4th) instar stages, and (3) fine-grained detection targeting each individual instar stage separately. Given the challenges posed by limited, imbalanced, and noisy training data—common issues in field-based entomological image datasets— a semi-automated dataset optimization strategy was introduced to enhance data quality and improve class representation. Building upon this refined dataset, a controllable diffusion model was employed to generate a large number of high-resolution, labeled synthetic images that emulated real-world appearances of Ectropis grisescens larvae under diverse environmental conditions. To ensure the reliability and utility of the generated data, a novel high-quality image filtering strategy was developed that automatically evaluated and selected images containing accurate, detailed, and visually realistic larval instances. The filtered synthetic images were then strategically integrated into the real training dataset, effectively augmenting the data and enhancing the diversity and balance of training samples. This comprehensive data augmentation pipeline led to substantial improvements in the detection performance of multiple YOLO-series models (YOLOv8, YOLOv9, YOLOv10, and YOLOv11). [Results and Discussions] Experimental results clearly demonstrated that the YOLO series models exhibited strong and consistent performance across a range of detection tasks involving Ectropis grisescens larvae. In the full-instar detection task, which targeted the identification of all larval stages from 1st to 4th instars, the best-performing YOLO model achieved an impressive average mAP@50 of 0.904, indicating a high level of detection precision. In the grouped instar-stage detection task, where larvae were classified into early (1st–2nd) and late (3rd–4th) instar groups, the highest mAP@50 recorded was 0.862, reflecting the model's ability to distinguish developmental clusters with reasonable accuracy. For the more challenging fine-grained individual instar detection task—requiring the model to discriminate among each instar stage independently—the best mAP@50 reached 0.697, demonstrating the feasibility of detailed stage-level classification despite subtle morphological differences. The proposed semi-automated data optimization strategy contributed significantly to performance improvements, particularly for the YOLOv8 model. Specifically, YOLOv8 showed consistent gains in mAP@50 across all three detection tasks, with absolute improvements of 0.024, 0.027, and 0.022 for full-instar, grouped-stage, and fine-grained detection tasks, respectively. These enhancements underscored the effectiveness of the dataset refinement process in addressing issues related to data imbalance and noise. Furthermore, the incorporation of the controllable diffusion model led to a universal performance boost across all YOLO variants. Notably, YOLOv10 exhibited the most substantial gains among the evaluated models, with its average mAP@50 increasing from 0.811 to 0.821 across the three detection tasks. This improvement was statistically significant, as confirmed by a paired t-test (p < 0.05), suggesting that the synthetic images generated by the diffusion model effectively enriched the training data and improved model generalization. Among all evaluated models, YOLOv9 achieved the best overall performance in detecting Ectropis grisescens larvae. It attained top mAP@50 scores of 0.909, 0.869, and 0.702 in the full-instar, grouped-stage, and fine-grained detection tasks, respectively. When averaged across all tasks, YOLOv9 reached a mean mAP@50 of 0.826, accompanied by a macro F₁-Score of 0.767, highlighting its superior balance between precision and recall. [Conclusions] This study demonstrated that the integration of a controllable diffusion model with deep learning enabled accurate field-level instar detection of Ectropis grisescens, providing a reliable theoretical and technical foundation for intelligent pest monitoring in tea plantations.

Key words： Ectropis grisescens larvae; object detection; tea canopy environments; YOLO; diffusion models

0 引言

茶叶作为一种重要的经济作物而备受关注^{［1, 2］}。然而，茶树在生长过程中易受多种生物胁迫的影响，其中灰茶尺蠖（Ectropis grisescens）是最具破坏性的害虫之一，其幼虫（Ectropis grisescens larvae, EGL）以茶树嫩叶为食，不仅抑制新梢生长，还会显著降低茶树的抗寒能力^［3］。茶尺蠖具有极强的扩散能力，一旦暴发，其种群可在短时间内蔓延至整个茶园，对茶叶的产量造成持续性危害^［4］。茶尺蠖暴发严重时，会覆盖中国整个长江中下游茶区（包括浙江、安徽、江苏和江西等省）^［5］，其中浙江省47个茶叶企业所属茶园的调查数据显示，38.3%的茶园受害严重，36.2%和25.5%的茶园分别呈现中度和轻度受害特征^［6］。这些数据证实了茶尺蠖危害的严重性，同时体现了其广泛的地理分布特征，可见茶尺蠖虫害已成为茶叶安全生产研究中不可忽视的关键问题。

当前对灰茶尺蠖虫害的诊断主要依赖人工方式，例如植保专家现场勘察与目测判断。然而，这种传统诊断方法存在效率低下、成本高昂且主观性较强等显著缺陷^［7］。发展基于图像的自动化茶尺蠖诊断技术将显著提升虫害识别效率，使茶农能够快速、准确地识别灰茶尺蠖虫害，进而预测其爆发时间与区域，并实施精准防控措施。随着摄像设备和互联网技术在农业领域的广泛应用，这类自动化诊断方法有望在茶园病虫害管理中发挥越来越重要的作用^［8］。此外，快速自动化识别不同龄期幼虫不仅有助于茶农防治虫害，还能为科研人员研究灰茶尺蠖的行为特征提供便利^［9］。该技术可有效分析各龄期幼虫的分布特征，对于准确掌握和预测灰茶尺蠖的种群数量、密度和时空分布具有重要科学价值^［10］。然而，灰茶尺蠖幼虫具有体型微小、不同龄期间形态差异显著、外形与茶树枝干相似度高等特点，在复杂的田间环境中实现准确识别面临较大挑战。近年来，深度学习理论与技术的快速发展为解决这一难题提供了新的技术路径。事实上，深度学习技术已在农业病虫害智能识别领域展现出广阔的应用前景^［11-13］。

近年来，基于轻量化卷积神经网络的移动端害虫检测系统逐渐成为研究热点。为应对田间复杂环境下的微小目标检测挑战，研究者相继提出了多种优化方案。例如，通过设计专有的搜索网络结构结合敏感度评分机制，将稻飞虱这类微小型害虫的野外检测召回率提升至90%以上^［11］；针对密集聚集虫体的识别难题，从粗到精的多阶段检测策略被证明可有效提高平均精度^［14］。此外，终端设备上的轻量化部署方案（如模型剪裁、移动端推理框架等）逐步取代了传统依赖高算力硬件的遥感检测模式，显著提升了田间实时监测的可行性^［15］。这些研究表明，基于深度学习的目标检测算法在复杂农业环境下的昆虫检测中展现出显著优势，特别是通过模型轻量化设计实现了在移动终端的实际部署，为农业害虫的视觉监测提供了可行的技术路径。然而，现有研究仍存在明显的技术瓶颈：首先，受限于高昂的标注成本，大多数研究只能使用规模有限且多样性不足的自建数据集，这严重制约了模型充分发挥性能；其次，尽管虫害检测领域已涌现诸多先进模型，但针对茶尺蠖的检测研究尚未整合这些新技术。针对这些问题，本研究引入扩散增强模型，并采用前沿的YOLO系列检测架构，以期突破当前的技术限制。

扩散模型的数据增强作用能够很大程度缓解数据不足的问题。基于扩散模型的数据增强相较于传统的几何变换和色彩空间增强，在提升深度学习模型性能方面具有显著优势。扩散模型能够生成更为真实和多样化的农业数据样本，有效缓解深度学习模型在农业领域中过拟合的问题，并提高模型的泛化能力^［16］。扩散模型在农业图像生成与数据增强方面展现出显著潜力。在病害诊断领域，结合扩散模型生成的合成数据对视觉Transformer（如Swin Transformer）进行预训练，再在真实数据上微调，可显著提升模型性能（验证准确率达96%以上）^［17］。类似地，在害虫分类任务中，扩散模型生成的高分辨率合成图像能有效缓解数据稀缺问题，结合真实数据训练后，模型分类准确率提升近5%^［18］。这些研究证实了扩散模型通过增强数据集以提升模型性能的有效性。

YOLO系列模型的引入对于提高茶尺蠖检测性能有着重要帮助。YOLO系列模型在目标检测领域持续整合前沿技术，通过不断的结构优化和算法改进，在检测性能和计算效率之间实现了良好平衡。YOLOv8首次引入无锚点设计，简化了正负样本匹配过程，有效提升了模型对目标位置的回归精度与泛化能力，同时降低了模型训练与推理的复杂度^［19］。YOLOv9创新性地提出了可编程梯度信息框架和通用高效层聚合网络，用于缓解深层网络中的梯度信息瓶颈问题及提升特征聚合的效率，进一步提高了检测精度^［20］。YOLOv10提出了一种新颖的非极大抑制训练方法，引入多种架构优化，包括轻量化分类头设计、空间通道解耦下采样方法等，显著减少了模型参数和计算量，同时进一步提高了检测的准确性^［21］。YOLOv11在前述模型的基础上进一步优化网络结构，引入了多项模块提升，包括 C3k2（Cross‑Stage Partial with Kernel Size 2）、快速空间金字塔池化和并行空间注意力模块，这些设计显著增强了模型的特征提取能力^［22］。综上所述，YOLO系列模型自YOLOv8至YOLOv11在结构设计、训练策略及轻量化方面持续演进，不仅不断突破性能瓶颈，也展现出较强的实际应用能力。由于其在精度、速度与适应性方面的综合优势，YOLO系列模型被广泛应用于各类目标检测任务中，包括虫害检测等农业领域任务^{［23, 24］}。因此，本研究选择基于YOLO系列模型构建茶尺蠖幼虫目标检测系统，以期提升虫害识别的效率与准确性。

本研究将可控扩散模型与新的YOLO系列目标检测算法相结合，提出了一种高效的灰茶尺蠖各龄期幼虫检测方法。研究基于真实茶树冠层环境特征，设计了多光照条件、多拍摄角度和多清晰度层次的图像采集方案，构建了涵盖全虫龄阶段的灰茶尺蠖幼虫高质量图像数据集。在此基础上，提出了一种创新的数据集优化方法，通过整合可控扩散模型和高质量图像生成策略，提升YOLO系列模型在茶尺蠖检测任务中的性能表现。最后，对YOLO系列新模型（包括YOLOv8、YOLOv9、YOLOv10和YOLOv11）在茶尺蠖检测任务中的性能进行了系统性评估与比较分析。基于这些研究路径，通过实验验证所提出数据增强策略的有效性，对比分析YOLO系列模型在茶尺蠖幼虫检测任务中的性能差异，从而为茶园智能监测提供最优模型选择依据，并为茶尺蠖精准识别奠定理论与技术基础。

1 材料与方法

1.1　总体实验与数据处理流程

如图1所示，主要的实验与数据处理流程包括4个关键阶段：图像获取、数据优化、数据增强和模型验证。首先，构建模拟茶树冠层环境，并将灰茶尺蠖置于其中，连续拍摄10 d以获取样本图像。其次，将这些图像划分为若干小图块，用于训练YOLOv8检测模型。该模型用于预测图像中的茶尺蠖幼虫，并将预测边界框与真实边界框进行融合，从而优化标签数据。再次，利用优化后的数据训练可控扩散模型，以实现数据增强。最后，研究将真实图像与生成图像相结合，系统性评估了YOLOv8、YOLOv9、YOLOv10和YOLOv11这4种目标检测模型的性能，并对可控扩散模型的增强效果进行了定量分析。本研究的主要硬件配置为NVIDIA RTX 3090显卡和Intel Core i9-10900K处理器，软件环境基于Python 3.8和PyCharm Community Edition 2024.1.1开发平台搭建。下文将详细阐述各实验环节的具体实施方法和技术细节。

显示原图|下载原图ZIP|生成PPT

图1 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测研究的总体实验与数据处理流程

Fig. 1 Overall experimental and data processing workflow for detecting Ectropis grisescens larvae in canopy environments based on YOLO and diffusion models

1.2　图像采集

图像采集工作在中国农业科学院茶叶研究所嵊州综合试验基地完成。采集地点的地理坐标为29°44'30'' N，120°49'6'' E，海拔62 m。研究人员从田间采集了碧云品种的茂盛茶树枝条，每枝长度为40~50 cm，并将10~12枝枝条插入装有2/3水的塑料瓶中。塑料瓶高22 cm，底部直径15 cm，开口直径12 cm。将装有茶枝的14个塑料瓶排列在一起，构建了一个模拟茶冠环境。在该模拟茶冠上释放了超过1 000只1龄茶尺蠖。从2023年5月14日—5月24日，每天拍摄两次模拟茶冠环境中的灰茶尺蠖图像，共获得1 223张原始图像。拍摄工作使用无反相机（佳能EOS M50 Mark Ⅱ）完成。拍摄期间使用的光圈（F值）、焦距和曝光时间等参数详见图2。相机与目标之间的距离为20~40 cm，图像分辨率像素为6 000×4 000。

显示原图|下载原图ZIP|生成PPT

图2 拍摄灰茶尺蠖图像使用的相机参数

Fig. 2 Camera parameters used for photographing Ectropis grisescens

1.3　原始数据集的构成

使用LabelMe工具对原始图像中的真实边界框进行了标注。考虑原始图像的分辨率较高，这可能会增加计算复杂度，因此本研究采用滑窗法对图像进行裁剪。滑窗之间的重叠率设定为0.4。每张图像在水平和垂直方向各分成9份，共生成81个标准尺寸的图像块。分割后总计99 063个图像块样本。研究对位于图像块边缘的真实边界框进行了剔除处理。图像裁剪后每个类别的数量如表1所示，经统计，4个阶段虫龄共保留有效标注框68 704个。研究在确保模型充分学习背景特征的同时，为避免过多背景信息对模型训练的干扰，将含有灰茶尺蠖目标的图像块与纯背景图像块的比例控制在20∶1。最终构建的数据集包含训练集19 517个图像块（对应55 527个全虫龄目标框）、验证集9 477个图像块（7 102个目标框），以及测试集9 558个图像块（6 075个目标框）。该数据划分方案既保证了训练样本的充分性，又确保了模型评估的可靠性。

表1 每个灰茶尺蠖虫龄的目标框的数量

Table 1 The number of target boxes per Ectropis grisescens instar

茶尺蠖虫龄	训练集/个	验证集/个	测试集/个	总数/个
1龄虫	17 838	2 257	1 933	22 028
2龄虫	13 991	1 387	1 470	16 848
3龄虫	10 465	1 474	1 238	13 177
4龄虫	13 233	1 984	1 434	16 651

1.4　图像标注策略

在拍摄照片后，本研究进行了初步标注，如图3所示。根据葛超美等^［25］的研究及本研究对不同虫龄灰茶尺蠖的观察，制定了以下标注标准。

显示原图|下载原图ZIP|生成PPT

图3 不同虫龄的灰茶尺蠖图像

Fig. 3 Images of Ectropis grisescens at different larval instars

1龄幼虫：全身呈黑色，每个胸节和腹节上环绕白点，并有白色条纹排列。

2龄幼虫：体色从深棕色到陶土棕色不等，白点和白色条纹逐渐消失。

3龄幼虫：呈黄褐色，第1胸节背侧有明显的黑斑；第2节出现“8”字形黑斑；第8节背侧有倒“8”字形黑斑。

4~5龄幼虫：体色为茶褐色，背侧和亚背侧可见褐色条纹，第1~7腹节背侧由黑点组成深褐色菱形图案。由于4龄和5龄幼虫在形态上极为相似，仅在体长上略有差异，因此在标注时统一标为4龄幼虫。

1.5　数据集优化策略

本研究采用半自动标注优化方法提升数据集质量。在训练完成初始YOLOv8灰茶尺蠖检测模型后，对所有分割后的图像块进行目标预测。然后将预测边界框重新映射回原始图像中，按照特定的策略保留预测边界框。边界框的保留策略如下。

首先在同一张图上保留所有初始人工标注的真实边界框，以及YOLOv8模型检测出的预测边界框。当预测框与真实框的交并比（Intersection over Union,

I o U

）大于0.6时剔除该预测框；否则，继续保留预测边界框作为补充标注。这种方法既保证了原始标注的准确性，又通过模型检测补充了人工可能遗漏的目标，提升了数据集的完整性和标注质量，为后续模型训练提供了更可靠的学习监督信号。

I o U

的计算如公式（1）所示。

I o U = A ⋂ B A ⋃ B

（1）

式中：

A

表示预测的目标框；

B

表示真实的目标框。

1.6　图像生成与高质量图像筛选策略

本研究所使用的可控生成式扩散模型架构遵循Fang等^［26］提出的改进框架。如图4所示，该框架从原图中提取出目标框，并构建类别提示词。原图通过整体嵌套式边缘检测（Holistically-Nested Edge Detection, HED）算法提取边缘^［27］，利用仅包含边缘信息的图像输入训练可控生成式扩散模型。其中提到的Vision Transformer模块由Dosovitskiy^［28］提出。

显示原图|下载原图ZIP|生成PPT

图4 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测研究采用的可控生成式扩散模型框架

Fig. 4 The framework of the controllable generative diffusion model used in the study for detecting Ectropis grisescens larvae in canopy environments based on YOLO and diffusion models

该架构将边界框编码为语义信息，作为预训练扩散模型的输入，从而能够在边界框内生成目标对象。设有

N

对图像-标注对

x i, y i i = 1 N

。利用HED边缘检测算法，这些图像被转换为边缘提取的“视觉先验”-标注对

v i, y i i = 1 N

。然后将所有标注

y i

构造成提示

p i

。这一过程生成了“视觉先验”-提示对

v i, p i i = 1 N

。基于这些提示，可以使用可控扩散模型

F

为每1对

v i, p i i = 1 N

生成合成图像：

x^i = F v i, p i i = 1 N

，从而获得合成图像-标注对

(x^i, y i)

。本研究共有55 527个图像-标注对用于训练扩散模型。本研究采用HED边缘检测算法处理灰茶尺蠖幼虫图像，仅保留边缘形状信息作为扩散模型的生成目标，以消除幼虫与条形阴影、叶片伤痕、枯萎叶片和成熟树枝颜色相近造成的识别干扰，从而增强模型的鲁棒性和适用性。在训练可控扩散模型时，设置扩散步数为200步，采用余弦加噪的噪声调度策略，共进行40轮训练。

在图像质量控制方面，虽然基于对比语言-图像预训练（Contrastive Language-Image Pre-training, CLIP）模型^［29］的过滤器可用于筛选高质量生成图像，但本研究发现应用该过滤器后仍存在大量低质量图像。考虑这些低质量图像可能降低检测模型性能，本研究提出了一种额外的过滤策略（图5）。具体而言，在CLIP过滤器初步筛选后，进一步提取生成图像中的目标框区域，并训练YOLOv8n分类模型对这些区域进行判别：只有当分类模型确认目标框内为灰茶尺蠖时，才将对应的生成图像纳入训练集，否则予以剔除。

显示原图|下载原图ZIP|生成PPT

图5 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测研究提出的生成图像过滤策略

Fig. 5 The proposed images generation filtering strategy in the study for detecting Ectropis grisescens larvae in canopy environments based on YOLO and diffusion models

1.7　目标检测模型训练

研究针对3个茶尺蠖幼虫目标检测任务，包括全龄期检测（1~4龄）、虫龄段检测（1~2龄与3~4龄分组），以及精准龄期检测（各龄期独立识别），训练YOLOv8、YOLOv9、YOLOv10和YOLOv11目标检测模型，用以证明本研究提出的数据集优化和数据增强方法的有效性，并比较分析各模型识别灰茶尺蠖的性能。训练目标检测模型时，设置模型初始学习率为0.01，学习率衰减因子为0.01、学习率调整策略为余弦退火、批大小为24、图像压缩后分辨率像素为640、训练轮次为200。

1.8　检测模型的评估指标

本研究采用了精确率（Precision），召回率（Recall），F ₁指数（F ₁-Score），平均精度均值（Mean Average Precision, mAP）测试和评估模型，计算如公式（2）~公式（7）所示。

P r e c i s i o n = T P T P + F P

（2）

R e c a l l = T P T P + F N

（3）

F 1 - S c o r e = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l

（4）

A P = ∫ 01 P r d r

（5）

m A P = 1 N ∑ i = 1 N A P i

（6）

m A P 50 = 1 N ∑ i = 1 N A P i I o U = 0.5

（7）

式中：

T P

为真正例（True Positives）的数量；

F P

为假正例（False Positives）的数量；

F N

为假负例（False Negatives）的数量；AP（Average Precision）为平均精度，是精确率-召回率曲线下的面积，通过对不同召回率水平下的精确率取平均值来计算；

P r

表示精确率作为召回率

r

的函数；

m A P

是所有类别

A P

的均值；

N

是类别总数；

A P i

是第

i

类的平均精度；当

I o U

阈值为0.5时，

A P i I o U = 0.5

表示第

i

类的平均精度。

2 结果与讨论

2.1　利用YOLOv8模型引导数据集优化

基于1.4节建立的灰茶尺蠖标注标准，本研究首先完成了初始标注工作，并利用训练得到的YOLOv8目标检测模型的预测结果指导标注优化。研究发现该模型在识别1龄和2龄幼虫时存在显著挑战，主要表现为模型经常将第1龄和第2龄茶尺蠖与图6a叶片上的疤痕、图6b叶边的枯萎，以及图6c叶隙间的阴影混淆。深入分析表明，这些误检目标与低龄幼虫具有相似的形态特征，包括微小体型、细长形状，以及模糊的深色外观或类幼虫纹理特征，这种识别困难主要源于1~2龄幼虫自身形体微小和体表纹理特征不显著等生物学特性。

显示原图|下载原图ZIP|生成PPT

图6 YOLOv8目标检测模型在识别茶尺蠖时遇到的问题

注：红色虚线框表示捕获图像中特定区域的放大视图；虚线框表示预测的目标框，实线框表示实际的目标框。

Fig. 6 Issues encountered by the YOLOv8 object detection model when recognizing Ectropis grisescens

在3龄和4龄幼虫的检测过程中，模型表现出特定的识别困难：当拍摄焦距不准确或光照条件不理想时，4龄幼虫体色特征减弱，其特有的背部和亚背部褐色条纹变得模糊，导致与3龄幼虫的纹理差异降低（图6e）。此外，枝叶遮挡会显著影响模型对这两个龄期幼虫的识别准确率（图6f），同时模型存在将幼虫与枯萎叶芽或突出枝条误判的倾向（图6g）。值得注意的是，模型展现出较强的环境适应能力，能够成功检测出所有虫龄中人工标注遗漏的隐蔽个体（图6d和图6h）。

这些发现不仅为数据集标注优化策略提供了重要依据，使优化的标注方案能有效降低背景干扰导致的误判，同时保持了模型对隐蔽目标出色的检测能力。

2.2　数据集优化结果

表2的第1行和第4行呈现了数据集优化前后检测4种茶尺蠖的虫龄，YOLOv8模型在检测不同虫龄茶尺蠖时整体性能的变化。如表2所示，优化后mAP50从0.663提升至0.685（提高0.022），F ₁-Score从0.630提升至0.641（提高0.011）。

表 2 数据优化前后YOLOv8目标检测模型在各个灰茶尺蠖检测任务上的性能

Table 2 Performance of YOLOv8 object detection model on various Ectropis grisescens detection tasks before and after data optimization

茶尺蠖检测任务	精确率	召回率	mAP50	F ₁-Score
检测四种茶尺蠖的虫龄*	0.613	0.649	0.663	0.630
检测两个茶尺蠖虫龄阶段*	0.783	0.763	0.828	0.773
从背景中找出茶尺蠖*	0.846	0.793	0.871	0.819
检测四种茶尺蠖的虫龄**	0.622	0.661	0.685	0.641
检测两个茶尺蠖虫龄阶段**	0.800	0.778	0.855	0.789
从背景中找出茶尺蠖**	0.840	0.829	0.895	0.835

注：*表示数据优化前；**表示数据优化后。

为深入评估YOLOv8模型在茶尺蠖检测中的性能表现并验证标注优化策略的有效性，本研究设计了1个新的虫龄阶段检测任务，将灰茶尺蠖划分为1~2龄和3~4龄两个发育阶段。这一划分方案基于双重考量：从检测技术角度，1龄与2龄、3龄与4龄幼虫之间存在较高的相互误判率，而值得注意的是，当幼虫发育至2龄向3龄过渡阶段时，其体长、体色及纹理等形态特征发生显著变化，使得2龄与3龄间混淆概率大幅降低；从防治实践角度，根据《茶尺蠖防治标准》（NY/T 84—1988）的规定，2龄前幼虫因其活动范围集中成为化学防治的关键窗口期，而3龄后幼虫活动能力增强导致农药防控效果下降。因此，将茶尺蠖划分为1~2龄和3~4龄两个阶段，不仅更易区分，也更具实际意义。实验结果显示，经过数据集优化后，YOLOv8模型在虫龄阶段区分任务中的检测性能显著提升，具体表现为mAP50从0.828提升至0.855（提高0.027），F ₁-Score从0.773提升至0.789（提高0.016），验证了本研究提出的标注优化策略的有效性。

此外，还探究了不考虑虫龄差异的茶尺蠖通用检测场景。与Hu等^［3］专注于特定虫龄检测的研究相比，本研究所构建的模型覆盖了全部虫龄阶段的茶尺蠖，显著提升了模型的实用价值。如表2第3行和第6行数据，数据集优化后，YOLOv8模型在忽略虫龄的茶尺蠖检测任务中，mAP50提高了0.024，F ₁-Score增加了0.016。综合以上结果，在3个检测任务中，YOLOv8模型mAP50分别提升了0.022、0.027和0.024；模型的F ₁-Score分别提升了0.011、0.016和0.016。配对t检验结果表明（以相同检测任务为配对依据），数据优化前后mAP50的提升具有统计学显著性（p=0.004<0.05）；F ₁-Score的改善同样达到显著水平（p=0.013<0.05）。这些数据证实，本研究提出的数据集优化方法能够有效强化模型对目标特征的学习能力，配合快速人工筛选策略，展现出显著的技术改进效果。

随后，本研究利用优化后的数据集，结合基于可控扩散模型的数据增强策略，进一步探索最新的YOLOv9、YOLOv10和YOLOv11模型在各个茶尺蠖检测任务中的性能表现，以研究前沿目标检测技术在该领域的实际应用价值。

2.3　生成式可控扩散模型结果分析

本研究采用了可控生成扩散模型进行数据增强。然而，生成图像的可用率相对较低是一个明显的挑战。本研究对初始生成的20 000张图像进行了分析（图7b）。

显示原图|下载原图ZIP|生成PPT

图 7 茶尺蠖幼虫的可控生成式扩散模型的生成结果

a. 各个虫龄茶尺蠖真实图片 b. 第1轮生成的图像比例 c. 扩散模型生成的图像

Fig. 7 The generation results of the controllable generative diffusion model for Ectropis grisescens larvae

结果显示，其中17 920张图像包含目标框。在这些目标框图像中，有12 481张被CLIP过滤器筛除，仅有5 439张图像被认为是有意义的。这5 439张图像进一步被划分为四类： 4 370张图像在目标框内没有茶尺蠖轮廓（No Ectropis grisescens in Target Box, noEGL）；755张图像在目标框内含有抽象的茶尺蠖轮廓（Abstract Ectropis grisescens in Target Box, abEGL）；135张图像在目标框内含有部分茶尺蠖轮廓（Partial Ectropis grisescens in target box, paEGL）；179张图像在目标框内有清晰完整的茶尺蠖轮廓（Clear Ectropis grisescens in Target Box, clEGL）。可以看出，包含茶尺蠖轮廓的图像（包括abEGL、paEGL和clEGL）仅占生成图像总数的5.345%。因此，严格筛选生成图像至关重要。本研究基于茶尺蠖轮廓的存在性建立了一个筛选模型，将目标框内的图像块分为两类。然而，生成的图像常常表现出显著的多样性（图7c）。

一些生成的图像似乎具有茶尺蠖轮廓，但这些轮廓与真实的茶尺蠖并不完全一致，这些图像被归为abEGL（图7c）。一些生成的图像包含茶尺蠖轮廓，但轮廓部分被遮挡，这些图像被归为paEGL（图7c）。其余显示清晰茶尺蠖轮廓的被归为clEGL（图7c）。这3种分类分别模拟了田间实际场景中茶尺蠖的模糊成像、部分遮挡和清晰成像3种典型情况。然而，需要指出的是，这种基于人类视觉的主观分类标准可能与计算机模型的图像感知机制存在差异。为探究模型对不同类型茶尺蠖轮廓的识别特性，本研究设计了一个系统的评估方案：首先将特定类型的生成轮廓（abEGL、paEGL或clEGL）与纯背景图像（noEGL，图7c）归为一类，采用4种不同的映射策略（图8a）构建二元分类数据集（判断目标框内是否包含有效茶尺蠖轮廓）；随后基于每个数据集分别训练四个分类模型，通过比较模型性能来评估各类生成轮廓应被归类为前景（有效虫体）或背景的合理性。这一实验设计为理解模型对茶尺蠖轮廓的感知特性提供了重要依据。针对样本量有限的实际情况，本研究选用计算效率优异的轻量级YOLOv8n分类模型进行评估。如图8b所示，模型在不同映射策略构建的数据集上展现出差异化的检测性能。其中，模型的准确率反映了其判断生成图像是否包含茶尺蠖的能力。而精确率则尤为重要，因为只有被分类为包含茶尺蠖的目标框会被保留下来。实验数据显示，采用映射2策略时，模型在茶尺蠖与背景的区分任务中表现最优，取得0.814的整体准确率和0.804的茶尺蠖识别精确率。基于此优选结果，本研究利用映射2数据集训练的YOLOv8n分类模型对146 188张次生图像进行严格筛选，最终保留13 841张具有虫龄标注的高质量图像。这些经筛选的图像被补充至训练集，用于YOLOv8m、YOLOv9m、YOLOv10m和YOLOv11m等先进检测模型的优化训练。与同类研究相比，Feng等^［30］在船舶检测领域仅利用扩散模型生成了4 649张图像，Lin等^［31］在番茄病虫草害检测研究中仅生成了183张图像，而本研究获得的高质量生成图像数量显著超过这些先前研究，这意味着本研究的高质量生成图像数量已具备足够的规模。

显示原图|下载原图ZIP|生成PPT

图8 生成的背景和茶尺蠖的映射方式

Fig. 8 The mapping method between the generated background and the Ectropis grisescens

2.4　数据增强对深度学习检测模型的提升

本研究深入研究了数据增强对YOLOv8、YOLOv9、YOLOv10和YOLOv11目标检测模型性能的影响。

根据表3的实验结果分析，各目标检测模型在茶尺蠖背景检测任务中均展现出性能提升。经数据增强处理后，所有模型的mAP50、召回率和F ₁-Score这3项关键指标均有所提高。其中，YOLOv9表现最为突出，其mAP50达到0.909的峰值水平（图9a）；而YOLOv10则展现出最大的性能提升幅度，mAP50较基线提高了0.009。表 4进一步展示了模型在茶尺蠖虫龄阶段识别任务中的表现。虽然数据增强使4种模型的mAP50均有所提升（图9b），但值得注意的是，精确率等指标却出现轻微下降。这一现象可能源于两个技术因素：一是生成图像中的虫龄特征与真实样本存在一定偏差；二是本研究未对生成图像实施基于虫龄的筛选处理。类似地，YOLOv9和YOLOv10也表现出指标波动特征，其精确率、召回率和F ₁-Score均呈现轻微震荡。这些发现为生成式数据增强技术在虫害检测中的应用提供了重要的实践参考。

表 3 使用可控扩散模型进行数据增强前后YOLO从背景中检测所有龄期茶尺蠖的表现

Table 3 YOLO examines the performance of all instars of Ectropis grisescens from the background before and after data enhancement using a controlled diffusion model

数据集	模型	mAP50	精确率	召回率	F ₁-Score
数据增强前	YOLOv8	0.895	0.840	0.829	0.835
	YOLOv9	0.908	0.859	0.826	0.842
	YOLOv10	0.895	0.851	0.821	0.836
	YOLOv11	0.904	0.848	0.833	0.840
数据增强后	YOLOv8	0.899	0.849	0.833	0.841
	YOLOv9	0.909	0.860	0.839	0.849
	YOLOv10	0.904	0.847	0.832	0.839
	YOLOv11	0.904	0.866	0.821	0.843

表 4 使用可控扩散模型进行数据增强前后YOLO检测茶尺蠖两个龄期阶段（1~2龄，3~4龄）的表现

Table 4 YOLO examined the performance of Ectropis grisescens in two instars （1~2 years and 3~4 years） before and after data enhancement using the controlled diffusion model

数据集	模型	mAP50	精确率	召回率	F ₁-Score
数据增强前	YOLOv8	0.855	0.800	0.778	0.789
	YOLOv9	0.867	0.807	0.796	0.801
	YOLOv10	0.851	0.782	0.786	0.784
	YOLOv11	0.859	0.783	0.793	0.788
数据增强后	YOLOv8	0.857	0.789	0.790	0.789
	YOLOv9	0.869	0.798	0.792	0.795
	YOLOv10	0.858	0.789	0.789	0.789
	YOLOv11	0.863	0.798	0.785	0.791

显示原图|下载原图ZIP|生成PPT

图9 茶尺蠖图像数据增强对模型mAP50的影响

Fig. 9 Effect of Ectropis grisescens larvae image data enhancement on the mAP50 of the models

相比之下，Fang等^［26］使用该可控扩散模型增强PASCAL（Pattern Analysis，Statistical Modelling and Computational Learning）视觉对象类别挑战赛（PASCAL Visual Object Classes Challenge, PASCAL VOC）公共数据集，让YOLOX-S的mAP50从0.771提升至0.779（提升0.008），与本研究的增强效果类似。Feng等^［30］使用传统稳定扩散模型增强自建船舶无人机数据集，让YOLOv8模型的mAP50从0.859提升至0.873（提升0.014），与本研究的增强效果类似。而Lin等^［31］提出了一种混合扩散模型增强自建的植物病、虫、草害数据集，在病害检测中，YOLOv4的mAP50从0.725提升至0.756（提升0.031）；在虫害检测中，mAP50从0.943下降至0.929（下降0.014）；在杂草检测中，mAP50从0.656提升至0.858（提升0.202），这项研究对3个检测目标的增强体现出巨大的差异。现有研究表明，扩散模型的数据增强效果存在明显的目标依赖性，但普遍能带来一定程度的性能提升。这些结果不仅提示了扩散增强技术在农业害虫检测领域的潜力，也佐证了本研究实验结果的可靠性。

表 5详细呈现了各模型在检测4个虫龄（1龄、2龄、3龄和4龄）灰茶尺蠖时的性能表现。从评价指标来看，经过数据增强后，除YOLOv9，所有模型在该虫龄检测任务中均表现出性能提升，其中YOLOv10的mAP50指标提高了0.013，较为显著。值得注意的是，性能最优的YOLOv9模型在数据增强后出现了mAP50的轻微下降（从0.702降至0.701），尽管如此，这种小幅下降相较于数据增强带来的整体性能提升可以忽略不计。综合分析3个茶尺蠖检测任务，全龄期检测中YOLO系列模型的最佳平均mAP50达到0.904，虫龄段检测的最佳平均mAP50为0.862，精准龄期检测的最佳平均mAP50为0.697。其中，YOLOv9展示出最优性能，3项任务的mAP50分别达到0.909、0.869和0.702。值得注意的是，可控扩散模型的引入使YOLO系列模型的性能获得普遍提升，其中YOLOv10在3类检测任务中的提升最为显著（配对t检验，p<0.05），mAP50分别提高了0.009、0.007和0.013。平均mAP50从0.811提升至0.821。综合比较发现，YOLOv9在灰茶尺蠖检测中表现最优，其3类检测任务的平均mAP50达0.826，F ₁值为0.767。这表明该模型架构可能具有更优异的特征迁移能力和数据适应性。虽然个别模型出现了微小的性能波动，但数据增强策略整体上提升了模型的检测性能。

表 5 使用可控扩散模型进行数据增强前后YOLO检测茶尺蠖4个龄期（1龄、2龄、3龄、4龄）的表现

Table 5 YOLO detected the performance of Ectropis grisescens at four ages （1， 2， 3 and 4 ages） before and after data enhancement with controlled diffusion model

数据集	模型	mAP50	精确率	召回率	F ₁-Score
数据增强前	YOLOv8	0.685	0.622	0.661	0.641
	YOLOv9	0.702	0.631	0.686	0.657
	YOLOv10	0.687	0.620	0.673	0.645
	YOLOv11	0.694	0.619	0.687	0.651
数据增强后	YOLOv8	0.692	0.632	0.668	0.649
	YOLOv9	0.701	0.632	0.677	0.654
	YOLOv10	0.700	0.622	0.692	0.655
	YOLOv11	0.695	0.626	0.683	0.653

为全面探索数据增强对提升YOLOv10在茶冠环境中茶尺蠖不同虫龄的检测潜力，本研究使用了梯度加权类别激活映射（Gradient-Weighted Class Activation Mapping, Grad-CAM）生成了YOLOv10的检测热力图（图10）^［32］。Grad-CAM作为一种基于类别的可视化解释方法，其核心原理是通过计算目标类别得分的梯度信息，并将其反向传播至最后的卷积层，从而生成反映模型关注区域的热力图。通过热力图直观展示模型对不同区域的特征关注程度，使“黑箱”式的深度学习模型具有可解释性。本研究使用热力图展示了YOLOv10在15层（第2个特征融合层）对茶尺蠖特征的关注程度。模型对某一区域关注程度越高，越倾向于预测该区域存在目标对象，热力图中对应区域就会高亮显示。本研究的检测目标与背景差异较小，难以区分，如果热力图覆盖整张图，会导致在热力图中文字信息不突出，检测目标位置不清晰。因此，本研究仅在检测框内绘制热力图，并对目标框内激活程度进行了归一化显示，以突出模型对检测目标附近的关注度。

显示原图|下载原图ZIP|生成PPT

图10 YOLOv10数据增强前后灰茶尺蠖幼虫的检测结果可视化

注：检测热图中的方框表示检测到的茶尺蠖，方框上面标注检测的虫龄和置信度，方框下面标注方框内的平均激活程度，方框内激活程度进行了归一化显示。从左至右，每两列依次为：微小目标、背景拟态目标和部分遮挡目标。

Fig. 10 Visualization of detection results for Ectropis grisescens larvae before and after data augmentation with YOLOv10

图10通过3种典型挑战场景，直观展示了数据增强对模型性能的改善效果。基于Grad-CAM热力图的可视化分析，在未进行数据增强时，YOLOv10模型对这3类困难样本的识别置信度较低，热力图对目标的关注度（框内平均激活程度）也较低（图10b）。经过数据增强后，模型的热力图显示出对检测目标的更强注意力响应，这不仅体现在框内平均激活程度的提升，也使得最终检测置信度获得提升（图10c），并让某些场景下检测结果更加精确（图10最后1列）。以图10第2列的结果为例进行对比说明，数据增强后，模型的检测置信度由0.62提升至0.73，框内平均激活程度由0.17提升至0.28。这些结果证明，基于生成式数据增强的策略能有效提升模型在复杂田间环境下的检测能力和鲁棒性。

综上所述，在茶尺蠖的3个检测任务中，基于生成扩散模型的数据增强在最新的YOLO系列模型中，特别是在mAP50和召回率指标上带来了检测性能的提升。其中，数据增强对YOLOv10模型的影响最为显著。这种性能提升表明，增强数据集为模型提供了更有效的学习机会。因此，基于扩散模型的数据增强方法可以被视为一种提升模型鲁棒性和性能的有价值工具，特别是在数据细微变化对准确检测至关重要的任务中。事实上，深度学习目标检测模型的性能与数据集的规模和质量密切相关，这也意味着本研究提出的数据增强方法可以广泛应用于其他目标检测任务中。

3 结论

本研究利用可控扩散模型和深度学习策略实现了茶尺蠖的全龄期检测（1~4龄）、虫龄段检测（1~2龄与3~4龄分组），以及精准龄期检测（分别独立识别1龄、2龄、3龄、4龄）。结果表明，在这3个检测任务中，YOLO系列模型的最佳平均mAP50分别为0.904、0.862和0.697。数据优化策略显著提高了YOLOv8在3个任务中的检测精度，mAP50分别提升0.024、0.027和0.022。数据增强对YOLOv10的提升效果最为显著，mAP50分别提高了0.009、0.007和0.013。YOLOv9展示出最优性能，3项任务的mAP50分别达到0.909、0.869和0.702。研究不仅验证了YOLO系列模型在茶尺蠖检测中的优异表现，更重要的是构建了一套从数据优化到模型增强的完整技术体系，实现了YOLO系列模型对茶尺蠖检测性能的提升。未来的研究可以进一步优化检测模型，探索更多深度学习架构在复杂茶园环境虫害检测中的潜力。此外，进一步对模型的简化和边缘部署，将本研究的技术集成到实时智能监测系统中，也对推动茶园的自动化和精准化管理有着重要意义。

本研究不存在研究者以及与公开研究成果有关的利益冲突。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	SIROTKIN A V, KOLESÁROVÁ A. The anti-obesity and health-promoting effects of tea and coffee[J]. Physiological research, 2021, 70(2): 161-168.

[2]	ZHANG W E, ZHAO M Y, CHEN Y C, et al. Low-carbon ecological tea: The key to transforming the tea industry towards sustainability[J]. Agriculture, 2024, 14(5): ID 722.

[3]	HU G S, LI S Q, WAN M Z, et al. Semantic segmentation of tea geometrid in natural scene images using discriminative pyramid network[J]. Applied soft computing, 2021, 113: ID 107984.

[4]	HU G S, ZHAO Y L, BAO W X, et al. A semi-supervised detection method for multi-scale tea geometrid by integrating intra- and inter-class information in natural scene images[J]. Computers and electronics in agriculture, 2025, 237: ID 110645.

[5]	姚惠明, 周孝贵. 2016年秋季茶尺蠖暴发成因分析及防治启示[J]. 中国茶叶, 2016, 38(12): 21-22.

[6]	王志博, 毛腾飞, 白家赫, 等. 浙江省2016年茶尺蠖发生情况调查[J]. 茶叶, 2017, 43(2): 71-73. WANG Z B, MAO T F, BAI J H, et al. An investigation on occurrence of tea looper (Lepidoptera: Geometridae) in Zhejiang province in 2016[J]. Journal of tea, 2017, 43(2): 71-73.

[7]	PATEL D, BHATT N. Improved accuracy of pest detection using augmentation approach with Faster R-CNN[J]. IOP conference series: Materials science and engineering, 2021, 1042(1): ID 012020.

[8]	ZHANG Y J, MA B X, HU Y T, et al. Accurate cotton diseases and pests detection in complex background based on an improved YOLOX model[J]. Computers and electronics in agriculture, 2022, 203: ID 107484.

[9]	AZFAR S, NADEEM A, BASIT A. Pest detection and control techniques using wireless sensor network: A review[J]. Journal of entomology and zoology studies, 2015, 3(2): 92-99.

[10]	BATZ P, WILL T, THIEL S, et al. From identification to forecasting: The potential of image recognition and artificial intelligence for aphid pest monitoring[J]. Frontiers in plant science, 2023, 14: ID 1150748.

[11]	LI W L, CHEN P, WANG B, et al. Automatic localization and count of agricultural crop pests based on an improved deep learning pipeline[J]. Scientific reports, 2019, 9: ID 7024.

[12]	LI R, WANG R J, XIE C J, et al. A coarse-to-fine network for aphid recognition and detection in the field[J]. Biosystems engineering, 2019, 187: 39-52.

[13]	FU X Q, MA Q Y, YANG F F, et al. Crop pest image recognition based on the improved ViT method[J]. Information processing in agriculture, 2024, 11(2): 249-259.

[14]	WANG F Y, WANG R J, XIE C J, et al. Convolutional neural network based automatic pest monitoring system using hand-held mobile image analysis towards non-site-specific wild environment[J]. Computers and electronics in agriculture, 2021, 187: ID 106268.

[15]	CHUDZIK P, MITCHELL A, ALKASEEM M, et al. Mobile real-time grasshopper detection and data aggregation framework[J]. Scientific reports, 2020, 10: ID 1150.

[16]	BAI Z J, XIE M D, HU B F, et al. Estimation of soil organic carbon using vis-NIR spectral data and spectral feature bands selection in southern Xinjiang, China[J]. Sensors, 2022, 22(16): ID 6124.

[17]	LI Y C, GUO J W, QIU H H, et al. Denoising diffusion probabilistic models and transfer learning for citrus disease diagnosis[J]. Frontiers in plant science, 2023, 14: ID 1267810.

[18]	WU T Y, SHI L T, ZHANG L, et al. RS transformer: A two-stage region proposal using swin transformer for few-shot pest detection in automated agricultural monitoring systems[J]. Applied sciences, 2023, 13(22): ID 12206.

[19]	SAPKOTA R, MENG Z C, CHURUVIJA M, et al. Comprehensive performance evaluation of YOLOv 12, YOLOv11, YOLOv10, YOLOv9 and YOLOv8 on detecting and counting fruitlet in complex orchard environments[EB/OL]. arXiv: 2407.12040, 2024.

[20]	WANG C Y, YEH I H, MARK LIAO H Y. YOLOv9: Learning what you want toLearn using programmable gradient information[C]// Computer Vision – ECCV 2024. Cham, German: Springer, 2025: 1-21.

[21]	WANG A, CHEN H, LIU L, et al. YOLOv10: Real-time end-to-end object detection[EB/OL]. arXiv: 2405.14458, 2024.

[22]	KHANAM R, HUSSAIN M. YOLOv11: An overview of the key architectural enhancements[EB/OL]. arXiv: 2410.17725, 2024.

[23]	HUANG Y Q, LIU Z H, ZHAO H H, et al. YOLO-YSTs: An improved YOLOv10n-based method for real-time field pest detection[J]. Agronomy, 2025, 15(3): ID 575.

[24]	TANG Y D, DUAN S K, WANG L D. EC-YOLO: Enhanced YOLOv10 for agricultural pest detection[C]// 2025 5th International Conference on Consumer Electronics and Computer Engineering (ICCECE). Piscataway, New Jersey, USA: IEEE, 2025: 525-529.

[25]	葛超美, 殷坤山, 唐美君, 等. 灰茶尺蠖的生物学特性[J]. 浙江农业学报, 2016, 28(3): 464-468. GE C M, YIN K S, TANG M J, et al. Biological characteristics of Ectropis grisescens warren[J]. Acta agriculturae Zhejiangensis, 2016, 28(3): 464-468.

[26]	FANG H Y, HAN B R, ZHANG S, et al. Data augmentation for object detection via controllable diffusion models[C]// 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Piscataway, New Jersey, USA: IEEE, 2024: 1246-1255.

[27]	XIE S N, TU Z W. Holistically-nested edge detection[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Piscataway, New Jersey, USA: IEEE, 2015: 1395-1403.

[28]	DOSOVITSKIY A. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. arXiv: 2010.11929, 2020.

[29]	RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]// Proceedings of the 38th International Conference on Machine Learning. New York, USA: PMLR. 2021: 8748-8763.

[30]	FENG S, HUANG Y, ZHANG N. An improved YOLOv8 OBB model for ship detection through stable diffusion data augmentation[J]. Sensors, 2024, 24(17): ID 5850.

[31]	LIN J W, HU G, CHEN J. Mixed data augmentation and osprey search strategy for enhancing YOLO in tomato disease, pest, and weed detection[J]. Expert systems with applications, 2025, 264: ID 125737.

[32]	ZHU X Y, CHEN F J, ZHENG Y L, et al. Detection of Camellia oleifera fruit maturity in orchards based on modified lightweight YOLO[J]. Computers and electronics in agriculture, 2024, 226: ID 109471.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引 言

1 材料与方法

1.1 总体实验与数据处理流程

图1 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测研究的总体实验与数据处理流程

1.2 图像采集

图2 拍摄灰茶尺蠖图像使用的相机参数

1.3 原始数据集的构成

表1 每个灰茶尺蠖虫龄的目标框的数量

1.4 图像标注策略

图3 不同虫龄的灰茶尺蠖图像

1.5 数据集优化策略

1.6 图像生成与高质量图像筛选策略

图4 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测研究采用的可控生成式扩散模型框架

图5 基于YOLO与扩散模型的冠层环境灰茶尺蠖幼虫检测研究提出的生成图像过滤策略

1.7 目标检测模型训练

1.8 检测模型的评估指标

2 结果与讨论

2.1 利用YOLOv8模型引导数据集优化

图6 YOLOv8目标检测模型在识别茶尺蠖时遇到的问题

2.2 数据集优化结果

表 2 数据优化前后YOLOv8目标检测模型在各个灰茶尺蠖检测任务上的性能

2.3 生成式可控扩散模型结果分析

图 7 茶尺蠖幼虫的可控生成式扩散模型的生成结果

图8 生成的背景和茶尺蠖的映射方式

2.4 数据增强对深度学习检测模型的提升

表 3 使用可控扩散模型进行数据增强前后YOLO从背景中检测所有龄期茶尺蠖的表现

表 4 使用可控扩散模型进行数据增强前后YOLO检测茶尺蠖两个龄期阶段（1~2龄，3~4龄）的表现

图9 茶尺蠖图像数据增强对模型mAP50的影响

表 5 使用可控扩散模型进行数据增强前后YOLO检测茶尺蠖4个龄期（1龄、2龄、3龄、4龄）的表现

图10 YOLOv10数据增强前后灰茶尺蠖幼虫的检测结果可视化

3 结 论

参考文献

0 引言

1.1　总体实验与数据处理流程

1.2　图像采集

1.3　原始数据集的构成

1.4　图像标注策略

1.5　数据集优化策略

1.6　图像生成与高质量图像筛选策略

1.7　目标检测模型训练

1.8　检测模型的评估指标

2.1　利用YOLOv8模型引导数据集优化

2.2　数据集优化结果

2.3　生成式可控扩散模型结果分析

2.4　数据增强对深度学习检测模型的提升

3 结论