Smart Agriculture ›› 2023, Vol. 5 ›› Issue (3): 17-34.doi: 10.12133/j.smartag.SA202306012
管博伦(), 张立平, 朱静波, 李闰枚, 孔娟娟, 汪焱, 董伟()
收稿日期:
2023-06-13
出版日期:
2023-09-30
基金资助:
作者简介:
通信作者:
GUAN Bolun(), ZHANG Liping, ZHU Jingbo, LI Runmei, KONG Juanjuan, WANG Yan, DONG Wei()
Received:
2023-06-13
Online:
2023-09-30
corresponding author:
DONG Wei, E-mail:dw06@163.com
About author:
GUAN Bolun, E-mail:aaasguanbolun@163.com
Supported by:
摘要:
[目的/意义] 农业病虫害科学数据集是农业病虫害监测预警的基础,也是发展智慧农业重要的组成部分,对农业病虫害防治具有重要意义。随着深度学习技术在农业病虫害智能监测预警中应用效果的凸显,构建高质量的农业病虫害数据集逐步受到专家学者的重视。为了进一步构建高质量、分布均衡的农业病虫害图像数据集,提高检测模型的准确性和鲁棒性,本文以构建农业病虫害图像数据集面临的挑战为切入点,对农业病虫害数据集的构建进行了全面综述。 [进展] 分别从数据集层次、数据样本层次和使用层次总结构建农业病虫害图像数据集所面临的类间类内样本不均衡、选择偏差、目标多尺度、目标密集、数据分布不均、图像质量参差不齐、数据集规模不足以及数据集可用性等问题,从图像采集和标注方法两个方面,分析以上问题的主要成因,并归纳算法的改进策略和建议,最后总结了数据集相关评价方法。 [结论/展望] 结合农业病虫害图像识别实际需求,对构建高质量农业病虫害图像数据集提出了相关建议:(1)结合实际使用场景构建农业病虫害数据集。多视角、多环境下采集图像数据构建数据集,从算法提取特征的角度,科学、合理划分数据类别,构建样本数量分布和特征分布均衡的数据集;(2)平衡数据集与算法间的关系。研究数据集特征与算法性能之间的关系,需充分考虑数据集中的类别和分布,以及与模型匹配的数据集规模,以提高算法准确性、鲁棒性和实用性。深入研究农业病虫害图像数据规模与模型性能的关联关系、病虫害图像数据标注方法、模糊、密集、遮挡等目标的识别算法和高质量农业病虫害数据集评价指标,进一步提高农业病虫害智能化水平;(3)增强数据集的使用价值。构建多模态农业病虫害数据集,创新数据采集组织形式,开发数据中台,挖掘多模态数据间的关联性,提高数据使用便捷性,为应用落地、业务创新提供高效服务。
管博伦, 张立平, 朱静波, 李闰枚, 孔娟娟, 汪焱, 董伟. 农业病虫害图像数据集构建关键问题及评价方法综述[J]. 智慧农业(中英文), 2023, 5(3): 17-34.
GUAN Bolun, ZHANG Liping, ZHU Jingbo, LI Runmei, KONG Juanjuan, WANG Yan, DONG Wei. The Key Issues and Evaluation Methods for Constructing Agricultural Pest and Disease Image Datasets: A Review[J]. Smart Agriculture, 2023, 5(3): 17-34.
表1
不同农业病虫害数据集对比
序号 | 数据集名称 | 类别数量/个 | 描述 | 来源 |
---|---|---|---|---|
1 | Plant Leaves[ | 22 | 覆盖12种植物,包括芒果,阿琼,雪桐,番石榴,白耳,贾蒙,麻风树,蓬蓬,罗勒,石榴,柠檬和中国芹等植物,共4503张图像,2278张健康的叶片和2225张患病的叶片 | https://www.kaggle.com/datasets/csafrit2/plant-leaves-for-image-classification |
2 | Plant Village[ | 38 | 利用互联网图像对健康和病害的作物叶片进行标注,一共38个类别,涵盖了苹果、蓝莓、玉米、葡萄、橘子等作物以及作物的17种真菌疾病、4种细菌疾病、2种霉菌疾病、2种病毒性疾病、1种由螨引起的疾病共54,303张健康和病害图片 | https://github.com/spMohanty/PlantVillage-Dataset |
3 | IP102[ | 102 | 主要在互联网上搜集图片并进行标注形成的数据集,含有幼虫、成虫等不同的形态的102个害虫类别。共75,222张图像,训练集45,095张,验证集7508张,测试集22,619张 | |
4 | Rice Leaf Disease Images[ | 4 | 作者自行拍摄构建的患病水稻叶片图像数据集,使用尼康DSLR-D5600拍摄,部分样本来自网络图像,单张图像像素大小为300×300。包含细菌性枯病、稻瘟病、褐斑和苔斑4种,共5932张图片,其中测试集800张,5132张被增强用作训练集 | https://doi.org/10.1016/j.compag. 2020.105527 |
5 | 大田作物病害识别研究图像数据集[ | 15 | 以图像数据库的形式存储,包含小麦、水稻、玉米3种大田作物的15种病害,共17,625张样本 | http://www.doi.org/10.11922/sciencedb.745 |
6 | 葡萄病害识别图像数据集[ | 7 | 包含葡萄白粉病、葡萄花叶病毒病、葡萄黑霉病、葡萄灰霉病、葡萄溃疡病、葡萄霜霉病和葡萄酸腐病7种病害,共3622张样本 | http://www.doi.org/10.11922/sciencedb.j00001.00311 |
7 | AgriPest [ | 14 | 共49,707张图像样本,大概按照9:1的方式划分为44,716张训练数据集和4991张验证数据集,包含4种作物的14类害虫 | https://www.mdpi.com/1424-822 0/21/5/1601 |
| | 5 | 包含斑点叶落病、褐斑病、花叶病、灰斑病和锈病5种病害,原始图片2029张,其中411张落叶病、435张褐斑病、375张花叶病、370张灰斑病和438张锈病。数据增强后共24,348张样本,图像像素大小统一为512×512 | http://www.agridata.cn/data.htm l# |
9 | 桉树害虫数据集[ | 3 | 桉树红胶木虱 (Eucalyptus redgum lerp psyllid, Glycaspis brimblecombei)、桉树榈蝽科害虫(haumastocoris peregrinus)和一种寄生虫,共748张样本,图像像素为500×500 | |
10 | Rustia2021[ | 4 | 包含苍蝇、蓟马、粉虱、蠓类4种虫害,共990张样本 | |
11 | Pest24[ | 24 | 包含24种害虫,共25,378张样本。该数据集包含大尺度多目标图像、小尺度对象图像、高相似度对象图像和密集分布对象 | |
12 | 西红柿害虫 数据集[ | 8 | 互联网中收集到的8种常见的害虫,原始图片609张,数据增强后共4263张 | |
13 | 桔小实蝇等六种常见果园害虫图像数据集[ | 6 | | https://www.agridata.cn/data.html#/ |
表2
部分病虫害公开数据集分析结果
序号 | 数据集名称 | 类别数 | 样本容量/张 | 母体标准差 | 偏度系数 | 峰态系数 | 分辨率类型 | 标注信息 |
---|---|---|---|---|---|---|---|---|
1 | IP102 | 102 | 75,222 | 966.59 | 3.73 | 14.45 | 小 | 有 |
2 | Pest | 7 | 4639 | 357.04 | 0.70 | -0.89 | 小 | 无 |
3 | Plant Village | 38 | 54,303 | 1158.27 | 2.73 | 5.70 | 小 | 无 |
4 | 西红柿虫害 | 8 | 609 | 32.52 | 0.05 | -0.94 | 小 | 无 |
5 | 果园害虫 | 6 | 1568 | 169.27 | -0.02 | -1.50 | 小 | 无 |
6 | Rice Leaf Disease Images | 4 | 5932 | 118.70 | -0.72 | -1.44 | 小 | 无 |
7 | 苹果叶片病害 | 5 | 24,348 | 374.38 | -0.20 | -1.73 | 小 | 无 |
8 | Wheat Leaf Dataset | 3 | 407 | 51.18 | 1.71 | -1.49 | 大 | 无 |
1 |
雷仲仁, 郭予元, 李世访. 中国主要农作物有害生物名录[M]. 北京: 中国农业科学技术出版社, 2014.
|
|
|
2 |
吴钜文, 陈红印. 蔬菜害虫及其天敌昆虫名录[M]. 北京: 中国农业科学技术出版社, 2013.
|
|
|
3 |
翟肇裕, 曹益飞, 徐焕良, 等. 农作物病虫害识别关键技术研究综述[J]. 农业机械学报, 2021, 52(7): 1-18.
|
|
|
4 |
|
5 |
翁杨, 曾睿, 吴陈铭, 等. 基于深度学习的农业植物表型研究综述[J]. 中国科学: 生命科学, 2019, 49(6): 698-716.
|
|
|
6 |
杭立, 车进, 宋培源, 等. 基于机器学习和图像处理技术的病虫害预测[J]. 西南大学学报(自然科学版), 2020, 42(1): 134-141.
|
|
|
7 |
|
8 |
赵春江. 农业知识智能服务技术综述[J]. 智慧农业(中英文), 2023, 5(2): 126-148.
|
|
|
9 |
黄凯奇, 任伟强, 谭铁牛. 图像物体分类与检测算法综述[J]. 计算机学报, 2014, 37(6): 1225-1240.
|
|
|
10 |
|
11 |
|
12 |
汪京京, 张武, 刘连忠, 等. 农作物病虫害图像识别技术的研究综述[J]. 计算机工程与科学, 2014, 36(7): 1363-1370.
|
|
|
13 |
|
14 |
|
15 |
|
16 |
|
17 |
|
18 |
|
19 |
|
20 |
陈雷, 袁媛. 大田作物病害识别研究图像数据集[J]. 中国科学数据, 2019, 4(4): 85-91.
|
|
|
21 |
袁媛, 陈雷. IDADP-葡萄病害识别研究图像数据集[J]. 中国科学数据, 2022, 7(1): 86-90.
|
|
|
22 |
|
23 |
周敏敏. 基于迁移学习的苹果叶面病害Android检测系统研究[D]. 杨凌: 西北农林科技大学, 2019.
|
|
|
24 |
|
25 |
|
26 |
|
27 |
|
28 |
张翔鹤, 王晓丽, 刘婷婷, 等. 桔小实蝇等六种常见果园害虫图像数据集[J]. 农业大数据学报, 2022, 4(1): 114-118.
|
|
|
29 |
|
30 |
徐小康. 图像目标数据集均衡完备构建技术研究[D]. 杭州: 杭州电子科技大学, 2021.
|
|
|
31 |
|
32 |
周玉, 孙红玉, 房倩, 等. 不平衡数据集分类方法研究综述[J]. 计算机应用研究, 2022, 39(6): 1615-1621.
|
|
|
33 |
林胜, 巩名轶, 牟文芊, 等. 基于对抗式生成网络的农作物病虫害图像扩充[J]. 电子技术与软件工程, 2020(3): 140-142.
|
|
|
34 |
史燕燕, 史殿习, 乔子腾, 等. 小样本目标检测研究综述[J]. 计算机学报, 2023, 46(8): 1753-1780.
|
|
|
35 |
|
36 |
汪启伟. 图像直方图特征及其应用研究[D]. 合肥: 中国科学技术大学, 2014.
|
|
|
37 |
|
38 |
|
39 |
范馨月, 鲍泓, 潘卫国. 基于类别不平衡数据集的图像实例分割方法[J]. 计算机工程, 2022, 48(12): 224-231.
|
|
|
40 |
刘浏. 基于深度学习的农作物害虫检测方法研究与应用[D]. 合肥: 中国科学技术大学, 2020.
|
|
|
41 |
|
42 |
|
43 |
盛家文. 基于机器视觉的农业虫害测报研究[D]. 杭州: 浙江理工大学, 2020.
|
|
|
44 |
|
45 |
|
46 |
|
47 |
|
48 |
|
49 |
|
50 |
李楚为, 张志龙, 李树新. MTMS300: 面向显著物体检测的多目标多尺度基准数据集[J]. 中国图象图形学报, 2022, 27(4): 1039-1055.
|
|
|
51 |
王自全, 张永生, 于英, 等. 深度学习背景下视觉显著性物体检测综述[J]. 中国图象图形学报, 2022, 27(7): 2112-2128.
|
|
|
52 |
|
53 |
|
54 |
|
55 |
|
56 |
|
57 |
|
58 |
|
59 |
韩瑞珍. 基于机器视觉的农田害虫快速检测与识别研究[D]. 杭州: 浙江大学, 2014.
|
|
|
60 |
刘媛媛. 水稻害虫自动识别及分类系统[D]. 杭州: 中国计量大学, 2018.
|
|
|
61 |
|
62 |
周瑶. 基于机器视觉与黄板诱导的有翅昆虫统计识别系统的研究与实现[D]. 重庆: 重庆大学, 2017.
|
|
|
63 |
白静亚. 基于机器视觉的棉田害虫图像采集与识别系统研究与改进[D]. 石河子: 石河子大学, 2022.
|
|
|
64 |
|
65 |
|
66 |
史东旭, 高德民, 薛卫, 等. 基于物联网和大数据驱动的农业病虫害监测技术[J]. 南京农业大学学报, 2019, 42(5): 967-974.
|
|
|
67 |
张超, 王正, 姚青, 等. 便携式农业病虫害图像采集仪设计与应用[J]. 浙江农业科学, 2016, 57(12): 2077-2081.
|
|
|
68 |
|
69 |
|
70 |
蔡莉, 王淑婷, 刘俊晖, 等. 数据标注研究综述[J]. 软件学报, 2020, 31(2): 302-320.
|
|
|
71 |
|
72 |
|
73 |
|
74 |
|
75 |
|
76 |
|
77 |
|
78 |
|
79 |
|
80 |
|
81 |
|
82 |
|
83 |
|
84 |
曹伟. 众包域值标注算法研究[D]. 南京: 南京财经大学, 2016.
|
|
|
85 |
|
86 |
|
87 |
于营, 杨婷婷, 杨博雄. 混淆矩阵分类性能评价及Python实现[J]. 现代计算机, 2021(20): 70-73, 79.
|
|
|
88 |
|
89 |
于洪, 陈云. 基于Spark的三支聚类集成方法[J]. 郑州大学学报(理学版), 2018, 50(1): 20-26.
|
|
|
90 |
|
91 |
|
92 |
|
93 |
蒋心璐, 陈天恩, 王聪, 等. 农业害虫检测的深度学习算法综述[J]. 计算机工程与应用, 2023, 59(6): 30-44.
|
|
[1] | 李豪, 杜雨秋, 肖星竹, 陈彦羲. 基于深度学习的四川盆地丘陵区县域耕地遥感识别研究[J]. 智慧农业(中英文), 2024, 6(3): 34-45. |
[2] | 聂刚刚, 饶洪辉, 李泽锋, 刘木华. 基于改进YOLACT的油茶叶片炭疽病感染严重程度分级模型[J]. 智慧农业(中英文), 2024, 6(3): 138-147. |
[3] | 张京, 赵泽瑄, 赵艳茹, 卜泓超, 吴星宇. 基于Bi-GRU和空-谱信息融合的油菜菌核病侵染区域高光谱图像分割方法[J]. 智慧农业(中英文), 2024, 6(2): 40-48. |
[4] | 庞春晖, 陈鹏, 夏懿, 章军, 王兵, 邹岩, 陈天娇, 康辰瑞, 梁栋. 用于小麦多生长阶段倒伏边界精准检测的分层交互特征金字塔网络[J]. 智慧农业(中英文), 2024, 6(2): 128-139. |
[5] | 张玉玉, 邴树营, 纪元浩, 严蓓蓓, 许金普. 基于改进YOLOv8s的玫瑰鲜切花分级方法[J]. 智慧农业(中英文), 2024, 6(2): 118-127. |
[6] | 张建华, 姚琼, 周国民, 吴雯迪, 修晓杰, 王健. 作物农艺性状与形态结构表型智能识别技术综述[J]. 智慧农业(中英文), 2024, 6(2): 14-27. |
[7] | 郭旺, 杨雨森, 吴华瑞, 朱华吉, 缪祎晟, 顾静秋. 农业大模型:关键技术、应用分析与发展方向[J]. 智慧农业(中英文), 2024, 6(2): 1-13. |
[8] | 王鹤榕, 陈英义, 柴莹倩, 徐玲, 于辉辉. 融合VoVNetv2和置换注意力机制的鱼群摄食图像分割方法[J]. 智慧农业(中英文), 2023, 5(4): 137-149. |
[9] | 陈丹丹, 张立杰, 蒋双丰, 张恩, 张杰, 赵晴, 郑国清, 李国强. 基于区块链和星际文件系统的种植业农产品溯源模型[J]. 智慧农业(中英文), 2023, 5(4): 68-78. |
[10] | 李政凯, 于嘉辉, 潘时佳, 贾泽丰, 牛子杰. 冬季猕猴桃树单木骨架提取与冠层生长预测方法[J]. 智慧农业(中英文), 2023, 5(4): 92-104. |
[11] | 唐辉, 王铭, 于秋实, 张佳茜, 刘连涛, 王楠. 融合改进UNet和迁移学习的棉花根系图像分割方法[J]. 智慧农业(中英文), 2023, 5(3): 96-109. |
[12] | 泮玮婷, 孙梦丽, 员琰, 刘平. 基于深度学习ImCascade R-CNN的小麦籽粒表形鉴定方法[J]. 智慧农业(中英文), 2023, 5(3): 110-120. |
[13] | 龙佳宁, 张昭, 刘晓航, 李云霞, 芮照钰, 余江帆, 张漫, FLORES Paulo, 韩哲雄, 胡灿, 王旭峰. 利用改进EfficientNetV2和无人机图像检测小麦倒伏类型[J]. 智慧农业(中英文), 2023, 5(3): 62-74. |
[14] | 刘易雪, 宋育阳, 崔萍, 房玉林, 苏宝峰. 基于无人机遥感和深度学习的葡萄卷叶病感染程度诊断方法[J]. 智慧农业(中英文), 2023, 5(3): 49-61. |
[15] | 毛克彪, 张晨阳, 施建成, 王旭明, 郭中华, 李春树, 董立新, 吴门新, 孙瑞静, 武胜利, 姬大彬, 蒋玲梅, 赵天杰, 邱玉宝, 杜永明, 徐同仁. 基于人工智能的地球物理参数反演范式理论及判定条件[J]. 智慧农业(中英文), 2023, 5(2): 161-171. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||