Information Processing and Decision Making

Underwater Fish Species Identification Model and Real-Time Identification System

  • LI Shaobo , 1, 2, 3 ,
  • YANG Ling 1, 2, 3 ,
  • YU Huihui 4 ,
  • CHEN Yingyi , 1, 2, 3
  • 1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
  • 2. National Innovation Center for Digital Fishery, China Agricultural University, Beijing 100083, China
  • 3. Beijing Engineering and Technology Research Centre for the Internet of Things in Agriculture, Beijing 100083, China
  • 4. School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China

Received date: 2021-09-07

  Online published: 2022-02-21


Convolutional neural network models have different advantages and disadvantages, it is becoming more and more difficult to select an appropriate convolutional neural network model in an actual fish identification project. The identification of underwater fish is a challenge task due to varies in illumination, low contrast, high noise, low resolution and sample imbalance between each type of image from the real underwater environment. In addition, deploying models to mobile devices directly will reduce the accuracy of the model sharply. In order to solve the above problems, Fish Recognition Ground-Truth dataset was used to training model in this study, which is provided by Fish4Knowledge project from University of Edinburgh. It contains 27,370 images with 23 fish species, and has been labeled manually by marine biologists. AlexNet, GoogLeNet, ResNet and DenseNet models were selected initially according to the characteristics of real-time underwater fish identification task, then a comparative experiment was designed to explore the best network model. Random image flipping, rotation and color dithering were used to enhance data based on ground-truth fish dataset in response to the limited number of underwater fish images. Considering that there was a serious imbalance in the number of samples in each category, the label smoothing technology was used to alleviate model overfitting. The Ranger optimizer and Cosine learning rate attenuation strategy were used to further improve the training effect of the models. The accuracy and recall rate information of each model were recorded and counted. The results showed that, the accuracy and recall rate of the fish recognition model based on DenseNet reached 99.21% and 96.77% in train set and validation set respectively, its F 1 value reached 0.9742, which was the best model obtained in the experiment. Finally, a remote fish identification system was designed based on Python language, in this system the model was deployed to linux server and the Android APP was responsible for uploading fish images via http to request server to identify the fishes and displaying the identification information returned by server, such as fish species, profiles, habits, distribution, etc. A set of recognition tests were performed on real Android phone and the results showed that in the same local area net the APP could show fish information rapidly and exactly within 1 s.

LI Shaobo , YANG Ling , YU Huihui , CHEN Yingyi . Underwater Fish Species Identification Model and Real-Time Identification System[J]. Smart Agriculture, 2022 , 4(1) : 130 -139 . DOI: 10.12133/j.smartag.SA202202006

1 引 言

在鱼类识别方法方面,传统的基于手工特征提取的鱼类识别方法,主要依靠鱼的纹理、颜色、形状等特征进行区分2,虽然通过应用尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)3、方向梯度直方图(Histogram of Oriented Gradient,HOG)4等方法取得了卓有成效的改进,但鱼类特征需要依赖专家手动设计,当识别另一种鱼类时需要重新设计这些特征,方法不具有通用性且识别精度不高5。近年来,卷积神经网络(Convolution Neural Network,CNN)在图像识别领域取得了巨大进展6,Krizhevsky等7提出的AlexNet卷积神经网络在ImageNet Large Scale Visual Recognition Challenge(ILSVRC)比赛中大放异彩,一举斩获了ILSVRC2012比赛冠军。在AlexNet之后,研究者们陆续提出了许多优秀的改进的CNN模型,如VGGNet8、GoogLeNet9、ResNet10、DenseNet11等,这些模型在解决图像分类问题上都取得了优异的成绩。CNN系列算法已经成为了完成图像识别任务的最佳算法之一12。不同的CNN模型有不同的特点,没有一种模型可以在所有场景下都优于其它模型13,例如VGGNet相比AlexNet可以学习更多特征,但也大幅增加了模型大小14;GoogLeNet的Inception模块大幅减少了模型参数,但并没有解决随着深度的增加可能会出现的模型退化问题15;ResNet缓解了随着深度增加导致的梯度消失问题,但增加了实现难度并且引入了许多需要手工设置的权重16。对于具体的水下鱼类识别任务,CNN结构如何选择和评价模型成为必须考虑的问题。

2 研究数据与方法

2.1 系统设计

图1 鱼类识别系统架构示意图

Fig. 1 Architecture of fish identification system

2.2 数据处理

图2 Ground-Truth数据集的图像及样本量

Fig. 2 The images and quantity of Ground-Truth dataset

2.3 基本原理

2.3.1 卷积神经网络模型

图3 卷积和最大池化

Fig.3 Convolution and max pooling

X j L = ƒ ( i M j X i L - 1 × K i , j L + b j L )
其中,L表示神经网络层数;Mj 表示输入特征图; K i , j L表示卷积核; b j L表示偏置; ƒ (· )表示激活函数。
表1 5种CNN模型大小

Table 1 The sizes of the five kinds of CNNs

CNN名称 模型大小/Mb
AlexNet 60
VGGNet 138
GoogLeNet 4
ResNet 1.7~25.6
DenseNet 15.3~25.6

2.3.2 混淆矩阵

图4 二分类混淆矩阵

Fig. 4 Confusion matrix of binary classification

其中,TN(True Negative)表示预测为Negative类正确的数量,FN(False Negative)表示预测为Negative类错误的数量,FP(False Positive)表示预测为Positive类错误的数量,TP(True Positive)表示预测为Positive类正确的数量。
P r e c i s i o n = T P T P + F P
R e c a l l = T P T P + F N
A c c u r a r y = T P + T N T P + T N + F P + F N
平衡分数F 1值是综合考虑了精确度、召回率的调和值,一般F 1值越大说明模型效果越好,其计算公式为:
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l

2.4 模型选择与构建

CNN模型要想获得较理想的识别模型,需要基于大量数据集训练26,而且识别任务越复杂需要的数据集越大27。对于水下鱼类实时识别任务,由于光线的变换、水的折射等复杂水下环境,水下鱼类图像往往存在分辨率不足、噪点多等特点2,而且不同种类的鱼的生存水域和生活习性存在巨大差异,一些鱼类只能生活在深海之中,获取大规模的水下鱼类图像并不容易。由于可获取的水下鱼类数据集比较有限,而AlexNet、ResNet等著名CNN模型已经在图像分类问题上经过了长时间、大规模的训练,以这些预训练模型为起点迁移到新的训练任务的迁移学习方法可以有效降低模型对于训练集大小的依赖,适合计算资源紧张、数据集不多的情形28,本试验采用基于预训练模型迁移学习的方法生成模型。从表2可以看出,VGGNet生成的模型最大,达到了138 Mb,模型越大意味着模型计算量越大,从而识别速度越慢。由于本次鱼类实时识别任务对模型识别速度要求较高,本试验选择了AlexNet、GoogLeNet、ResNet和DenseNet预训练网络来训练鱼类识别模型,通过对各个模型最后的全连接层进行微调适配水下鱼类识别任务。
表2 鱼类识别试验超参数配置

Table 2 Super parameter configuration of fish identification

训练轮数/轮 30
批处理大小 64
学习率 0.0001
优化器 Ranger
学习率衰减 Cosine
损失 Label Smoothing
为缓解模型过度拟合,选择Label smoothing29作为损失函数。Ranger30优化器结合了Radam31和Lookahead32到单一的优化器中,从而可以获取更高的精度,本文选择了Ranger作为训练优化器。将学习率统一设置成0.0001,并使用Cosine策略衰减学习率,批处理大小为64,迭代30轮,完整的超参数的配置如表2所示。

3 结果分析

表3 鱼类识别试验不同卷积神经网络模型的对比

Table 3 Comparison of different convolutional neural network models for fish recognition experiment

模型 训练集精度 验证集表现 模型参数量/百万 浮点计算次数/G
准确度/% 精确度/% 召回率/%
AlexNet 99.42 99.08 95.59 93.76 61.10 0.93
GoogLeNet 99.81 99.51 98.37 94.75 5.62 1.98
ResNet50 99.83 99.58 99.26 96.64 23.56 5.98
DenseNet169 99.90 99.64 99.21 96.77 14.15 4.49
准确率可以很大程度上说明模型的优劣,对于一般的分类问题,我们希望模型越准确越好。由图1可以看出,本试验所采用的Ground-Truth数据集存在严重的数据不平衡问题,最少的黑嘴雀鱼只有16张图片,而最多的网纹宅泥鱼则多达12,112张图片,相差750多倍。此种情况下,模型只需要将分类结果分成网纹宅泥鱼就会得到很高的准确率,仅依靠准确率指标已经无法准确评估模型效果。由表3可以看出基于GoogLeNet训练的模型参数量最小,AlexNet模型的浮点计算量最小但同时参数量最大, DenseNet169的模型参数量和浮点计算次数比较均衡,基于ResNet50训练的模型验证集精确度最高达到了99.26%,但同时召回率低于DenseNet169。通常精确率越高,召回率就会越低。由公式(5)可以看到F 1值能够更全面地衡量模型优劣,更适合用于评估本试验模型。根据表3的结果,进一步计算各个模型整体的F 1值,结果如表4所示。
表4 鱼类识别试验不同卷积神经网络模型的F 1

Table 4 F 1 values of different convolutional neural network models for fish recognition tests

模型 整体F 1
AlexNet 0.9449
GoogLeNet 0.9537
ResNet50 0.9739
DenseNet169 0.9742
表4可见, DenseNet169模型整体F 1值达到了0.9742,是本次试验获得的F 1值最高的模型。虽然基于GoogLeNet训练的模型参数量和浮点计算次数都少于DenseNet169模型,但考虑模型是部署到有较强计算能力的服务器端,并且优先保障鱼类识别应用的精准度,本研究选择了识别精度更高的DenseNet169模型进行部署。

4 水下鱼识别模型部署

4.1 服务器实现

(1) 开发平台

操作系统:Ubuntu 20.04。
平台环境:Python 3.8,CUDA 11.2,PyTorch 1.7.0,Anaconda 2.0.3,Django 3.2.433,Gunicorn 20.0.434等。
开发工具:PyCharm Professional 2019.2。
为方便模型调用,本研究选择了Python语言进行服务器开发,在配备GT1650 显卡的Ubuntu系统上安装了英伟达显卡驱动,在Anaconda创建虚拟环境并在虚拟环境中安装Django、PyTorch、numpy、pandas等必要工具包完成环境配置。

(2) 项目搭建

在PyCharm Professional中新建Django项目,并将Python解释器配置成上述虚拟环境,按照Django框架规范在配置文件里配置好数据库和安全策略等各类中间件,创建FishInfo类映射到数据库并纳入Django Admin管理,在urls.py文件中完成URL映射,服务器项目结构如图5所示。
图5 鱼类识别系统服务器项目结构

Fig. 5 Server project structure of the fish identification system

(3) 模型集成

图6 鱼类识别系统初始化识别模型

Fig. 6 Initialize the identification model of the fish identification system

(4) 鱼类信息存储

表5 鱼类识别系统FishInfo表设计

Table 5 Design of FishInfo table of the fish identification system

字段名 字段类型 完整性约束 是否为主键 字段含义
fish_id int 非空 鱼类编号
type varchar 非空 鱼的种类
profile varchar 非空 简介信息
outline varchar 非空 外形介绍
distribution varchar 非空 分布情况
life_cycle varchar 非空 生长周期
disease varchar 非空 常见病害

(5) 服务发布

图7 鱼类识别系统服务器环境配置图

Fig. 7 Server environment configuration diagram of the fish identification system

4.2 安卓APP实现

(1) 开发平台

操作系统:macOS 11.2。
平台环境:JDK 1.8.0_211,Android SDK Platform 30。
开发工具:AndroidStudio 4.1.238
在Mac电脑上安装JDK、Android SDK并配置好环境变量,在AndroidStudio IDE中完成具体的APP程序编码工作。

(2) 项目搭建

图8 鱼类识别系统安卓端APP项目结构

Fig. 8 Android APP project structure of the fish recognition system

(3) 图像采集和上传

在图像采集方面,为尽可能提高软件兼容性,APP锁定屏幕为竖屏,采用Android SDK提供的Camera类完成相机的调用和图像帧获取,将原NV21格式图像帧包装成Bitmap并压缩为固定的640×480像素大小,最终编码成Base64格式字符串,通过OKHttp在子线程中将Base64编码的图片上传至服务器请求识别。

(4) 界面实现

图9 安卓版鱼类在线识别移动APP界面

Fig.9 Mobile APP interfaces of fish identification

4.3 系统测试

(1) 测试环境

服务器环境:配备 Intel i7-8700处理器和英伟达GTX1650显卡的联想台式机。
场地环境:实验室环境40 W荧光灯下。

(2) 测试方法

图10 鱼类识别系统测试示意图

Fig.10 Schematic diagram of the fish identification system test

(3) 测试结果

表6 鱼类在线识别系统测试结果

Table 6 Test results of the fish online recognition system

鱼种类 可信度/% 识别耗时/s 网络耗时/s 总耗时/s
五带豆娘鱼 98.47 0.074 0.135 0.209
双斑刺尾鱼 97.22 0.060 0.108 0.168
双带小丑鱼 99.62 0.058 0.128 0.186
长棘光鳃鱼 97.01 0.059 0.137 0.196
黄足笛鲷 97.20 0.058 0.077 0.135
褐蓝子鱼 78.66 0.056 0.118 0.174
弓月蝴蝶鱼 95.97 0.059 0.105 0.164
双线眶棘鲈 85.08 0.071 0.115 0.186
黑三角倒吊鱼 99.39 0.061 0.107 0.168
黑马鞍鲀鱼 99.30 0.058 0.138 0.196
莎姆金鳞鱼 85.23 0.072 0.191 0.263
黑鳍粗唇鱼 95.52 0.062 0.113 0.175
迪克氏固曲齿鲷 91.77 0.061 0.111 0.172
镰鱼 88.06 0.060 0.099 0.159
黑嘴雀鱼 87.49 0.058 0.131 0.189
鹦嘴鱼 97.98 0.059 0.112 0.171
网纹宅泥鱼 96.69 0.064 0.079 0.143
康德锯鳞鱼 87.64 0.057 0.100 0.157
摩鹿加雀鲷 92.97 0.065 0.114 0.179
黄纹炮弹鱼 87.25 0.059 0.159 0.218
黑缘单鳍鱼 94.46 0.061 0.117 0.178
横带粗唇鱼 99.46 0.064 0.128 0.192
川纹蝴蝶鱼 91.46 0.057 0.105 0.162
平均值 93.21 0.061 0.119 0.180

5 结论与展望

本研究以水下鱼类实时识别任务为切入点,提供了一个完整的鱼类识别任务模型选择、训练的评价的思路,并提出了一种基于安卓移动终端的远程鱼类识别解决方案,该方案具有良好的扩展性,可以为其它图像识别任务提供重要参考,所实现系统可以应用于鱼类知识科普、鱼类养殖等各类需要识别鱼类的场景。本次试验结果表明:(1)基于DenseNet169训练的模型整体F 1值达到了0.9742,是本试验获得的最优模型。(2)本试验提出的基于安卓移动终端的远程鱼类识别解决方案取得了良好的识别效果,具有较好的识别实时性。
