深度学习-最简代码实现目标检测模型

作者：蜻蜓安全发布时间：2024-02-04

一、项目介绍

在深度学习领域中，目标检测一直是一个备受关注的研究方向。为了更深入地理解深度学习目标检测的原理和实现，我写了一个简单的单目标检测项目。在这个项目中，我用最简单的方式实现了数据迭代器、网络模型、预测脚本和训练模型脚本，以及一些辅助脚本，通过这个过程提高对目标检测的认识和实践能力。

项目地址：https://github.com/78778443/QingNet

1.1 项目概要

要实现目标检测系统，离不开数据加载器，网络模型，训练脚本，预测脚本这四大项；

数据加载器的作用是将数据集加载出来，并将数据集的标注数据给格式化，便于后续训练；
网络模型的主要作用是提取网络特征，比如你给一张图，他把图里面的特征信息提取并返回给你；
训练脚本的主要作用是桥接数据集和网络模型，通常是给模型一个图片，模型返回特征结果后，对结果进行偏差(损失)计算；
预测脚本的主要作用是训练好一个模型(权重)后，将模型(权重)文件用于实际生产；

1.2 项目结构

这个项目的结构相对简单，主要涉及以下几个文件：

data.py: 数据迭代器，负责加载和处理训练和测试数据。
net.py: 网络模型的定义，包括卷积层、激活函数以及输出标签、位置、排序和置信度的信息。
train.py: 训练模型的脚本，包括数据加载、模型训练、损失函数计算、优化器更新等过程。
predict.py: 预测脚本，用训练好的模型进行单张图像的预测。
tools.py: 辅助脚本，用于可视化预测结果。

1.3 项目运行

在运行项目时，只需执行

python train.py命令即可。如果缺少相关依赖包，可以通过使用pip进行安装。

python train.py

train_loss 0===>> 0.8435055017471313

train_loss 10===>> 0.8142958283424377

train_loss 40===>> 0.8188565373420715

test_loss 0===>> 0.8148629665374756

test_loss 10===>> 0.8028237223625183

sort_acc 14==>> tensor(0.0397)

train_loss 0===>> 0.8068220615386963

二、数据集处理

在做这个项目之前，要准备一批数据集，我将数据集文件放在data文件夹下,文件名里面包含图片序号，是否有目标，目标的四个坐标点，并用逗号隔开

(base) ➜ tree data data

├── test

├── 1.0.0.0.0.0.0.jpg

├── 1.1.163.54.290.181.6.jpg

├── ....过长省略......

└── train

├── 1000.0.0.0.0.0.0.jpg

├── 1000.1.64.90.229.255.8.jpg

├── ....过长省略......

2.1 数据加载

在项目里我写了一个自定义的QingDataset类来加载和处理训练和测试数据。首先，在初始化方法中，我遍历了指定目录下的所有文件名，并将它们拼接到数据集列表中：

def __init__(self, root):

self.dataset = []

for filename in os.listdir(root): self.dataset.append(os.path.join(root, filename))

这样，self.dataset中存储了所有图像文件的路径。

2.2 数据处理

在__getitem__方法中，我通过读取图像数据，对其进行归一化处理，并转换为PyTorch张量：

def __getitem__(self, index):

img_path = self.dataset[index]

img = CV2.imread(img_path)

img = img / 255

img = torch.tensor(img).permute(2, 0, 1)

data_list = img_path.split('.')

label = int(data_list[1])

position = [int(i) / 300 for i in data_list[2:6]]

sort = int(data_list[6]) - 1

return np.float32(img), np.float32(label), np.float32(position), sort, img_path

这里我将图像进行了归一化处理，并从文件名中提取了标签、位置和排序信息。最后，返回了处理后的图像数据以及相应的标签、位置、排序和图像路径。

三、神经网络模型

网络模型这里的nn.Conv2d(3, 16, 3),ReLU,MaxPool2d里面的参数是我随意填写的，读者不用纠结参数的含义。

3.1 模型结构

在net.py中，我定义了神经网络模型QingNet。该模型的结构采用了Sequential容器，通过堆叠卷积层、激活函数以及池化层来提取图像特征：

self.layers = nn.Sequential(

nn.Conv2d(3, 16, 3),

nn.ReLU(),

nn.MaxPool2d(3),

nn.Conv2d(16, 22, 3),

nn.ReLU(), nn.MaxPool2d(2),

nn.Conv2d(22, 32, 5), nn.ReLU(),

nn.MaxPool2d(2),

nn.Conv2d(32, 64, 5),

nn.ReLU(),

nn.MaxPool2d(2),

nn.Conv2d(64, 82, 3),

nn.ReLU(),

nn.Conv2d(82, 128, 3),

nn.ReLU(),

nn.Conv2d(128, 25, 3),

nn.ReLU()

)

这些层的输出形成了模型的最后特征图。

3.2 输出信息

模型的最后几个层分别输出了标签、位置、排序和置信度的信息：

self.label_layer = nn.Sequential(nn.Conv2d(25, 1, 3), nn.ReLU())

self.position_layers = nn.Sequential(nn.Conv2d(25, 4, 3), nn.ReLU())

self.sort_layers = nn.Sequential(nn.Conv2d(25, 20, 3), nn.ReLU())

self.confidence_layer = nn.Sequential(nn.Conv2d(25, 1, 3), nn.Sigmoid())

这些输出对应了单目标检测任务中所需的各个要素。

四、训练过程

训练的过程其实就是将数据集丢给网络模型，网络模型会返回目标的位置信息，我会那这个结果与数据集的正确结果进行损失计算，并告诉网络模型损失值。

随着不断训练网络模型，网络模型会越来越靠近真实值，每训练一轮我都会把权重文件保存到磁盘中，这样电脑即使重启还可以接着上次的成果接着训练。

4.1 损失计算和反向传播

在train.py中，我对每个训练批次进行了循环迭代。对于每个批次，我计算了标签、位置和排序的损失，然后按照一定的权重组合得到了最终的训练损失：

label_loss = self.label_loss(out_label, label)

position_loss = self.position_loss(out_position, position)

sort_loss = self.sort_loss(out_sort, sort)

train_loss = 0.2 * label_loss + position_loss * 0.6 + 0.2 * sort_loss

这里，我采用了BCEWithLogitsLoss、MSELoss和CrossEntropyLoss作为标签、位置和排序的损失函数。

4.2 模型保存

在每一轮训练结束后，我保存了模型的权重，方便后续的预测和部署：

torch.save(self.net.state_dict(), f'param/{date_time}-{epoch}.pt')

这样，我们就可以在需要时加载训练好的模型进行预测。

五、预测和可视化

当我训练的效果达到满意后，我就可以把训练好的权重文件用于实际生产中了。

5.1 模型加载和预测

在predict.py中，我首先加载了训练好的模型权重，并将模型设置为评估模式：

predictor = Predictor('param/' + max(os.listdir('param/')))

predictor.net.eval()

然后，通过predict方法对单张图像进行预测，获取标签、位置、排序和置信度的输出。

5.2 可视化工具

最后，通过tools.py中的view_image方法，我将原始图像与模型预测的标签、位置、排序进行可视化：

tools.view_image(img_path, label, position, sort, out_label, out_position, out_sort)

这一步骤有助于直观地了解模型对于输入图像的处理效果，为进一步调优提供了参考。

六、关于我

作者：汤青松

微信：songboy8888

日期: 2024-02-02

相关资讯

探索AIGC图像识别：无码实现目标检测

在现代科技的浪潮中，人工智能生成内容（AIGC）为我们提供了无数令人兴奋的机会，其中之一就是图像识别。通过结合强大的自然语言处理（NLP）和图像处理技术，我们可以创建出令人惊叹的应用程序

AIGC 人工智能

金色的暴发户 2023-11-28

基于深度学习的目标检测系统实现

基于深度学习的目标检测系统实现是一个涉及计算机视觉和机器学习的复杂项目。这种系统通常用于识别和定位图像或视频中的一个或多个目标对象。以下是实现这一目标的基本步骤：系统设计概要引言目标检测的重要性和应用场景深度学习在目标检测中的作用系统目标和预期成果相关工作传统目标检测方法深度学习技术在目标检测中的应用现有研究的局限性和改进空间研究方法数据收集（图像或视频数据集）数据预处理（图像格式化、归一化）深度学习模型的选择和设计（如CNN）实验设计实验设置（数据集、评价指标）模型训练过程结果评估方法（如准确率、召回率

深度学习机器学习

邝煜云 2024-01-03

基于深度学习的图像目标检测的设计与实现

进行基于深度学习的图像目标检测的设计与实现是一个涉及计算机视觉和机器学习的复杂项目。这个研究的目标是利用深度学习技术来准确地检测图像中的特定目标。以下是一个概要和实现这个研究的基本步骤。研究设计概要1. 引言图像目标检测的重要性和应用场景深度学习在目标检测中的作用研究目标和预期成果2. 相关工作传统目标检测方法深度学习技术在目标检测中的应用现有研究的局限性和改进空间3. 研究方法数据收集（图像数据集）数据预处理（图像格式化、归一化）深度学习模型的选择和设计（如Faster R-CNN、YOLO、SSD）模

深度学习机器学习

邝煜云 2024-01-02

深度学习与目标检测（第2版）

链接：https://pan.baidu.com/s/1Tr_4WWxQpt48g1jkXZKolQ?pwd=3d08 提取码：3d08本书的写作初衷是，从学者的角度，用一种通俗易懂的方式，将基于深度学习的目标检测的相关论文中的理论和方法呈现给读者，同时针对作者在深度学习教学过程中遇到的难点，进行深入的分析和讲解。本书侧重对卷积神经网络的介绍，而深度学习的内容不止于此。所以，作者将深度学习分为有监督学习、无监督学习和强化学习三类，将图像分类、目标检测、人脸识别、语音识别、双向生成对抗网络和AlphaGo等

深度学习百度

干啥啥不会白嫖第一名 2023-04-26

深度学习在植物病害目标检测

植物病害准确检测与识别是其早期诊断与智能监测的关键，是病虫害精准化防治与信息化管理的核心。深度学习应用于植物病害检测与识别中，可以克服传统诊断方法的弊端，大幅提升病害检测与识别的准确率，引起了广泛关注。中国农业科学院农业信息研究所/农业农村部农业大数据重点实验室联手甘肃农业大学机电工程学院，组成科研团队，针对深度学习在植物叶部病害检测与识别展开研究。 [图片] 植物病害目标检测是利用计算机视觉技术在复杂自然条件下检测出植物病害侵染区域及其准确位置，是植物病害准确分类识别和病害危害程度评估的前提，也是植物

深度学习

聚英电子 2023-11-20

近期资讯

东莞丝科取得五金件打磨装置专利，提高工作效率

金融界2024年12月30日消息，国家知识产权局信息显示，东莞丝科五金实业有限公司取得一项名为“一种五金件打磨装置”的专利，授权公告号CN222222010U，申请日期为2024年4月。

金融界 2024-12-30

江苏钴锋新材料研究院取得刀片磨削加工磨床专利，能够阻挡打磨刀片时的火星子

金融界2024年12月30日消息，国家知识产权局信息显示，江苏钴锋新材料研究院有限公司取得一项名为“一种刀片磨削加工磨床”的专利，授权公告号CN222222004U，申请日期为2024年4月。

金融界 2024-12-30

重庆新兴通用传动取得内孔磨床专利，提高生产效率

金融界2024年12月30日消息，国家知识产权局信息显示，重庆新兴通用传动有限公司取得一项名为“种内孔磨床”的专利，授权公告号CN222222013U，申请日期为2024年5月。

金融界 2024-12-30

安徽呲铁机床取得一种钻铣床气动开启观察罩专利，固定机构能提高操作的安全性和效率

金融界2024年12月30日消息，国家知识产权局信息显示，安徽呲铁机床有限公司取得一项名为“一种钻铣床气动开启观察罩”的专利，授权公告号CN222221980U，申请日期为2024年5月。

金融界 2024-12-30

绍兴超立机械取得链轮生产用插齿机专利，减少冷却液因温度升高造成工件冷却效果不佳的情况

金融界2024年12月30日消息，国家知识产权局信息显示，绍兴超立机械有限公司取得一项名为“一种链轮生产用插齿机”的专利，授权公告号CN222221984U，申请日期为2023年12月。

金融界 2024-12-30

河北速优特取得五轴数控工具磨床的磨头装置专利，有利于打磨轮对不同深度的孔进行打磨

金融界2024年12月30日消息，国家知识产权局信息显示，河北速优特精密工具有限公司取得一项名为“一种五轴数控工具磨床的磨头装置”的专利，授权公告号CN222222002U，申请日期为2024年5月。

金融界 2024-12-30

中村机器人取得承载高强度旋转机构专利，有效提高旋转机构承载能力

金融界2024年12月30日消息，国家知识产权局信息显示，中村机器人（无锡）有限公司取得一项名为“一种承载高强度的旋转机构”的专利，授权公告号CN222221994U，申请日期为2024年3月。

金融界 2024-12-30

中建二局取得可移动可接焊渣切割防护罩专利，使防护罩清理操作更便捷

金融界2024年12月30日消息，国家知识产权局信息显示，中建二局第三建筑工程有限公司取得一项名为“一种可移动可接焊渣切割防护罩”的专利，授权公告号CN222221983U，申请日期为2024年5月。

金融界 2024-12-30

深圳市艾客达取得一种便于安装的对刀仪专利，便于进行将磁铁停止吸附

金融界2024年12月30日消息，国家知识产权局信息显示，深圳市艾客达科技有限公司取得一项名为“一种便于安装的对刀仪”的专利，授权公告号CN222221992U，申请日期为2024年3月。

金融界 2024-12-30

江苏明越精密取得高温镍合金棒材表面处理设备专利，提升打磨块位置调节时的稳定性

金融界2024年12月30日消息，国家知识产权局信息显示，江苏明越精密高温合金有限公司取得一项名为“高温镍合金棒材表面处理设备”的专利，授权公告号CN222222011U，申请日期为2024年5月。

金融界 2024-12-30