💡💡💡 本文目的:通过利用一个新颖的双注意力块实现了更好的去雾性能,同时大幅降低了模型复杂度。这个双注意力块串联了两个模块:通道-空间注意力和并行注意力。我们提出了一种新的并行注意力架构,通过并行连接三种不同的注意力机制(全局通道注意力、局部通道注意力和空间注意力),实现了更好的去雾效果。
💡💡💡如何使用:1)直接双注意力块(DAB)加入;
双注意力块(DAB) | 亲测在遥感小目标车辆检测涨点,原始mAP50为0.879提升至0.883,对比实验yolov10n 0.824
改进结构图如下:
1.小目标检测介绍
1.1 小目标定义
1)以物体检测领域的通用数据集COCO物体定义为例,小目标是指小于32×32个像素点(中物体是指32*32-96*96,大物体是指大于96*96);
2)在实际应用场景中,通常更倾向于使用相对于原图的比例来定义:物体标注框的长宽乘积,除以整个图像的长宽乘积,再开根号,如果结果小于3%,就称之为小目标;
1.2 难点
1)包含小目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测;
2)由小目标覆盖的区域更小,这样小目标的位置会缺少多样性。我们推测这使得小目标检测的在验证时的通用性变得很难;
3)anchor难匹配问题。这主要针对anchor-based方法,由于小目标的gt box和anchor都很小,anchor和gt box稍微产生偏移,IoU就变得很低,导致很容易被网络判断为negative sample;
4)它们不仅仅是小,而且是难,存在不同程度的遮挡、模糊、不完整现象;
等等难点
参考论文:
2.遥感小目标车辆检测数据集
数据集大小:训练集2100张,验证集900
细节图
3.YOLO11介绍
Ultralytics YOLO11是一款尖端的、最先进的模型,它在之前YOLO版本成功的基础上进行了构建,并引入了新功能和改进,以进一步提升性能和灵活性。YOLO11设计快速、准确且易于使用,使其成为各种物体检测和跟踪、实例分割、图像分类以及姿态估计任务的绝佳选择。
结构图如下:
3.1 C3k2
C3k2,结构图如下
C3k2,继承自类C2f,其中通过c3k设置False或者Ture来决定选择使用C3k还是Bottleneck
实现代码ultralytics/nn/modules/block.py
3.2 C2PSA介绍
借鉴V10 PSA结构,实现了C2PSA和C2fPSA,最终选择了基于C2的C2PSA(可能涨点更好?)
实现代码ultralytics/nn/modules/block.py
3.3 11 Detect介绍
分类检测头引入了DWConv(更加轻量级,为后续二次创新提供了改进点),结构图如下(和V8的区别):
实现代码ultralytics/nn/modules/head.py
4.DAB双注意力
原文链接:
DAB由两个模块串联而成:通道-空间注意力模块(CSAM)和并行注意力模块(PAM),如图2所示。从理论上讲,DAB的结构设计可以减少模型的复杂度。现有的基于深度学习的模型通常需要大量的参数来准确捕捉雾霾成分,从而增加了模型的复杂性。相比之下,DAB中的CSAM和PAM基于注意力机制,可以在保持较少参数的情况下高效检测雾霾成分。此外,将CSAM与PAM串联起来可以互补,增强DAB的有效性。因此,DAB通过利用一种结构设计——即两个模块CSAM和PAM串联连接,能够更精确地检测雾霾成分,同时按比例减少模型的复杂度。
结合YOLO11结构图:
5.如何魔改提升遥感小目标检测精度
5.1 原始网络性能
实验结果如下:
原始mAP50为0.879
YOLO11 summary (fused): 238 layers, 2,582,347 parameters, 0 gradients, 6.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:24<00:00, 1.20it/s]
all 900 6917 0.888 0.829 0.879 0.333
5.2 YOLOv10对比实验
原始YOLOv10n结果如下:
原始mAP50为 0.824
YOLOv10n summary (fused): 285 layers, 2694806 parameters, 0 gradients, 8.2 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:24<00:00, 1.19it/s]
all 900 6917 0.833 0.754 0.824 0.302
5.3 DAB双注意力二次创新
原始mAP50为0.879提升至0.883,对比实验yolov10n 0.824
YOLO11-DualAttentionBlock summary (fused): 281 layers, 4,398,945 parameters, 0 gradients, 7.7 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:24<00:00, 1.20it/s]
all 900 6917 0.888 0.824 0.883 0.341
结构图:
原文链接: