💡💡💡 本文目的:提取空间频率注意力和通道转置注意力,以恢复高频细节
💡💡💡通道转置注意力: 与SFA不同,通道转置注意力(CTA)采用了不同的策略,沿着通道维度进行自注意力计算,将通道分成多个头。
💡💡💡如何使用:1)结合C3k2二次创新使用
CTA结合 C3k2 | 亲测在遥感小目标车辆检测涨点,原始mAP50为0.879提升至0.884,对比实验yolov10n 0.824
改进结构图如下:
1.小目标检测介绍
1.1 小目标定义
1)以物体检测领域的通用数据集COCO物体定义为例,小目标是指小于32×32个像素点(中物体是指32*32-96*96,大物体是指大于96*96);
2)在实际应用场景中,通常更倾向于使用相对于原图的比例来定义:物体标注框的长宽乘积,除以整个图像的长宽乘积,再开根号,如果结果小于3%,就称之为小目标;
1.2 难点
1)包含小目标的样本数量较少,这样潜在的让目标检测模型更关注中大目标的检测;
2)由小目标覆盖的区域更小,这样小目标的位置会缺少多样性。我们推测这使得小目标检测的在验证时的通用性变得很难;
3)anchor难匹配问题。这主要针对anchor-based方法,由于小目标的gt box和anchor都很小,anchor和gt box稍微产生偏移,IoU就变得很低,导致很容易被网络判断为negative sample;
4)它们不仅仅是小,而且是难,存在不同程度的遮挡、模糊、不完整现象;
等等难点
参考论文:
2.遥感小目标车辆检测数据集
数据集大小:训练集2100张,验证集900
细节图
3.YOLO11介绍
Ultralytics YOLO11是一款尖端的、最先进的模型,它在之前YOLO版本成功的基础上进行了构建,并引入了新功能和改进,以进一步提升性能和灵活性。YOLO11设计快速、准确且易于使用,使其成为各种物体检测和跟踪、实例分割、图像分类以及姿态估计任务的绝佳选择。
结构图如下:
3.1 C3k2
C3k2,结构图如下
C3k2,继承自类C2f,其中通过c3k设置False或者Ture来决定选择使用C3k还是Bottleneck
实现代码ultralytics/nn/modules/block.py
3.2 C2PSA介绍
借鉴V10 PSA结构,实现了C2PSA和C2fPSA,最终选择了基于C2的C2PSA(可能涨点更好?)
实现代码ultralytics/nn/modules/block.py
3.3 11 Detect介绍
分类检测头引入了DWConv(更加轻量级,为后续二次创新提供了改进点),结构图如下(和V8的区别):
实现代码ultralytics/nn/modules/head.py
4. 空间频率注意力和通道转置注意力 | IJCAI-24
改进源码链接:
💡💡💡 本文目的:提取空间频率注意力和通道转置注意力,以恢复高频细节
💡💡💡空间-频率注意力: 为了更多地关注高频成分,它将高频和通道信息结合起来进行自注意力计算,以增强高频细节的恢复。
通道转置注意力: 与SFA不同,通道转置注意力(CTA)采用了不同的策略,沿着通道维度进行自注意力计算,将通道分成多个头。
💡💡💡如何使用:1)结合C3k2二次创新使用
论文:
摘要:基于Transformer的模型在各种低视力视觉任务中已被广泛且成功地应用,并在单图像超分辨率(SR)方面取得了显著的性能。尽管在SR方面取得了显著进展,但基于Transformer的SR方法(例如,SwinIR)仍然存在计算成本高和低频偏好的问题,同时忽略了丰富的高频信息的重建,因此阻碍了Transformer的表现力。为了解决这些问题,在本文中,我们提出了一种新颖的频率感知Transformer(FreqFormer),用于轻量级图像SR。具体来说,首先引入了一个频率分割模块(FDM),以分而治之的方式分别处理高频和低频信息。此外,我们提出了一个频率感知Transformer块(FTB),以提取空间频率注意力和通道转置注意力,以恢复高频细节。在公共数据集上的大量实验结果表明,我们的FreqFormer在定量指标和视觉质量方面都优于现有的最先进SR方法。
图2:我们的频率感知Transformer(FreqFormer)的整体架构,主要由频率分割模块(FDM)和频率感知Transformer块(FTB)组成。
如先前工作[Park和Kim, 2022]所示,自注意力可以被视为一个低通滤波器,因此在重建高频细节时表现不佳。出于这个原因,我们提出了频率感知Transformer块(FTB),其中包含频率感知级联注意力(FCA)以及双频聚合前馈网络(DFFN),以帮助重建高频细节。如图2b所示,FCA主要由两个级联的注意力模块组成,即空间-通道注意力和通道转置注意力。
空间-频率注意力: 为了更多地关注高频成分,我们提出了图2d中所示的空间-频率注意力(SFA),它将高频和通道信息结合起来进行自注意力计算,以增强高频细节的恢复。
通道转置注意力: 与SFA不同,通道转置注意力(CTA)采用了不同的策略,沿着通道维度进行自注意力计算。我们采用类似的方法,将通道分成多个头,如图2e所示应用通道注意力。
5.如何魔改提升遥感小目标检测精度
5.1 原始网络性能
实验结果如下:
原始mAP50为0.879
YOLO11 summary (fused): 238 layers, 2,582,347 parameters, 0 gradients, 6.3 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:24<00:00, 1.20it/s]
all 900 6917 0.888 0.829 0.879 0.333
5.2 YOLOv10对比实验
原始YOLOv10n结果如下:
原始mAP50为 0.824
YOLOv10n summary (fused): 285 layers, 2694806 parameters, 0 gradients, 8.2 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:24<00:00, 1.19it/s]
all 900 6917 0.833 0.754 0.824 0.302
5.3 CTA结合C3k2二次创新
原始mAP50为0.879提升至0.884,对比实验yolov10n 0.824
YOLO11-C3k2_CTA summary: 561 layers, 2,976,469 parameters, 0 gradients, 8.1 GFLOPs
Class Images Instances Box(P R mAP50 mAP50-95): 100%|██████████| 29/29 [00:25<00:00, 1.14it/s]
all 900 6917 0.5 0.832 0.884 0.337
结构图:
源码链接: