YOLOv12论文模型解析 | 手把手带你零基础看懂yolov12的网络结构（附手绘超详细网络结构图）

2025-04-27 02:37:25 1 阅读

一、本文介绍

本文给大家带来的是YOLO系列家族的最新成员——YOLOv12的介绍，YOLOv12的论文题目是《YOLOv12: Attention-Centric Real-Time Object Detectors》其题目翻译过来就是YOLOv12：基于注意力机制的实时物体检测器，这是YOLO系列唯一一款以注意立机制为核心的检测器的检测器（YOLO系列第一次引入注意力机制是YOLOv10引入的PSA机制，YOLOv11在基础上进行了改进引入了C2PSA机制，在此之前没有引用过注意力机制），YOLOv12的核心注意力机制名字是A2，读者在实际使用中将其嵌入到了C2f中称之为A2C2f（后面会详细的分析这一结构，包括网络结构图），下面的图片为手绘的yolov12网络结构图。

专栏链接：YOLOv12有效涨点专栏 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制

一、本文介绍

二、论文分析

2.1 Introduction/介绍

2.2 Related Work/相关工作

2.2.1 实时目标检测器/Real-time Object Detectors

2.2.2 高效视觉变换器/Efficient Vision Transformers.

2.3 Approach（重点介绍，重点看）

2.3.1 Efficiency Analysis/效率分析

2.3.2 Area Attention/区域注意力

2.3.3 ResidualEfficientLayerAggregationNetworks/残差高效层聚合网络（R-ELAN）

2.3.4 ArchitecturalImprovements/架构改进

2.4 Experiment/实验

2.4.1 Experimental Setup/实验设置

2.4.2 Comparison with State-of-the-arts/与最新方法的比较

2.4.3 Ablation Studies/消融研究

2.4.4 SpeedComparison/速度比较

2.4.5 Diagnosis&Visualization/诊断与可视化

2.5 Conclusion/结论

2.6 Limitations/限制

2.7 More Details/更多细节

三、全文总结

二、论文分析

官方论文地址： YOLOv12的论文链接点击此处即可跳转

官方代码地址： YOLOv12的代码链接点击此处即可跳转

2.1 Introduction/介绍

原文翻译：实时目标检测因其低延迟特性而一直备受关注，这为实际应用提供了巨大的便利。在这一领域，YOLO系列有效地平衡了延迟和准确性，成为了该领域的主导者。尽管YOLO的改进主要集中在损失函数、标签分配等方面，网络架构设计仍然是一个至关重要的研究方向。尽管以注意力为核心的视觉Transformer（ViT）架构已被证明在建模能力上具有更强的优势，甚至在小规模模型中也表现优异，但大多数架构设计仍然主要集中在CNN上。

        造成这种情况的主要原因是注意力机制的低效，主要来源于两个因素：计算复杂度的二次增长和注意力机制中的内存访问操作低效（后者是FlashAttention所要解决的主要问题）。因此，在相同的计算预算下，基于CNN的架构比基于注意力的架构快大约3倍，这显著限制了在YOLO系统中采用注意力机制的可能性，因为在YOLO中高效的推理速度至关重要。

本文旨在解决这些挑战，并进一步构建一个以注意力为核心的YOLO框架——YOLOv12。我们提出了三个关键的改进。首先，我们提出了一种简单而高效的区域注意力模块（A2），该模块通过非常简单的方式保持较大的感受野，同时降低了注意力计算的复杂度，从而提高了速度。其次，我们引入了残差高效层聚合网络（R-ELAN），以解决注意力引入的优化挑战（主要是大规模模型）。R-ELAN在原始ELAN的基础上引入了两个改进：（i）基于缩放技术的块级残差设计，和（ii）重新设计的特征聚合方法。第三，我们对传统的注意力架构进行了改进，以适应YOLO系统。我们对传统的注意力架构进行了升级，包括：引入FlashAttention来解决注意力的内存访问问题，去除如位置编码等设计，以使模型更快且简洁，调整MLP比率从4到1.2，以平衡注意力和前馈网络之间的计算，减少堆叠块的深度以促进优化，并尽可能多地使用卷积算子来发挥其计算效率。

        基于上述设计，我们开发了一个新的实时检测器家族，包括五种模型规模：YOLOv12-N、S、M、L和X。我们在标准目标检测基准上进行了大量实验，遵循YOLOv11的方案，没有使用额外的技巧，结果表明，YOLOv12在延迟-准确性和FLOPs-准确性权衡方面，相较于先前流行的模型，在这些尺度上提供了显著的改进。例如，YOLOv12-N在推理速度更快的同时，达到了40.6%的mAP，比YOLOv10-N高出2.1%的mAP，比YOLOv11-N高出1.2%的mAP，且速度相当。这个优势在其他规模的模型中也得到了保持。

        与RT-DETR-R18 / RT-DETRv2-R18相比，YOLOv12-S提高了1.5%/0.1%的mAP，并且在延迟速度上快了42%/42%，只需其计算量的36%/36%，参数量的45%/45%。

        总的来说，YOLOv12的贡献有两个方面：1）它建立了一个以注意力为核心、简单而高效的YOLO框架，通过方法上的创新和架构上的改进，打破了CNN模型在YOLO系列中的主导地位。2）YOLOv12在没有依赖如预训练等额外技术的情况下，达到了最先进的结果，且推理速度快、检测精度高，展示了其潜力。

个人总结： YOLOv12的主要创新在于成功地将注意力机制与YOLO架构结合（论文的创新点，其实这也是绝大多数改进的作者在做的事情，大家都可以这么写），克服了传统注意力机制在实时性和计算效率方面的不足（原文中写的是速度类似，实际测试要慢一些相对于之前的系列）。引入区域注意力模块（A2，后面我会详细分析）和残差高效层聚合网络（R-ELAN，我理解的就是yolov11的主干结构），其实YOLOv12引入注意力机制肯定会造成一定的不稳定性，可能会导致在某些数据据效果很好有些数据集效果很差，但这给改进的作者留下了很多的改进空间，其次YOLOv12去除了SPPF，因为其和注意力机制的作用有些类似起到加速训练的作用。

2.2 Related Work/相关工作

2.2.1 实时目标检测器/Real-time Object Detectors

原文翻译：实时目标检测器由于其显著的实际应用价值，一直受到研究界的关注。YOLO系列已成为实时目标检测的领先框架。早期的YOLO系统主要从模型设计角度为YOLO系列奠定了框架基础。YOLOv4和YOLOv5在此基础上加入了CSPNet、数据增强和多尺度特征。YOLOv6进一步通过在主干和颈部引入BiC和SimCSPSPPF模块，并辅以锚点辅助训练，进一步推动了框架的发展。YOLOv7引入了EELAN（高效层聚合网络）以改善梯度流，并增加了多种免费技术，同时YOLOv8集成了高效的C2f模块以增强特征提取。在最近的版本中，YOLOv9引入了GELAN进行架构优化，并采用PGI方法进行训练改进，而YOLOv10则应用了不依赖NMS的训练和双重分配以提高效率。YOLOv11进一步通过采用C3K2模块（GELAN的一个特定版本）和轻量级深度可分离卷积，在检测头部减少延迟并提高了精度。最近，RT-DETR提出了一种端到端的目标检测方法，通过设计高效的编码器和最小不确定性的查询选择机制，改进了传统的端到端检测器以满足实时要求。RT-DETRv2通过免费技术进一步提升了性能。与YOLO系列不同，本研究旨在构建一个以注意力机制为核心的YOLO框架，利用注意力机制的优势。

个人总结：主要介绍了YOLO系列的一些发展没有什么好说的.

2.2.2 高效视觉变换器/Efficient Vision Transformers.

原文翻译：

降低全局自注意力的计算成本对于在下游任务中有效应用视觉变换器至关重要。PVT通过多分辨率阶段和下采样特征来解决这一问题。Swin Transformer将自注意力限制在局部窗口内，并调整窗口分区样式，以连接不重叠的窗口，平衡了通信需求与内存和计算的需求。其他方法如轴向自注意力和十字交叉注意力则在水平和垂直窗口内计算注意力。CSWin Transformer在此基础上引入了交叉形状窗口自注意力，在水平和垂直条带中并行计算注意力。此外，像局部-全局关系的工作进一步提高了效率，减少了对全局自注意力的依赖。Fast-iTPN通过令牌迁移和令牌聚合机制提升了下游任务的推理速度。一些方法使用线性注意力来减少注意力的复杂性。尽管基于Mamba的视觉模型旨在实现线性复杂度，但它们在实时速度方面仍然存在不足。FlashAttention识别出导致注意力计算低效的高带宽内存瓶颈，并通过I/O优化解决这些问题，减少内存访问，提高计算效率。在本研究中，我们摒弃了复杂设计，提出了一种简单的区域注意力机制来减少注意力的复杂性。此外，我们还采用了FlashAttention来克服注意力机制本身的内存访问问题。

个人总结：主要介绍了Transformer等模型的发展情况（类似有CSWin Transformer，RepViT）

2.3 Approach（重点介绍，重点看）

2.3.1 Efficiency Analysis/效率分析

原文翻译：注意力机制在捕捉全局依赖关系和促进自然语言处理以及计算机视觉任务方面具有很高的效能。然而，与卷积神经网络（CNN）相比，注意力机制固有的计算速度较慢，主要由以下两个因素导致：

复杂度：自注意力操作的计算复杂度随着输入序列长度L的平方增长。具体来说，对于一个长度为L、特征维度为d的输入序列，计算注意力矩阵需要O(L²d)的操作，因为每个token都与其他token进行交互。相比之下，CNN中的卷积操作的复杂度是线性增长的，即O(kLd)，其中k为卷积核的大小，通常远小于L。因此，自注意力机制在面对大尺寸输入（如高分辨率图像或长序列）时，计算开销变得不可接受。

计算效率：第二个重要因素是，注意力计算过程中的内存访问模式较为低效。具体而言，在自注意力过程中，需要将中间计算结果（如注意力图QKT和softmax图，大小为L×L）从高速GPU内存（计算的实际位置）存储到高带宽GPU内存中，并在计算过程中读取这些数据。而前者的读写速度比后者快10倍以上，导致显著的内存访问开销，增加了总的计算时间。此外，注意力机制中的内存访问模式较为不规则，相比之下，CNN利用结构化且局部化的内存访问方式，可以有效地进行内存缓存，减少延迟。

这两个因素——二次计算复杂度和低效的内存访问模式，使得注意力机制在实时或资源受限的场景中比CNN慢。因此，解决这些问题已成为研究中的一个关键方向，许多方法（如稀疏注意力机制和内存高效近似方法）致力于缓解二次扩展的问题。

个人总结：文章中提出了注意力机制的计算复杂度和内存访问效率是在实时应用中的两大瓶颈。自注意力的计算复杂度随着输入序列长度的平方增长，而内存访问模式的不规则性使得其在处理大规模数据时效率低下。与卷积神经网络（CNN）相比，CNN的计算复杂度和内存访问效率更高，这使得其在资源有限和实时处理场景中更具优势。
这段话作者要表达的意思是：要提升注意力机制在实时检测中的应用，未来的研究可以重点优化计算复杂度，探索更加高效的局部注意力机制或稀疏注意力机制（全局注意力机制其实更适合时间序列领域，在图像这种高复杂度的部注意力机制或稀疏注意力机制才是未来研究方向），大家也知道作者接下来要分析什么了。

2.3.2 Area Attention/区域注意力

原文翻译：减少传统注意力计算成本的一个简单方法是采用线性注意力机制，这将传统注意力的复杂度从二次降至线性。对于一个特征图f，维度为(n, h, d)，其中n为tokens的数量，h为头数，d为头的大小，线性注意力将复杂度从2n²hd减少到2nhd²，减少了计算成本，因为n > d。然而，线性注意力在减少全局依赖性、稳定性和分布敏感性方面存在问题。此外，由于低秩瓶颈，当输入分辨率为640×640时，线性注意力对YOLO的加速效果有限。

另一种有效减少复杂度的方法是局部注意力机制（如Shift Window、十字交叉注意力和轴向注意力），如图2所示，它将全局注意力转换为局部注意力，从而降低计算成本。然而，特征图的窗口划分可能引入额外开销或减少感受野，影响速度和精度。本研究提出了一种简单而高效的区域注意力模块。如图2所示，分辨率为(H, W)的特征图被划分为l个大小为(H/l, W)或(H, W/l)的片段。该方法消除了显式的窗口划分，仅需进行简单的重塑操作，从而提高了速度。我们将l的默认值设为4，尽管减少了感受野至原始的1/4，但仍然保持了较大的感受野。通过这种方法，注意力机制的计算成本从2n²hd降低至1/2n²hd。尽管复杂度依然是n²，但当n固定为640时，这种设计仍足够高效，满足YOLO系统的实时要求。

个人总结：这段其实大家前面仔细阅读有一定基础就能知道什么意思，它提出A2注意力机制是一种区域注意力机制，但是我们将上图中的图四和图三对比可以看出，所谓的Area attention就是将Axial attention注意的区域扩大了四倍，这样做的缺点就是速度会变慢这是肯定（我实测在我目前的显卡上yolov11达到了250帧，而yolov12仅有180帧，我测试的是pt权重的推理速度）。

2.3.3 ResidualEfficientLayerAggregationNetworks/残差高效层聚合网络（R-ELAN）

原文翻译：高效层聚合网络（ELAN）旨在改善特征聚合。如图3(b)所示，ELAN将过渡层（1×1卷积）的输出拆分，经过多个模块处理后再拼接，最后应用另一个过渡层进行维度对齐。然而，如[57]所分析，这种架构可能引入不稳定性。我们认为，这种设计会导致梯度阻塞，且缺乏输入到输出的残差连接。此外，由于注意力机制引入的优化挑战，L型和X型模型在使用Adam或AdamW优化器时往往无法收敛或保持不稳定。

为了解决这个问题，我们提出了残差高效层聚合网络（R-ELAN）。与ELAN不同，我们在整个模块中引入了一个从输入到输出的残差快捷连接，并添加了一个缩放因子（默认为0.01）。该设计类似于层缩放，用于构建深度视觉变换器。然而，应用层缩放到每个区域注意力并不能解决优化问题，并且会导致延迟增加。这表明，注意力机制的引入并非收敛问题的唯一原因，实际上，正是ELAN架构本身导致了问题，验证了我们R-ELAN设计的合理性。

我们还设计了一种新的聚合方法，如图3(d)所示。原始ELAN层通过先将输入传递至过渡层，再拆分为两部分，进一步处理后拼接输出。相较之下，我们的设计使用过渡层调整通道维度，并生成一个单一的特征图，随后经过后续模块处理，再进行拼接，形成瓶颈结构。该方法不仅保留了原始的特征聚合能力，还降低了计算成本和参数/内存使用。

个人总结：这一段主要介绍了YOLOv12的唯一改进组件A2C2f，也就是上图的（d），我们可以观察一下下面的YOLOv11和YOLOv12的yaml文件对比图，首先网络数据方面可以看到YOLOv12的网络层数相比于YOLOv11增加了150层，其余的算是基本保持不变，其余就是用A2C2f替换C3k2（后三个替换C3k2的A2C2f我根据代码发现运行的其实没有利用到A2注意力机制，不知道作者为何改名为A2C2f），总共有五个替换，前两个可以看到参数量第二个参数被设置为True（实际改进调用了A2的只有这两个起效果，而fps还要降低百分之三十左右在pt权重下.），后三个第二个参数被设置为False，如果第二个参数被设置为False，A2C2f的网络结构图中的A2应该被替换为C3k.

下面的图片为我手绘的A2C2f的网络结构图，绿色框部分表示为可选选项，仅在YOLOv12l和YOLOv12x版本进行，其余版本则忽略绿色部分.

2.3.4 ArchitecturalImprovements/架构改进

原文翻译：在这一部分，我们将介绍整体架构及一些相较于传统注意力机制的改进。许多以注意力为核心的视觉变换器采用的是平面风格架构，而我们保留了YOLO系统的层次设计，并证明这一设计的必要性。我们移除了最近版本（如YOLOv4、YOLOv5等）在骨干网最后阶段堆叠三个模块的设计（三个堆叠的模块应该指的是SPPF），而仅保留了一个R-ELAN块，从而减少了模块数量并有助于优化。我们继承了YOLOv11的前两阶段骨干网，并未使用我们提出的R-ELAN。

此外，我们还对传统注意力机制的多个默认配置进行了修改，以更好地适应YOLO系统。这些修改包括将MLP比率从4调整为1.2（对于N型/S型/M型模型为2）（这一段代码中确实体现了），以更好地分配计算资源，从而提高性能；使用nn.Conv2d+BN代替nn.Linear+LN，充分利用卷积算子的效率；去除位置编码；引入大规模可分离卷积（7×7），帮助区域注意力感知位置信息（这两个构建其实就是A2的全部内容了）。这些改进的有效性将在第4.5节中验证。

上图是YOLOv12的A2代码定义部分，最后一行就是提到的7x7可分离Conv.

2.4 Experiment/实验

本节分为四个部分：实验设置、与流行方法的系统比较、消融研究以验证我们的方法，以及通过可视化进一步探索YOLOv12。

2.4.1 Experimental Setup/实验设置

原文翻译：我们在MSCOCO 2017数据集上验证了所提方法。YOLOv12系列包括5个变体：YOLOv12-N、YOLOv12-S、YOLOv12-M、YOLOv12-L和YOLOv12-X。所有模型均使用SGD优化器进行600轮训练，初始学习率为0.01，与YOLOv11一致。我们采用线性学习率衰减策略，并对前3轮进行线性预热。按照中的方法，在T4 GPU上使用TensorRT FP16测试所有模型的延迟。

基线我们选择YOLOv11作为基线模型，模型缩放策略也与YOLOv11保持一致。我们使用了其中提出的C3K2模块（即GELAN的一个特殊案例）。我们没有在YOLOv11之外使用任何额外的技巧。

2.4.2 Comparison with State-of-the-arts/与最新方法的比较

原文翻译：我们在表1中展示了YOLOv12与其他流行实时检测器的性能比较。

对于N尺度模型，YOLOv12-N分别比YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N和YOLOv11提高了3.6%、3.3%、2.1%和1.2%的mAP，同时计算量和参数相似或更少，并实现了1.64 ms/图像的快速延迟。

对于S尺度模型，YOLOv12-S具有21.4G的FLOPs和9.3M的参数，达到了48.0的mAP，延迟为2.61 ms/图像。相比YOLOv8-S、YOLOv9-S、YOLOv10-S和YOLOv11-S，YOLOv12-S分别提高了3.0%、1.2%、1.7%和1.1%的mAP，同时保持了类似或更少的计算量。与端到端检测器RT-DETR-R18 / RT-DETRv2-R18相比，YOLOv12-S在推理速度上表现优异，计算成本和参数更少。

对于M尺度模型，YOLOv12-M具有67.5G的FLOPs和20.2M的参数，达到了52.5的mAP性能和4.86 ms/图像的速度。与Gold YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10、YOLOv11以及RT-DETR-R34 / RT-DETRv2-R34相比，YOLOv12-M表现优越。

对于L尺度模型，YOLOv12-L甚至超过了YOLOv10-L，FLOPs减少了31.4G。YOLOv12-L比YOLOv11提高了0.4%的mAP，FLOPs和参数相当。YOLOv12-L还在更快的速度下超越了RT-DETR-R50 / RT-DETRv2-R50，FLOPs减少了34.6%，参数减少了37.1%。

对于X尺度模型，YOLOv12-X显著超过了YOLOv10-X / YOLOv11-X，分别提高了0.8%和0.6%的mAP，同时保持了相似的速度（划重点真的么？）、FLOPs和参数。YOLOv12-X再次在更快的速度、FLOPs减少（23.4%）和参数减少（22.2%）的情况下超越了RT-DETR-R101 / RT-DETRv2-R101。

特别地，如果使用FP32精度评估L尺度和X尺度模型（需要将模型单独以FP32格式保存），YOLOv12将提高约0.2%的mAP。这意味着YOLOv12-L / X的mAP分别为33.9% / 55.4%。

2.4.3 Ablation Studies/消融研究

原文翻译：

R-ELAN
表2评估了所提的残差高效层网络（R-ELAN）在YOLOv12-N/L/X模型中的效果。结果揭示了两个关键发现：(i) 对于小模型（如YOLOv12-N），残差连接不会影响收敛性，但会降低性能。相比之下，对于较大的模型（如YOLOv12-L/X），它们对于稳定训练至关重要。特别地，YOLOv12-X需要一个最小的缩放因子（0.01）以确保收敛性。(ii) 提出的特征集成方法有效地降低了模型的复杂性（包括FLOPs和参数），同时保持了相似的性能，只有轻微的下降。

Area Attention
我们进行了消融实验来验证区域注意力的有效性，结果如表3所示。评估在YOLOv12-N/S/X模型上进行，并测量了在GPU（CUDA）和CPU上的推理速度。CUDA结果是在RTX3080和A5000上获得的，而CPU性能在Intel Core i7-10700K @3.80GHz上测量。结果显示，使用区域注意力显著加快了推理速度。例如，在RTX3080上，YOLOv12-N在FP32下减少了0.7ms的推理时间。这一性能提升在不同模型和硬件配置中都得到了验证。我们在此实验中没有使用FlashAttention，因为它会显著减少速度差异。

2.4.4 SpeedComparison/速度比较

原文翻译：表4展示了不同GPU上的推理速度对比，评估了YOLOv9、YOLOv10、YOLOv11和我们的YOLOv12在RTX3080、RTX A5000和RTX A6000上的FP32和FP16精度下的表现。为了确保一致性，所有结果都在相同硬件上获得，YOLOv9和YOLOv10的评估使用了Ultralytics的集成代码库。结果表明，YOLOv12在推理速度上明显优于YOLOv9，并且与YOLOv10和YOLOv11保持一致。例如，在RTX3080上，YOLOv9的推理时间为2.4ms（FP32）和1.5ms（FP16），而YOLOv12-N分别为1.7ms（FP32）和1.1ms（FP16）。其他配置也呈现出类似趋势。

图4展示了额外的比较。左侧子图展示了与流行方法的准确度-参数权衡比较，其中YOLOv12在所有对手中占据主导地位，甚至超过了YOLOv10，这一版本在参数上显著更少，展现了YOLOv12的效能。右侧子图则展示了YOLOv12与之前版本在CPU上的推理延迟比较（所有结果均在Intel Core i7-10700K @3.80GHz上测量）。如图所示，YOLOv12超过了其他对手，展现了其在各种硬件平台上的高效性。

2.4.5 Diagnosis&Visualization/诊断与可视化

原文翻译：我们在表5a到5h中诊断了YOLOv12的设计。除非特别说明，否则我们对YOLOv12-N进行了这些诊断，使用600轮训练从头开始。

注意力实现：表5a
我们检查了两种注意力实现方法。基于卷积的方法比基于线性的方法更快，因为卷积的计算效率更高。此外，我们还探索了两种归一化方法（层归一化（LN）和批归一化（BN）），发现结果表明：尽管层归一化在注意力机制中常用，但当与卷积一起使用时，其表现不如批归一化。值得注意的是，这一发现与PSA模块中的设计一致。

层次设计：表5b
与Mask R-CNN等其他检测系统不同，YOLOv12展现了不同的行为。当使用纯视觉Transformer（N/A）时，检测器的性能显著下降，仅达38.3%的mAP。稍微调整，如省略第一阶段（S1）或第四阶段（S4），通过调整特征维度保持类似的FLOPs，会导致轻微的性能下降（分别下降0.5%和0.8% mAP）。与以往的YOLO模型一致，层次设计仍然是最有效的，提供了YOLOv12最好的性能。

训练轮数：表5c
我们检查了训练轮数变化对性能的影响（从头开始训练）。尽管一些现有的YOLO检测器在大约500轮训练后能够获得最佳结果，YOLOv12则需要更长的训练时间（大约600轮）才能达到最佳性能，并且使用了与YOLOv11相同的配置。

位置感知器：表5d
在注意力机制中，我们使用了可分离卷积和较大内核对注意力值v进行处理，并将其输出加到v@attn中。我们将这个组件称为位置感知器，因为卷积的平滑效果保留了图像像素的原始位置，帮助注意力机制感知位置信息。随着卷积核尺寸的增加，性能有所提升，但速度逐渐降低。当卷积核尺寸达到9×9时，减慢变得显著。因此，我们将7×7作为默认的卷积核尺寸。

位置嵌入：表5e
我们检查了在大多数基于注意力的模型中常用的位置嵌入（RPE：相对位置嵌入；APE：绝对位置编码）对性能的影响。结果表明，最佳的配置是没有任何位置嵌入，这带来了更简洁的架构和更快的推理延迟。

区域注意力：表5f
在此表中，我们默认使用了FlashAttention技术。虽然区域注意力机制增加了计算复杂性（从而带来性能提升），但所导致的减慢保持在最小范围内。为了进一步验证区域注意力的有效性，请参见表3。

MLP比率：表5g
在传统的视觉Transformer中，注意力模块中的MLP比率通常设置为4.0。然而，在YOLOv12中，我们观察到不同的行为。调整MLP比率会影响模型的大小，因此我们调整了特征维度以保持整体模型的一致性。特别地，YOLOv12在MLP比率为1.2时取得了更好的性能，偏离了传统做法。这一调整将计算负载更多地转移到注意力机制上，突显了区域注意力的重要性。

FlashAttention：表5h
此表验证了FlashAttention在YOLOv12中的作用。结果表明，FlashAttention使YOLOv12-N加速了约0.3ms，YOLOv12-S加速了约0.4ms，而没有其他开销。

热力图可视化：图5比较了YOLOv12与流行的YOLOv10和YOLOv11的热图。这些热图提取自X尺度模型的第三阶段骨干网络，突出显示了模型激活的区域，反映了其目标感知能力。如图所示，与YOLOv10和YOLOv11相比，YOLOv12生成了更清晰的目标轮廓和更精确的前景激活，表明其感知能力有所改善。我们解释认为，这一改进来自区域注意力机制，其感受野大于卷积网络，因此能够更好地捕捉整体上下文，进而提升前景激活的精度。我们相信，这一特性赋予了YOLOv12在性能上的优势。

2.5 Conclusion/结论

原文翻译：本研究介绍了YOLOv12，它成功地将传统上被认为对于实时需求效率较低的注意力机制引入YOLO框架，实现了最先进的延迟-准确度权衡。为了实现高效推理，我们提出了一种新颖的网络，利用区域注意力来降低计算复杂度，并通过残差高效层聚合网络（R-ELAN）增强特征聚合。此外，我们优化了基础注意力机制的关键组件，以更好地与YOLO的实时约束对齐，同时保持高速度性能。
因此，YOLOv12通过架构优化实现了最先进的性能，显著提高了准确度和效率。全面的消融研究进一步验证了这些创新的有效性。本研究挑战了基于CNN的YOLO系统设计的主导地位，并推动了注意力机制在实时目标检测中的应用，为更高效、更强大的YOLO系统铺平了道路。

2.6 Limitations/限制

原文翻译：YOLOv12 需要 FlashAttention [13, 14]，该技术目前支持 Turing、Ampere、Ada Lovelace 或 Hopper 架构的 GPU（例如 T4、Quadro RTX 系列、RTX20 系列、RTX30 系列、RTX40 系列、RTX A5000/6000、A30/40、A100、H100 等）。

2.7 More Details/更多细节

原文翻译：微调细节。默认情况下，所有 YOLOv12 模型使用 SGD 优化器训练 600 个 epoch。按照之前的工作 [24, 53, 57, 58]，SGD 的动量和权重衰减分别设置为 0.937 和 5 × 10⁻⁴。初始学习率设置为 1 × 10⁻²，并在线性衰减到 1 × 10⁻⁴ 的过程中调整。数据增强方法包括 Mosaic [3, 57]、Mixup [71] 和 copy-paste 增强 [65]，用于提升训练效果。按照 YOLOv11 [28]，我们采用了 Albumentations 库 [6]。详细的超参数设置见表 7。所有模型在 8 块 NVIDIA A6000 GPU 上进行训练。按照惯例 [24, 28, 53, 58]，我们报告了不同目标尺度和 IoU 阈值下的标准均值平均精度（mAP）。此外，我们还报告了所有图像的平均推理延迟。更多细节可以在官方代码中查看：https://github.com/sunsmarterjie/yolov12。

结果细节。我们在表 6 中报告了更多的结果细节，包括 APval 50:95、APval 50、APval 75、APval、小目标 APval、中等目标 APval 和大目标 APval。