最新资讯

  • YOLOv12论文模型解析 | 手把手带你零基础看懂yolov12的网络结构(附手绘超详细网络结构图)

YOLOv12论文模型解析 | 手把手带你零基础看懂yolov12的网络结构(附手绘超详细网络结构图)

2025-04-27 02:37:25 1 阅读

一、本文介绍

本文给大家带来的是YOLO系列家族的最新成员——YOLOv12的介绍,YOLOv12的论文题目是《YOLOv12: Attention-Centric Real-Time Object Detectors》其题目翻译过来就是YOLOv12:基于注意力机制的实时物体检测器,这是YOLO系列唯一一款以注意立机制为核心的检测器的检测器(YOLO系列第一次引入注意力机制是YOLOv10引入的PSA机制,YOLOv11在基础上进行了改进引入了C2PSA机制,在此之前没有引用过注意力机制),YOLOv12的核心注意力机制名字是A2,读者在实际使用中将其嵌入到了C2f中称之为A2C2f(后面会详细的分析这一结构,包括网络结构图),下面的图片为手绘的yolov12网络结构图。

专栏链接:YOLOv12有效涨点专栏 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 


目录

一、本文介绍

二、论文分析

2.1 Introduction/介绍

2.2 Related Work/相关工作

2.2.1 实时目标检测器/Real-time Object Detectors

2.2.2 高效视觉变换器/Efficient Vision Transformers.

2.3 Approach(重点介绍,重点看)

2.3.1 Efficiency Analysis/效率分析

2.3.2 Area Attention/区域注意力

2.3.3 ResidualEfficientLayerAggregationNetworks/残差高效层聚合网络(R-ELAN)

2.3.4 ArchitecturalImprovements/架构改进

2.4 Experiment/实验

2.4.1 Experimental Setup/实验设置

2.4.2 Comparison with State-of-the-arts/与最新方法的比较

 2.4.3 Ablation Studies/消融研究

2.4.4 SpeedComparison/速度比较

2.4.5 Diagnosis&Visualization/诊断与可视化

2.5 Conclusion/结论 

2.6 Limitations/限制 

2.7 More Details/更多细节 

三、全文总结


二、论文分析

官方论文地址: YOLOv12的论文链接点击此处即可跳转

官方代码地址: YOLOv12的代码链接点击此处即可跳转


2.1 Introduction/介绍

原文翻译:实时目标检测因其低延迟特性而一直备受关注,这为实际应用提供了巨大的便利。在这一领域,YOLO系列有效地平衡了延迟和准确性,成为了该领域的主导者。尽管YOLO的改进主要集中在损失函数、标签分配等方面,网络架构设计仍然是一个至关重要的研究方向。尽管以注意力为核心的视觉Transformer(ViT)架构已被证明在建模能力上具有更强的优势,甚至在小规模模型中也表现优异,但大多数架构设计仍然主要集中在CNN上。

        造成这种情况的主要原因是注意力机制的低效,主要来源于两个因素:计算复杂度的二次增长和注意力机制中的内存访问操作低效(后者是FlashAttention所要解决的主要问题)。因此,在相同的计算预算下,基于CNN的架构比基于注意力的架构快大约3倍,这显著限制了在YOLO系统中采用注意力机制的可能性,因为在YOLO中高效的推理速度至关重要。

本文旨在解决这些挑战,并进一步构建一个以注意力为核心的YOLO框架——YOLOv12。我们提出了三个关键的改进。首先,我们提出了一种简单而高效的区域注意力模块(A2),该模块通过非常简单的方式保持较大的感受野,同时降低了注意力计算的复杂度,从而提高了速度。其次,我们引入了残差高效层聚合网络(R-ELAN),以解决注意力引入的优化挑战(主要是大规模模型)。R-ELAN在原始ELAN的基础上引入了两个改进:(i)基于缩放技术的块级残差设计,和(ii)重新设计的特征聚合方法。第三,我们对传统的注意力架构进行了改进,以适应YOLO系统。我们对传统的注意力架构进行了升级,包括:引入FlashAttention来解决注意力的内存访问问题,去除如位置编码等设计,以使模型更快且简洁,调整MLP比率从4到1.2,以平衡注意力和前馈网络之间的计算,减少堆叠块的深度以促进优化,并尽可能多地使用卷积算子来发挥其计算效率。

        基于上述设计,我们开发了一个新的实时检测器家族,包括五种模型规模:YOLOv12-N、S、M、L和X。我们在标准目标检测基准上进行了大量实验,遵循YOLOv11的方案,没有使用额外的技巧,结果表明,YOLOv12在延迟-准确性和FLOPs-准确性权衡方面,相较于先前流行的模型,在这些尺度上提供了显著的改进。例如,YOLOv12-N在推理速度更快的同时,达到了40.6%的mAP,比YOLOv10-N高出2.1%的mAP,比YOLOv11-N高出1.2%的mAP,且速度相当。这个优势在其他规模的模型中也得到了保持。

        与RT-DETR-R18 / RT-DETRv2-R18相比,YOLOv12-S提高了1.5%/0.1%的mAP,并且在延迟速度上快了42%/42%,只需其计算量的36%/36%,参数量的45%/45%。

        总的来说,YOLOv12的贡献有两个方面:1)它建立了一个以注意力为核心、简单而高效的YOLO框架,通过方法上的创新和架构上的改进,打破了CNN模型在YOLO系列中的主导地位。2)YOLOv12在没有依赖如预训练等额外技术的情况下,达到了最先进的结果,且推理速度快、检测精度高,展示了其潜力。

个人总结: YOLOv12的主要创新在于成功地将注意力机制与YOLO架构结合(论文的创新点,其实这也是绝大多数改进的作者在做的事情,大家都可以这么写),克服了传统注意力机制在实时性和计算效率方面的不足(原文中写的是速度类似,实际测试要慢一些相对于之前的系列)。引入区域注意力模块(A2,后面我会详细分析)和残差高效层聚合网络(R-ELAN,我理解的就是yolov11的主干结构),其实YOLOv12引入注意力机制肯定会造成一定的不稳定性,可能会导致在某些数据据效果很好有些数据集效果很差,但这给改进的作者留下了很多的改进空间,其次YOLOv12去除了SPPF,因为其和注意力机制的作用有些类似起到加速训练的作用。


2.2 Related Work/相关工作

2.2.1 实时目标检测器/Real-time Object Detectors

原文翻译:实时目标检测器由于其显著的实际应用价值,一直受到研究界的关注。YOLO系列已成为实时目标检测的领先框架。早期的YOLO系统主要从模型设计角度为YOLO系列奠定了框架基础。YOLOv4和YOLOv5在此基础上加入了CSPNet、数据增强和多尺度特征。YOLOv6进一步通过在主干和颈部引入BiC和SimCSPSPPF模块,并辅以锚点辅助训练,进一步推动了框架的发展。YOLOv7引入了EELAN(高效层聚合网络)以改善梯度流,并增加了多种免费技术,同时YOLOv8集成了高效的C2f模块以增强特征提取。在最近的版本中,YOLOv9引入了GELAN进行架构优化,并采用PGI方法进行训练改进,而YOLOv10则应用了不依赖NMS的训练和双重分配以提高效率。YOLOv11进一步通过采用C3K2模块(GELAN的一个特定版本)和轻量级深度可分离卷积,在检测头部减少延迟并提高了精度。最近,RT-DETR提出了一种端到端的目标检测方法,通过设计高效的编码器和最小不确定性的查询选择机制,改进了传统的端到端检测器以满足实时要求。RT-DETRv2通过免费技术进一步提升了性能。与YOLO系列不同,本研究旨在构建一个以注意力机制为核心的YOLO框架,利用注意力机制的优势。

个人总结:主要介绍了YOLO系列的一些发展没有什么好说的. 


2.2.2 高效视觉变换器/Efficient Vision Transformers.

原文翻译:  

        降低全局自注意力的计算成本对于在下游任务中有效应用视觉变换器至关重要。PVT通过多分辨率阶段和下采样特征来解决这一问题。Swin Transformer将自注意力限制在局部窗口内,并调整窗口分区样式,以连接不重叠的窗口,平衡了通信需求与内存和计算的需求。其他方法如轴向自注意力和十字交叉注意力则在水平和垂直窗口内计算注意力。CSWin Transformer在此基础上引入了交叉形状窗口自注意力,在水平和垂直条带中并行计算注意力。此外,像局部-全局关系的工作进一步提高了效率,减少了对全局自注意力的依赖。Fast-iTPN通过令牌迁移和令牌聚合机制提升了下游任务的推理速度。一些方法使用线性注意力来减少注意力的复杂性。尽管基于Mamba的视觉模型旨在实现线性复杂度,但它们在实时速度方面仍然存在不足。FlashAttention识别出导致注意力计算低效的高带宽内存瓶颈,并通过I/O优化解决这些问题,减少内存访问,提高计算效率。在本研究中,我们摒弃了复杂设计,提出了一种简单的区域注意力机制来减少注意力的复杂性。此外,我们还采用了FlashAttention来克服注意力机制本身的内存访问问题。

个人总结:主要介绍了Transformer等模型的发展情况(类似有CSWin Transformer,RepViT)


2.3 Approach(重点介绍,重点看)

2.3.1 Efficiency Analysis/效率分析

原文翻译:注意力机制在捕捉全局依赖关系和促进自然语言处理以及计算机视觉任务方面具有很高的效能。然而,与卷积神经网络(CNN)相比,注意力机制固有的计算速度较慢,主要由以下两个因素导致:

  • 复杂度:自注意力操作的计算复杂度随着输入序列长度L的平方增长。具体来说,对于一个长度为L、特征维度为d的输入序列,计算注意力矩阵需要O(L²d)的操作,因为每个token都与其他token进行交互。相比之下,CNN中的卷积操作的复杂度是线性增长的,即O(kLd),其中k为卷积核的大小,通常远小于L。因此,自注意力机制在面对大尺寸输入(如高分辨率图像或长序列)时,计算开销变得不可接受。

  • 计算效率:第二个重要因素是,注意力计算过程中的内存访问模式较为低效。具体而言,在自注意力过程中,需要将中间计算结果(如注意力图QKT和softmax图,大小为L×L)从高速GPU内存(计算的实际位置)存储到高带宽GPU内存中,并在计算过程中读取这些数据。而前者的读写速度比后者快10倍以上,导致显著的内存访问开销,增加了总的计算时间。此外,注意力机制中的内存访问模式较为不规则,相比之下,CNN利用结构化且局部化的内存访问方式,可以有效地进行内存缓存,减少延迟。

这两个因素——二次计算复杂度和低效的内存访问模式,使得注意力机制在实时或资源受限的场景中比CNN慢。因此,解决这些问题已成为研究中的一个关键方向,许多方法(如稀疏注意力机制和内存高效近似方法)致力于缓解二次扩展的问题。

个人总结:文章中提出了注意力机制的计算复杂度和内存访问效率是在实时应用中的两大瓶颈。自注意力的计算复杂度随着输入序列长度的平方增长,而内存访问模式的不规则性使得其在处理大规模数据时效率低下。与卷积神经网络(CNN)相比,CNN的计算复杂度和内存访问效率更高,这使得其在资源有限和实时处理场景中更具优势。
这段话作者要表达的意思是:要提升注意力机制在实时检测中的应用,未来的研究可以重点优化计算复杂度,探索更加高效的局部注意力机制或稀疏注意力机制(全局注意力机制其实更适合时间序列领域,在图像这种高复杂度的部注意力机制或稀疏注意力机制才是未来研究方向),大家也知道作者接下来要分析什么了。


2.3.2 Area Attention/区域注意力

原文翻译:减少传统注意力计算成本的一个简单方法是采用线性注意力机制,这将传统注意力的复杂度从二次降至线性。对于一个特征图f,维度为(n, h, d),其中n为tokens的数量,h为头数,d为头的大小,线性注意力将复杂度从2n²hd减少到2nhd²,减少了计算成本,因为n > d。然而,线性注意力在减少全局依赖性、稳定性和分布敏感性方面存在问题。此外,由于低秩瓶颈,当输入分辨率为640×640时,线性注意力对YOLO的加速效果有限。

另一种有效减少复杂度的方法是局部注意力机制(如Shift Window、十字交叉注意力和轴向注意力),如图2所示,它将全局注意力转换为局部注意力,从而降低计算成本。然而,特征图的窗口划分可能引入额外开销或减少感受野,影响速度和精度。本研究提出了一种简单而高效的区域注意力模块。如图2所示,分辨率为(H, W)的特征图被划分为l个大小为(H/l, W)或(H, W/l)的片段。该方法消除了显式的窗口划分,仅需进行简单的重塑操作,从而提高了速度。我们将l的默认值设为4,尽管减少了感受野至原始的1/4,但仍然保持了较大的感受野。通过这种方法,注意力机制的计算成本从2n²hd降低至1/2n²hd。尽管复杂度依然是n²,但当n固定为640时,这种设计仍足够高效,满足YOLO系统的实时要求。

个人总结:这段其实大家前面仔细阅读有一定基础就能知道什么意思,它提出A2注意力机制是一种区域注意力机制,但是我们将上图中的图四和图三对比可以看出,所谓的Area attention就是将Axial attention注意的区域扩大了四倍,这样做的缺点就是速度会变慢这是肯定(我实测在我目前的显卡上yolov11达到了250帧,而yolov12仅有180帧,我测试的是pt权重的推理速度)


2.3.3 ResidualEfficientLayerAggregationNetworks/残差高效层聚合网络(R-ELAN)

原文翻译:高效层聚合网络(ELAN)旨在改善特征聚合。如图3(b)所示,ELAN将过渡层(1×1卷积)的输出拆分,经过多个模块处理后再拼接,最后应用另一个过渡层进行维度对齐。然而,如[57]所分析,这种架构可能引入不稳定性。我们认为,这种设计会导致梯度阻塞,且缺乏输入到输出的残差连接。此外,由于注意力机制引入的优化挑战,L型和X型模型在使用Adam或AdamW优化器时往往无法收敛或保持不稳定。

为了解决这个问题,我们提出了残差高效层聚合网络(R-ELAN)。与ELAN不同,我们在整个模块中引入了一个从输入到输出的残差快捷连接,并添加了一个缩放因子(默认为0.01)。该设计类似于层缩放,用于构建深度视觉变换器。然而,应用层缩放到每个区域注意力并不能解决优化问题,并且会导致延迟增加。这表明,注意力机制的引入并非收敛问题的唯一原因,实际上,正是ELAN架构本身导致了问题,验证了我们R-ELAN设计的合理性。

我们还设计了一种新的聚合方法,如图3(d)所示。原始ELAN层通过先将输入传递至过渡层,再拆分为两部分,进一步处理后拼接输出。相较之下,我们的设计使用过渡层调整通道维度,并生成一个单一的特征图,随后经过后续模块处理,再进行拼接,形成瓶颈结构。该方法不仅保留了原始的特征聚合能力,还降低了计算成本和参数/内存使用。

个人总结这一段主要介绍了YOLOv12的唯一改进组件A2C2f,也就是上图的(d),我们可以观察一下下面的YOLOv11和YOLOv12的yaml文件对比图,首先网络数据方面可以看到YOLOv12的网络层数相比于YOLOv11增加了150层,其余的算是基本保持不变,其余就是用A2C2f替换C3k2(后三个替换C3k2的A2C2f我根据代码发现运行的其实没有利用到A2注意力机制,不知道作者为何改名为A2C2f),总共有五个替换,前两个可以看到参数量第二个参数被设置为True(实际改进调用了A2的只有这两个起效果,而fps还要降低百分之三十左右在pt权重下.),后三个第二个参数被设置为False,如果第二个参数被设置为False,A2C2f的网络结构图中的A2应该被替换为C3k.

下面的图片为我手绘的A2C2f的网络结构图,绿色框部分表示为可选选项,仅在YOLOv12l和YOLOv12x版本进行,其余版本则忽略绿色部分.


2.3.4 ArchitecturalImprovements/架构改进

原文翻译:在这一部分,我们将介绍整体架构及一些相较于传统注意力机制的改进。许多以注意力为核心的视觉变换器采用的是平面风格架构,而我们保留了YOLO系统的层次设计,并证明这一设计的必要性。我们移除了最近版本(如YOLOv4、YOLOv5等)在骨干网最后阶段堆叠三个模块的设计(三个堆叠的模块应该指的是SPPF),而仅保留了一个R-ELAN块,从而减少了模块数量并有助于优化。我们继承了YOLOv11的前两阶段骨干网,并未使用我们提出的R-ELAN。

此外,我们还对传统注意力机制的多个默认配置进行了修改,以更好地适应YOLO系统。这些修改包括将MLP比率从4调整为1.2(对于N型/S型/M型模型为2)(这一段代码中确实体现了),以更好地分配计算资源,从而提高性能;使用nn.Conv2d+BN代替nn.Linear+LN,充分利用卷积算子的效率;去除位置编码;引入大规模可分离卷积(7×7),帮助区域注意力感知位置信息(这两个构建其实就是A2的全部内容了)。这些改进的有效性将在第4.5节中验证。

上图是YOLOv12的A2代码定义部分,最后一行就是提到的7x7可分离Conv.


2.4 Experiment/实验

本节分为四个部分:实验设置、与流行方法的系统比较、消融研究以验证我们的方法,以及通过可视化进一步探索YOLOv12。

2.4.1 Experimental Setup/实验设置

原文翻译:我们在MSCOCO 2017数据集上验证了所提方法。YOLOv12系列包括5个变体:YOLOv12-N、YOLOv12-S、YOLOv12-M、YOLOv12-L和YOLOv12-X。所有模型均使用SGD优化器进行600轮训练,初始学习率为0.01,与YOLOv11一致。我们采用线性学习率衰减策略,并对前3轮进行线性预热。按照中的方法,在T4 GPU上使用TensorRT FP16测试所有模型的延迟。

基线我们选择YOLOv11作为基线模型,模型缩放策略也与YOLOv11保持一致。我们使用了其中提出的C3K2模块(即GELAN的一个特殊案例)。我们没有在YOLOv11之外使用任何额外的技巧。

2.4.2 Comparison with State-of-the-arts/与最新方法的比较

原文翻译:我们在表1中展示了YOLOv12与其他流行实时检测器的性能比较。

对于N尺度模型,YOLOv12-N分别比YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N和YOLOv11提高了3.6%、3.3%、2.1%和1.2%的mAP,同时计算量和参数相似或更少,并实现了1.64 ms/图像的快速延迟。

对于S尺度模型,YOLOv12-S具有21.4G的FLOPs和9.3M的参数,达到了48.0的mAP,延迟为2.61 ms/图像。相比YOLOv8-S、YOLOv9-S、YOLOv10-S和YOLOv11-S,YOLOv12-S分别提高了3.0%、1.2%、1.7%和1.1%的mAP,同时保持了类似或更少的计算量。与端到端检测器RT-DETR-R18 / RT-DETRv2-R18相比,YOLOv12-S在推理速度上表现优异,计算成本和参数更少。

对于M尺度模型,YOLOv12-M具有67.5G的FLOPs和20.2M的参数,达到了52.5的mAP性能和4.86 ms/图像的速度。与Gold YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10、YOLOv11以及RT-DETR-R34 / RT-DETRv2-R34相比,YOLOv12-M表现优越。

对于L尺度模型,YOLOv12-L甚至超过了YOLOv10-L,FLOPs减少了31.4G。YOLOv12-L比YOLOv11提高了0.4%的mAP,FLOPs和参数相当。YOLOv12-L还在更快的速度下超越了RT-DETR-R50 / RT-DETRv2-R50,FLOPs减少了34.6%,参数减少了37.1%。

对于X尺度模型,YOLOv12-X显著超过了YOLOv10-X / YOLOv11-X,分别提高了0.8%和0.6%的mAP,同时保持了相似的速度(划重点真的么?)、FLOPs和参数。YOLOv12-X再次在更快的速度、FLOPs减少(23.4%)和参数减少(22.2%)的情况下超越了RT-DETR-R101 / RT-DETRv2-R101。

特别地,如果使用FP32精度评估L尺度和X尺度模型(需要将模型单独以FP32格式保存),YOLOv12将提高约0.2%的mAP。这意味着YOLOv12-L / X的mAP分别为33.9% / 55.4%。


 2.4.3 Ablation Studies/消融研究

原文翻译:

  • R-ELAN
    表2评估了所提的残差高效层网络(R-ELAN)在YOLOv12-N/L/X模型中的效果。结果揭示了两个关键发现:(i) 对于小模型(如YOLOv12-N),残差连接不会影响收敛性,但会降低性能。相比之下,对于较大的模型(如YOLOv12-L/X),它们对于稳定训练至关重要。特别地,YOLOv12-X需要一个最小的缩放因子(0.01)以确保收敛性。(ii) 提出的特征集成方法有效地降低了模型的复杂性(包括FLOPs和参数),同时保持了相似的性能,只有轻微的下降。

  • Area Attention
    我们进行了消融实验来验证区域注意力的有效性,结果如表3所示。评估在YOLOv12-N/S/X模型上进行,并测量了在GPU(CUDA)和CPU上的推理速度。CUDA结果是在RTX3080和A5000上获得的,而CPU性能在Intel Core i7-10700K @3.80GHz上测量。结果显示,使用区域注意力显著加快了推理速度。例如,在RTX3080上,YOLOv12-N在FP32下减少了0.7ms的推理时间。这一性能提升在不同模型和硬件配置中都得到了验证。我们在此实验中没有使用FlashAttention,因为它会显著减少速度差异。


2.4.4 SpeedComparison/速度比较

原文翻译:表4展示了不同GPU上的推理速度对比,评估了YOLOv9、YOLOv10、YOLOv11和我们的YOLOv12在RTX3080、RTX A5000和RTX A6000上的FP32和FP16精度下的表现。为了确保一致性,所有结果都在相同硬件上获得,YOLOv9和YOLOv10的评估使用了Ultralytics的集成代码库。结果表明,YOLOv12在推理速度上明显优于YOLOv9,并且与YOLOv10和YOLOv11保持一致。例如,在RTX3080上,YOLOv9的推理时间为2.4ms(FP32)和1.5ms(FP16),而YOLOv12-N分别为1.7ms(FP32)和1.1ms(FP16)。其他配置也呈现出类似趋势。

图4展示了额外的比较。左侧子图展示了与流行方法的准确度-参数权衡比较,其中YOLOv12在所有对手中占据主导地位,甚至超过了YOLOv10,这一版本在参数上显著更少,展现了YOLOv12的效能。右侧子图则展示了YOLOv12与之前版本在CPU上的推理延迟比较(所有结果均在Intel Core i7-10700K @3.80GHz上测量)。如图所示,YOLOv12超过了其他对手,展现了其在各种硬件平台上的高效性。


2.4.5 Diagnosis&Visualization/诊断与可视化

原文翻译:我们在表5a到5h中诊断了YOLOv12的设计。除非特别说明,否则我们对YOLOv12-N进行了这些诊断,使用600轮训练从头开始。

  • 注意力实现:表5a
    我们检查了两种注意力实现方法。基于卷积的方法比基于线性的方法更快,因为卷积的计算效率更高。此外,我们还探索了两种归一化方法(层归一化(LN)和批归一化(BN)),发现结果表明:尽管层归一化在注意力机制中常用,但当与卷积一起使用时,其表现不如批归一化。值得注意的是,这一发现与PSA模块中的设计一致。

  • 层次设计:表5b
    与Mask R-CNN等其他检测系统不同,YOLOv12展现了不同的行为。当使用纯视觉Transformer(N/A)时,检测器的性能显著下降,仅达38.3%的mAP。稍微调整,如省略第一阶段(S1)或第四阶段(S4),通过调整特征维度保持类似的FLOPs,会导致轻微的性能下降(分别下降0.5%和0.8% mAP)。与以往的YOLO模型一致,层次设计仍然是最有效的,提供了YOLOv12最好的性能。

  • 训练轮数:表5c
    我们检查了训练轮数变化对性能的影响(从头开始训练)。尽管一些现有的YOLO检测器在大约500轮训练后能够获得最佳结果,YOLOv12则需要更长的训练时间(大约600轮)才能达到最佳性能,并且使用了与YOLOv11相同的配置。

  • 位置感知器:表5d
    在注意力机制中,我们使用了可分离卷积和较大内核对注意力值v进行处理,并将其输出加到v@attn中。我们将这个组件称为位置感知器,因为卷积的平滑效果保留了图像像素的原始位置,帮助注意力机制感知位置信息。随着卷积核尺寸的增加,性能有所提升,但速度逐渐降低。当卷积核尺寸达到9×9时,减慢变得显著。因此,我们将7×7作为默认的卷积核尺寸。

  • 位置嵌入:表5e
    我们检查了在大多数基于注意力的模型中常用的位置嵌入(RPE:相对位置嵌入;APE:绝对位置编码)对性能的影响。结果表明,最佳的配置是没有任何位置嵌入,这带来了更简洁的架构和更快的推理延迟。

  • 区域注意力:表5f
    在此表中,我们默认使用了FlashAttention技术。虽然区域注意力机制增加了计算复杂性(从而带来性能提升),但所导致的减慢保持在最小范围内。为了进一步验证区域注意力的有效性,请参见表3。

  • MLP比率:表5g
    在传统的视觉Transformer中,注意力模块中的MLP比率通常设置为4.0。然而,在YOLOv12中,我们观察到不同的行为。调整MLP比率会影响模型的大小,因此我们调整了特征维度以保持整体模型的一致性。特别地,YOLOv12在MLP比率为1.2时取得了更好的性能,偏离了传统做法。这一调整将计算负载更多地转移到注意力机制上,突显了区域注意力的重要性。

  • FlashAttention:表5h
    此表验证了FlashAttention在YOLOv12中的作用。结果表明,FlashAttention使YOLOv12-N加速了约0.3ms,YOLOv12-S加速了约0.4ms,而没有其他开销。

热力图可视化:图5比较了YOLOv12与流行的YOLOv10和YOLOv11的热图。这些热图提取自X尺度模型的第三阶段骨干网络,突出显示了模型激活的区域,反映了其目标感知能力。如图所示,与YOLOv10和YOLOv11相比,YOLOv12生成了更清晰的目标轮廓和更精确的前景激活,表明其感知能力有所改善。我们解释认为,这一改进来自区域注意力机制,其感受野大于卷积网络,因此能够更好地捕捉整体上下文,进而提升前景激活的精度。我们相信,这一特性赋予了YOLOv12在性能上的优势。 


2.5 Conclusion/结论 

原文翻译:本研究介绍了YOLOv12,它成功地将传统上被认为对于实时需求效率较低的注意力机制引入YOLO框架,实现了最先进的延迟-准确度权衡。为了实现高效推理,我们提出了一种新颖的网络,利用区域注意力来降低计算复杂度,并通过残差高效层聚合网络(R-ELAN)增强特征聚合。此外,我们优化了基础注意力机制的关键组件,以更好地与YOLO的实时约束对齐,同时保持高速度性能。
因此,YOLOv12通过架构优化实现了最先进的性能,显著提高了准确度和效率。全面的消融研究进一步验证了这些创新的有效性。本研究挑战了基于CNN的YOLO系统设计的主导地位,并推动了注意力机制在实时目标检测中的应用,为更高效、更强大的YOLO系统铺平了道路。


2.6 Limitations/限制 

原文翻译:YOLOv12 需要 FlashAttention [13, 14],该技术目前支持 Turing、Ampere、Ada Lovelace 或 Hopper 架构的 GPU(例如 T4、Quadro RTX 系列、RTX20 系列、RTX30 系列、RTX40 系列、RTX A5000/6000、A30/40、A100、H100 等)。


2.7 More Details/更多细节 

原文翻译:微调细节。默认情况下,所有 YOLOv12 模型使用 SGD 优化器训练 600 个 epoch。按照之前的工作 [24, 53, 57, 58],SGD 的动量和权重衰减分别设置为 0.937 和 5 × 10⁻⁴。初始学习率设置为 1 × 10⁻²,并在线性衰减到 1 × 10⁻⁴ 的过程中调整。数据增强方法包括 Mosaic [3, 57]、Mixup [71] 和 copy-paste 增强 [65],用于提升训练效果。按照 YOLOv11 [28],我们采用了 Albumentations 库 [6]。详细的超参数设置见表 7。所有模型在 8 块 NVIDIA A6000 GPU 上进行训练。按照惯例 [24, 28, 53, 58],我们报告了不同目标尺度和 IoU 阈值下的标准均值平均精度(mAP)。此外,我们还报告了所有图像的平均推理延迟。更多细节可以在官方代码中查看:https://github.com/sunsmarterjie/yolov12。

结果细节。我们在表 6 中报告了更多的结果细节,包括 APval 50:95、APval 50、APval 75、APval、小目标 APval、中等目标 APval 和大目标 APval。


三、全文总结

        到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv12有效涨点专栏,本专栏目前为新开的平均质量分98分,后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~ 

专栏链接:YOLOv12有效涨点专栏 | 包含卷积、主干、检测头、注意力机制、Neck上百种创新机制 

本文地址:https://www.vps345.com/2687.html

搜索文章

Tags

PV计算 带宽计算 流量带宽 服务器带宽 上行带宽 上行速率 什么是上行带宽? CC攻击 攻击怎么办 流量攻击 DDOS攻击 服务器被攻击怎么办 源IP 服务器 linux 运维 游戏 云计算 javascript 前端 chrome edge python MCP 进程 操作系统 进程控制 Ubuntu RTSP xop RTP RTSPServer 推流 视频 数据库 centos oracle 关系型 安全 分布式 ssh 阿里云 网络 网络安全 网络协议 llama 算法 opencv 自然语言处理 神经网络 语言模型 ubuntu deepseek Ollama 模型联网 API CherryStudio flutter Dell R750XS android harmonyos typescript 鸿蒙 深度学习 YOLO 目标检测 计算机视觉 人工智能 fastapi mcp mcp-proxy mcp-inspector fastapi-mcp agent sse filezilla 无法连接服务器 连接被服务器拒绝 vsftpd 331/530 java 面试 性能优化 jdk intellij-idea 架构 numpy 华为 开发语言 计算机网络 macos adb YOLOv12 jenkins jmeter 软件测试 react.js 前端面试题 node.js 持续部署 pytorch transformer docker 容器 sqlserver c语言 qt stm32项目 单片机 stm32 科技 ai 个人开发 物联网 iot udp unity 机器学习 asm ssl 笔记 C 环境变量 进程地址空间 chatgpt 大模型 llama3 Chatglm 开源大模型 Windsurf php ping++ 运维开发 conda c++ 深度优先 图论 并集查找 换根法 树上倍增 ollama llm 宝塔面板访问不了 宝塔面板网站访问不了 宝塔面板怎么配置网站能访问 宝塔面板配置ip访问 宝塔面板配置域名访问教程 宝塔面板配置教程 vscode pycharm ide vue.js audio vue音乐播放器 vue播放音频文件 Audio音频播放器自定义样式 播放暂停进度条音量调节快进快退 自定义audio覆盖默认样式 Qwen2.5-coder 离线部署 websocket .net 负载均衡 pip uni-app spring boot 后端 tomcat LDAP HCIE 数通 maven intellij idea nginx 监控 自动化运维 智能路由器 外网访问 内网穿透 端口映射 github AI Agent json html5 firefox windows ffmpeg 音视频 WSL win11 无法解析服务器的名称或地址 django flask web3.py gitee golang rust http GaN HEMT 氮化镓 单粒子烧毁 辐射损伤 辐照效应 DeepSeek-R1 API接口 live555 rtsp rtp Hyper-V WinRM TrustedHosts tcp/ip apache cuda cudnn anaconda 微服务 springcloud web安全 Kali Linux 黑客 渗透测试 信息收集 .netcore 计算机外设 电脑 mac 软件需求 vue3 HTML audio 控件组件 vue3 audio音乐播放器 Audio标签自定义样式默认 vue3播放音频文件音效音乐 自定义audio播放器样式 播放暂停调整声音大小下载文件 vim c# 创意 社区 cpu 内存 实时 使用 产品经理 agi microsoft 前端框架 Flask FastAPI Waitress Gunicorn uWSGI Uvicorn 低代码 mysql svn 经验分享 嵌入式硬件 状态管理的 UDP 服务器 Arduino RTOS 华为od OD机试真题 华为OD机试真题 服务器能耗统计 驱动开发 mcu kvm 无桌面 命令行 自动化 git gitea 媒体 微信公众平台 C语言 YOLOv8 NPU Atlas800 A300I pro asi_bench gitlab ci/cd redis 计算机 minicom 串口调试工具 测试工具 jupyter excel html css 服务器数据恢复 数据恢复 存储数据恢复 北亚数据恢复 oracle数据恢复 matlab bootstrap web Socket 压力测试 XCC Lenovo tcpdump ecm bpm virtualenv dba 宕机切换 服务器宕机 统信UOS 麒麟 bonding 链路聚合 list 数据结构 远程工作 课程设计 大数据 VR手套 数据手套 动捕手套 动捕数据手套 游戏服务器 Minecraft ddos docker命令大全 HarmonyOS Next mongodb av1 电视盒子 机顶盒ROM 魔百盒刷机 iDRAC R720xd bash freebsd 3d 数学建模 debian PVE zotero WebDAV 同步失败 代理模式 AIGC 远程桌面 命名管道 客户端与服务端通信 ansible playbook express prometheus shell 磁盘监控 AI编程 Ubuntu 24 常用命令 Ubuntu 24 Ubuntu vi 异常处理 部署 服务器配置 华为云 Redis Desktop dell服务器 go 硬件架构 系统架构 IIS .net core Hosting Bundle .NET Framework vs2022 XFS xfs文件系统损坏 I_O error es jvm 测试用例 功能测试 WebUI DeepSeek V3 DeepSeek AI大模型 向日葵 ArcTS 登录 ArcUI GridItem zabbix 鸿蒙系统 arkUI X11 Xming 集成学习 集成测试 生物信息学 openEuler 信息与通信 Google pay Apple pay LLM 大模型面经 职场和发展 Deepseek 大模型学习 服务器主板 AI芯片 android studio 交互 kubernetes k8s minio 学习 devops 1024程序员节 sql KingBase 代码调试 ipdb 腾讯云 开源 Cursor ollama下载加速 jetty undertow UOS 统信操作系统 yum oceanbase rc.local 开机自启 systemd 跨域 spring 学习方法 safari Mac 系统 MQTT协议 消息服务器 代码 pygame 小游戏 五子棋 音乐服务器 Navidrome 音流 WSL2 kylin 智能手机 NAS Termux Samba Linux SSH 远程连接 VMware安装Ubuntu Ubuntu安装k8s Erlang OTP gen_server 热代码交换 事务语义 word图片自动上传 word一键转存 复制word图片 复制word图文 复制word公式 粘贴word图文 粘贴word公式 postman mock mock server 模拟服务器 mock服务器 Postman内置变量 Postman随机数据 ESP32 云原生 k8s集群资源管理 云原生开发 软件工程 ruoyi ESXi DeepSeek行业应用 Heroku 网站部署 串口服务器 SSH 服务 SSH Server OpenSSH Server ros2 moveit 机器人运动 mysql离线安装 ubuntu22.04 mysql8.0 蓝耘科技 元生代平台工作流 ComfyUI DevEco Studio java-ee AI写作 AI作画 IIS服务器 IIS性能 日志监控 react next.js 部署next.js QQ 聊天室 spring cloud eureka 混合开发 环境安装 JDK 僵尸进程 selete 高级IO 编辑器 nuxt3 threejs 3D centos-root /dev/mapper yum clean all df -h / du -sh 银河麒麟服务器操作系统 系统激活 r语言 数据挖掘 数据可视化 数据分析 okhttp wireshark 显示过滤器 安装 ICMP Wireshark安装 基础入门 编程 缓存 安装教程 GPU环境配置 Ubuntu22 CUDA PyTorch Anaconda安装 idm Dify 安全威胁分析 vscode 1.86 IPMI unix visual studio code chfs ubuntu 16.04 漏洞 unity3d rabbitmq 银河麒麟 kylin v10 麒麟 v10 网络穿透 云服务器 飞牛NAS 飞牛OS MacBook Pro Nuxt.js Xterminal elasticsearch 豆瓣 追剧助手 迅雷 nas 微信 Ubuntu Server Ubuntu 22.04.5 弹性计算 裸金属服务器 弹性裸金属服务器 虚拟化 企业微信 Linux24.04 deepin Reactor 设计模式 C++ 爬虫 数据集 RAID RAID技术 磁盘 存储 CORS 雨云 NPS https dify 政务 分布式系统 监控运维 Prometheus Grafana 能力提升 面试宝典 技术 IT信息化 大模型微调 实时音视频 程序员 postgresql NFS iftop 网络流量监控 sqlite dubbo MS Materials gateway Clion Nova ResharperC++引擎 Centos7 远程开发 模拟退火算法 code-server MQTT mosquitto 消息队列 mybatis 数据库系统 pillow kamailio sip VoIP Linux awk awk函数 awk结构 awk内置变量 awk参数 awk脚本 awk详解 大数据平台 echarts 信息可视化 网页设计 jar Dell HPE 联想 浪潮 remote-ssh Java 文件系统 路径解析 rust腐蚀 统信 国产操作系统 虚拟机安装 框架搭建 asp.net大文件上传 asp.net大文件上传源码 ASP.NET断点续传 asp.net上传文件夹 asp.net上传大文件 .net core断点续传 .net mvc断点续传 技能大赛 pyqt 温湿度数据上传到服务器 Arduino HTTP springboot远程调试 java项目远程debug docker远程debug java项目远程调试 springboot远程 程序人生 vSphere vCenter 软件定义数据中心 sddc RTMP 应用层 gpu算力 opensearch helm 剧本 eNSP 网络规划 VLAN 企业网络 WebRTC gpt 恒源云 linux环境变量 k8s资源监控 annotations自动化 自动化监控 监控service 监控jvm webrtc opcua opcda KEPServer安装 oneapi 医疗APP开发 app开发 多进程 远程 命令 执行 sshpass 操作 博客 adobe 传统数据库升级 银行 大语言模型 LLMs pdf VSCode 多线程服务器 Linux网络编程 ecmascript KVM springsecurity6 oauth2 授权服务器 token sas FTP 服务器 firewalld 微信开放平台 微信公众号配置 Docker Compose docker compose docker-compose protobuf 序列化和反序列化 虚拟机 VMware raid5数据恢复 磁盘阵列数据恢复 微信小程序 小程序 visualstudio TRAE 服务器部署ai模型 ue4 着色器 ue5 虚幻 强制清理 强制删除 mac废纸篓 开机自启动 Trae IDE AI 原生集成开发环境 Trae AI 硬件工程 嵌入式实习 CPU 主板 电源 网卡 nextjs reactjs fpga开发 流式接口 AI代码编辑器 半虚拟化 硬件虚拟化 Hypervisor DigitalOcean GPU服务器购买 GPU服务器哪里有 GPU服务器 微信小程序域名配置 微信小程序服务器域名 微信小程序合法域名 小程序配置业务域名 微信小程序需要域名吗 微信小程序添加域名 Ark-TS语言 Kylin-Server 服务器安装 机器人 bot Docker EasyConnect micropython esp32 mqtt Cline hadoop mount挂载磁盘 wrong fs type LVM挂载磁盘 Centos7.9 嵌入式 linux驱动开发 arm开发 网工 搜索引擎 ssrf 失效的访问控制 rocketmq openwrt ux 多线程 open Euler dde 指令 GCC crosstool-ng 进程信号 xrdp CLion string模拟实现 深拷贝 浅拷贝 经典的string类问题 三个swap TrinityCore 魔兽世界 腾讯云大模型知识引擎 wsl2 wsl VMware安装mocOS macOS系统安装 W5500 OLED u8g2 TCP服务器 雨云服务器 curl wget gcc 服务器繁忙 环境迁移 崖山数据库 YashanDB 源码剖析 rtsp实现步骤 流媒体开发 Ubuntu 24.04.1 轻量级服务器 redhat 系统开发 binder 车载系统 framework 源码环境 JAVA linux 命令 sed 命令 分析解读 RoboVLM 通用机器人策略 VLA设计哲学 vlm fot robot 视觉语言动作模型 具身智能 相差8小时 UTC 时间 netty 微信分享 Image wxopensdk springboot rpc 远程过程调用 Windows环境 设置代理 实用教程 直播推流 佛山戴尔服务器维修 佛山三水服务器维修 ipython Linux PID 鲲鹏 昇腾 npu 互信 系统安全 ragflow swoole 三级等保 服务器审计日志备份 LInux 权限 FTP服务器 npm 自动化任务管理 risc-v prompt easyui langchain aws 中间件 宠物 毕业设计 免费学习 宠物领养 宠物平台 IO模型 软考 小艺 Pura X 飞牛nas fnos 联想开天P90Z装win10 Invalid Host allowedHosts vue yum源切换 更换国内yum源 干货分享 黑客工具 密码爆破 MacMini 迷你主机 mini Apple 执法记录仪 智能安全帽 smarteye tailscale derp derper 中转 n8n 工作流 workflow triton 模型分析 矩阵 线性代数 电商平台 匿名管道 繁忙 解决办法 替代网站 汇总推荐 AI推理 C++软件实战问题排查经验分享 0xfeeefeee 0xcdcdcdcd 动态库加载失败 程序启动失败 程序运行权限 标准用户权限与管理员权限 CDN 安防软件 5G 3GPP 卫星通信 蓝桥杯 DocFlow 图像处理 skynet mq kafka cursor MCP server C/S windows日志 ip命令 新增网卡 新增IP 启动网卡 安全架构 embedding DOIT 四博智联 边缘计算 H3C Linux的权限 怎么卸载MySQL MySQL怎么卸载干净 MySQL卸载重新安装教程 MySQL5.7卸载 Linux卸载MySQL8.0 如何卸载MySQL教程 MySQL卸载与安装 网络结构图 阿里云ECS LORA NLP thingsboard 7z 宝塔面板 输入法 Docker Hub docker pull 镜像源 daemon.json kind keepalived 前后端分离 xshell termius iterm2 客户端 监控k8s 监控kubernetes 华为认证 网络工程师 线程 服务器无法访问 ip地址无法访问 无法访问宝塔面板 宝塔面板打不开 云服务 xcode less file server http server web server 服务网格 istio 链表 Claude uni-file-picker 拍摄从相册选择 uni.uploadFile H5上传图片 微信小程序上传图片 AnythingLLM AnythingLLM安装 chrome devtools selenium chromedriver arm FunASR ASR 策略模式 单例模式 DNS efficientVIT YOLOv8替换主干网络 TOLOv8 Spring Security 反向代理 cnn DenseNet matplotlib CrewAI Linux的基础指令 rdp 实验 我的世界服务器搭建 qemu libvirt 游戏程序 其他 王者荣耀 bug Wi-Fi WebVM 交换机 硬件 设备 GPU PCI-Express tidb GLIBC 阻塞队列 生产者消费者模型 服务器崩坏原因 can 线程池 Linux无人智慧超市 LInux多线程服务器 QT项目 LInux项目 单片机项目 ISO镜像作为本地源 视觉检测 云电竞 云电脑 todesk 历史版本 下载 语法 VMware创建虚拟机 etl 并查集 leetcode 无人机 MNN Qwen ip ui sqlite3 备份SQL Server数据库 数据库备份 傲梅企业备份网络版 黑苹果 linux上传下载 sdkman saltstack USB网络共享 Ubuntu DeepSeek DeepSeek Ubuntu DeepSeek 本地部署 DeepSeek 知识库 DeepSeek 私有化知识库 本地部署 DeepSeek DeepSeek 私有化部署 监控k8s集群 集群内prometheus nvidia ArkTs ArkUI 自动化编程 游戏机 pppoe radius hugo c/c++ 串口 ssh漏洞 ssh9.9p2 CVE-2025-23419 Netty 即时通信 NIO wordpress 无法访问wordpess后台 打开网站页面错乱 linux宝塔面板 wordpress更换服务器 SWAT 配置文件 服务管理 网络共享 gaussdb RAGFLOW 银河麒麟桌面操作系统 Kylin OS 国产化 xss vmware 卡死 在线预览 xlsx xls文件 在浏览器直接打开解析xls表格 前端实现vue3打开excel 文件地址url或接口文档流二进 alias unalias 别名 源码 regedit 开机启动 ocr ai小智 语音助手 ai小智配网 ai小智教程 智能硬件 esp32语音助手 diy语音助手 gradle AI agent lsb_release /etc/issue /proc/version uname -r 查看ubuntu版本 思科模拟器 思科 Cisco 模拟实现 C# MQTTS 双向认证 emqx 支付 微信支付 开放平台 fd 文件描述符 googlecloud hive Hive环境搭建 hive3环境 Hive远程模式 IDEA qt项目 qt项目实战 qt教程 muduo telnet 远程登录 SenseVoice 国标28181 视频监控 监控接入 语音广播 流程 SIP SDP 小番茄C盘清理 便捷易用C盘清理工具 小番茄C盘清理的优势尽显何处? 教你深度体验小番茄C盘清理 C盘变红?!不知所措? C盘瘦身后电脑会发生什么变化? 京东云 算力 camera Arduino 电子信息 Radius 社交电子 网络用户购物行为分析可视化平台 大数据毕业设计 高效远程协作 TrustViewer体验 跨设备操作便利 智能远程控制 数据库架构 数据管理 数据治理 数据编织 数据虚拟化 EMQX 通信协议 hibernate 版本 计算虚拟化 弹性裸金属 lua perf windwos防火墙 defender防火墙 win防火墙白名单 防火墙白名单效果 防火墙只允许指定应用上网 防火墙允许指定上网其它禁止 根服务器 clickhouse flash-attention 报错 Kali 渗透 DBeaver 数据仓库 kerberos 同步 备份 建站 laravel grafana 直流充电桩 充电桩 音乐库 群晖 飞牛 epoll junit openstack Xen 显示管理器 lightdm gdm 移动魔百盒 P2P HDLC USB转串口 CH340 Ubuntu22.04 开发人员主页 火绒安全 需求分析 规格说明书 elk Logstash 日志采集 p2p 影刀 #影刀RPA# 致远OA OA服务器 服务器磁盘扩容 实习 c dns 大模型入门 HTTP 服务器控制 ESP32 DeepSeek ROS 自动驾驶 备选 网站 api 调用 示例 AD域 mariadb 查询数据库服务IP地址 SQL Server AutoDL 实时互动 技术共享 键盘 vasp安装 大模型应用 eclipse GoogLeNet openssl 密码学 业界资讯 make命令 makefile文件 交叉编译 gpt-3 文心一言 SysBench 基准测试 tcp ios iphone 可信计算技术 网络攻击模型 seatunnel AISphereButler 安卓 自定义客户端 SAS 序列化反序列化 IPv4 子网掩码 公网IP 私有IP 主从复制 银河麒麟高级服务器 外接硬盘 Kylin etcd 数据安全 RBAC flink 金融 华为机试 Python 回显服务器 UDP的API使用 做raid 装系统 BMC Java Applet URL操作 服务器建立 Socket编程 网络文件读取 armbian u-boot 大模型教程 docker run 数据卷挂载 交互模式 ukui 麒麟kylinos openeuler Ubuntu共享文件夹 共享目录 Linux共享文件夹 mamba Vmamba RustDesk自建服务器 rustdesk服务器 docker rustdesk 毕设 ftp VPS VM搭建win2012 win2012应急响应靶机搭建 攻击者获取服务器权限 上传wakaung病毒 应急响应并溯源 挖矿病毒处置 应急响应综合性靶场 双系统 GRUB引导 Linux技巧 MacOS录屏软件 Typore RAG 检索增强生成 文档解析 大模型垂直应用 服务器管理 配置教程 网站管理 big data 飞书 glibc 孤岛惊魂4 uniapp 串口驱动 CH341 uart 485 vscode1.86 1.86版本 ssh远程连接 VS Code 单一职责原则 网络编程 聊天服务器 套接字 TCP 自学笔记 小米 澎湃OS Android 工业4.0 IPMITOOL 硬件管理 软负载 open webui 模拟器 教程 sysctl.conf vm.nr_hugepages asp.net大文件上传下载 iis 移动云 小智AI服务端 xiaozhi TTS Linux环境 AD 域管理 网站搭建 serv00 spark HistoryServer Spark YARN jobhistory Headless Linux rnn Anolis nginx安装 linux插件下载 EMUI 回退 降级 升级 g++ g++13 nac 802.1 portal Cookie ruby linux安装配置 僵尸世界大战 游戏服务器搭建 kali 共享文件夹 银河麒麟操作系统 嵌入式Linux IPC zookeeper Playwright 自动化测试 nfs SSL 域名 rsyslog Portainer搭建 Portainer使用 Portainer使用详解 Portainer详解 Portainer portainer apt 毕昇JDK 目标跟踪 OpenVINO 推理应用 v10 软件 ldap 上传视频至服务器代码 vue3批量上传多个视频并预览 如何实现将本地视频上传到网页 element plu视频上传 ant design vue vue3本地上传视频及预览移除 minecraft 软件构建 单元测试 ceph 黑客技术 代理 xml URL 本地部署 架构与原理 灵办AI 多个客户端访问 IO多路复用 TCP相关API yaml Ultralytics 可视化 虚拟显示器 远程控制 宝塔 深度求索 私域 知识库 LLM Web APP Streamlit cmos 大文件分片上传断点续传及进度条 如何批量上传超大文件并显示进度 axios大文件切片上传详细教 node服务器合并切片 vue3大文件上传报错提示错误 大文件秒传跨域报错cors 压测 ECS DeepSeek r1 Open WebUI pgpool cd 目录切换 MI300x 端口测试 图形化界面 田俊楠 SSE tensorflow trae 游戏引擎 代码托管服务 outlook vue-i18n 国际化多语言 vue2中英文切换详细教程 如何动态加载i18n语言包 把语言json放到服务器调用 前端调用api获取语言配置文件 frp 重启 排查 系统重启 日志 原因 Unity Dedicated Server Host Client 无头主机 开发环境 SSL证书 文件分享 性能测试 odoo 服务器动作 Server action 多层架构 解耦 常用命令 文本命令 目录命令 python3.11 Jellyfin 视频编解码 高效日志打印 串口通信日志 服务器日志 系统状态监控日志 异常记录日志 midjourney 远程看看 远程协助 超融合 nlp 本地部署AI大模型 相机 信号 智能音箱 智能家居 react native log4j 加解密 Yakit yaklang 基础环境 ubuntu24.04.1 fast webdav Xinference RAGFlow vr 服务器时间 流量运营 rustdesk 金仓数据库 2025 征文 数据库平替用金仓 wsgiref Web 服务器网关接口 程序员创富 IM即时通讯 剪切板对通 HTML FORMAT ubuntu24 vivado24 免费域名 域名解析 防火墙 NAT转发 NAT Server IMX317 MIPI H265 VCU ShenTong perl 李心怡 ardunio BLE HarmonyOS 云桌面 微软 AD域控 证书服务器 sonoma 自动更新 Unity插件 neo4j 数据库开发 database iventoy VmWare OpenEuler Python基础 Python教程 Python技巧 WLAN 个人博客 idea rclone AList fnOS 软链接 硬链接 流水线 脚本式流水线 我的世界 我的世界联机 数码 UDP rtsp服务器 rtsp server android rtsp服务 安卓rtsp服务器 移动端rtsp服务 大牛直播SDK 合成模型 扩散模型 图像生成 软件卸载 系统清理 OpenHarmony 真机调试 vpn grub 版本升级 扩容 鸿蒙开发 移动开发 游戏开发 db 带外管理 图形渲染 Windows virtualbox MacOS 大模型推理 信号处理 问题解决 网络药理学 生信 gromacs 分子动力学模拟 MD 动力学模拟 sequoiaDB 捆绑 链接 谷歌浏览器 youtube google gmail 信创 信创终端 中科方德 磁盘镜像 服务器镜像 服务器实时复制 实时文件备份 kotlin ssh远程登录 企业网络规划 华为eNSP prometheus数据采集 prometheus数据模型 prometheus特点 浏览器开发 AI浏览器 Mac内存不够用怎么办 dns是什么 如何设置电脑dns dns应该如何设置 PX4 分布式训练 烟花代码 烟花 元旦 性能调优 安全代理 嵌入式系统开发 用户缓冲区 webgl 磁盘清理 KylinV10 麒麟操作系统 Vmware 考研 powerpoint onlyoffice 在线office dity make cocoapods aarch64 编译安装 HPC chrome 浏览器下载 chrome 下载安装 谷歌浏览器下载 私有化 EtherCAT转Modbus ECT转Modbus协议 EtherCAT转485网关 ECT转Modbus串口网关 EtherCAT转485协议 ECT转Modbus网关 HAProxy 实战案例 searxng PPI String Cytoscape CytoHubba iBMC UltraISO edge浏览器 Docker引擎已经停止 Docker无法使用 WSL进度一直是0 镜像加速地址 玩机技巧 软件分享 软件图标 yolov8 物联网开发 rime 镜像 su sudo MySql cfssl TCP协议 抗锯齿 拓扑图 域名服务 DHCP 符号链接 配置 产测工具框架 IMX6ULL 管理框架 知识图谱 SEO firewall 树莓派 VNC milvus harmonyOS面试题 trea 内网服务器 内网代理 内网通信 QT 5.12.12 QT开发环境 Ubuntu18.04 邮件APP 免费软件 程序 性能分析 wps MVS 海康威视相机 推荐算法 聚类 语音识别 proxy模式 figma 虚拟局域网 AP配网 AK配网 小程序AP配网和AK配网教程 WIFI设备配网小程序UDP开 极限编程 deepseek r1 强化学习 wpf OpenSSH 粘包问题 EtherNet/IP串口网关 EIP转RS485 EIP转Modbus EtherNet/IP网关协议 EIP转RS485网关 EIP串口服务器 代理服务器 SVN Server tortoise svn 显卡驱动 uv 容器技术 SSH 密钥生成 SSH 公钥 私钥 生成 人工智能生成内容 llama.cpp seleium 远程服务 win服务器架设 windows server navicat webstorm docker搭建pg docker搭建pgsql pg授权 postgresql使用 postgresql搭建 迁移指南 iperf3 带宽测试 本地知识库部署 DeepSeek R1 模型 nvm whistle 对比 工具 meld Beyond Compare DiffMerge 项目部署到linux服务器 项目部署过程 CVE-2024-7347 Attention docker搭建nacos详解 docker部署nacos docker安装nacos 腾讯云搭建nacos centos7搭建nacos x64 SIGSEGV xmm0 状态模式 环境配置 lio-sam SLAM 查看显卡进程 fuser ArtTS web3 autodl AI-native Docker Desktop HiCar CarLife+ CarPlay QT RK3588 IMM Node-Red 编程工具 流编程 bcompare Qwen2.5-VL vllm hexo 端口 查看 ss deployment daemonset statefulset cronjob CentOS 读写锁 AI Agent 字节智能运维 办公自动化 自动化生成 pdf教程 gnu banner 健康医疗 互联网医院 visual studio arcgis 大大通 第三代半导体 碳化硅 word 中兴光猫 换光猫 网络桥接 自己换光猫 ai工具 pyautogui java-rocketmq 多端开发 智慧分发 应用生态 鸿蒙OS rag ragflow 源码启动 GIS 遥感 WebGIS 运维监控 内网环境 h.264 Linux find grep 钉钉 网卡的名称修改 eth0 ens33 cpp-httplib 元服务 应用上架 换源 国内源 Debian OpenManus 抓包工具 System V共享内存 进程通信 网络建设与运维 NLP模型 jina ros miniapp 调试 debug 断点 网络API请求调试方法 SRS 流媒体 直播 docker desktop image ABAP Deepseek-R1 私有化部署 推理模型 UOS1070e ubuntu20.04 ros1 Noetic 20.04 apt 安装 xpath定位元素 composer bat top Linux top top命令详解 top命令重点 top常用参数 存储维护 NetApp存储 EMC存储 HarmonyOS NEXT 原生鸿蒙 deekseek TrueLicense dash 正则表达式 开发 css3 sentinel fstab deep learning docker部署翻译组件 docker部署deepl docker搭建deepl java对接deepl 翻译组件使用 ranger MySQL8.0 风扇控制软件 DIFY 西门子PLC 通讯 解决方案 CentOS Stream yolov5 浏览器自动化 热榜 docker部署Python js yum换源 网络爬虫 开机黑屏 vu大文件秒传跨域报错cors 增强现实 沉浸式体验 应用场景 技术实现 案例分析 AR 沙盒 虚幻引擎 搭建个人相关服务器 MDK 嵌入式开发工具 论文笔记 sublime text 离线部署dify Sealos 论文阅读 云耀服务器 本地化部署 网络搭建 神州数码 神州数码云平台 云平台 欧标 OCPP kernel 数字证书 签署证书 智能电视 dock 加速 conda配置 conda镜像源 服务器正确解析请求体 AI员工 大模型部署 IO 稳定性 看门狗 项目部署 macOS 多路转接 nosql MobaXterm mm-wiki搭建 linux搭建mm-wiki mm-wiki搭建与使用 mm-wiki使用 mm-wiki详解 rpa 端口聚合 windows11 达梦 DM8 hosts 接口优化 k8s二次开发 搜狗输入法 中文输入法