U-KAN:医学图像分割与生成的骨干网络
文章简介
今天介绍的这篇文章是来着港中文大学和CAIR, HKISI-CAS等人发表的题为 "U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation",中文名可以翻译为“U-KAN:医学图像分割与生成的强大骨干网络”。
该文章提出了一种新的网络架构U-KAN,它将Kolmogorov-Arnold Networks (KANs)集成到U-Net中,用于提高医学图像分割和生成的性能。U-KAN通过在编码器-解码器架构中引入KAN层,增强了模型的非线性建模能力和可解释性。
论文:https://arxiv.org/abs/2406.02918
代码:GitHub - CUHK-AIM-Group/U-KAN: [ArXiv' 24] U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation
拟解决的问题是:现有医学图像分割模型在处理复杂非线性模式时受限,且存在可解释性不足的问题。
以下是文章中涉及的一些关键领域和专业术语:
-
U-Net一种常用于医学图像分割的卷积神经网络架构。
-
Kolmogorov-Arnold Networks (KANs)基于Kolmogorov-Arnold表示定理的神经网络,一种新型的神经网络结构,使用非线性可学习的激活函数,具有较高的准确性和可解释性。
-
Image Segmentation图像分割。
-
Diffusion Models扩散模型,通过逐步添加高斯噪声并在逆过程中去除噪声来生成数据。
-
Transformers变换器,一种注意力机制的网络结构。一种基于自注意力机制的模型,能够处理序列数据,广泛应用于自然语言处理和计算机视觉。
-
MLP (Multi-Layer Perceptron)多层感知机,一种基础的前馈神经网络,由多个线性层和非线性激活函数组成。
-
Encoder-Decoder Architecture编码器-解码器架构,一种网络结构,包含编码器用于提取特征和解码器用于重建或生成输出。
-
Skip Connections跳跃连接,网络中连接不同层的直接路径,有助于梯度流动并减少梯度消失问题。
-
Tokenization标记化,将输入序列分解为一系列离散的标记或符号的过程。
-
Fréchet Inception Distance (FID)弗雷谢特 inception 距离,一种衡量生成模型性能的指标,通过比较生成图像和真实图像分布之间的距离。
摘要
U-Net已成为各种视觉应用的基石,例如图像分割和扩散概率模型。尽管通过整合变换器或MLP引入了许多创新设计和改进,但这些网络仍然限于线性建模模式以及缺乏可解释性。为了解决这些挑战,我们受到Kolmogorov-Arnold Networks (KANs)在准确性和可解释性方面取得的印象深刻的结果的启发,这些结果通过Kolmogorov-Anold表示定理派生的非线性可学习激活函数堆叠来重塑神经网络学习。具体来说,在本文中,我们探索了KANs在改善视觉任务骨干方面的未开发潜力。我们通过整合专用的KAN层对既定的U-Net管道进行了调查、修改和重新设计,称为U-KAN。严格的医学图像分割基准验证了UKAN的优越性,即使计算成本更低,也能获得更高的准确性。我们进一步探讨了U-KAN作为扩散模型中U-Net噪声预测器的替代品的潜力,展示了其在生成面向任务的模型架构方面的适用性。项目页面:https://yes-u-kan.github.io/。
主要贡献
最近,Kolmogorov-Arnold Networks (KANs)试图以优越的可解释性打开传统网络结构的黑匣子,揭示了白盒网络研究的巨大潜力。考虑到KANs中合并的优秀架构属性,有效地利用KAN弥合网络的物理属性和经验性能之间的差距是有意义的。我们开始了对普遍适用的U-KAN框架的探索,标志着首次尝试将先进的KAN整合到UNet的关键视觉骨干中,并得到一种卷积KAN混合架构风格。本文主要贡献如下:
-
我们首次尝试整合新兴KAN的优势,改进既定的U-Net管道,使其更准确、高效和可解释。
-
我们提出了一个标记化KAN块,有效地引导KAN操作符与现有的基于卷积的设计兼容。
-
我们在广泛的医学分割基准上实证验证了U-KAN,实现了令人印象深刻的准确性和效率。
-
将U-KAN应用于现有扩散模型作为改进的噪声预测器,展示了其在骨干生成任务和更广泛视觉设置中的潜力。
高效嵌入器:KAN
本研究旨在将Kolmogorov–Arnold网络(KAN)整合到U-Net框架中。这一方法的基础是KAN在(Liu et al. 2024e)中概述的高效性和可解释性。包含K层的多层感知机(MLP)可以描述为变换矩阵W和激活函数σ的相互作用:
网络框架
该图展示了所提出的U-KAN的整体架构,遵循一个两阶段的编码器-解码器结构,包括一个卷积阶段和一个标记化Kolmogorov-Arnold网络(Tok-KAN)阶段。输入图像通过编码器传递,其中最初的三个块使用卷积操作,随后是两个标记化的多层感知器(MLP)块。解码器由两个标记化的KAN块和三个卷积块组成。每个编码器块将特征分辨率减半,而每个解码器块将其加倍。此外,编码器和解码器之间集成了跳跃连接。卷积阶段和Tok-KAN阶段中每个块的通道数分别由超参数C1至C3和D1至D3确定。
U-KAN架构
卷积阶段
标记化KAN阶段
U-KAN解码器
将U-KAN扩展到扩散模型
实验细节
消融实验结论
KAN层的数量:通过引入KAN层,U-KAN能够更好地建模分割细节。研究发现,配置三层KAN层的U-KAN表现最佳,这表明适当数量的KAN层有助于捕捉复杂的分割细节。
KAN层与MLP的比较:为了验证KAN层对模型性能的提升作用,研究用传统的多层感知机(MLP)替换了部分KAN层。结果显示,当KAN层被替换为MLP时,模型在多个任务中的性能明显下降,特别是在需要强大特征提取的复杂任务中,强调了KAN层的重要性。
模型扩展:研究了U-KAN在不同模型尺寸下的表现,发现更大的模型(具有更多通道数)通常带来更好的性能,这符合模型扩展规律。为了在性能和计算成本之间取得平衡,研究采用了默认的基本模型配置。
可解释性:通过分析激活模式,研究探讨了KAN层的可解释性。结果显示,与MLP相比,KAN层能够更准确地定位感兴趣区域,并与真实标签一致。这表明KAN层在提升模型决策的可解释性方面具有显著作用,特别是在掩码预测任务中。
存在问题和未来改进方向
文章提出的方法虽然在多个基准测试中表现优异,但未来可以进一步扩展至更大规模的设置和更高维度的数据格式,如时间序列数据、基因组数据和3D表示
参考文献:Li C, Liu X, Li W, et al. U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation[J]. arXiv preprint arXiv:2406.02918, 2024.
声明:仅作分享,侵权立删!!!