从经典到革新:Unet 及核心改进网络全解析(含论文 + 结构 + 场景)
核心结论:Unet 以 “编码 - 解码 + 特征拼接” 成为图像分割基准,Unet++(密集融合 + 深度监督)和 CM-UNet(CNN+Mamba 跨界)是两大核心改进方向,分别解决精度提升与大场景效率问题,适配不同实际需求。
一、基础模型:Unet—— 分割领域的 “奠基之作”
Unet 是 2015 年提出的经典模型,最初为医学影像分割设计,至今仍是众多分割任务的 baseline,核心优势是结构简洁、小数据友好、泛化性强。
核心结构(U 型架构)
- 编码端(左侧下采样):通过 3x3 卷积和最大池化(步长 2)逐步缩小特征图尺寸,扩大感受野,重点捕捉全局语义信息(如 “这是肝脏区域”“这是细胞”)。
- 解码端(右侧上采样):通过转置卷积或双线性插值恢复分辨率,关键是与编码端对应层级的特征进行拼接(Concatenation),补充细节信息。
- 中间瓶颈层:编码端最深处的特征图,汇聚了最丰富的全局语义信息。
关键创新:特征拼接(Concatenation)
区别于传统的 “元素加法” 融合方式,特征拼接会将两个特征图的通道数叠加(如 64 通道 + 64 通道→128 通道),完整保留高低阶特征信息,让解码端在恢复分辨率时精准利用低阶细节(边缘、轮廓),大幅提升分割定位精度。
网络结构图说明

整体呈对称 “U” 形,左侧为 4 次下采样的编码路径,每次下采样后特征通道数翻倍;右侧为 4 次上采样的解码路径,每次上采样后与编码端对应层级通过黑色实线(跳跃连接)实现特征拼接;最终通过 1x1 卷积输出与输入图像尺寸一致的分割结果。
应用场景
- 医学影像分割:CT/MRI 器官分割、病理切片细胞分割、肿瘤边界检测。
- 遥感图像分割:农田边界提取、建筑区域识别、土地覆盖分类。
- 工业检测:零件裂痕分割、产品缺陷区域定位。
论文链接
- 标题:《U-Net: Convolutional Networks for Biomedical Image Segmentation》
- 链接:https://arxiv.org/abs/1505.04597
二、改进网络 1:Unet++—— 密集融合 + 深度监督,精度与部署双优
Unet++ 针对 Unet “特征融合不充分” 的痛点,借鉴 DenseNet 思想进行升级,在精度、鲁棒性和工程实用性上均有显著提升。
核心改进点(对比 Unet)
- 密集特征融合:打破 Unet “单层级对应拼接” 的限制,解码端特征可与编码端跨层级特征(经上采样后)建立连接,实现全层级特征的密集融合,大幅提升特征表达丰富性。
- 深度监督机制:在解码端多个中间层级设置输出分支,每个分支均计算损失并加权求和,既缓解深层网络梯度消失问题,又能通过多视角监督提升模型鲁棒性,减少过拟合。
- 支持快速剪枝:中间分支经独立训练后,部署时可直接剪掉深层分支,无需重新训练即可在 “速度” 和 “精度” 间灵活权衡,适配边缘设备等部署场景。
网络结构图说明

在 Unet 基础架构上,解码端新增跨层级特征连接路径(虚线 + 实线混合连接),形成嵌套式密集连接结构;每个中间解码层级均引出独立输出分支(标注 Loss 的节点),最终总损失由所有分支损失加权得到;整体结构仍保留 “U” 形轮廓,但特征流通路径更丰富。
应用场景
- 高精度医学影像分割:如脑部肿瘤精细分割、视网膜血管分割。
- 工程化部署场景:边缘设备(如医疗便携终端、工业检测设备)的实时分割任务。
- 小数据集场景:深度监督机制提升模型泛化能力,适配数据稀缺的细分任务。
论文链接
- 标题:《U-Net++: A Nested U-Net Architecture for Medical Image Segmentation》
- 链接:https://arxiv.org/abs/1807.10165
三、改进网络 2:CM-UNet——CNN+Mamba 跨界,革新大场景分割
CM-UNet 是结合 CNN 与前沿 Mamba 架构的创新模型,专为解决大尺寸图像分割效率低、复杂场景细节捕捉不足的问题设计,在遥感领域表现突出。
核心改进点(对比 Unet)
- 混合架构设计:采用 CNN 编码器提取局部细节特征(如建筑边缘、道路纹理),Mamba 解码器通过 “全局扫描” 机制高效捕捉长距离依赖,解决大场景中物体分布分散的问题。
- CSMamba 智能模块:引入通道 + 空间双通道注意力,动态筛选关键特征,让模型同时聚焦细节信息与全局语义,避免无关信息干扰。
- 多尺度融合技术:通过 MSAA 模块智能融合不同尺度特征(高层语义 + 底层细节),配合多输出监督机制分阶段优化,减少边缘 “锯齿效应”,提升小目标分割精度。
网络结构图说明

左侧为 CNN 编码器(保留 Unet 下采样逻辑,含 3x3 卷积和最大池化);中间接入 CSMamba 模块(标注注意力机制的特征处理单元);右侧为 Mamba 解码器(替代 Unet 传统转置卷积上采样),通过全局扫描机制恢复分辨率;新增 MSAA 多尺度融合模块(特征聚合节点),连接各层级特征并输出最终结果;整体结构打破纯 CNN 框架,融入 Mamba 的全局建模能力。
应用场景
- 遥感图像分割:城市规划中的土地覆盖分类、自动驾驶场景的道路与障碍物分割。
- 环境监测:森林覆盖变化识别、水域边界提取、植被阴影分割。
- 大尺寸图像任务:如高清卫星影像解析、工业大面积板材缺陷检测。
论文链接
- 标题:《CM-UNet: CNN-Mamba Hybrid Network for Efficient Remote Sensing Image Segmentation》
- 链接:https://arxiv.org/abs/2403.13333(开源代码可在 GitHub 搜索 “CM-UNet” 获取)
四、选型建议与总结
- 快速验证 / 小数据场景:优先选 Unet,结构简单、训练高效。
- 高精度 / 工程部署场景:首选 Unet++,精度与部署灵活性兼顾。
- 大尺寸 / 遥感 / 复杂场景:选 CM-UNet,全局建模与细节捕捉能力更优。











