EM-Net:Mamba+频域分析,医学图像分割SOTA
论文原文 :https://arxiv.org/abs/2409.17675
代码:https://github.com/zang0902/EM-Net
即插即用代码仓库:https://github.com/AITricks/AITricks
EM-Net专门解决 3D医学图像分割(如CT/MRI多器官分割)中计算量巨大、显存不够用的痛点!作者把最近超火的 Mamba 和经典的 频域分析 结合了起来。
1️⃣ 核心痛点:3D分割太“重”了
CNN(如 U-Net):虽然快,但在“看大图”时视野受限,容易丢失全局形状信息。
Transformer:虽然看得全,但计算量是平方级增长,显存杀手,训练极慢。
2️⃣ 核心架构:Mamba 上场
EM-Net 引入了 Mamba (状态空间模型)。
优势:Mamba 拥有线性复杂度(Linear Complexity)。这意味着它的推理速度和 CNN 一样快,但捕捉长距离依赖(全局信息)的能力却堪比 Transformer。
创新:作者没有直接套用 Mamba,而是针对医学图像设计了两个专用模块。
3️⃣ 空间魔法:CSRM (通道挤压-增强 Mamba)
原理:引入了类似 SE-Block 的通道注意力机制。
作用:它能自动识别哪些特征通道是重要的(比如肝脏、肿瘤的特征),哪些是无关背景。通过“挤压”和“激励”,强迫 Mamba 聚焦于关键的解剖结构,减少无效计算。
4️⃣ 频域魔法:EFL (高效频域学习)
原理:利用 FFT把图像转到频域。
妙处:在空域里通过卷积看全局很累,但在频域里,一个点就代表了全局信息!
效果:EFL 模块在频域里进行“频谱门控”,以极低的计算成本实现了全局特征的交互,完美替代了昂贵的 Self-Attention。
5️⃣ 实验结果:降维打击
根据论文在 Synapse 和 ACDC 数据集上的表现:
更轻:相比于主流的 Transformer 模型(如 Swin-UNETR),EM-Net 的参数量减少了近 50%。
更快:训练速度提升了 2倍!这意味着你可以用更短的时间炼出更好的丹。
更准:在多器官分割任务上,Dice 系数(重合度指标)全面领先,SOTA 验证!
#计算机视觉 #深度学习 #科研 #医学图像分割 #mamba #科研日常 #论文 #科研学习  #创新点实现 #生物医学科研

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐