LeViT-UNet:使用Transformer实现更快的编码器,用于医学图像分割
医学图像分割在计算机辅助诊断和治疗系统的开发中起着至关重要的作用,但它仍然面临着许多挑战。在过去的几年中,卷积神经网络(CNN)已成功地应用于医学图像分割的任务。遗憾的是,由于卷积运算的局部性,这些基于CNN的架构在学习图像中的全局上下文信息方面存在局限性,这可能对医学图像分割的成功至关重要。同时,视觉Transformer(ViT)体系结构具有显著的远程语义特征提取能力,但计算复杂度较低。
LeViT-UNet Make Faster Encoders with Transformer for Medical Image Segmentation-2023
摘要
医学图像分割在计算机辅助诊断和治疗系统的开发中起着至关重要的作用,但它仍然面临着许多挑战。在过去的几年中,卷积神经网络(CNN)已成功地应用于医学图像分割的任务。遗憾的是,由于卷积运算的局部性,这些基于CNN的架构在学习图像中的全局上下文信息方面存在局限性,这可能对医学图像分割的成功至关重要。同时,视觉Transformer(ViT)体系结构具有显著的远程语义特征提取能力,但计算复杂度较低。为了提高医学图像分割的效率和准确性,提出了一种新的轻量级结构LeViTUNet,该结构通过LeViT在编码器中集成多级Transformer块,旨在探索局部和全局特征融合的有效性。我们在两个具有挑战性的分割基准上的实验表明,与各种最先进的方法相比,所提出的LeViT-UNet在效率和准确性方面具有竞争力的性能,这表明LeViT可以成为医学图像分割的更快的特征编码器。例如,LeViT-UNet 384在Synapse和ACDC数据集中分别实现了78.53%和90.32%的Dice相似性系数(DSC),分割速度为85帧每秒(FPS)。因此,建议的架构可能是有益的前瞻性临床试验进行的放射科医生。我们的源代码可在 at https://github.com/apple1986/LeViT_UNet
引言
自动医学图像分割技术由于能有效地减轻放射科医生的工作量而得到了广泛的研究。在过去的几年里,卷积神经网络(CNN)在医学图像分割方面取得了实质性的进展。全卷积网络(FCN)[1]及其变体,例如,U-Net [2]、DeepLab [3]等,广泛应用于MRI的心脏分割[4]、CT的肝脏和肿瘤分割[5]等。
虽然强大的表示学习能力使得基于CNN的方法成为图像分割任务的事实上的选择,但这些方法仍然有自己的局限性。例如,由于卷积运算的固有局部性,捕获更大上下文的能力不足。尽管有各种方法,例如,尽管引入了扩张卷积[3]、图像金字塔[6]、先验引导[4]、多尺度融合[7]和注意力机制[8]来解决这些限制,但是它们在医学图像分割任务中提取全局上下文特征方面仍然存在不足,特别是对于那些在形状、尺度和纹理方面具有大的患者间变化的对象。
Transformer最初被提出用于自然语言处理(NLP)任务中的序列到序列建模,例如机器翻译,情感分析和信息提取。最近,基于变换的架构(称为ViT [9])已被应用于视觉相关的任务,并通过在大规模数据集上进行预训练,实现了图像分类任务的最新(SOTA)结果[10][11]。它们也被研究用于语义分割,例如Swin Transformer [12],Swin-UNet [13],TransUNet [14]。然而,这些基于变换器的方法的主要限制在于对计算能力的高要求,这阻碍了它们在实时应用中的利用,例如,放疗
LeViT [11]最初被提出用于使用混合Transformer和卷积块的快速推理图像分类,其优化了准确性和效率之间的权衡。然而,这种架构没有充分利用来自Transformer和卷积块的各种尺度的特征图,这对于图像分割可能是至关重要的。受LeViT的启发,本文提出了用于二维医学图像分割的LeViT-UNet算法,旨在利用Transformer构造一个更快的编码器,并通过将Transformers的长程空间关系集成到卷积层提取的特征中来提高分割性能。据我们所知,LeViT-UNet是首批专注于基于Transformer的医学图像分割架构的效率和准确性的网络之一。
LeViT-UNet主要由一个编码器、一个解码器和几个跳连接组成。这里,编码器基于LeViT Transformer块构建,解码器基于卷积块构建。受U型架构设计的启发,我们从LeViT的Transformer块中提取多尺度特征图,并通过跳过连接将其传递到解码块。我们期望这样的设计可以整合Transformer的全局特征提取和CNN的局部特征表示的优点。实验结果表明,LeViT-UNet算法可以充分利用Transformer和CNN的优点,提高医学图像分割的准确性和效率。我们工作的主要贡献可归纳如下:
- 提出了一种新的轻量级、快速、高精度的混合卷积和Transformer分割架构,命名为LeViT-UNet,它使用多级Transformer块来提取全局上下文特征,卷积块来学习局部高分辨率空间信息;
- 我们探讨了LeViT-UNet编码器和解码器架构中的跳过连接和Transformer块的效果,发现通过集成更多来自跳过连接的低级别特征以及为分割任务提供来自Transformer的全局上下文信息是有帮助的;
- 在两个公开数据集上进行了综合实验,结果表明,所提出的LeViT-UNet方法在准确性和效率方面与其他SOTA方法具有竞争力。我们的工作将提供一个基准比较快速分割与Transformer在医学图像分析领域。
相关工作
基于CNN的方法:CNN在生物医学图像分割中得到了广泛的研究。典型的U形网络,U-Net [2],由具有跳跃连接的对称编码器和解码器网络组成,已成为生物医学图像分析的实际选择。之后,提出了各种类似U-Net的架构,例如Res-UNet [15],UNet++ [16],V-Net [17]和nnU-Net [18]。虽然基于CNN的方法在生物医学图像分割方面取得了很大的进展,但由于卷积运算固有的局部性和复杂的数据访问模式,它们仍然不能完全满足临床应用对分割精度和效率的要求。
补充CNN的自我注意力机制:一些工作试图将自我注意力机制整合到CNN中进行分割。其主要目的是捕捉注意力的权重在通道或空间形状。例如,挤压和激发网络构建了一个attentionlike模块来提取CNN层的每个特征图之间的关系[19]。双注意力网络增加了两种类型的注意力模块,分别在空间和通道维度上对语义相互依赖性进行建模[20]。Attention U-Net提出了一种注意力门,用于抑制特征图的不相关区域,同时突出分割任务的显著特征[8]。虽然这些策略可以提高分割的性能,但提取长距离语义信息的能力仍然需要解决。
Transformers:最近,Vision Transformer(ViT)通过使用对输入图像具有纯自我注意力的Transformer实现了ImageNet分类上的SOTA [9]。之后,人们提出了不同的ViT变体,例如Swin [12]和自然图像上的LeViT [11]。Transformer结构也被用于医学图像分割。例如,Swin-UNet [13]将纯Transformer应用到U形编码器-解码器架构中,用于全局语义特征学习。在本文中,我们试图利用LeViT Transformer块作为一个基本单元的编码器的U形架构,其目的是保持准确性和效率之间的权衡生物医学图像分割。我们的工作将提供一个基准比较快速分割与Transformer在生物医学图像分析领域。
// 注意重点:
1.它们仍然不能完全满足临床应用对分割精度和效率的要求。
2.Attention U-Net提出了一种注意力门,用于抑制特征图的不相关区域,同时突出分割任务的显著特征[8]。虽然这些策略可以提高分割的性能,但提取长距离语义信息的能力仍然需要解决。
想看论文列表
Oktay, O., et al.: Attention U-Net: learning where to look for the pancreas (2018)
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)