摘要:生物医学成像在诊断和治疗多种疾病中起着至关重要的作用。将深度学习方法应用于医学图像分析能够提高医学图像的可读性,为临床决策提供更可靠的支持。然而,传统的医学图像处理方法在有效捕获三维图像中的空间特征和复杂结构信息方面存在一定局限性,尤其是在处理不同成像方式生成的复杂3D医学影像时,模型的精度和泛化能力常常受到挑战。针对这一挑战,提出了一种MTM3D模型用于医学图像分类任务,该模型结合了Mamba模型在复杂序列任务的优异性能与改进令牌图灵机(Token Turning Machines, TTM)网络的外部记忆存储功能。通过引入循环链式存储结构,MTM3D能够在记忆单元中有效交互不同空间结构的特征,从而提升对复杂空间关系的捕捉能力;此外,Mamba的引入进一步增强了记忆单元与处理单元的交互能力,使模型具备更强的泛化能力,在不同的医学影像数据集上表现出色。实验结果表明,MTM3D在MedMNIST v2数据集上的医学图像理解能力表现优异。相比现有最佳的医学图像分析网络,MTM3D的平均准确率ACC提升了3.97%,平均曲线下面积AUC提升了2.00%,充分展示了其在医学影像解读和协助医疗专业人员进行诊断与治疗规划中的巨大潜力。
文章目录
0 引言
1 相关工作
1.1 TTM
1.2 Transformer
1.3 Mamba
2 网络设计
2.1 网络模型结构
2.2 链式循环存储结构和读写操作
2.2.1 链式循环存储结构
2.2.2 读写操作
2.3 融合Mamba Block的记忆增强处理单元
2.3.1 单一Mamba Block处理模式
2.3.2 混合序列变换模式
2.3.3 融合序列变换模式
3 实验
3.1 实验数据及评估标准
3.2 实验细节
3.3 结果分析
3.4 消融实验
3.4.1 记忆增强处理单元和存储结构的影响
3.4.2 记忆增强处