摘要:针对现有医学影像合成技术在准确捕捉复杂解剖结构和病理状态方面存在足,从而生成低质量且与实际情况不符的胸片问题,文中提出了一种创新性医学潜在扩散模型Chest-Chat。基于先前研究结果改进了所提模型,引入一种多模态文本编码器MedA-BERT(Medical Attention Strategy Pre-training of Deep Bidirectional Transformers for Language Understanding)。该编码器采用跨模态视觉-语言预训练策略构建并强化胸片影像与对应文本报告间的深刻语义联系,结合双向交叉注意力机制和对比学习显著增强了模型对医学影像报告语义的理解和处理能力。将MedA-BERT与潜在扩散模型的视觉模块相结合使Chest-Chat能够生成具有详细解剖和病理描述的高质量胸片。在CheXpert和MIMIC-CXR(Chest X-ray)两个公开数据集上进行了广泛评估。实验结果表明,Chest-Chat的FIDInceptionV3(Fréchet Inception Distance)、FIDXRV和MS-SSIM(Multi-Scale Structural Similarity)分别为58.38、3.69和0.12±0.11,其表现优于现有方法。
文章目录
1 相关工作
1.1 医学视觉-语言预训练
1.2 胸片X光片生成模型
2 融合MedA-BERT的医学潜在扩散模型
2.1 多模态文本编码器设计
2.1.1框架概述
2.1.2 粗粒度的多模态对齐
2.1.3细粒度的多模态对齐
2.1.4整体策略
2.2 高保真CXR的生成模型
2.2.1核心框架
2.2.2 优化策略
3 实验与结果分析
3.1 数据集选取
3.2 实验环境与参数设置
3.3 评价指标
3.4 定量评价分析
3.5 定性结果分析
3.6 Chest-Chat数据增强的表现
4 结束语