用于高质量胸片数据合成的医学潜在扩散模型

2025-07-25 00 1.2M 0

  摘要:针对现有医学影像合成技术在准确捕捉复杂解剖结构和病理状态方面存在足,从而生成低质量且与实际情况不符的胸片问题,文中提出了一种创新性医学潜在扩散模型Chest-Chat。基于先前研究结果改进了所提模型,引入一种多模态文本编码器MedA-BERT(Medical Attention Strategy Pre-training of Deep Bidirectional Transformers for Language Understanding)。该编码器采用跨模态视觉-语言预训练策略构建并强化胸片影像与对应文本报告间的深刻语义联系,结合双向交叉注意力机制和对比学习显著增强了模型对医学影像报告语义的理解和处理能力。将MedA-BERT与潜在扩散模型的视觉模块相结合使Chest-Chat能够生成具有详细解剖和病理描述的高质量胸片。在CheXpert和MIMIC-CXR(Chest X-ray)两个公开数据集上进行了广泛评估。实验结果表明,Chest-Chat的FIDInceptionV3(Fréchet Inception Distance)、FIDXRV和MS-SSIM(Multi-Scale Structural Similarity)分别为58.38、3.69和0.12±0.11,其表现优于现有方法。

  文章目录

  1 相关工作

  1.1 医学视觉-语言预训练

  1.2 胸片X光片生成模型

  2 融合MedA-BERT的医学潜在扩散模型

  2.1 多模态文本编码器设计

  2.1.1框架概述

  2.1.2 粗粒度的多模态对齐

  2.1.3细粒度的多模态对齐

  2.1.4整体策略

  2.2 高保真CXR的生成模型

  2.2.1核心框架

  2.2.2 优化策略

  3 实验与结果分析

  3.1 数据集选取

  3.2 实验环境与参数设置

  3.3 评价指标

  3.4 定量评价分析

  3.5 定性结果分析

  3.6 Chest-Chat数据增强的表现

  4 结束语



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1