一种基于特征融合的图像字幕生成方法

2025-06-12 60 0.75M 0

  摘要:为了解决图像字幕生成任务中对复杂场景下目标间交互关系的描述能力较弱,容易导致语义歪曲及描述不充分的问题,提出一种基于CLIP和多模态特征融合的图像字幕生成模型。通过在特征映射阶段设计了一种双通道并行映射模块,利用图卷积神经网络和多层感知机捕捉节点间的语义信息,增强了对目标间交互关系的细节描述能力;并利用Transformer模块的自注意力机制补足全局语义信息,利用动态门控机制根据场景复杂度来自适应调整特征融合,提高模型的描述合理性。为验证模块的有效性,将该模型在MS COCO数据集及Flickr30k数据集上进行测试,实验结果表明该模型优于现有图像字幕生成方法。

  文章目录

  0 引 言

  1 本文方法

  1.1 整体架构

  1.2 邻接语义模块(MLPG)

  1.3 双重映射模块

  1.3.1全局注意特征(GFF)

  1.3.2 特征交叉模块TFM

  2 实验与结果

  2.1 数据集及评价指标

  2.2 实验配置

  2.3 对比实验

  2.4 消融实验

  2.5 生成结果对比

  3 结 语



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1