文件大小:0.75M
摘要:为了解决图像字幕生成任务中对复杂场景下目标间交互关系的描述能力较弱,容易导致语义歪曲及描述不充分的问题,提出一种基于CLIP和多模态特征融合的图像字幕生成模型。通过在特征映射阶段设计了一种双通道并行映射模块,利用图卷积神经网络和多层感知机捕捉节点间的语义信息,增强了对目标间交互关系的细节描述能力;并利用Transformer模块的自注意力机制补足全局语义信息,利用动态门控机制根据场景复杂度来自适应调整特征融合,提高模型的描述合理性。为验证模块的有效性,将该模型在MS COCO数据集及Flickr30k数据集上进行测试,实验结果表明该模型优于现有图像字幕生成方法。
文章目录
0 引 言
1 本文方法
1.1 整体架构
1.2 邻接语义模块(MLPG)
1.3 双重映射模块
1.3.1全局注意特征(GFF)
1.3.2 特征交叉模块TFM
2 实验与结果
2.1 数据集及评价指标
2.2 实验配置
2.3 对比实验
2.4 消融实验
2.5 生成结果对比
3 结 语