首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 计算机软件及计算机应用

一种基于特征融合的图像字幕生成方法

2025-06-12 1650 0.75M 0

　　摘要：为了解决图像字幕生成任务中对复杂场景下目标间交互关系的描述能力较弱，容易导致语义歪曲及描述不充分的问题，提出一种基于CLIP和多模态特征融合的图像字幕生成模型。通过在特征映射阶段设计了一种双通道并行映射模块，利用图卷积神经网络和多层感知机捕捉节点间的语义信息，增强了对目标间交互关系的细节描述能力；并利用Transformer模块的自注意力机制补足全局语义信息，利用动态门控机制根据场景复杂度来自适应调整特征融合，提高模型的描述合理性。为验证模块的有效性，将该模型在MS COCO数据集及Flickr30k数据集上进行测试，实验结果表明该模型优于现有图像字幕生成方法。

　　文章目录

　　0 引　言

　　1 本文方法

　　1.1 整体架构

　　1.2 邻接语义模块(MLPG)

　　1.3 双重映射模块

　　1.3.1全局注意特征(GFF)

　　1.3.2 特征交叉模块TFM

　　2 实验与结果

　　2.1 数据集及评价指标

　　2.2 实验配置

　　2.3 对比实验

　　2.4 消融实验

　　2.5 生成结果对比

　　3 结语

您还没有登录，请登录后查看详情

多模态图像字幕特征融合图神经网络自注意力机制

下一篇：多项血清因子对房颤患者射频术后的预测分析
上一篇：卷积神经网络识别材料织构的研究

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

本类推荐

	基于Delphi+AHP+FCE的公立医院智慧药房绩效考核指标体系的构建及评价
	面向知识图谱补全的大模型方法综述
	基于多尺度特征融合与矫正的渐进式深度图超分辨率重建
	RC-PBFT: 一种基于信誉分组的改进PBFT算法
	基于细节增强与多尺度特征融合的水下目标检测
	大语言模型与知识图谱协同增强知识组织理论架构研究
	基于注意力的双学生知识蒸馏异常检测方法
	第一类投毒攻击及其特征分析
	道路环境感知的联合特征学习框架
	基于深度学习的壁湍流近壁区域粒子图像测速算法

下载排行