分享好友文档首页文档分类切换分类

一种基于特征融合的图像字幕生成方法

2025-06-12 09:10960下载

久存网超级管理
加关注4
~~没有留下签名~~~~

文件类型：PDF文档
文件大小：0.75M

　　摘要：为了解决图像字幕生成任务中对复杂场景下目标间交互关系的描述能力较弱，容易导致语义歪曲及描述不充分的问题，提出一种基于CLIP和多模态特征融合的图像字幕生成模型。通过在特征映射阶段设计了一种双通道并行映射模块，利用图卷积神经网络和多层感知机捕捉节点间的语义信息，增强了对目标间交互关系的细节描述能力；并利用Transformer模块的自注意力机制补足全局语义信息，利用动态门控机制根据场景复杂度来自适应调整特征融合，提高模型的描述合理性。为验证模块的有效性，将该模型在MS COCO数据集及Flickr30k数据集上进行测试，实验结果表明该模型优于现有图像字幕生成方法。

　　文章目录

　　0 引　言

　　1 本文方法

　　1.1 整体架构

　　1.2 邻接语义模块(MLPG)

　　1.3 双重映射模块

　　1.3.1全局注意特征(GFF)

　　1.3.2 特征交叉模块TFM

　　2 实验与结果

　　2.1 数据集及评价指标

　　2.2 实验配置

　　2.3 对比实验

　　2.4 消融实验

　　2.5 生成结果对比

　　3 结语

请登录后下载文档

点赞 0

举报

收藏 0

打赏 0

评论 0

多项血清因子对房颤患者射频术后的预测分析
0下载45浏览0.89M

机载系统软件需求的建模与分时组合验证方法
0下载38浏览2M

基于ANN方法的腐蚀管道失效压力预测及试验
0下载55浏览1.9M

基于FMEA的高校实验室安全管理
0下载52浏览1.3M

何以维续百年？——公共图书馆在中国乡村落地生根的绮罗经验
0下载58浏览1.34M

广谱性XBB.1.5重组蛋白疫苗制备及免疫原性评估
0下载93浏览1.31M

玉米芯基黏结型抑尘材料制备及性能分析
0下载70浏览1.4M

坡顶超载下原状软土基坑边坡的损伤演化过程
0下载31浏览1.98M

地铁列车制动对锥簧挡车器防护能力影响研究
0下载48浏览0.71M