首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 计算机软件及计算机应用

融合场景多模态先验与稀疏注意力的文本图像超分辨率

2025-06-25 890 1.25M 0

　　摘要：受复杂背景、模糊、扭曲及变形等因素影响，从低分辨率文本图像中恢复高分辨率图像极具挑战。现有方法多依赖递归神经网络提取文本上下文信息，在捕捉长距离依赖及有效运用语义信息方面存在局限。为解决上述问题，本文提出一种融合场景多模态先验与稀疏注意力的文本图像超分辨率方法。首先，创新性地提出场景多模态先验分支，借助先进的内容解析单元和轮廓感知单元，充分挖掘并利用文本识别信息与视觉信息。其次，基于稀疏注意力的超分辨率增强模块从文本行提取上下文信息，并利用多头注意力机制的全局可见性构建字符间相关性，缓解处理长文本序列时的性能衰退。最后，引入结合梯度轮廓和文本结构感知的联合损失函数，显著增强模型提取文本轮廓及处理变形文本方面的能力。实验结果表明，相较于基线模型TATT，本文方法在TextZoom测试集的识别准确率平均提升4.3个百分点，平均PSNR（峰值信噪比）和SSIM（结构相似性指数）指标分别达到21.4 dB与0.7909，提升了真实场景文本图像超分辨率的性能。

　　文章目录

　　0 引言

　　1 研究方法

　　1.1 场景多模态先验分支

　　1.2 基于稀疏注意力的超分辨率模块

　　1.3 损失函数

　　2 实验

　　2.1 实施细节

　　2.2 数据集

　　2.3 消融实验

　　2.4 先进方法对比实验

　　3 结论

您还没有登录，请登录后查看详情

文本图像超分辨率图像重建多模态先验稀疏注意力

下一篇：维吾尔药含生草化学成分及药理作用研究进展
上一篇：覆岩应力下富油煤原位热解行为模拟研究

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

本类推荐

	基于能量理论的通用信息抽取框架
	基于Delphi+AHP+FCE的公立医院智慧药房绩效考核指标体系的构建及评价
	面向知识图谱补全的大模型方法综述
	基于多尺度特征融合与矫正的渐进式深度图超分辨率重建
	RC-PBFT: 一种基于信誉分组的改进PBFT算法
	基于细节增强与多尺度特征融合的水下目标检测
	大语言模型与知识图谱协同增强知识组织理论架构研究
	基于注意力的双学生知识蒸馏异常检测方法
	第一类投毒攻击及其特征分析
	道路环境感知的联合特征学习框架

下载排行