摘要:受复杂背景、模糊、扭曲及变形等因素影响,从低分辨率文本图像中恢复高分辨率图像极具挑战。现有方法多依赖递归神经网络提取文本上下文信息,在捕捉长距离依赖及有效运用语义信息方面存在局限。为解决上述问题,本文提出一种融合场景多模态先验与稀疏注意力的文本图像超分辨率方法。首先,创新性地提出场景多模态先验分支,借助先进的内容解析单元和轮廓感知单元,充分挖掘并利用文本识别信息与视觉信息。其次,基于稀疏注意力的超分辨率增强模块从文本行提取上下文信息,并利用多头注意力机制的全局可见性构建字符间相关性,缓解处理长文本序列时的性能衰退。最后,引入结合梯度轮廓和文本结构感知的联合损失函数,显著增强模型提取文本轮廓及处理变形文本方面的能力。实验结果表明,相较于基线模型TATT,本文方法在TextZoom测试集的识别准确率平均提升4.3个百分点,平均PSNR(峰值信噪比)和SSIM(结构相似性指数)指标分别达到21.4 dB与0.7909,提升了真实场景文本图像超分辨率的性能。
文章目录
0 引言
1 研究方法
1.1 场景多模态先验分支
1.2 基于稀疏注意力的超分辨率模块
1.3 损失函数
2 实验
2.1 实施细节
2.2 数据集
2.3 消融实验
2.4 先进方法对比实验
3 结论