摘要:针对传统ViT(Vision Transformer)模型难以完成图像多层级分类问题,文中提出了基于ViT的图像分类模型层级特征融合视觉Transformer(Hierarchical Feature Fusion Vision Transformer, HICViT)。输入数据经过ViT提取模块生成多个不同层级的特征图,每个特征图包含不同层次的抽象特征表示。基于层级标签,将ViT提取的特征映射为多级特征,并运用层级特征融合策略整合不同层级信息,有效增强模型的分类性能。在CIFRA-10、CIFRA-100和CUB-200-2011这3个数据集将所提模型与多种先进深度学习模型进行对比和分析。在CIFRA-10数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为99.70%、98.80%和97.80%。在CIFRA-100数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为95.23%、93.54%和90.12%。在CUB-200-2011数据集,所提方法在第1层级和第2层级的分类精度分别为98.09%和93.66%。结果表明,所提模型的分类准确率优于其他对比模型。
文章目录
1相关工作
2网络模型结构设计
2.1初始化
2.2特征融合模块
2.3自适应嵌入模块
2.4层级损失函数
3数据集与预处理
3.1CIFAR-10数据集
3.2CIFAR-100数据集
3.3CUB-200-2011数据集
4实验
4.1算法流程
4.2实验设置
5实验结果及分析
5.1平衡数据集的对比实验分析
5.2消融实验
6结束语