层级特征融合Transformer的图像分类算法

2025-04-25 10 1.02M 0

  摘要:针对传统ViT(Vision Transformer)模型难以完成图像多层级分类问题,文中提出了基于ViT的图像分类模型层级特征融合视觉Transformer(Hierarchical Feature Fusion Vision Transformer, HICViT)。输入数据经过ViT提取模块生成多个不同层级的特征图,每个特征图包含不同层次的抽象特征表示。基于层级标签,将ViT提取的特征映射为多级特征,并运用层级特征融合策略整合不同层级信息,有效增强模型的分类性能。在CIFRA-10、CIFRA-100和CUB-200-2011这3个数据集将所提模型与多种先进深度学习模型进行对比和分析。在CIFRA-10数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为99.70%、98.80%和97.80%。在CIFRA-100数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为95.23%、93.54%和90.12%。在CUB-200-2011数据集,所提方法在第1层级和第2层级的分类精度分别为98.09%和93.66%。结果表明,所提模型的分类准确率优于其他对比模型。

  文章目录

  1相关工作

  2网络模型结构设计

  2.1初始化

  2.2特征融合模块

  2.3自适应嵌入模块

  2.4层级损失函数

  3数据集与预处理

  3.1CIFAR-10数据集

  3.2CIFAR-100数据集

  3.3CUB-200-2011数据集

  4实验

  4.1算法流程

  4.2实验设置

  5实验结果及分析

  5.1平衡数据集的对比实验分析

  5.2消融实验

  6结束语



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1