摘要:重用距离分析是一种常用的基于 Trace 的 Cache性能分析方法。然而,随着现代 GPU 微架构的持续演进,现有基于重用距离理论的 GPU 内存分析模型由于简化了过多硬件特性,导致了显著的失真。为此,本文提出一种基于Trace和Cache功能模拟的GPU内存系统建模框架,针对现代GPU的关键内存特性进行了精确建模,包括Sector Cache、自适应L1缓存分配机制以及写直达与写回策略等。通过在Volta架构及多个基准测试套件上的实验验证,论文模型相较现有最先进模型PPT-GPU-Mem在多个关键指标上显著提升了预测精度:L2命中率误差从43.39% 降至15.86%,显存读写事务次数误差从42%降至16.85%。
文章目录
0 引言
1 相关工作
2 研究背景
2.1 GPU 存储层次
2.2 CUDA 线程层次与调度
2.3 SDCM 模型
2.4 PPT-GPU-Mem 框架
3 PPT-GPU-Mem 的不足
3.1 Cache 访存粒度
3.2 L2 Trace 构造
3.3 显存读写事务建模
4 改进的内存模型
4.1 Cache 功能模拟
4.2 自适应 L1 Cache
5 实验结果与分析
5.1 实验设置
5.2 结果分析
5.2.1 L1 缓存结果分析
5.2.2 L2 缓存结果分析
5.2.3 显存结果分析
5.3 敏感性测试
5.3.1 Sector Cache影响