摘要:后继特征(succcessor features, SFs)和广义策略改进(generalized policy improvement, GPI)的框架具备在不同任务之间实现强化学习(RL)中的零样本迁移的潜力。本文研究了SFs&GPI中的过低估计现象:为了阐明这个问题,在理论上,证明了估计Q值与真实Q值之间的期望差,其在定理中是非正的。在实验上,验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题,将分布式强化学习的概念引入到SFs&GPI中,并建立了分布后继特征(distributional SFs, DSFs)和分布广义策略改进(distributional GPI, DGPI),其缩小了低估差距。MuJoCo环境上的实验结果表明,基于DSF&DGPI的算法缓解了基于SFs&GPI的算法的价值估计偏差,且具备更高的迁移潜力和更稳定的迁移效果。
文章目录
1 理论基础
1.1 分布式强化学习
1.2 后继特征与广义策略改进(SFs&GPI)
2 SFs&GPI中的值估计偏差
2.1 SFs迁移框架中价值估计偏差的证据
2.1.1 理论分析
2.1.2 实证分析
2.2 DSFs缓解价值估计偏差
3 基于分布式价值网络的DSF&DGPI算法
3.1 分布式价值网络
3.2 实验环境及参数设置
3.3 算法评估
3.3.1 低估缓解
3.3.2 迁移效果
4 结束语