基于分布式强化学习方法解决后继特征中的低估问题

2025-06-27 30 1.47M 0

  摘要:后继特征(succcessor features, SFs)和广义策略改进(generalized policy improvement, GPI)的框架具备在不同任务之间实现强化学习(RL)中的零样本迁移的潜力。本文研究了SFs&GPI中的过低估计现象:为了阐明这个问题,在理论上,证明了估计Q值与真实Q值之间的期望差,其在定理中是非正的。在实验上,验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题,将分布式强化学习的概念引入到SFs&GPI中,并建立了分布后继特征(distributional SFs, DSFs)和分布广义策略改进(distributional GPI, DGPI),其缩小了低估差距。MuJoCo环境上的实验结果表明,基于DSF&DGPI的算法缓解了基于SFs&GPI的算法的价值估计偏差,且具备更高的迁移潜力和更稳定的迁移效果。

  文章目录

  1 理论基础

  1.1 分布式强化学习

  1.2 后继特征与广义策略改进(SFs&GPI)

  2 SFs&GPI中的值估计偏差

  2.1 SFs迁移框架中价值估计偏差的证据

  2.1.1 理论分析

  2.1.2 实证分析

  2.2 DSFs缓解价值估计偏差

  3 基于分布式价值网络的DSF&DGPI算法

  3.1 分布式价值网络

  3.2 实验环境及参数设置

  3.3 算法评估

  3.3.1 低估缓解

  3.3.2 迁移效果

  4 结束语



您还没有登录,请登录后查看详情



 
举报收藏 0打赏 0评论 0
本类推荐
下载排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  蜀ICP备2024057410号-1