分享好友 文档首页 文档分类 切换分类

基于分布式强化学习方法解决后继特征中的低估问题

2025-06-27 21:5280下载
文件类型:PDF文档
文件大小:1.47M

  摘要:后继特征(succcessor features, SFs)和广义策略改进(generalized policy improvement, GPI)的框架具备在不同任务之间实现强化学习(RL)中的零样本迁移的潜力。本文研究了SFs&GPI中的过低估计现象:为了阐明这个问题,在理论上,证明了估计Q值与真实Q值之间的期望差,其在定理中是非正的。在实验上,验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题,将分布式强化学习的概念引入到SFs&GPI中,并建立了分布后继特征(distributional SFs, DSFs)和分布广义策略改进(distributional GPI, DGPI),其缩小了低估差距。MuJoCo环境上的实验结果表明,基于DSF&DGPI的算法缓解了基于SFs&GPI的算法的价值估计偏差,且具备更高的迁移潜力和更稳定的迁移效果。

  文章目录

  1 理论基础

  1.1 分布式强化学习

  1.2 后继特征与广义策略改进(SFs&GPI)

  2 SFs&GPI中的值估计偏差

  2.1 SFs迁移框架中价值估计偏差的证据

  2.1.1 理论分析

  2.1.2 实证分析

  2.2 DSFs缓解价值估计偏差

  3 基于分布式价值网络的DSF&DGPI算法

  3.1 分布式价值网络

  3.2 实验环境及参数设置

  3.3 算法评估

  3.3.1 低估缓解

  3.3.2 迁移效果

  4 结束语



登录 后下载文档


举报
收藏 0
打赏 0
评论 0