基于分布式强化学习方法解决后继特征中的低估问题_自动化技术_IT/计算机/信息技术_学术/知识/论文_文档

文件类型：PDF文档
文件大小：1.47M

　　摘要：后继特征（succcessor features， SFs）和广义策略改进（generalized policy improvement， GPI）的框架具备在不同任务之间实现强化学习（RL）中的零样本迁移的潜力。本文研究了SFs&GPI中的过低估计现象：为了阐明这个问题，在理论上，证明了估计Q值与真实Q值之间的期望差，其在定理中是非正的。在实验上，验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题，将分布式强化学习的概念引入到SFs&GPI中，并建立了分布后继特征（distributional SFs， DSFs）和分布广义策略改进（distributional GPI， DGPI），其缩小了低估差距。MuJoCo环境上的实验结果表明，基于DSF&DGPI的算法缓解了基于SFs&GPI的算法的价值估计偏差，且具备更高的迁移潜力和更稳定的迁移效果。

　　文章目录

　　1 理论基础

　　1.1 分布式强化学习

　　1.2 后继特征与广义策略改进（SFs&GPI）

　　2 SFs&GPI中的值估计偏差

　　2.1 SFs迁移框架中价值估计偏差的证据

　　2.1.1 理论分析

　　2.1.2 实证分析

　　2.2 DSFs缓解价值估计偏差

　　3 基于分布式价值网络的DSF&DGPI算法

　　3.1 分布式价值网络

　　3.2 实验环境及参数设置

　　3.3 算法评估

　　3.3.1 低估缓解

　　3.3.2 迁移效果

　　4 结束语