首页 > 文档 > 学术/知识/论文 > IT/计算机/信息技术 > 自动化技术

基于分布式强化学习方法解决后继特征中的低估问题

2025-06-27 690 1.47M 0

　　摘要：后继特征（succcessor features， SFs）和广义策略改进（generalized policy improvement， GPI）的框架具备在不同任务之间实现强化学习（RL）中的零样本迁移的潜力。本文研究了SFs&GPI中的过低估计现象：为了阐明这个问题，在理论上，证明了估计Q值与真实Q值之间的期望差，其在定理中是非正的。在实验上，验证在训练过程中新任务的估计Q值低于真实Q值。为解决该问题，将分布式强化学习的概念引入到SFs&GPI中，并建立了分布后继特征（distributional SFs， DSFs）和分布广义策略改进（distributional GPI， DGPI），其缩小了低估差距。MuJoCo环境上的实验结果表明，基于DSF&DGPI的算法缓解了基于SFs&GPI的算法的价值估计偏差，且具备更高的迁移潜力和更稳定的迁移效果。

　　文章目录

　　1 理论基础

　　1.1 分布式强化学习

　　1.2 后继特征与广义策略改进（SFs&GPI）

　　2 SFs&GPI中的值估计偏差

　　2.1 SFs迁移框架中价值估计偏差的证据

　　2.1.1 理论分析

　　2.1.2 实证分析

　　2.2 DSFs缓解价值估计偏差

　　3 基于分布式价值网络的DSF&DGPI算法

　　3.1 分布式价值网络

　　3.2 实验环境及参数设置

　　3.3 算法评估

　　3.3.1 低估缓解

　　3.3.2 迁移效果

　　4 结束语

您还没有登录，请登录后查看详情

分布式强化学习后继特征广义策略改进偏差估计过低估计

下一篇：水系连通与碱蓬复播对滨海退化湿地植被恢复及土壤理化性质的影响
上一篇：三维地质建模在综合交通枢纽工程中的研究与应用

点赞 0举报收藏 0打赏 0评论 0

久存网超级..
加关注4
~~没有留下签名~~~~

本类推荐

	基于自适应互补滑模观测器的PMSM无传感器控制
	基于双实时指标的动态差分进化算法
	基于大语言模型的用户行为情报研判方法研究:可解释性分析视角
	AI时代的书理学：理论思考与应用拓展
	生成式AI技术支持下数字人文的二次变革前瞻
	融合注意力机制的CNN-LSTM模型在复杂生产环境中的产能预测研究
	行业标准《人工智能医疗器械数据集专用要求：糖尿病视网膜病变眼底彩照》解析
	基于多种策略的改进蜣螂算法及其应用
	图神经网络驱动的图异常检测研究综述
	特征-标记邻域协同相关的分布式多标记特征选择方法

下载排行