摘要:针对动态兵力部署问题,提出了一种基于沙普利值分解多智能体强化学习的策略规划方法,借助沙普利值分解来解释协作多智能体之间的奖励分配,利用基于沙普利分解强化学习方法求解马尔可夫凸博弈策略;针对海空跨域协同对抗场景,分析异构多实体协同对抗中空间域作战资源的分配,构建动态兵力部署策略规划模型,设计问题的状态空间、动作空间和奖励函数。围绕典型应用场景,利用兵棋推演系统对动态兵力部署问题组织了仿真实验验证,结果表明本文所提方法与多类基线算法相比在动态兵力部署策略规划方面性能优异,同时理论上具备可解释性,学到了“层层拦截、分区对抗,掩护核心、分层破击”长时域动态兵力部署策略。
文章目录
1 沙普利值分解强化学习方法
1.1 可转移效用博弈及公平分配
1.2 马尔可夫凸博弈
1.3 沙普利值分解及其近似
1.3.1 可解释性
1.3.2 沙普利值分解
1.3.3 蒙特卡洛近似
2 动态兵力部署策略规划问题建模
2.1 动态兵力部署场景描述
2.2 动态兵力部署策略规划
2.3 动态兵力部署特征工程
2.3.1 状态空间设计
2.3.2 动作空间设计
2.3.3 奖励函数设计
3 仿真设计与实验分析
3.1 学习框架与参数配置
3.2 实验结果与分析
3.3 长时域策略分析
4 结论