摘要:针对复杂环境下在轨组装多子系统互联的协同控制问题,本文提出基于零和博弈与微分图博弈的分层协同强化学习方法:内层控制采用零和微分博弈设计分布式鲁棒控制策略,解决子系统间耦合、外部干扰及不确定性问题;外层控制通过微分图博弈协同子系统行为,实现全局最优控制并达到纳什均衡.进而,利用环路小增益定理保障内层控制的协同稳定性,并对局部与全局最优性的关系进行分析.外层策略的有效性则通过纳什均衡来保障.进一步,设计基于优势函数的分布式多智能体强化学习方法,以最小化评价网络输出构建优势函数,引导组装子系统自主调节其动作网络输出,实现协同优化,克服控制策略方差大、收敛慢等问题.最终,仿真结果证明该方法的有效性.