Consolidation via Policy Information Regularization in Deep RL for Multi-Agent Games

Tyler Malloy,Tim Klinger,Miao Liu,Matthew Riemer,Gerald Tesauro,Chris R. Sims

arxiv（2020）

引用 0|浏览63

暂无评分

摘要

This paper introduces an information-theoretic constraint on learned policy complexity in the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) reinforcement learning algorithm. Previous research with a related approach in continuous control experiments suggests that this method favors learning policies that are more robust to changing environment dynamics. The multi-agent game setting naturally requires this type of robustness, as other agents' policies change throughout learning, introducing a nonstationary environment. For this reason, recent methods in continual learning are compared to our approach, termed Capacity-Limited MADDPG. Results from experimentation in multi-agent cooperative and competitive tasks demonstrate that the capacity-limited approach is a good candidate for improving learning performance in these environments.

查看译文

关键词

policy information regularization,deep rl,consolidation,multi-agent

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要