多智能体强化学习论文——G2ANet(AAAI 2020)
存在的问题&研究动机&研究思路创新点算法框图实验some points
·
存在的问题&研究动机&研究思路
- 大规模多智能体的博弈关系复杂,导致了策略学习困难。因此,简化学习过程是重要的研究点。
- 早期工作主要集中在耦合多智能体系统、game abstraction和知识迁移来加速多智能体的学习过程。受限制。
- 再后来,近期工作,通过某种提前定义好的规则来定义智能体之间的交互关系。困难。
- 本文提出用端到端的模型自动学习智能体之间的交互关系。
创新点
- 基于两阶段注意力网络(G2ANet),提出了一种新的game abstraction算法。
- hard-attention用来切某些智能体之间的连接,其输出是one-hot vector,并且其参数原本不可导,需要引入gumbel-softmax。
- soft-attention就像MAAC等算法那样,给出存在边的智能体之间的权重。
- 随后可以用GNN将智能体的vector representation表示出来。
- 分别结合策略网络和值网络,提出了 GA-Comm和GA-AC。
算法框图



some points
- game abstraction:主要思想是简化马尔可夫博弈为更简单的决策,降低决策的复杂度,降低策略的复杂度。
更多推荐


所有评论(0)