多智能体强化学习论文——G2ANet（AAAI 2020）

存在的问题&研究动机&研究思路创新点算法框图实验some points

条件反射104

1681人浏览 · 2021-09-22 10:08:40

条件反射104 · 2021-09-22 10:08:40 发布

存在的问题&研究动机&研究思路

大规模多智能体的博弈关系复杂，导致了策略学习困难。因此，简化学习过程是重要的研究点。
早期工作主要集中在耦合多智能体系统、game abstraction和知识迁移来加速多智能体的学习过程。受限制。
再后来，近期工作，通过某种提前定义好的规则来定义智能体之间的交互关系。困难。
本文提出用端到端的模型自动学习智能体之间的交互关系。

创新点

基于两阶段注意力网络（G2ANet），提出了一种新的game abstraction算法。
hard-attention用来切某些智能体之间的连接，其输出是one-hot vector，并且其参数原本不可导，需要引入gumbel-softmax。
soft-attention就像MAAC等算法那样，给出存在边的智能体之间的权重。
随后可以用GNN将智能体的vector representation表示出来。
分别结合策略网络和值网络，提出了 GA-Comm和GA-AC。

算法框图

在这里插入图片描述

some points

game abstraction：主要思想是简化马尔可夫博弈为更简单的决策，降低决策的复杂度，降低策略的复杂度。

九章云极普惠算力

更多推荐

cover

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

cover

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

所有评论(0)

查看更多评论

条件反射104

已为社区贡献2条内容