【深度强化学习】DQN, Double DQN, Dueling DQN

DQN, DDQN, Dueling DQN

x66ccff

2004人浏览 · 2023-12-16 16:22:23

x66ccff · 2023-12-16 16:22:23 发布

在这里插入图片描述

DQN

更新方程

$Qθ(st,at)←Qθ(st,at)+α(rt+γmax⁡a′Qθ(st+1,a′)−Qθ(st,at))Q_\theta(s_t,a_t) \leftarrow Q_\theta(s_t,a_t) + \alpha \left( r_t + \gamma \red{\max_{a'} Q_\theta(s_{t+1},a')} - Q_{\theta}(s_t,a_t)\right)$

缺点：

频繁更新，算法不稳定
数据并不满足 i.i.d.

解决方法

经验回放
双网络结构（评估网络、目标网络）

经验回放

直觉：利用记忆，降低方差，增加稳定性。
做法：训练过程中存储 $(s, a, r, s^{'})$ 到 buffer，训练的时候均匀/非均匀采样

优先经验回放（PER）

直觉：样本的TD 误差也不同，并且样本数量也不同。
如：打游戏，一般的关卡打小怪，比较容易，TD loss 很小，训练样本也多；最后一关打boss，难度大， TD loss 大，训练样本也少。
因此我们需要调整样本的采样概率，TD loss 大的样本给更大的采样概率，并给较小的学习率。
我们存储数据到 Buffer 的时候，还额外存储一个采样概率 $pt+ϵp_t +\epsilon$

$pt=∣δt∣p_t = |\delta_{t}|$
$δt\delta_{t}$ 代表这个样本的TD loss

选中概率
$P(t)=ptα∑kpkαP(t)=\frac{p_t^\alpha}{\sum_k p_k^\alpha}$

重要性采样调整学习率
$ωt=(N×P(t))−βmax⁡iωi\omega_t = \frac{(N\times P(t))^{-\beta}}{\max_i \omega_i}$

双网络结构

直觉：避免使用自举法，自己评价自己。这样 label 背后的机制在一段时间内总是稳定的，部分解决了DQN的偏差大的问题。
用慢 Q 网络计算 TD target
$r_t + \gamma \red{\max_{a'} Q_{\theta-}(s_{t+1},a')}$

Double DQN

但是使用了双网络（慢Q用来计算 TD target）之后，由于仍然使用 max 操作，会有**过估计的问题，导致算法容易过于自信，**高估 $q_*(s,a)$ 的值。因此使用 Double DQN，对 TD target 的 max 重写为 argmax 的形式

DQN（快慢双Q、慢Q计算TD）
$yt=rr+γQθ−(st+1,arg⁡max⁡a′Qθ−(st+1,a′))y_t = r_r + \gamma \red{Q_{\theta -}(s_{t+1},\arg \max_{a'}\blue{ Q_{\theta -}}(s_{t+1},a'))}$

Double DQN（快慢双Q、慢Q只评估TD值、快Q计算max动作）
$yt=rr+γQθ−(st+1,arg⁡max⁡a′Qθ(st+1,a′))y_t = r_r + \gamma \red{Q_{\theta -}(s_{t+1},\arg \max_{a'}\green{Q_{\theta}}(s_{t+1},a'))}$

Dueling DQN

我们继续往 Double DQN 里面引入另外的模型假设，就有可能继续提升模型的性能：

这里的假设/直觉是：
部分环境反馈 Q 可能仅与状态 s 有关，和 a 无关。换句话说： $Q(s,a_1)$ 和 $Q(s,a_2)$ 之间并不是完全无关的，对于部分反馈，他们之间是正相关的。
例子：

s = 小明考试得 0 分
a1 = 小明不做任何事
a2 = 小明和妈妈说“妈妈我爱你”

Q(s,a1) < 0 这是显然的
Q(s,a2) < 0 也同样有很大可能发生

在上面的例子中，如果我们独立地估计两个值，那么在估计第二个 Q 值的时候，TD loss 会比没有使用 Dueling 大（因为 Dueling 已经可以用 $V (s)$ 作为一个 baseline 估计），因为在这个场景下，Q 很大程度由 s 决定，如果能整体地学习 Q 关于 a 的加权函数，比如说 $∑aπ(a∣s)Q(s,a)\sum_a \pi(a|s) Q(s,a)$ ，也就是 $V (s)$ ，那么可以预期模型的收敛速度会加快。

在这里插入图片描述
因此，Dueling DQN 使用两个网络，Q被表示为两个网络的输出的和
$Q (s, a) = A (s, a) + V (s)$
这里 $A$ 被称作优势函数， $A$ 相对于单纯的 $Q$ 更强调动作 $a$ 的好坏，而 $V$ 只关注状态的好坏。

不同的优势函数聚合形式

在这里插入图片描述

九章云极普惠算力

更多推荐

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

gpt-repository-loader与提示优化指标设计：关键绩效

gpt-repository-loader 是一个革命性的命令行工具，专为AI语言模型设计，能够将完整的Git仓库转换为LLM友好的文本格式。这个工具保留了文件结构和内容，让AI模型能够高效处理代码库信息，为代码审查、文档生成等任务提供强大支持。在AI开发领域，提示优化已成为提升模型性能的关键环节，而gpt-repository-loader正是实现这一目标的重要工具。## 🤖 什么是gpt

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程