强化学习6——Policy-based RL（MC policy gradient）

Policy-based RL思路基于MC采样的更新方法：特点无偏但是噪声大，噪声是因为它是随机采样的，好的结果和坏的结果差距较大。解决噪声问题use temporal causality在时序上处理（REINFORCE）上式梯度更新变为下式，某时刻的奖励只与当前时刻相关，这样可以减少无必要的相关性：include a baseline再将上式变为下式，减去一个bias，这个bias可以取值为期望

菜且凶残_2017

656人浏览 · 2020-12-18 15:47:44

菜且凶残_2017 · 2020-12-18 15:47:44 发布

文章目录

Policy-based RL

Policy-based RL

思路

基于MC采样的更新方法：

在这里插入图片描述

特点

无偏但是噪声大，噪声是因为它是随机采样的，好的结果和坏的结果差距较大。

解决噪声问题

use temporal causality

在时序上处理（REINFORCE）

在这里插入图片描述

上式梯度更新变为下式，某时刻的奖励只与当前时刻相关，这样可以减少无必要的相关性：

在这里插入图片描述

include a baseline

在这里插入图片描述

再将上式变为下式，减去一个bias，这个bias可以取值为期望，这样就可以平均一些很离谱的价值：

在这里插入图片描述

可以将b取为：在这里插入图片描述

方法

MC policy gradient

  （采样）这里首先假设一个马尔科夫过程，我们对这个马尔科夫链进行采样如下
$\tau=\left(s_{0}, a_{0}, r_{1}, \ldots s_{T-1}, a_{T-1}, r_{T}, s_{T}\right) \sim\left(\pi_{\theta}, P\left(s_{t+1} \mid s_{t}, a_{t}\right)\right)$

  （要优化的函数） $J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} R\left(s_{t}, a_{t}\right)\right]=\sum_{\tau} P(\tau ; \theta) R(\tau)$
（其中 $R(\tau)=\sum_{t=0}^{T-1} R\left(s_{t}, a_{t}\right)$ ， $P(\tau ; \theta)=\mu\left(s_{0}\right) \prod_{t=0}^{T-1} \pi_{\theta}\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right)$ ）

  （要优化的目标） $\theta^{*}=\underset{\theta}{\arg \max } J(\theta)=\underset{\theta}{\arg \max } \sum_{\tau} P(\tau ; \theta) R(\tau)$

  （用于优化的梯度） $\nabla_{\theta} J(\theta)=\sum_{\tau} P(\tau ; \theta) R(\tau) \nabla_{\theta} \log P(\tau ; \theta)$

  （用MC蒙特卡洛采样的方法近似梯度） $\nabla_{\theta} J(\theta) \approx \frac{1}{m} \sum_{i=1}^{m} R\left(\tau_{i}\right) \nabla_{\theta} \log P\left(\tau_{i} ; \theta\right)$

   （分解核函数) $\nabla_{\theta} \log P(\tau ; \theta) =\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)$

   （最后的近似梯度，amazing！！！） $\nabla_{\theta} J(\theta) \approx \frac{1}{m} \sum_{i=1}^{m} R\left(\tau_{i}\right) \sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_\theta\left(a_{t}^{i} \mid s_{t}\right)$
从上面MC近似的梯度来看，这里并不一定需要model-base。