强化学习五 || TD算法

回顾TD算法

image-20220219153050864

Sarsa算法

画出一张表格

image-20220219153438648

image-20220219153601040

在计算TD target时,需要查表,找出蓝色圈出的式子

image-20220219153658979

还能通过查表找到TD error

image-20220219153746418

更新权重


如果参数过多,无法画表,则利用神经网络模拟Q函数

image-20220219154110766

image-20220219154234498


Q-learning

Q-learning和sarsa算法的区别是,Q-learning学习Q*函数,要求最大化

image-20220219154957733

image-20220219155406090

image-20220219155749870

我们可以通过查表找出蓝色框出来的最大值

image-20220219155823031

image-20220219155850748


神经网络形式的Q-learning

image-20220219160045615


Multi-Step Return 批量梯度更新

image-20220219214853491

还可以继续递归下去,然后得到多步回报公式

image-20220219215122744

image-20220219215311385

image-20220219215419042

多步TD target往往比 一步的效果要好

更多推荐