强化学习基础:价值学习

王树森深度强化学习基础:价值学习

No.1 Deep Q-Network (DQN)

DQN 是一个价值学习的方法,用一个神经网络去近似Q*函数。
在这里插入图片描述DQN 的输入是s,w为神经网络的参数,输出是对每一个动作a的打分。
在这里插入图片描述怎么训练DQN呢? 最常用的是TD算法。

No.2 Temporal Difference (TD) Learning

在这里插入图片描述在这里插入图片描述
TD算法即使不完成旅程,也能更新参数。
在这里插入图片描述在这里插入图片描述

No.3 TD Learning for DQN

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

No.4 Summary

在这里插入图片描述在这里插入图片描述

更多推荐