深度强化学习基础:价值学习
强化学习基础:价值学习王树森深度强化学习基础:价值学习No.1 Deep Q-Network (DQN)DQN 是一个价值学习的方法,用一个神经网络去近似Q*函数。DQN 的输入是s,w为神经网络的参数,输出是对每一个动作a的打分。怎么训练DQN呢? 最常用的是TD算法。No.2 Temporal Difference (TD) LearningTD算法即使不完成旅程,也能更新参数。No.3 TD
·
更多推荐
强化学习基础:价值学习王树森深度强化学习基础:价值学习No.1 Deep Q-Network (DQN)DQN 是一个价值学习的方法,用一个神经网络去近似Q*函数。DQN 的输入是s,w为神经网络的参数,输出是对每一个动作a的打分。怎么训练DQN呢? 最常用的是TD算法。No.2 Temporal Difference (TD) LearningTD算法即使不完成旅程,也能更新参数。No.3 TD
更多推荐
所有评论(0)