强化学习五 || TD算法
强化学习五 || TD算法回顾TD算法Sarsa算法画出一张表格在计算TD target时,需要查表,找出蓝色圈出的式子还能通过查表找到TD error更新权重如果参数过多,无法画表,则利用神经网络模拟Q函数Q-learningQ-learning和sarsa算法的区别是,Q-learning学习Q*函数,要求最大化我们可以通过查表找出蓝色框出来的最大值神经网络形式的Q-learningMulti
·
更多推荐
强化学习五 || TD算法回顾TD算法Sarsa算法画出一张表格在计算TD target时,需要查表,找出蓝色圈出的式子还能通过查表找到TD error更新权重如果参数过多,无法画表,则利用神经网络模拟Q函数Q-learningQ-learning和sarsa算法的区别是,Q-learning学习Q*函数,要求最大化我们可以通过查表找出蓝色框出来的最大值神经网络形式的Q-learningMulti
更多推荐
所有评论(0)