强化学习问题的目标是依据策略执行一系列合适的动作以最大化累计回报。强化学习的算法主要分成三类:基于值函数的方法、基于策略的方法和演员-评论家方法。也就是说,可以通过逼近值函数再利用ϵ−greedy\epsilon-greedyϵgreedy或者BoltzamannBoltzamannBoltzamann分布策略间接的确定策略,也可以建立策略函数,将策略参数化,还可以结合这两类方法既学习值函数,又学习策略。
在这里插入图片描述

更多推荐