强化学习算法

强化学习问题的目标是依据策略执行一系列合适的动作以最大化累计回报。强化学习的算法主要分成三类：基于值函数的方法、基于策略的方法和演员-评论家方法。也就是说，可以通过逼近值函数再利用ϵ−greedy\epsilon-greedyϵ−greedy策略间接的确定策略，也可以建立策略函数，将策略参数化，还可以结合这两类方法既学习值函数，又学习策略。...

不负韶华ღ

3185人浏览 · 2022-04-22 10:04:12

不负韶华ღ · 2022-04-22 10:04:12 发布

强化学习问题的目标是依据策略执行一系列合适的动作以最大化累计回报。强化学习的算法主要分成三类：基于值函数的方法、基于策略的方法和演员-评论家方法。也就是说，可以通过逼近值函数再利用 $ϵ−greedy\epsilon-greedy$ 或者 $B o l t z a m a n n$ 分布策略间接的确定策略，也可以建立策略函数，将策略参数化，还可以结合这两类方法既学习值函数，又学习策略。
在这里插入图片描述