强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）

文章目录前言无模型控制问题思路方法On-Policy learningMCSarsaOff-policy learningQ-learningOn-Policy learning 和 Off-policy learning的区别前言本文是学习周博雷老师的强化学习课程的心得体会。雷大佬的GItHub无模型控制问题当我们不知道 MDP 模型的情况下，如何优化价值函数，得到最佳的策略。思路这里和有模

菜且凶残_2017

1531人浏览 · 2020-12-14 21:47:19

菜且凶残_2017 · 2020-12-14 21:47:19 发布

前言

本文是学习周博雷老师的强化学习课程的心得体会。
雷大佬的GItHub

无模型控制

问题

当我们不知道 MDP 模型的情况下，如何优化价值函数，得到最佳的策略。

思路

这里和有模型的控制策略的估计有一个不同是，我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样的。

大概思路是：初始化一个Q和 $\pi$ ，然后不停的迭代更新Q和 $\pi$ 。注意这里与有模型的控制的区别是，我们直接迭代的Q而不是V，（这是因为没有模型）。

方法

On-Policy learning

On-Policy就是使用同一个police，在迭代中不断的更新。

MC

步骤1：通过MC方法估计Q-table；

MC方法的精髓是采样，这里利用 $\epsilon-Greedy Exploration$ 方法进行采样，选取每一步的动作。

在这里插入图片描述

步骤2：根据估计出的Q-table改善 $\pi$ ；

具体步骤如下：

在这里插入图片描述

具体算法如下：

在这里插入图片描述

Sarsa

sarsa是将control loop中的MC换成TD。

在这里插入图片描述

Off-policy learning

Off-policy learning有两个policy，一个探索policy和一个目标policy，我们用探索policy进行采样计算Q，然后用算出的Q来更新目标policy。

优点：

可以利用别的方面的策略更新另一个方面的策略，比如将人的运动转移到机器人身上。
可以重复利用产生过的policy，节省计算资源。

Q-learning

在这里插入图片描述

On-Policy learning 和 Off-policy learning的区别

On-Policy learning：

始终只有一个policy，只是在迭代中不停的更新。

学出的策略比较保守。

Off-policy learning：

这里有一个探索policy和一个目标policy，我们用探索policy进行采样计算Q，然后用算出的Q来更新目标policy。

学出的策略比较激进。

sarsa和Q-learning的区别：

在这里插入图片描述

九章云极普惠算力

更多推荐

Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式

九章云极普惠算力

毕设开源基于深度学习的人脸识别【全网最详细】

本文介绍了一个基于深度学习的人脸识别毕业设计项目。首先概述了人脸识别的常用实现技术，包括基于几何特征的方法、初级神经网络方法和深度学习方法，并分析了各自优缺点。接着重点探讨了人脸识别算法的三大缺陷：光照影响、姿态变化和数据规模问题。随后详细阐述了人脸识别的完整流程，包括数据集准备、对齐处理、仿射变换、目标检测、特征提取（介绍了DeepFace、FaceNet等模型）和特征分类（欧氏距离、余弦距离等