强化学习的数学原理赵世钰笔记第三节贝尔曼最优公式

vsmax⁡π∑aπa∣sqsas∈Svsπmaxa∑πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmax⁡πrπγPπvvπmaxrπγPπv。

tj_hjx

764人浏览 · 2025-10-26 21:57:57

tj_hjx · 2025-10-26 21:57:57 发布

bellman optimality equation (BOE)
上一章[[贝尔曼公式]]

Optimal policy

即找到一个policy在任意state都比其他的policy更好。下面是一些问题：

存在性
唯一性
确定性
如何得到
通过研究bellman optimality equation

BOE定义

贝尔曼最优公式： $\max_\pi \sum_a \pi(a|s)q(s,a), s \in S$ 在其中需要先找到最优的policy。
矩阵向量形式就是加上最优的bellman公式的矩阵向量形式 $\max_\pi(r_\pi+\gamma P_\pi v)$

分析

定义上述公式认为是 $v$ 的一个公式 $f (v)$ ，即可得到 $v = f (v)$ ，其中 $[f(v)]s=max⁡π∑aπ(a∣s)q(s,a),s∈S[f(v)]_s=\max_\pi \sum_a \pi(a|s)q(s,a), s \in S$ .
其中 $f (v)$ 满足下面的收缩映射定理

Contraction mapping theorem

Fixed point不动点：对于 $\in X$ 是 $\rightarrow X$ 不动点，要求 $f (x) = x$ 。
直观理解就是存在一个点经过f映射仍是他自己。
Contraction mapping （or contraction function）:如果f是一个收缩映射，那么 $∥f(x1)−f(x2)∥≤γ∥x1−x2∥,其中γ∈(0,1)\|f(x_1)-f(x_2)\| \le \gamma \|x_1 - x_2\|, 其中 \gamma \in (0,1)$ 直观理解就是收缩。
Contraction mapping theorem收缩映射定理：
对于任意有 $x = f (x)$ 形式的公式，如果 $f$ 是一个收缩映射，则有
- 存在性：必然存在一个不动点 $x^*$ 满足 $f(x^*) = x^*$ .
- 唯一性：不动点 $x^*$ 是唯一的。
- 求解：迭代求解，对于 $x_{k+1} = f(x_k)$ ，当 $\to \infty$ 时， $xk→x∗x_k \to x^*$ 。
- 推导没有

求解

直接使用上述constraction mapping theorem进行迭代求解

最优性

没讲证明，单纯陈述了了一个求解Bellman optimality equation得到的 $v^*$ 对应的策略是 $π∗\pi^*$ 。
其中 $v∗≥vπ,∀πv^* \ge v_\pi, \forall \pi$ .
而最优策略Greedy Optimal Policy： $∀s∈S\forall s \in S$ ，the deterministic greedy 的policy是 $\pi^*(a|s) = \begin{cases} 1 & \text{if } a = a^*(s) \\ 0 & \text{if } a \neq a^*(s) \end{cases}$

利用最优性策略

影响最优策略的因素是什么？ $\max_{\pi} \sum_a \pi (a|s) \left( \sum_{r} p(r \mid s,a) \cdot r + \gamma \sum_{s'} p(s' \mid s,a) \cdot v(s') \right)$
由上述贝尔曼最优公式可以看出，影响因素包括：

回报设计：r 很直观的影响
系统模型： $\mid s,a)$ ， $\mid s,a)$
discount rate： $γ\gamma$ ，模型的远见（越大，接近1），短视（越小，接近0）
其他参数是未知数，待求

Optimal Policy Invariance
直观说就是对所有的回报r进行仿射变换affine transformation后最终获得的最优策略是相同的。

下一章[[值迭代&策略迭代]]

九章云极普惠算力

更多推荐

超实用Hands-On-Large-Language-Models生成模型调优指南：从原理到Fine-tuning实战

Hands-On-Large-Language-Models是O'Reilly出版的《Hands-On Large Language Models》官方代码仓库，提供了生成模型调优的完整实践方案，涵盖从数据预处理到模型训练、量化优化的全流程技术。本指南将带你快速掌握生成模型调优的核心方法，通过简单步骤实现模型性能提升。## 生成模型调优的核心价值与应用场景 🚀生成模型调优（Fine-tu

九章云极普惠算力

doggo JSON 输出与脚本集成：如何自动化 DNS 监控和诊断

Doggo 是一款面向人类的命令行 DNS 客户端，用 Golang 编写。它提供了灵活的输出格式，从人类可读的彩色输出到机器可解析的 JSON 格式，满足不同场景的需求。本文将详细介绍如何利用 doggo 的 JSON 输出功能，实现 DNS 监控和诊断的自动化脚本集成。### 为什么选择 JSON 输出？在进行 DNS 监控和诊断时，我们常常需要处理大量的 DNS 响应数据，并进行分析

九章云极普惠算力

Nano-vLLM与vLLM性能对比：为什么这个轻量级引擎能实现1434 tokens/s的吞吐量

Nano-vLLM是一款轻量级大语言模型推理引擎，专注于提供极致的吞吐量性能。在相同硬件条件下，这款轻量级引擎实现了高达1434 tokens/s的惊人吞吐量，为开发者和企业提供了更高效、更经济的AI推理解决方案。## 🌟 认识Nano-vLLM：轻量级高性能推理引擎[![Nano-vLLM标志](https://raw.gitcode.com/GitHub_Trending/na/na