强化学习的数学原理 赵世钰 笔记 第三节 贝尔曼最优公式
vsmaxπ∑aπa∣sqsas∈Svsπmaxa∑πa∣sqsas∈S在其中需要先找到最优的policy。矩阵向量形式就是加上最优的bellman公式的矩阵向量形式vmaxπrπγPπvvπmaxrπγPπv。
bellman optimality equation (BOE)
上一章[[贝尔曼公式]]
Optimal policy
即找到一个policy在任意state都比其他的policy更好。下面是一些问题:
- 存在性
- 唯一性
- 确定性
- 如何得到
通过研究bellman optimality equation
BOE定义
贝尔曼最优公式:v(s)=maxπ∑aπ(a∣s)q(s,a),s∈Sv(s) = \max_\pi \sum_a \pi(a|s)q(s,a), s \in Sv(s)=πmaxa∑π(a∣s)q(s,a),s∈S在其中需要先找到最优的policy。
矩阵向量形式就是加上最优的bellman公式的矩阵向量形式v=maxπ(rπ+γPπv)v = \max_\pi(r_\pi+\gamma P_\pi v)v=πmax(rπ+γPπv)
分析
定义上述公式认为是vvv的一个公式f(v)f(v)f(v),即可得到v=f(v)v=f(v)v=f(v),其中[f(v)]s=maxπ∑aπ(a∣s)q(s,a),s∈S[f(v)]_s=\max_\pi \sum_a \pi(a|s)q(s,a), s \in S[f(v)]s=maxπ∑aπ(a∣s)q(s,a),s∈S.
其中f(v)f(v)f(v)满足下面的收缩映射定理
Contraction mapping theorem
- Fixed point不动点:对于x∈Xx \in Xx∈X是f:X→Xf:X \rightarrow Xf:X→X不动点,要求f(x)=xf(x) = xf(x)=x。
直观理解就是存在一个点经过f映射仍是他自己。 - Contraction mapping (or contraction function):如果f是一个收缩映射,那么∥f(x1)−f(x2)∥≤γ∥x1−x2∥,其中γ∈(0,1)\|f(x_1)-f(x_2)\| \le \gamma \|x_1 - x_2\|, 其中 \gamma \in (0,1)∥f(x1)−f(x2)∥≤γ∥x1−x2∥,其中γ∈(0,1)直观理解就是收缩。
- Contraction mapping theorem收缩映射定理:
对于任意有x=f(x)x = f(x)x=f(x)形式的公式,如果fff是一个收缩映射,则有- 存在性:必然存在一个不动点x∗x^*x∗满足f(x∗)=x∗f(x^*) = x^*f(x∗)=x∗.
- 唯一性:不动点x∗x^*x∗是唯一的。
- 求解:迭代求解,对于xk+1=f(xk)x_{k+1} = f(x_k)xk+1=f(xk),当k→∞k \to \inftyk→∞时,xk→x∗x_k \to x^*xk→x∗。
- 推导没有
求解
直接使用上述constraction mapping theorem进行迭代求解
最优性
没讲证明,单纯陈述了了一个求解Bellman optimality equation得到的v∗v^*v∗对应的策略是π∗\pi^*π∗。
其中v∗≥vπ,∀πv^* \ge v_\pi, \forall \piv∗≥vπ,∀π.
而最优策略Greedy Optimal Policy:∀s∈S\forall s \in S∀s∈S,the deterministic greedy 的policy是π∗(a∣s)={1if a=a∗(s)0if a≠a∗(s) \pi^*(a|s) = \begin{cases} 1 & \text{if } a = a^*(s) \\ 0 & \text{if } a \neq a^*(s) \end{cases}π∗(a∣s)={10if a=a∗(s)if a=a∗(s)
利用最优性策略
影响最优策略的因素是什么?v(s)=maxπ∑aπ(a∣s)(∑rp(r∣s,a)⋅r+γ∑s′p(s′∣s,a)⋅v(s′))v(s) = \max_{\pi} \sum_a \pi (a|s) \left( \sum_{r} p(r \mid s,a) \cdot r + \gamma \sum_{s'} p(s' \mid s,a) \cdot v(s') \right)v(s)=πmaxa∑π(a∣s)(r∑p(r∣s,a)⋅r+γs′∑p(s′∣s,a)⋅v(s′))
由上述贝尔曼最优公式可以看出,影响因素包括:
- 回报设计:r 很直观的影响
- 系统模型:p(r∣s,a)p(r \mid s,a)p(r∣s,a),p(s′∣s,a)p(s' \mid s,a)p(s′∣s,a)
- discount rate:γ\gammaγ, 模型的远见(越大,接近1),短视(越小,接近0)
- 其他参数是未知数,待求
Optimal Policy Invariance
直观说就是对所有的回报r进行仿射变换affine transformation后最终获得的最优策略是相同的。
下一章[[值迭代&策略迭代]]
更多推荐

所有评论(0)