bellman optimality equation (BOE)
上一章[[贝尔曼公式]]

Optimal policy

即找到一个policy在任意state都比其他的policy更好。下面是一些问题:

  1. 存在性
  2. 唯一性
  3. 确定性
  4. 如何得到
    通过研究bellman optimality equation

BOE定义

贝尔曼最优公式:v(s)=max⁡π∑aπ(a∣s)q(s,a),s∈Sv(s) = \max_\pi \sum_a \pi(a|s)q(s,a), s \in Sv(s)=πmaxaπ(as)q(s,a),sS在其中需要先找到最优的policy。
矩阵向量形式就是加上最优的bellman公式的矩阵向量形式v=max⁡π(rπ+γPπv)v = \max_\pi(r_\pi+\gamma P_\pi v)v=πmax(rπ+γPπv)

分析

定义上述公式认为是vvv的一个公式f(v)f(v)f(v),即可得到v=f(v)v=f(v)v=f(v),其中[f(v)]s=max⁡π∑aπ(a∣s)q(s,a),s∈S[f(v)]_s=\max_\pi \sum_a \pi(a|s)q(s,a), s \in S[f(v)]s=maxπaπ(as)q(s,a),sS.
其中f(v)f(v)f(v)满足下面的收缩映射定理

Contraction mapping theorem

  1. Fixed point不动点:对于x∈Xx \in XxXf:X→Xf:X \rightarrow Xf:XX不动点,要求f(x)=xf(x) = xf(x)=x
    直观理解就是存在一个点经过f映射仍是他自己。
  2. Contraction mapping (or contraction function):如果f是一个收缩映射,那么∥f(x1)−f(x2)∥≤γ∥x1−x2∥,其中γ∈(0,1)\|f(x_1)-f(x_2)\| \le \gamma \|x_1 - x_2\|, 其中 \gamma \in (0,1)f(x1)f(x2)γx1x2,其中γ(0,1)直观理解就是收缩。
  3. Contraction mapping theorem收缩映射定理:
    对于任意有x=f(x)x = f(x)x=f(x)形式的公式,如果fff是一个收缩映射,则有
    • 存在性:必然存在一个不动点x∗x^*x满足f(x∗)=x∗f(x^*) = x^*f(x)=x.
    • 唯一性:不动点x∗x^*x是唯一的。
    • 求解:迭代求解,对于xk+1=f(xk)x_{k+1} = f(x_k)xk+1=f(xk),当k→∞k \to \inftyk时,xk→x∗x_k \to x^*xkx
    • 推导没有

求解

直接使用上述constraction mapping theorem进行迭代求解

最优性

没讲证明,单纯陈述了了一个求解Bellman optimality equation得到的v∗v^*v对应的策略是π∗\pi^*π
其中v∗≥vπ,∀πv^* \ge v_\pi, \forall \pivvπ,π.
而最优策略Greedy Optimal Policy:∀s∈S\forall s \in SsS,the deterministic greedy 的policy是π∗(a∣s)={1if a=a∗(s)0if a≠a∗(s) \pi^*(a|s) = \begin{cases} 1 & \text{if } a = a^*(s) \\ 0 & \text{if } a \neq a^*(s) \end{cases}π(as)={10if a=a(s)if a=a(s)

利用最优性策略

影响最优策略的因素是什么?v(s)=max⁡π∑aπ(a∣s)(∑rp(r∣s,a)⋅r+γ∑s′p(s′∣s,a)⋅v(s′))v(s) = \max_{\pi} \sum_a \pi (a|s) \left( \sum_{r} p(r \mid s,a) \cdot r + \gamma \sum_{s'} p(s' \mid s,a) \cdot v(s') \right)v(s)=πmaxaπ(as)(rp(rs,a)r+γsp(ss,a)v(s))
由上述贝尔曼最优公式可以看出,影响因素包括:

  • 回报设计:r 很直观的影响
  • 系统模型:p(r∣s,a)p(r \mid s,a)p(rs,a)p(s′∣s,a)p(s' \mid s,a)p(ss,a)
  • discount rate:γ\gammaγ, 模型的远见(越大,接近1),短视(越小,接近0)
  • 其他参数是未知数,待求

Optimal Policy Invariance
直观说就是对所有的回报r进行仿射变换affine transformation后最终获得的最优策略是相同的。

下一章[[值迭代&策略迭代]]

更多推荐