强化学习的数学原理-06随即近似理论和随机梯度下降

wa的一声哭了

882人浏览 · 2024-10-29 14:01:47

wa的一声哭了 · 2024-10-29 14:01:47 发布

文章目录

Robbins-Monro algorithm
Stochastic gradient descent
BGD、MBGD、 and SGD
Summary

Robbins-Monro algorithm

迭代式求平均数的算法

$\; approximation \;(SA)$ ：是指随机迭代的一类算法,进行求解方程或者优化的问题, $S A$ 的优势是不需要知道方程或目标函数的表达式,自然也不知道导数、梯度之类的信息.

$\; algorithm$

是 $\; approximation(SA)$ 领域具有开创性的工作
大名鼎鼎的 $\; gradient \; descent$ 是 $RM$ 算法的一种特殊情况

下面看一个求解方程问题

$\; w \in \mathbb{R} \; is \; the \; variable \; to \; be \; solved ,g \; is \;\mathbb{R} \rightarrow \mathbb{R} \; function$

如果 $g$ 的表达式已知,那么就有很多种算法可以求解
另一种是表达式未知的情况，就比如神经网络,这样的问题就可以用RM算法求解

下面就看一下RM算法如何解决上面的问题

我们的目标是求解 $g (w) = 0,$ 最优解 $w^*$

$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta),k=1,2,3,...$

$w_k$ 是对方程根的第 $k$ 次估计
$\tilde{g}(w_k,\eta)=g(w_k)+\eta_k$ ， $\tilde{g}$ 是对 $g$ 的一个有噪音观测， $\eta_k$ 是一个噪音
$a_k$ 是一个正系数

函数 $g (w)$ 就是作为一个黑盒 $\; box)$ ，这个算法求解依赖于数据 $d a t a$

$input \;sequence:{w_k}$
$\; output \; sequence:{\tilde{g}(w_k,\eta_k)}$

下面是关于 $RM$ 算法收敛性的一些数学解释

下面看如何把 $RM$ 算法应用到 $\; estimation$ 里面

$\mathbb{E}_n = \frac{\sum_{i=1}^nx_i}{n}=\frac{\sum_{i=1}^{n-1}x_i+x_n}{n}=\frac{(n-1)\mathbb{E_{n-1}} + x_n}{n}=\mathbb{E}_{n-1}+\frac{x_n-\mathbb{E}_{n-1}}{n}$

这是最开始介绍的 $\; estimation$

$w_{k+1} = w_k + \alpha(x_k-w_k)$

当时 $\alpha=\frac{1}{k}$ ，最开始当 $\alpha=\frac{1}{k}$ 时，可以显示的写出 $w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_i$ ,但当 $\alpha \neq \frac{1}{k}$ 时,当时无法分析 $w_{k+1}$ 的收敛性，根据 $RM$ 算法可以知如果这个 $\; estimation$ 是一种特殊的 $RM$ 算法，那么 $w_{k+1}$ 就会收敛

下面就看一下这个 $\; estimation$ 是不是一个 $RM$ 算法

考虑这样一个函数 $g(w)=w-\mathbb{E}[X]$ ,我们的目标是求 $g (w) = 0$ ，如果能解决这个问题，就能得到 $\mathbb{E}[X]$

$\mathbb{E}[X]$ 显示我们是不知道的（也是我们想要去求解的），但是我们可以对 $X$ 进行采样也就是可以获得 $\tilde{g}(w,x)=w-x$

$\tilde{g}(w,\eta)=w-x=w-x+\mathbb{E}[X]-\mathbb{E}[X]=(w-\mathbb{E}[X])+(\mathbb{E}[X]-x)=g(w)+\eta$

相对应的 $RM$ 算法

$w_{k+1}=w_k-\alpha_k\tilde{g}(w_k, \eta_k)=w_k-\alpha_k(w_k-x_k)$

上面的这个式子就是所给出的 $\; estimation$ 的算法

Stochastic gradient descent

$SG D$ 算法主要是去解决优化问题

$\min_w J(w)=\mathbb{E}[f(w,X)]$

$w$ 是一个待优化的参数
$X$ 是一个随机变量,期望 $(e x p ec t i o n)$ 是对 $X$ 求的

求解这个问题下面给出3种方法，这三种方法是逐渐递进的

$\; 1:gradient \; descent(GD) \; 梯度下降$

如果要最大化一个函数可以用梯度上升

$w_{k+1}=w_k-\alpha_k\nabla_w\mathbb{E}[f(w_k, X)]=w_k-\alpha_k\mathbb{E}[\nabla_wf(w_k,X)]$

$\alpha_k$ 被称为步长，是用来控制在梯度方向下降的快还是慢的
这里要对梯度求期望，我们就需要模型或者数据两者其中之一

$\; 2:batch \;gradient \; descent(BGD) \; 批量梯度下降$

$\mathbb{E}[\nabla_wf(w_k,X)] \approx \frac{1}{n}\sum_{i=1}{n}\nabla f(w_k,x_i)$

$w_k+1=w_k-\alpha_k \frac{1}{n}\sum_{i=1}{n}\nabla f(w_k,x_i)$

这个其实就是我们之前学习的蒙特卡洛的思想,思想比较简单，但是缺点是在每次更新 $w_k$ 时，都需要采样很多次

$\; 3:stochastic \;gradient \; descent(SGD) \; 随机梯度下降$

$w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k)$

注意 $G D$ 公式中的 $X$ 变成了对 $X$ 的一次采样 $x_k$

在 $G D$ 中用的是 $\; gradient \; \mathbb{E}[\nabla_wf(w_k,X)]$ ，但是这个真正的梯度是不知道的，所以就用一个 $\; gradient \; \nabla_w f(w_k, x_k)$ 来代替,，之所以被称为 $s t oc ha s t i c$ 是因为这里面有一个对 $X$ 随机的采样
和 $BG D$ 相比， $SG D$ 就是把 $BG D$ 中的 $n$ 变成了 $1$

下面是一个用 $SG D$ 优化的例子

$\min_w J(w)=\mathbb{E}[f(w,X)]=E\left[ \frac{1}{2}\mid\mid \mid w - X \mid \mid^2 \right]$

$\; f(w,X)=\frac{1}{2}\mid\mid \mid w - X \mid \mid^2 \quad \nabla f(w,X)=w-X$

这个问题的解 $w^* =\mathbb{E}[X]$

下面是推导：

我们知道 $J (w)$ 要达到最小值，有一个必要条件,就是对 $J (w)$ 求梯度应该等于 $0$ ,也就是

$\nabla J(w) = \nabla \mathbb{E}[f(w,X)]= \mathbb{E}[\nabla f(w,X)]=\mathbb{E}[w-X]=w-\mathbb{E}[X]=0$

于是

$w^*=\mathbb{E}[X]$

$G D 算法：$

$\begin{align} w_{k+1} &= w_k - \alpha_k \nabla_w J(w_k) \\ &= w_k - \alpha_k \mathbb{E}[\nabla_wf(w_k,X)] \\ &= w_k - \alpha_k\mathbb{E}[w_k-X] \end{align}$

$SG D 算法：$

$w_{k+1}=w_k-\alpha_k \nabla_wf(w_k,x_k)=w_k-\alpha (w_k - x_k)$

从 $G D$ 到 $SG D$

$w_{k+1}=w_k-\alpha_k \mathbb{E}[\nabla_wf(w_k),X]$

$w_{k+1}=w_k-\alpha_k \nabla_wf(w_k),x_k$

直接用 $\; gradient$ 去近似 $\; gradient$

既然是近似两者之间存在有误差,那么两者之间的关系如下

$\nabla_w f(w_k,x_k) = \mathbb{E}[\nabla_w f(w,X)] +\nabla_w f(w_k,x_k) - \mathbb{E}[\nabla_wf(w,X)]$

$\nabla_w f(w_k,x_k) \neq \mathbb{E}[\nabla_w f(w,X)]$

那么 $SG D$ 能否找到最优解呢？也就是 $SG D 算法$ 能否收敛

可以通过证明 $SG D 算法$ 是 $RM 算法$ 解决这个问题

于是我们可以用 $RM$ 算法的收敛性来分析 $SG D$ 算法的收敛性

结论：当 $w_k$ 和 $w^*$ 距离比较远时， $SG D$ 和 $G D$ 的行为是比较类似的

BGD、MBGD、 and SGD

可以认为 $MBG D$ 包括了 $SG D$ 和 $BG D$

当 $mini - ba t c h$ 为 $1$ 的时候就变成了 $SG D$

当 $mini - ba t c h$ 比较大的时候就变成了 $BG D$

相比于 $SG D$ , $MBG D$ 的随机性比较小，因为用了更多的数据去代替一个数据.

相比于 $BG D$ , $MBG D$ 的随机性会比较大，需要的数据又比较少，效率和性能是比较高的.

Summary

$\; estimation：$ 使用一组数 ${x_k}$ 计算 $\mathbb{E}[X]$ ， $w_{k+1} = w_k + \frac{1}{k}(w_k-x_k)$
$RM 算法$ ： $\; g(w)=0 \; using \; {\tilde{g}(w_k,\eta_k)}$ ， $w_k{k+1}=w_k-a_k{\tilde{g}(w_k,\eta_k)}$
$\; J(w)=\mathbb{E}[f(w_k, X)]，using \; {\nabla_wf(w_k,x_k)}, \; w_{k+1}=w_k-\alpha_k \nabla_w f(w_k, x_k)$

九章云极普惠算力

更多推荐

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

终极指南：如何用facenet-pytorch快速构建企业级人脸识别系统

在当今数字化时代，人脸识别技术已成为身份验证、安全监控和智能交互的核心驱动力。facenet-pytorch作为一款基于PyTorch的开源人脸识别工具包，凭借其高效的MTCNN人脸检测和InceptionResnetV1特征提取能力，为开发者提供了从零构建专业级人脸识别系统的完整解决方案。本文将带你一步步探索这个强大工具的使用方法，从环境搭建到实际应用，让你在短时间内掌握人脸识别的核心技术。