【深度学习】神经正切核(NTK)理论

本文来自于《Theory of Deep Learning》，主要是对神经正切核(NTK)理论进行介绍。这里主要是补充了一些基本概念以及部分推导过程。作为软件工程出身，数学不是特别好，有些基础知识和推导步骤没办法一次补足。若有机会，后续会逐步补全缺失的部分。设X1,…,XnX_1,\dots,X_nX1,…,Xn为nnn个独立的随机变量，且XiX_iXi的边界为[ai,bi][a_i,b

BQW_

2758人浏览 · 2024-01-02 14:48:57

BQW_ · 2024-01-02 14:48:57 发布

神经正切核理论

本文来自于《Theory of Deep Learning》，主要是对神经正切核(NTK)理论进行介绍。这里主要是补充了一些基本概念以及部分推导过程。作为软件工程出身，数学不是特别好，有些基础知识和推导步骤没办法一次补足。若有机会，后续会逐步补全缺失的部分。

一、基础知识

1. Hoeffding不等式

设 $X1,…,XnX_1,\dots,X_n$ 为 $n$ 个独立的随机变量，且 $X_i$ 的边界为 $a_i,b_i]$ 。令 $Xˉ=1n∑i=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i$ ，则有
$P(|\bar{X}-E(\bar{X})|\geq t)\leq \exp\Big(-\frac{2n^2t^2}{\sum_{i=1}^n(b_i-a_i)^2}\Big) \\$

2. Boole不等式

令 $A_i$ 表达第 $i$ 个随机事件，那么有
$P\Big(\cup_i A_i\Big)\leq\sum_i P(A_i) \\$
即至少一个事件发生的概率不大于单独事件发生概率之和。

3. 核函数与核回归

核函数。 设 $X\mathcal{X}$ 是输入空间， $H\mathcal{H}$ 是特征空间，若存在一个从 $X\mathcal{X}$ 至 $H\mathcal{H}$ 的映射

$\phi(\textbf{x}):\mathcal{X}\rightarrow\mathcal{H} \\$
使得对所有的 $x,z∈X\textbf{x},\textbf{z}\in\mathcal{X}$ ，函数 $k(x,z)k(\textbf{x},\textbf{z})$ 均满足
$k(\textbf{x},\textbf{z})=\langle \phi(\textbf{x}),\phi(\textbf{z})\rangle \\$
则称 $k(x,z)k(\textbf{x},\textbf{z})$ 是核函数， $ϕ(x)\phi(\textbf{x})$ 是映射函数， $⟨ϕ(x),ϕ(z)⟩\langle \phi(\textbf{x}),\phi(\textbf{z}) \rangle$ 表示 $ϕ(x)\phi(\textbf{x})$ 和 $ϕ(z)\phi(\textbf{z})$ 的内积。核函数的作用是特征映射后求内积，但是不一定需要显示进行映射。

高斯核是一种常见的核函数，定义为
$k(\textbf{x},\textbf{z})=\exp(-\gamma\parallel \textbf{x}-\textbf{z}\parallel^2) \\$
其可以将特征映射至无穷维，因此
$\begin{align} \exp(-\parallel \textbf{x}-\textbf{z}\parallel^2)&=\exp(-\textbf{x}^\top\textbf{x}-\textbf{z}^\top\textbf{z}+2\textbf{x}^\top\textbf{z}) \\ &=\exp(-\textbf{x}^\top\textbf{x})\exp(\textbf{z}^\top\textbf{z})\exp(2\textbf{x}^\top\textbf{z}) \\ &=\exp(-\textbf{x}^\top\textbf{x})\exp(\textbf{z}^\top\textbf{z})\Big(\sum_{k=0}^{\infty}\frac{(2\textbf{x}^\top\textbf{z})^k}{k!}\Big) \\ &=\sum_{k=0}^{\infty}\Big[ \exp(-\textbf{x}^\top\textbf{x})\exp(-\textbf{z}^\top \textbf{z})\sqrt{\frac{2^k}{k!}}\sqrt{\frac{2^k}{k!}}(\textbf{x}^k)^\top(\textbf{z}^k) \Big] \\ &=\phi(\textbf{x})^\top\phi(\textbf{z}) \end{align} \\$
（上式第三等号使用了Taylor展开 $exp⁡(2x⊤z)=∑0∞(2x⊤z)kk!\exp(2\textbf{x}^\top\textbf{z})=\sum_{0}^{\infty}\frac{(2\textbf{x}^\top\textbf{z})^k}{k!}$ ）

基于上式可以得到高斯核的映射函数为
$\phi(\textbf{x})=\exp(-\textbf{x}^\top\textbf{x})\Big( 1,\sqrt{\frac{2^1}{1!}}\textbf{x}^1,\sqrt{\frac{2^2}{2!}}\textbf{x}^2,\dots,\sqrt{\frac{2^k}{k!}}\textbf{x}^k,\dots \Big) \\$

核回归。核回归是经典的非线性回归算法。给定训练集 $(X,y)={(xi,yi)}i=1n(\textbf{X},\textbf{y})=\{(\textbf{x}_i,y_i)\}_{i=1}^n$ ，其中 $xi\textbf{x}_i$ 是输入数据， $yi=f(xi)y_i=f(\textbf{x}_i)$ 是对应的标量标签，核回归的目标是构建一个估计函数
$f^(x)=∑i=1n(K−1y)ik(xi,x) \hat{f}(\textbf{x})=\sum_{i=1}^n(\textbf{K}^{-1}\textbf{y})_i k(\textbf{x}_i,\textbf{x}) \\$
其中 $K\textbf{K}$ 是 $n×nn\times n$ 的核矩阵，该矩阵的每个分量为 $Kij=k(xi,xj)\textbf{K}_{ij}=k(\textbf{x}_i,\textbf{x}_j)$ ， $k$ 是对称半正定核函数。

直觉上，核回归对于任意数据点 $x\textbf{x}$ 的估计值可以看做是训练数据 $xi\textbf{x}_i$ 与 $x\textbf{x}$ 的相似性作为权重，然后对训练标签 $y_i$ 进行加权求和。

二、预测的演化方程

设神经网络的输出表示为 $f(w,x)∈Rf(w,x)\in\mathbb{R}$ ，其中 $w∈RNw\in\mathbb{R}^N$ 是网络中的所有参数， $x∈Rdx\in\mathbb{R}^d$ 是输入。给定训练数据 ${(xi,yi)}i=1n⊂Rd×R\{(x_i,y_i)\}_{i=1}^n\subset\mathbb{R}^d\times\mathbb{R}$ ，通过最小化训练数据上的均方误差来训练神经网络：
$\mathcal{l}(w)=\frac{1}{2}\sum_{i=1}^n(f(w,x_i)-y_i)^2 \tag{1} \\$
这里主要研究梯度流(gradient flow)，也就是极小学习率的梯度下降。在上面的例子中，预测的动力学可以描述为常微分方程：
$\frac{d w(t)}{dt}=-\nabla\mathcal{l}(w(t)) \tag{2} \\$

引理1

令 $u(t)=(f(w(t),xi))i∈[n]∈Rnu(t)=(f(w(t),x_i))_{i\in[n]}\in\mathbb{R}^n$ 表示神经网络在时刻 $t$ 的所有输出 $x_i'$ ， $y=(yi)i∈[n]y=(y_i)_{i\in[n]}$ 是标签。 $u (t)$ 的演化遵循
$\frac{du(t)}{dt}=-H(t)\cdot(u(t)-y) \tag{3} \\$
其中， $H (t)$ 是 $n×nn\times n$ 的半正定矩阵，其第 $(i, j)$ 个元素是 $⟨∂f(w(t),xi)∂w,∂f(w(t),xj)∂w⟩\langle\frac{\partial f(w(t),x_i)}{\partial w},\frac{\partial f(w(t),x_j)}{\partial w}\rangle$ 。

证明。参数 $w$ 的演化是基于下面的微分方程
$\frac{dw(t)}{dt}=-\nabla\mathcal{l}(w(t))=-\sum_{i=1}^n(f(w(t),x_i)-y_i)\frac{\partial f(w(t),x_i)}{\partial w} \tag{4} \\$
其中 $t≥0t\geq 0$ 是连续的时间坐标。基于等式(4)，网络输出 $f(w(t),x_i)$ 的演化可以写作
$\begin{align} \frac{df(w(t),x_i)}{dt}&=\Big\langle\frac{\partial f(w(t),x_i)}{\partial w(t)},\frac{\partial w(t)}{\partial t}\Big\rangle \\ &=\Big\langle \frac{\partial f(w(t),x_i)}{\partial w(t)}, -\sum_{j=1}^n(f(w(t),x_j)-y_j)\frac{\partial f(w(t),x_j)}{\partial w} \Big\rangle \\ &=-\sum_{j=1}^n(f(w(t),x_j),y_j)\Big\langle \frac{\partial f(w(t),x_i)}{\partial w}, \frac{\partial f(w(t),x_j)}{\partial w}\Big\rangle \\ \end{align} \tag{5} \\$
因为 $u(t)=(f(w(t),xi))i∈[n]∈Rnu(t)=(f(w(t),x_i))_{i\in[n]}\in\mathbb{R}^n$ 是神经网络 $t$ 时刻在所有 $x_i$ 上的输出， $y=(yi)i∈[n]y=(y_i)_{i\in[n]}$ 是标签。等式(5)可以紧凑的写作
$\frac{du(t)}{dt}=-H(t)\cdot(u(t)-y) \tag{6} \\$
其中 $H(t)∈Rn×nH(t)\in\mathbb{R}^{n\times n}$ 是定义为 $[H(t)]i,j=⟨∂f(w(t),xi)∂w,∂f(w(t),xj)∂w⟩(∀i,j∈[n])[H(t)]_{i,j}=\langle\frac{\partial f(w(t),x_i)}{\partial w},\frac{\partial f(w(t),x_j)}{\partial w} \rangle(\forall i,j\in[n])$ 。

上面引理涉及到矩阵 $H (t)$ 。下面将会定义一个无限宽的神经网络，并固定训练数据。在这种限制下，训练过程中的矩阵 $H (t)$ 为常数，即 $H (t)$ 的等于 $H (0)$ 。此外，对于随机初始化参数，当网络宽度为无限时，随机矩阵 $H (0)$ 概率收敛至某个确定的核矩阵 $H^*$ ，该矩阵就是通过训练数据估计出的神经正切核(Neural Tangent Kernel, NTK) $k(⋅,⋅)k(\cdot,\cdot)$ 。若对于所有 $t$ 均有 $H(t)=H^*$ ，那么等式(3)就变成
$\frac{d u(t)}{dt}=-H^*\cdot(u(t)-y) \tag{7} \\$
可以发现上述公式的动力学与梯度流下的核回归一致，那么当 $t→∞t\rightarrow\infty$ 时最终的预测函数为
$f^*(x)=(k(x,x_1),\dots,k(x,x_n))\cdot(H^*)^{-1}y\tag{8} \\$

三、无限宽网络与神经正切核(NTK)

下面是一个简单的两层神经网络
$f(a,W,x)=\frac{1}{\sqrt{m}}\sum_{r=1}^m a_r\sigma(w_r^Tx) \tag{9} \\$
其中 $m$ 是网络的宽度， $σ(⋅)\sigma(\cdot)$ 是激活函数。这里假设对于所有的 $z∈Rz\in\mathbb{R}$ ， $∣σ′(z)∣|\sigma'(z)|$ 和 $∣σ′′(z)∣|\sigma''(z)|$ 的上界均为1，例如 $σ(z)=log⁡(1+exp⁡(z))\sigma(z)=\log(1+\exp(z))$ 就满足这个假设。假设所有的输入 $x$ 的Euclidean范数均为1，即 $∥x∥2=1\parallel x\parallel_2=1$ 。缩放因子 $1m\frac{1}{\sqrt{m}}$ 在证明 $H (t)$ 接近于固定核 $H^*$ 上扮演者重要的角色。使用范式 $∥⋅∥2\parallel\cdot\parallel_2$ 来衡量两个矩阵 $A$ 和 $B$ 的接近程度。

先计算 $H (0)$ ，并展示 $m→∞m\rightarrow\infty$ 时 $H (0)$ 收敛至固定矩阵 $H^*$ 。 注意， $∂f(a,W,xi)∂wr=1marxiσ′(wr⊤xi)\frac{\partial f(a,W,x_i)}{\partial w_r}=\frac{1}{\sqrt{m}}a_r x_i\sigma'(w_r^\top x_i)$ 。因此， $H (0)$ 中的每个元素为
$\begin{align} [H(0)]_{ij}&=\sum_{r=1}^m\Big\langle \frac{\partial f(a,W(0),x_i)}{\partial w_r(0)},\frac{\partial f(a,W(0),x_j)}{\partial w_r(0)} \Big\rangle \\ &=\sum_{r=1}^m\Big\langle\frac{1}{\sqrt{m}}a_rx_i\sigma'(w_r(0)^\top x_i),\frac{1}{\sqrt{m}}a_rx_j\sigma'(w_r(0)^\top x_i)\Big\rangle \\ &=x_i^\top x_j\cdot\frac{\sum_{r=1}^m\sigma'(w_r(0)^\top x_i)\sigma'(w_r(0)^\top x_j)}{m} \\ \end{align} \tag{8} \\$
最后一步，由于 $ar∼Unif[{−1,1}]a_r\sim\text{Unif}[\{-1,1\}]$ ，因此对于所有的 $r=1,…,mr=1,\dots,m$ ，有 $a_r^2=1$ 。对于所有的 $w_r(0)$ 都是从标准高斯分布中独立同分布采样出来的。因此，可以将 $H(0)]_{ij}$ 看做是m个独立同分布随机变量的平均值。若 $m$ 很大，那么基于大数定律，这个平均值接近于随机变量的期望。在 $x_i$ 和 $x_j$ 上由NTK评估的期望为：
$H_{ij}^*\triangleq x_i^\top x_j\cdot\mathbb{E}_{w\sim N(0,I)}[\sigma'(w^\top x_i)\sigma'(w^T x_j)] \tag{9} \\$
基于Hoeffding不等式和Boole不等式，可以容易得知 $H (0)$ 逼近于 $H^*$ 。

引理2

对于某个 $ϵ>0\epsilon>0$ 。若 $m=Ω(n4log⁡(n/δ)ϵ2)m=\Omega(\frac{n^4\log(n/\delta)}{\epsilon^2})$ ，那么 $w1(0),…,wm(0)w_1(0),\dots,w_m(0)$ 至少以概率 $1−δ1-\delta$ 满足
$\parallel H(0)-H^*\parallel_2\leq\epsilon \\$
证明。对于分量 $(i, j)$ ，由于 $∣σ′(z)∣≤1|\sigma'(z)|\leq 1$ 且 $∥x∥=1\parallel x\parallel=1$ ，那么有
$|x_i^\top x_j\sigma'(w_t(0)^\top x_i)\sigma'(w_r(0)^\top x_j)|\leq 1 \\$
因此， $H(0)]_{ij}$ 的边界为 $[0, 1]$ 。应用Hoeffding不等式，有
$\begin{align} P\Big(|[H(0)]_{ij}-H_{ij}^*|\geq \frac{\epsilon}{n^2}\Big)&\leq \exp(-\frac{2m^2(\frac{\epsilon}{n^2})^2}{\sum_{i=1}^m(1-0)^2}) \\ &=\exp(-\frac{2m\epsilon^2}{n^4}) \\ &\leq\exp(-\frac{2\epsilon^2}{n^4}\frac{n^4\log(n/\delta)}{\epsilon^2}) \\ &=\exp(-2\log(n/\delta)) \\ &=\frac{\delta^2}{n^2}\leq\frac{\delta}{n^2} \\ \end{align} \\$
(注： $n$ 是训练样本数， $m$ 是网络宽度)

那么有
$\begin{align} P\Big(|[H(0)]_{ij}-H_{ij}^*|\leq \frac{\epsilon}{n^2}\Big)&=1-P\Big(|[H(0)]_{ij}-H_{ij}^*|\geq \frac{\epsilon}{n^2}\Big)\geq 1-\frac{\delta}{n^2} \\ \end{align} \\$
将上面的结论应用在所有 $(i,j)∈[n]×[n](i,j)\in[n]\times[n]$ ，并使用Boole不等式
$\parallel H(0)-H^* \parallel_2\leq\parallel H(0)-H^* \parallel_F\leq\sum_{ij}|[H(0)]_{ij}-H_{ij}^*|\leq n^2\cdot\frac{\epsilon}{n^2}=\epsilon \\$

接下来证明在训练过程中， $H (t)$ 逼近 $H (0)$ 。

引理3

假设对于所有的 $i=1,…,ni=1,\dots,n$ 都有 $y_i=O(1)$ 。给定 $t > 0$ ，对任意的 $0≤τ≤t0\leq\tau\leq t$ ，所有的 $i=1,…,ni=1,\dots,n$ 都有 $ui(τ)=O(1)u_i(\tau)=O(1)$ 。若 $m=Ω(n6t2ϵ2)m=\Omega(\frac{n^6t^2}{\epsilon^2})$ ，有
$\parallel H(t)-H(0) \parallel_2\leq\epsilon \\$
(直观解释：若所有样本的标签值均不大于1，且0到 $t$ 时刻中的任意时刻 $τ\tau$ ，模型的预测值也不大于1。那么当网络宽度 $m$ 大于 $n6t2ϵ2\frac{n^6t^2}{\epsilon^2}$ 时， $t$ 时刻的NTK核逼近于初始的NTK核)。

证明。第一个关键思想是：当 $m$ 很大时，每个权重向量变化量很小。下面是单个权重向量的变化
$\begin{align} \parallel w_r(t)-w_r(0) \parallel_2&=\Big\| \int_{0}^t\frac{dw_r(\tau)}{d\tau}d\tau \Big\|_2 \\ &=\Big\|\int_{0}^t \sum_{i=1}^n(u_i(\tau)-y_i)\frac{\partial u_i(\tau)}{\partial w} d\tau \Big\|_2 \\ &=\Big\| \int_{0}^t\sum_{i=1}^n(u_i(\tau)-y_i)\frac{1}{\sqrt{m}}a_rx_i\sigma'(w_r(\tau)^\top x_i) d\tau \Big\|_2 \\ &\leq\frac{1}{\sqrt{m}}\int\Big\|\sum_{i=1}^n(u_i(\tau)-y_i)a_rx_i\sigma'(w_r(\tau)^\top x_i) \Big\|_2d\tau \\ &\leq\frac{1}{\sqrt{m}}\sum_{i=1}^n\int_{0}^t\| u_i(\tau)-y_ia_rx_i\sigma'(w_r(\tau)^\top x_i) \|_2 d\tau \\ &\leq\frac{1}{\sqrt{m}}\sum_{i=1}^n\int_{0}^t O(1) d\tau=O(\frac{tn}{\sqrt{m}}) \\ \end{align} \\$
上面的结果表明：给定任意 $t$ ，只要 $m$ 足够大，则 $w_r(t)$ 就接近于 $w_r(0)$ 。下面将证明这意味着核矩阵 $H (t)$ 接近于 $H (0)$ 。这里证明单个分量的差距
$\begin{align} &[H(t)]_{ij}-[H(0)]_{ij} \\ =&\Big| \frac{1}{m}\sum_{r=1}^m\Big( \sigma'(w_r(t)^\top x_i)\sigma'(w_r(t)^\top x_j)- \sigma'(w_r(0)^\top x_i)\sigma'(w_r(0)^\top x_j)\Big) \Big| \\ \leq&\frac{1}{m}\sum_{r=1}^m\Big|\sigma'(w_r(t)^\top x_i)(\sigma'(w_r(t)^\top x_j)-\sigma'(w_r(0)^\top x_j)) \Big| \\ &+\frac{1}{m}\sum_{r=1}^m\Big|\sigma'(w_r(0)^\top x_j)(\sigma'(w_r(t)^\top x_j)-\sigma'(w_r(0)^\top x_i)) \Big| \\ \leq&\frac{1}{m}\sum_{r=1}^m\Big|\max_r \sigma'(w_r(t)^\top x_i)\|x_i\|_2\| w_r(t)-w_r(0) \|_2 \Big| \\ &+\frac{1}{m}\sum_{r=1}^m\Big|\max_r \sigma'(w_r(t)^\top x_i)\|x_i\|_2\| w_r(t)-w_r(0) \|_2 \Big| \\ =&\frac{1}{m}\sum_{r=1}^m O(\frac{tn}{\sqrt{m}}) \\ \end{align} \\$
因此，有
$\| H(t)-H(0)\|_2\leq\sum_{i,j}\Big|[H(t)]_{ij}-[H(0)]_{ij} \Big|=O\Big(\frac{tn^3}{\sqrt{m}}\Big) \\$

四、用NTK解释无限宽网络的优化和泛化

基于上面的结论有
$\frac{du(t)}{d_t}\approx -H^*\cdot(u(t)-y) \tag{10}\\$
其中 $H^*$ 是NTK矩阵。接下来基于该近似分析无限宽神经网络的优化和泛化。

1. 优化

$U (t)$ 的动力学遵循
$\frac{du(t)}{d_t}= -H^*\cdot(u(t)-y) \tag{11}\\$
本质上是线性动力系统。对 $H^*$ 进行特征值分解的
$H^*=\sum_{i=1}^n\lambda_i v_i v_i^\top \tag{12}\\$
其中 $λ1≥⋯≥λn≥0\lambda_1\geq\dots\geq\lambda_n\geq 0$ 是特征值， $v1,…,vnv_1,\dots,v_n$ 是特征向量。基于该分解可以分别研究 $u (t)$ 在每个特征向量上的动力学。对等式(12)两边同时乘以 $v_i$ 得，得到 $u (t)$ 在特征向量 $v_i$ 上的动力学
$\begin{align} \frac{dv_i^\top u(t)}{dt}&=-v_i^\top H^*\cdot(u(t)-y) \\ &=-v_i^\top\sum_{i=1}^n\lambda_i v_i v_i^\top\cdot(u(t)-y) \\ &=-\lambda_i(v_i^\top(u(t)-y)) \\ \end{align} \tag{13}\\$
可以看到 $vi⊤u(t)v_i^\top u(t)$ 的动力学仅依赖于其本身和 $λi\lambda_i$ ，这其实是一个常微分方程。该常微分方程的一个解析解为
$v_i^\top(u(t)-y)=\exp(-\lambda_i t)\Big(v_i^\top(u(0)-y) \Big) \tag{14}\\$

现在使用上面的等式来解释为什么可以找到0训练误差解。假设对于所有的 $i=1,…,ni=1,\dots,n$ 均有 $λi>0\lambda_i>0$ ，即核矩阵的所有特征值均严格为正。

$(u (t) - y)$ 表示 $t$ 时刻预测值和训练标签之间的差值。若当 $t→∞t\rightarrow\infty$ ，有 $u(t)−y→0u(t)-y\rightarrow 0$ 时，表示存在一个训练误差为0的算法。等式(14)表示该差值的分量，由于项 $exp⁡(−λit)\exp(-\lambda_i t)$ ，所以 $vi⊤(u(t)−y)v_i^\top(u(t)-y)$ 会以指数级的速度收敛至0。此外，由于 ${v1,…,vn}\{v_1,\dots,v_n\}$ 是 $Rn\mathbb{R}^n$ 上的一个正交基，因此 $(u(t)−y)=∑i=1nvi⊤(u(t)−y)(u(t)-y)=\sum_{i=1}^nv_i^\top(u(t)-y)$ 。因此，当每个 $vi⊤(ui(t)−y)→0v_i^\top(u_i(t)-y)\rightarrow 0$ ，可以得到 $(u(t)−y)→0(u(t)-y)\rightarrow 0$ 。

等式(14)本质上给出了关于收敛相关的信息，即每个分量 $vi⊤(u(t)−y)v_i^\top(u(t)-y)$ 以不同的速率收敛至0。较大的 $λi\lambda_i$ 对应的分量收敛到0的速度快于较小的 $λi\lambda_i$ 。若期望在给定标签下能够更快的收敛，那么 $y$ 投影至顶部的特征应该更大。因此，可以通过下面直观的来定性比较收敛速度

若标签集合 $y$ 对齐至顶部特征，即 $(vi⊤y)(v_i^\top y)$ 对应较大的特征值，那么梯度下降收敛较快；
若标签集合 $y$ 投影至特征向量 ${(vi⊤y)}i=1n\{(v_i^\top y)\}_{i=1}^n$ 是均匀分布，那么梯度下降的收敛速度就较慢；

2. 泛化

等式(10)中的近似意味着无限宽神经网络最终预测的函数近似于等式(8)的核预测函数。因此，可以使用核的泛化理论来分析无限宽神经网络的泛化行为。等式(8)中定义的核预测函数，使用Rademacher复杂度边界来推断下面1-Lipschitz损失函数的泛化边界
$\frac{\sqrt{2y^\top(H^*)^{-1}y\cdot tr(H^*)}}{n} \tag{15}\\$
这是一个依赖于数据的复杂度度量的泛化误差上界。

五、多层全连接神经网络的NTK形式

先来定义全连接神经网络。令 $x∈Rdx\in\mathbb{R}^d$ 表示输入，为了方便令 $g^{(0)}(x)=x$ 且 $d_0=d$ 。那么 $L$ 层全连接神经网络表示为
$f^{(h)}(x)=W^{(h)}g^{(h-1)}(x)\in\mathbb{R}^{d_h},g^{(h)}(x)=\sqrt{\frac{c_{\sigma}}{d_h}}\sigma\Big(f^{(h)}(x)\Big)\in\mathbb{R}^{d_h} \tag{16}\\$
其中 $h=1,2,…,Lh=1,2,\dots,L$ ， $W(h)∈Rdh×dh−1W^{(h)}\in\mathbb{R}^{d_h\times d_{h-1}}$ 表示第 $h$ 层的权重矩阵， $σ:R→R\sigma:\mathbb{R}\rightarrow\mathbb{R}$ 是激活函数， $cσ=(Ez∼N(0,1)[σz2])−1c_{\sigma}=\Big(E_{z\sim\mathcal{N}(0,1)}[\sigma z^2]\Big)^{-1}$ 。神经网络的最后一层来自于
$\begin{align} f(w,x)&=f^{(L+1)}(x)=W^{(L+1)}\cdot g^{(L)}(x) \\ &=W^{(L+1)}\cdot\sqrt{\frac{c_{\sigma}}{d_L}}\sigma W^{(L)}\cdot\sqrt{\frac{c_{\sigma}}{d_{L-1}}}\sigma W^{(L-1)}\dots \cdot\sqrt{\frac{c_{\sigma}}{d_1}}\sigma W^{(1)}x \end{align} \tag{17}\\$
其中 $W(L+1)∈R1×dLW^{(L+1)}\in\mathbb{R}^{1\times d_L}$ 表示最后一层的权重， $w=(W(1),…,W(L+1))w=\Big(W^{(1)},\dots,W^{(L+1)}\Big)$ 表示神经网络的所有权重。

使用标准正态分布来初始化权重并考虑hidden宽度的极限为： $d1,d2,…,dL→∞d_1,d_2,\dots,d_L\rightarrow\infty$ 。缩放因子 $cσ/dh\sqrt{c_{\sigma}/d_h}$ 用于确保 $g^{(h)}(x)$ 近似于初始化。对于ReLU集合函数，有
$E\Big[\Big\| g^{(h)}(x) \Big\|_2^2\Big]=\|x\|_2^2(\forall h\in[L]) \tag{18} \\$
正如引理1中需要计算 $⟨∂f(w(t),x)∂w,∂f(w(t),x′)∂w⟩\langle\frac{\partial f(w(t),x)}{\partial w},\frac{\partial f(w(t),x')}{\partial w}\rangle$ 在无限宽下收敛至随机初始化。可以将关于特定权重矩阵 $W^{(h)}$ 的偏导数写作
$\frac{\partial f(w,x)}{\partial W^{(h)}}=b^{(h)}(x)\cdot\Big(g^{(h-1)}(x)\Big)^\top,\quad h=1,2,\dots,L+1 \tag{19} \\$
其中
$b^{(h)}(x)=\begin{cases} 1\in\mathbb{R},& h=L+1 \\ \sqrt{\frac{c_\sigma}{d_h}}D^{(h)}(x)\Big(W^{(h+1)} \Big)^\top b^{(h+1)}(x)\in\mathbb{R}^{d_h},& h=1,\dots,L \end{cases} \tag{20} \\$

$KaTeX parse error: Expected 'EOF', got '&' at position 93: …d_h\times d_h},&̲h=1,\dots,L \ta…$

对于两个任意的输入 $x$ 和 $x^{'}$ ，任意的 $h∈[L+1]h\in[L+1]$ ，可以计算
$\begin{align} &\Big\langle\frac{\partial f(w,x)}{\partial W^{(h)}},\frac{\partial f(w,x')}{\partial W^{(h)}}\Big\rangle \\ =&\Big\langle b^{(h)}(x)\cdot\Big(g^{(h-1)}(x)\Big)^\top, b^{(h)}(x')\cdot\Big(g^{(h-1)}(x')\Big)^\top\Big\rangle \\ =&\langle g^{(h-1)}(x),g^{(h-1)}(x') \rangle\cdot\langle b^{(h)}(x),b^{(h)}(x') \rangle \\ \end{align} \tag{22}\\$
第一项 $⟨g(h−1)(x),g(h−1)(x′)⟩\langle g^{(h-1)}(x),g^{(h-1)}(x') \rangle$ 是 $x$ 和 $x^{'}$ 在第 $h$ 层的协方差。当宽度趋于无穷时， $⟨g(h−1)(x),g(h−1)(x′)⟩\langle g^{(h-1)}(x),g^{(h-1)}(x') \rangle$ 收敛至固定的数，这里表示为 $Σ(h−1)(x,x′)\Sigma^{(h-1)}(x,x')$ 。对于 $h∈[L]h\in[L]$ ，该协方差的递归形式为
$\begin{align} \Sigma^{(0)}(x,x')&=x^\top x' \\ \Lambda^{(h)}(x,x')&= \begin{pmatrix} \Sigma^{(h-1)}(x,x)&\Sigma^{(h-1)}(x,x') \\ \Sigma^{(h-1)}(x',x)&\Sigma^{(h-1)}(x',x') \\ \end{pmatrix}\in\mathbb{R}^{2\times 2} \\ \Sigma^{(h)}(x,x')&=c_\sigma E_{(u,v)\sim\mathcal{N}(0,\Lambda^{(h)})}[\sigma(u)\sigma(v)] \end{align}\tag{23} \\$

九章云极普惠算力

更多推荐

终极指南：如何将Instant Meshes无缝集成到现有3D管线中

Instant Meshes是一款强大的交互式场对齐网格生成器，能够快速将复杂3D模型转换为结构化四边形网格。本文将为您提供完整的集成指南，帮助您将这个高效工具融入现有的3D工作流程。🚀## 什么是Instant Meshes？Instant Meshes是一个开源的网格重拓扑工具，专门用于将任意三角形网格转换为高质量的四边形网格。它采用先进的场对齐算法，能够保持模型的几何特征，同时显著

九章云极普惠算力

Laravel Socialite 未来展望：Web3认证与新兴技术融合的终极指南

Laravel Socialite 是 Laravel 框架中一个强大的 OAuth 认证工具，为开发者提供了简洁优雅的第三方登录解决方案。作为 Laravel 生态系统的重要组成部分，Socialite 封装了 OAuth 1 和 OAuth 2 认证流程，让开发者能够轻松集成主流社交平台的用户认证功能。## 🔮 当前技术现状与局限Laravel Socialite 目前主要支持传统的

九章云极普惠算力

BEAM数据结构和引用机制详解：构建高性能Erlang应用

想要构建高并发、高可用的分布式应用？Erlang的BEAM虚拟机正是为此而生！本文将深入解析BEAM的核心数据结构和引用机制，帮助您理解如何构建高性能的Erlang应用。BEAM虚拟机通过独特的内存管理策略和进程模型，为现代分布式系统提供了强大的基础架构支持。## BEAM内存架构概览BEAM虚拟机的内存系统采用了分层的设计理念，每个Erlang进程都拥有独立的堆栈结构。这种设计确保了进程