深度学习笔记：Softmax回归与线性回归的最大似然估计的理解

本文从概率统计角度揭示了机器学习中损失函数的本质联系：(1) 最小化交叉熵损失等价于最大似然估计，其梯度即为预测概率与真实标签的差值；(2) 交叉熵最小化也等同于最小化KL散度，衡量真实分布与预测分布的差异；(3) 在高斯噪声假设下，最小化均方误差等价于线性模型的最大似然估计。这些结论表明，常见的损失函数设计背后都有坚实的概率统计基础，不同视角（概率、优化、统计）最终导向相同的优化目标。

ACCELERATOR_LLC

737人浏览 · 2025-10-20 00:55:10

ACCELERATOR_LLC · 2025-10-20 00:55:10 发布

1. 最小化交叉熵损失 $≡\equiv$ 对预测结果的最大似然估计 (MLE)

我们需要度量softmax回归的预测效果，考虑使用最大似然估计。

假设整个数据集 { $X, Y$ } 具有 $n$ 个样本，其中索引 $i$ 的样本由特征向量 $x(i)\mathbf{x}^{(i)}$ 和独热标签向量 $y(i)\mathbf{y}^{(i)}$ 组成，一共有 $q$ 种分类标签。

我们可以将估计值与实际值进行比较：
$P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}).$
根据最大似然估计，我们最大化 $P(Y∣X)P(\mathbf{Y} \mid \mathbf{X})$ ，相当于最小化负对数似然：
$−log⁡P(Y∣X)=∑i=1n−log⁡P(y(i)∣x(i))=∑i=1nl(y(i),y^(i)) -\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)})$
其中，对于任何一个标签 $y\mathbf{y}$ 和模型预测 $y^\hat{\mathbf{y}}$ ，损失函数为：
$l(y,y^)=−∑j=1qyjlog⁡y^j. l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j.$
显然，该损失函数与交叉熵损失函数形式相同，故我们可以说

最小化交叉熵损失 $≡\equiv$ 对预测结果的最大似然估计

2.交叉熵损失函数的导数就是softmax函数分配的概率与真实标签向量之间的差

我们继续上面的操作，

$y^\hat{y}$ 是通过softmax函数处理得到的预测，我们将其代入，得到：
$l(y,y^)=−∑j=1qyjlog⁡exp⁡(oj)∑k=1qexp⁡(ok)=∑j=1qyjlog⁡∑k=1qexp⁡(ok)−∑j=1qyjoj=log⁡∑k=1qexp⁡(ok)−∑j=1qyjoj \begin{aligned} l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j \\ &= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j \end{aligned}$

运算细节：这里最后结果的第一项，由于对于任何一个 $j$ ， $log⁡∑exp(ok)\log\sum{exp(o_{k})}$ 的值都不变，于是我们将其提出，发现 $∑yj\sum{y_{j}}$ 的值恒为1，于是将其省略，得到最终结果。

考虑求相对于任何未规范化的预测 $o_j$ 的导数，第一项是log-sum-exp，其导数是对应的 softmax，我们得到：
$∂ojl(y,y^)=exp⁡(oj)∑k=1qexp⁡(ok)−yj=softmax(o)j−yj \partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}})=\frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j =\mathrm{softmax}(\mathbf{o})_j - y_j$
这说明，对于每个类别 $j$

softmax + 交叉熵的梯度 等于模型预测的概率 $softmax(o)j\mathrm{softmax}(\mathbf{o})_j$ 减去真实标签的 $y_j$ 。

这不是巧合，在任何指数族分布模型，对数似然的梯度正是由此得出。这使得梯度计算在实践中容易了许多。

3. 最小化交叉熵损失 $≡\equiv$ 最小化真实分布与预测分布的 KL 散度

设真实分布为 $(p_1, p_2, \dots, p_q)$ ，
预测分布为 $(q_1, q_2, \dots, q_q)$ 。

1. 交叉熵（Cross Entropy）
衡量用 (Q) 表示 (P) 所需的平均编码长度：
$-\sum_{j=1}^q p_j \log q_j$
2. KL 散度（Kullback-Leibler Divergence）
衡量两个概率分布的差异：
$D_{\mathrm{KL}}(P \,\|\, Q) = \sum_{j=1}^q p_j \log \frac{p_j}{q_j}$

KL 散度可分解为：
$D_{\mathrm{KL}}(P \,\|\, Q) = \underbrace{-\sum_j p_j \log q_j}_{H(P, Q)}- \underbrace{(-\sum_j p_j \log p_j)}_{H(P)}$

即：
$D_{\mathrm{KL}}(P \,\|\, Q) = H(P, Q) - H(P)$

其中：

$H (P, Q)$ ：交叉熵
$H (P)$ ：真实分布熵（常数）

换句话说，最小化交叉熵损失 $≡\equiv$ 最小化真实分布与预测分布之间的 KL 散度

4. 回顾：在高斯噪声假设下，最小化均方误差 $≡\equiv$ 对线性模型的极大似然估计

假设数据集 ${(x(i),y(i))}i=1n\{(\mathbf{x}^{(i)}, y^{(i)})\}_{i=1}^n$ 满足如下线性模型：

$y^{(i)} = \mathbf{w}^\top \mathbf{x}^{(i)} + \epsilon^{(i)}, \quad \epsilon^{(i)} \sim \mathcal{N}(0, \sigma^2),$

其中噪声 $ϵ(i)\epsilon^{(i)}$ 服从均值为 0、方差为 $σ2\sigma^2$ 的高斯分布。

因为各样本独立同分布，有似然函数：
$P(\mathbf{Y} \mid \mathbf{X}, \mathbf{w}) = \prod_{i=1}^n P(y^{(i)} \mid \mathbf{x}^{(i)}, \mathbf{w}) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\!\left( -\frac{(y^{(i)} - \mathbf{w}^\top \mathbf{x}^{(i)})^2}{2\sigma^2} \right)$
取对数并去掉常数项：
$\log P(\mathbf{Y} \mid \mathbf{X}, \mathbf{w}) = -\frac{n}{2}\log(2\pi\sigma^2) -\frac{1}{2\sigma^2}\sum_{i=1}^n (y^{(i)} - \mathbf{w}^\top \mathbf{x}^{(i)})^2$
由于前面的第一项与 $w\mathbf{w}$ 无关，最大化似然等价于最小化第二项：
$\begin{aligned} \max_{\mathbf{w}} \log P(\mathbf{Y} \mid \mathbf{X}, \mathbf{w}) &\;\Leftrightarrow\; \min_{\mathbf{w}} \sum_{i=1}^n (y^{(i)} - \mathbf{w}^\top \mathbf{x}^{(i)})^2 \end{aligned}$

在高斯噪声假设下，线性回归的最大似然估计 $≡\equiv$ 最小化均方误差（MSE）损失

角度	含义
概率视角	高斯噪声使似然函数呈 $e−(y−y^)2e^{-(y-\hat{y})^2}$ 形式，取对数后自然得到平方误差项。
优化视角	平方误差对大偏差样本惩罚更强，符合高斯分布尾部快速衰减的特性。
统计视角	在高斯噪声假设下，最大似然估计（MLE）与最小二乘估计（OLS）完全等价。