前言

本文记录深度学习笔记第三节:深度学习的数学基础。

学习理由

之前学的公众号文章,感觉不是很系统,随后我在github上搜索“deep learning”,找到了几个合适的仓库,打算学一学。

这里先学习DeepLearning-500-questions项目,因为我感觉更全面一点。

但是,注意到该repo规定:
在这里插入图片描述

随意我只会在这里列举一些笔记。至于具体内容可参考原网页。

本次学习的内容

1. 向量和矩阵

标量:单个数。如5.
向量:一组数。
矩阵:二维数组。
张量:高维数组(即超过二维)

矩阵和向量相乘:就是矩阵乘法。

向量的范数(norm):

  • 1范数:各元素绝对值之和
  • 2范数:每个元素的平方和,然后开平方根
  • p范数:每个元素的p次方和,然后开p次方根
  • 负无穷范数:绝对值最小的元素的绝对值
  • 正无穷范数:绝对值最大的元素的绝对值

矩阵的特征值
在这里插入图片描述
在这里插入图片描述

矩阵的转置和逆:

在这里插入图片描述

正交矩阵:

奇异值和特征值的区别?

这个讲的好,基本上知道奇异值怎么计算了。

特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。

奇异值与主成分分析(PCA)

主成分分析在上一节里面也讲了一些,这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数据(主要是训练数据),方差大才有意义,不然输入的数据都是同一个点,那方差就为0了,这样输入的多个数据就等同于一个数据了。

PCA的全部工作简单点说,就是对原始的空间中顺序地找一组相互正交的坐标轴,第一个轴是使得方差最大的,第二个轴是在与第一个轴正交的平面中使得方差最大的,第三个轴是在与第1、2个轴正交的平面中方差最大的,这样假设在N维空间中,我们可以找到N个这样的坐标轴,我们取前r个去近似这个空间,这样就从一个N维的空间压缩到r维的空间了,但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。

但是这个怎么和SVD扯上关系呢?之前谈到,SVD得出的奇异向量也是从奇异值由大到小排列的,按PCA的观点来看,就是方差最大的坐标轴就是第一个奇异向量,方差次大的坐标轴就是第二个奇异向量…我们回忆一下之前得到的SVD式子

矩阵的范数:

  • 1范数(列范数):每列元素绝对值求和,再从中取个最大的(列和最大)
  • 2范数: λ m a x ( A T ∗ A ) \sqrt{\lambda _{max}(A^T*A)} λmax(ATA)
  • p范数:每个元素的p次方和,然后开p次方根
    ∥ A ∥ p = ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ p ) p \Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)} Ap=p(i=1mj=1naijp)
  • 无穷范数(行范数):每行元素绝对值求和,再从中取个最大的(行和最大)
  • 核范数:奇异值之和
  • L0范数:矩阵的非0元素的个数
  • L1范数:矩阵中的每个元素绝对值之和
  • F范数:各元素平方之和再开平方根,也叫L2范数
    ∥ A ∥ F = ( ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ) \Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)} AF=(i=1mj=1naij2)

如何判定矩阵为正定矩阵?

1、求出A的所有特征值。若A的特征值均为正数,则A是正定的;若A的特征值均为负数,则A为负定的。

2、计算A的各阶主子式。若A的各阶主子式均大于零,则A是正定的;若A的各阶主子式中,奇数阶主子式为负,偶数阶为正,则A为负定的。

行列式在数学中,是一个函数,其定义域为det的矩阵A,取值为一个标量,写作det(A)或 | A |

凸函数是什么?

2. 导数和偏导数

偏导数

在数学中,一个多变量的函数的偏导数,就是它关于其中一个变量的导数而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)。偏导数在向量分析和微分几何中是很有用的。

在这里插入图片描述

3. 特征值和特征向量

第1节已经说了。

在这里插入图片描述
我总感觉这一段不是原创= =。

4. 概率分布与随机变量

用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法,就是 概率分布(probability distribution).

有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从 P ( ​ x ​ ) ​ P(​x​)​ P(x)

∑ x ∈ X P ( x ) = 1 ∑_{x∈X} P(x)=1 xXP(x)=1. 我们把这一条性质称之为 归一化的(normalized)

条件概率:
讲的还听清楚的。用文氏图说明:
P ( A ∣ B ) = P ( A ∩ B ) / P ( B ) P(A|B) = P(A\cap B) / P(B) P(AB)=P(AB)/P(B)

A的条件概率为:在B的前提下随机选择的元素属于A的概率,即A和B同时发生的概率除以B的概率。
原来如此。

联合概率与边缘概率

条件概率的链式法则

5. 常见概率分布

Bernoulli分布(伯努利分布,0-1分布):
P ( x = 1 ) = ϕ P(x=1) = \phi P(x=1)=ϕ
P ( x = 0 ) = 1 − ϕ P(x=0) = 1-\phi P(x=0)=1ϕ

其概率质量函数:
P ( x = x ) = ϕ x ( 1 − ϕ ) 1 − x P(x=x) = \phi^x(1-\phi)^{1-x} P(x=x)=ϕx(1ϕ)1x

期望:
E x [ x ] = ϕ E_x[x] = \phi Ex[x]=ϕ
方差:
V a r x ( x ) = ϕ ( 1 − ϕ ) Var_x(x) = \phi{(1-\phi)} Varx(x)=ϕ(1ϕ)

Multinoulli分布(范畴分布):
p k = 1 − ∑ 0 k − 1 p i p_k=1-\sum_{0}^{k-1}p_i pk=10k1pi

二项分布(n重伯努利试验成功次数的离散概率分布)

多项式分布(Multinomial Distribution)

高斯分布:
概率度函数:
N ( x ; μ , σ 2 ) = 1 2 π σ 2 e x p ( − 1 2 σ 2 ( x − μ ) 2 ) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21 exp(2σ21(xμ)2)

标准正态分布:
N ( x ; μ , σ 2 ) = 1 2 π e x p ( − 1 2 x 2 ) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1 exp(21x2)

问: 何时采用正态分布? 答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:
#1 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
#2 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

指数分布:
p ( x ; λ ) = λ I x ≥ 0 e x p ( − λ x ) p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx0exp(λx)

Laplace 分布(拉普拉斯分布)

Dirac分布和经验分布

6 期望、方差、协方差、相关系数

期望:试验中每次可能结果的概率乘以其结果的总和
方差:随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望
V a r ( x ) = E ( ( x − E ( x ) ) 2 ) Var(x) = E((x-E(x))^2) Var(x)=E((xE(x))2)
协方差:方差是一种特殊的协方差
C o v ( x , y ) = E ( ( x − E ( x ) ) ( y − E ( y ) ) ) Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((xE(x))(yE(y)))
相关系数:研究变量之间线性相关程度的量。
C o r r ( x , y ) = C o v ( x , y ) V a r ( x ) V a r ( y ) Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y) Cov(x,y)

更多推荐