DNN-HMM语音识别系统

将GMM-HMM过度到DNN-HMM时,只需简单的将GMM替换为DNN即可。但是在GMM-HMM可以进行冷启动,即先给一个初始的对齐,在初始的对齐上,使用Viterbi训练得到一组新的GMM-HMM参数,再进行重新对齐、更新参数,一直循环迭代即可。对于DNN-HMM来说,神经网络的训练依赖于准确的label,在最开始时,并没有一个准确的label,针对DNN的状态对齐,可以将GMM-HMM的对齐应用到DNN-HMM中,也就是先进行一次GMM-HMM的训练,之后再进行DNN-HMM的训练即可。
DNN的三要素为:输入是什么、输出是什么、损失函数是什么。
DNN-HMM语音识别系统训练流程:数据准备、特征提取、单音素训练、三音素训练、对齐、DNN训练、解码。

深度神经网络

前馈神经网络FNN

前馈神经网络结构较为简单,可简单表示为yl=f(Wlx+bl)y_l=f(W_lx+b_l)yl=f(Wlx+bl),其中W为权重,b为偏置,x为输入,f为激活函数,y为输出,每一层都有一个这样的表达形式。
实际使用中常用的激活函数有Sigmoid、tanh、ReLU等。
语音识别中计算损失函数时首先要做的是概率归一化,常用的有:Softmax概率归一化,之后进行损失函数的计算,常用的有:交叉熵CE损失函数等。
梯度下降θ∗=argmimθL(θ)\theta ^* = \underset{\theta}{argmim} L(\theta)θ=θargmimL(θ),其中,L为损失函数,θ\thetaθ为NN参数。
θ∗=θ−α∂L∂θ\theta ^*=\theta-\alpha\frac{\partial L}{\partial \theta}θ=θαθL,其中,α\alphaα为学习率。
反向传播的基本概念为链式求导法则:y=f(x),z=g(y),则dzdx=dzdydydxy=f(x),z=g(y),则\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}y=f(x)z=g(y),则dxdz=dydzdxdy
推荐论文:Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition。

卷积神经网络CNN

卷积的思想是对两个信号进行平移、点乘、求和,即(f∗g)[t]=∑γf(γ)g(t−γ)(f*g)[t]=\sum_{\gamma}f(\gamma)g(t-\gamma)(fg)[t]=γf(γ)g(tγ)
推荐论文:
Exploring Convolutional Neural Network Structures and Optimization Techniques for Speech Recognition.
A time delay nerual network architecuture for efficient modeling of long temporal contexts.

循环神经网络RNN

循环神经网络基本公式为:ht=f(Wxhxt+Whhht−1)h_t=f(W_{xh}x_t+W_{hh}h_{t-1})ht=f(Wxhxt+Whhht1),其中f(.)f(.)f(.)表示激活函数,WxhW_{xh}WxhN×MN \times MN×M的连接前一层的权值矩阵,WHHW_{HH}WHHN×NN \times NN×N的连接t−1t-1t1时刻该循环层输出ht−1h_{t-1}ht1的权值矩阵,ht−1h_{t-1}ht1是RNN的内部状态。
推荐论文:Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition。

混合神经网络

FNN具有全局特征抽取的优点,CNN具有局部特征抽取、Invariance、有限时序建模能力的优点,RNN具有记忆和时序建模能力的优点。复杂网络基本是以上三种网络的组合,根据任务的特点选择合适的网络。
推荐论文:Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks。

更多推荐