语音识别入门第六节：基于DNN-HMM的语音识别系统

安静_xju

1663人浏览 · 2022-08-09 21:13:04

安静_xju · 2022-08-09 21:13:04 发布

DNN-HMM语音识别系统

将GMM-HMM过度到DNN-HMM时，只需简单的将GMM替换为DNN即可。但是在GMM-HMM可以进行冷启动，即先给一个初始的对齐，在初始的对齐上，使用Viterbi训练得到一组新的GMM-HMM参数，再进行重新对齐、更新参数，一直循环迭代即可。对于DNN-HMM来说，神经网络的训练依赖于准确的label，在最开始时，并没有一个准确的label，针对DNN的状态对齐，可以将GMM-HMM的对齐应用到DNN-HMM中，也就是先进行一次GMM-HMM的训练，之后再进行DNN-HMM的训练即可。
DNN的三要素为：输入是什么、输出是什么、损失函数是什么。
DNN-HMM语音识别系统训练流程：数据准备、特征提取、单音素训练、三音素训练、对齐、DNN训练、解码。

深度神经网络

前馈神经网络FNN

前馈神经网络结构较为简单，可简单表示为 $y_l=f(W_lx+b_l)$ ，其中W为权重，b为偏置，x为输入，f为激活函数，y为输出，每一层都有一个这样的表达形式。
实际使用中常用的激活函数有Sigmoid、tanh、ReLU等。
语音识别中计算损失函数时首先要做的是概率归一化，常用的有：Softmax概率归一化，之后进行损失函数的计算，常用的有：交叉熵CE损失函数等。
梯度下降 $θ∗=argmimθL(θ)\theta ^* = \underset{\theta}{argmim} L(\theta)$ ，其中，L为损失函数， $θ\theta$ 为NN参数。
$θ∗=θ−α∂L∂θ\theta ^*=\theta-\alpha\frac{\partial L}{\partial \theta}$ ，其中， $α\alpha$ 为学习率。
反向传播的基本概念为链式求导法则： $y=f(x)，z=g(y)，则dzdx=dzdydydxy=f(x)，z=g(y)，则\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}$ 。
推荐论文：Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition。

卷积神经网络CNN

卷积的思想是对两个信号进行平移、点乘、求和，即 $(f∗g)[t]=∑γf(γ)g(t−γ)(f*g)[t]=\sum_{\gamma}f(\gamma)g(t-\gamma)$ 。
推荐论文：
Exploring Convolutional Neural Network Structures and Optimization Techniques for Speech Recognition.
A time delay nerual network architecuture for efficient modeling of long temporal contexts.

循环神经网络RNN

循环神经网络基本公式为： $h_t=f(W_{xh}x_t+W_{hh}h_{t-1})$ ，其中 $f (.)$ 表示激活函数， $W_{xh}$ 是 $\times M$ 的连接前一层的权值矩阵， $W_{HH}$ 是 $\times N$ 的连接 $t - 1$ 时刻该循环层输出 $h_{t-1}$ 的权值矩阵， $h_{t-1}$ 是RNN的内部状态。
推荐论文：Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition。

混合神经网络

FNN具有全局特征抽取的优点，CNN具有局部特征抽取、Invariance、有限时序建模能力的优点，RNN具有记忆和时序建模能力的优点。复杂网络基本是以上三种网络的组合，根据任务的特点选择合适的网络。
推荐论文：Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks。

九章云极普惠算力

更多推荐

突破算力瓶颈：nanoGPT水平扩展全方案——从单GPU到多节点集群的完整指南

nanoGPT作为一款轻量级GPT训练框架，以其简洁高效的设计成为中小型语言模型训练的理想选择。本文将系统介绍如何通过水平扩展技术突破算力限制，在不同硬件环境下实现高效训练，从单GPU到多节点集群的完整配置方案。## 🚀 为什么选择nanoGPT进行水平扩展？nanoGPT采用极简设计理念，核心代码仅包含`model.py`（约300行模型定义）和`train.py`（约300行训练循环

九章云极普惠算力

终极Sidekick推理模型指南：多模型兼容与性能优化完整教程

Sidekick是一款原生macOS应用，允许用户与本地LLM聊天，无需安装其他软件即可响应Mac上文件、文件夹和网站的信息。本文将详细介绍Sidekick的推理模型支持，包括本地与远程模型的配置方法、多模型兼容特性以及实用的性能优化策略，帮助用户充分发挥AI助手的潜力。## 本地模型：从下载到部署的完整流程Sidekick提供了丰富的本地模型支持，让用户可以在完全离线的环境下使用AI功能

九章云极普惠算力

pygta5性能优化技巧：如何提升自动驾驶AI的响应速度

pygta5是一个使用Python实现《侠盗猎车手5》自动驾驶AI的开源项目，通过深度学习模型控制游戏角色自动行驶。在实际应用中，AI的响应速度直接影响驾驶体验和安全性。本文将分享6个实用的性能优化技巧，帮助你显著提升pygta5自动驾驶AI的响应速度，让AI驾驶更加流畅自然。## 一、图像预处理优化：减少计算负担自动驾驶AI首先需要处理游戏画面，图像数据的大小直接影响后续计算效率。在py