深度学习：词向量和句向量（Embedding）

文章目录Word VectorSkip-grams model with negative samplingContinuous Bag of WordsDocument VectorWord Vector词向量模型可表示为含有一层隐藏层的前向神经网络，词向量为输入层到隐藏层的参数，即参数矩阵的行向量.语料库总词数为|V|embedding后的单词维度为n输入层为n维向量输入层到隐藏...

十里清风

3699人浏览 · 2020-04-29 14:48:38

十里清风 · 2020-04-29 14:48:38 发布

文章目录

Word Vector
Skip-grams model with negative sampling
Continuous Bag of Words
Document Vector

Word Vector

词向量模型可表示为含有一层隐藏层的前向神经网络，词向量为输入层到隐藏层的参数，即参数矩阵的行向量.

语料库总词数为|V|
embedding后的单词维度为n
输入层为n维向量
输入层到隐藏层参数矩阵 $W_{|V|\times n}$
隐藏层到输出层参数矩阵 $U_{|V|\times n}$ ，输出经过softmax归一化为概率分布

模型具有两种变体：skip-grams (sg)和continuous bag of words(cbow).

Skip-grams model with negative sampling

skip-grams是基于中心词预测上下文，示意图如下：

输出层的维度等于语料库单词总数，使用naive softmax计算简单，但是计算代价太高.

给定词 $w$ ，上下文 $\text{context}(w)$ ，随机采样K个词构成词集 $\text{neg}(w)$ ，其中 $w,\text{context}(w) \notin \text{neg}(w)$ ，可将 $\text{context}$ 和 $\text{neg}(w)$ 分别视为 $w$ 的正、负样本， $K$ 个负采样仅构成 $K + 1$ 个logisti回归，从而退化softmax.

我们希望中心词与真实上下文单词向量的內积更大，与 $K$ 次随机采样词的內积更小，对于单个窗口的负采样似然函数可表示为:
$J_t(\theta)=\log\sigma(u_0^\top v_c)+\sum_{k=1}^K\log(1-\sigma(u_k^\top v_c))$

式中 $u_0$ 和 $u_k$ 分别为上下文单词和负采样单词的onehot向量， $v_c$ 为中心词在输出层向量表示.

负样本词被采样的概率与其在语料库中的频率正相关，为相对减少常见词被采样频率。增加稀有词被采样概率，可将语料库生成的unigram分布，通过3/4次方，w被采样的概率为
$P(w)=U(w)^{3/4}/Z$
上式中Z为归一化因子，用于生成概率分布.

Continuous Bag of Words

CBOW: Predict center word from (bag of) context words.

假设n_gram总数为 $T$ （窗口数/训练样本数）， $w_t$ 为窗口 $t$ 中心词的onehot向量，输入层向量 $w_{\tilde t}$ 为所有邻近词onehot向量， $P(w_t|w_{\tilde t})$ 为窗口 $t$ 中心词的概率分布.

模型目标函数为
$J(\theta)=\max\sum_{t=1}^Tlog P(w_t|w_{\tilde t}) =\max\sum_{t=1}^Tw_t\cdot \log\text{softmax}\left(U\cdot f^\top(W^\top w_{\tilde t})\right)\\$
由于 $N$ 较大(中文词约几十万)，而且大语料集下 $M$ 也非常大，模型的复杂度较大，通常是采用Negtive Sample或Hierarchical Softmax求近似解.

Document Vector

与word2vec类似，doc2vec也可采用两种训练方式：pv-dm类似于cbow（如下图），pv-dbow类似于skip-ngram.

滑动窗口从句中采样固定长度的词，将其中一个词向量作为预测，其他词向量和句向量作为输入（累加平均）.

同一句在不同滑动窗口训练时共享句向量.

九章云极普惠算力

更多推荐

超实用Hands-On-Large-Language-Models生成模型调优指南：从原理到Fine-tuning实战

Hands-On-Large-Language-Models是O'Reilly出版的《Hands-On Large Language Models》官方代码仓库，提供了生成模型调优的完整实践方案，涵盖从数据预处理到模型训练、量化优化的全流程技术。本指南将带你快速掌握生成模型调优的核心方法，通过简单步骤实现模型性能提升。## 生成模型调优的核心价值与应用场景 🚀生成模型调优（Fine-tu

九章云极普惠算力

doggo JSON 输出与脚本集成：如何自动化 DNS 监控和诊断

Doggo 是一款面向人类的命令行 DNS 客户端，用 Golang 编写。它提供了灵活的输出格式，从人类可读的彩色输出到机器可解析的 JSON 格式，满足不同场景的需求。本文将详细介绍如何利用 doggo 的 JSON 输出功能，实现 DNS 监控和诊断的自动化脚本集成。### 为什么选择 JSON 输出？在进行 DNS 监控和诊断时，我们常常需要处理大量的 DNS 响应数据，并进行分析

九章云极普惠算力

Nano-vLLM与vLLM性能对比：为什么这个轻量级引擎能实现1434 tokens/s的吞吐量

Nano-vLLM是一款轻量级大语言模型推理引擎，专注于提供极致的吞吐量性能。在相同硬件条件下，这款轻量级引擎实现了高达1434 tokens/s的惊人吞吐量，为开发者和企业提供了更高效、更经济的AI推理解决方案。## 🌟 认识Nano-vLLM：轻量级高性能推理引擎[![Nano-vLLM标志](https://raw.gitcode.com/GitHub_Trending/na/na