经典统计语言模型 -- Statistical Language Model

别水贴了

1159人浏览 · 2020-05-04 10:12:55

别水贴了 · 2020-05-04 10:12:55 发布

模型介绍

NLP早期常用的统计方法，对于一个sequenc的句子 $(w_1w_2w_3{\cdots}w_n, w_i$ 表示某个词)，其出现的概率计算如下：
$P(S)=P(w_1){\cdot}P(w_2|w_1){\cdot}P(w_3|w_1w_2){\cdots}P(w_{n}|w_1w_2{\cdots}w_{n-1}) \tag1$
引入马尔可夫假设，任意一个词出现的概率，只和前N-1个词有关, 特别的当N=2的时候，公式1变为如下
$P(S)=P(w_1){\cdot}P(w_2|w_1){\cdot}P(w_3|w_2){\cdots}P(w_{n}|w_{n-1}) \tag2$

核心思想

一个句子的合理性为该句子在语料中出现的概率
句子出现的概率为句子中词按顺序出现的概率
引入马尔可夫假设：N-gram模型为任意一个词出现的概率，和前N-1个词有关，以上公式(1)为Bigram，当前词的概率只和前一个有关

那么如何计算 $P(w_n|w_{n-1}))$ 呢， $P(w_n|w_{n-1})$ 为条件概率，根据定义有
$P(w_n|w_{n-1}) =\frac{P(w_{n-1},w_n)}{P(w_{n-1})} \tag3$
其中 $P(w_{n-1},w_n)$ 为联合概率密度, 只要语料库够大 $P(wn−1,wn)=#(wn−1,wn)#P(w_{n-1},w_n)=\frac{\#(w_{n-1}, w_n)}{\#}$ , $P(wn−1)=#(wn−1)#P(w_{n-1})=\frac{\#(w_{n-1})}{\#}$ , $w_{n-1}, w_n)$ 为 $w_{n-1}w_n$ 这个二元组在语料corpus中出现的次数，对 $P(w_{n-1})$ 为0的情况

缺点

Ngram是由词频率和共同出现的频率来估计概率的，算力的问题随着Ngram的N变大而指数增大
当N不太大的时候，无法解决长文本的依赖问题
对于共现次数为0的情况， $w_{n-1}w_n$ 出现的次数为0，需要考虑平滑处理，N越大，情况越严重
N元组的共现无法体现语义相似

优点

原理简单，语料库来自人类的自然文本，数据量巨大且不用标注
奠定了之后NLP语言模型的发展基石

九章云极普惠算力

更多推荐

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

终极指南：如何用facenet-pytorch快速构建企业级人脸识别系统

在当今数字化时代，人脸识别技术已成为身份验证、安全监控和智能交互的核心驱动力。facenet-pytorch作为一款基于PyTorch的开源人脸识别工具包，凭借其高效的MTCNN人脸检测和InceptionResnetV1特征提取能力，为开发者提供了从零构建专业级人脸识别系统的完整解决方案。本文将带你一步步探索这个强大工具的使用方法，从环境搭建到实际应用，让你在短时间内掌握人脸识别的核心技术。