问答系统的流程如下:

①获取原始文本

②分词

③文本清洗,包含:

html标签、stop words(a,an,the等)、纠错、大小写转换等

③文本标准化,比如:

go, went, going, gone这一类词全部映射为go

④转为向量,方法:

boolean vector / count vector / tfidf / word2vec / seq2seq等

⑤建模,比如把库中的内容根据相似度排序然后返回结果

后面的学习笔记会对以上内容逐一探索。

更多推荐