语言模型演化史

语言模型演化史Bag-of-words model此模型下，一段文本（比如一个句子或是一个文档）可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序文本的降维本质上涉及到了文本的表达形式在传统的词袋模型当中，对于每一个词采用one-hot稀疏编码的形式，假设目标语料中共有N个唯一确认的词，那么需要一个长度N的词典，词典的每一个位置表达了文本中出现的某一个词。在某一种特征表达下，比如

dzzxjl

899人浏览 · 2021-11-15 23:53:04

dzzxjl · 2021-11-15 23:53:04 发布

语言模型演化史

在这里插入图片描述

Bag-of-words model

此模型下，一段文本（比如一个句子或是一个文档）可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序
文本的降维本质上涉及到了文本的表达形式

在传统的词袋模型当中，对于每一个词采用one-hot稀疏编码的形式，假设目标语料中共有N个唯一确认的词，那么需要一个长度N的词典，词典的每一个位置表达了文本中出现的某一个词。

在某一种特征表达下，比如词频、binary、tf-idf等，可以将任意词，或者文本表达在一个N维的向量空间里。凭借该向量空间的表达，可以使用机器学习算法，进行后续任务处理。
这种方式被称为n-gram语法，指文本中连续出现的n个语词。
当n分别为1、2、3时，又分别称为一元语法（unigram）、二元语法（bigram）与三元语法（trigram）。

词袋模型的缺点：