马尔科夫假设认为在一句话中,某单词的出现概率只与它前面的前 nnn 个单词有关。

2.2.1 Bi-gram

基于一阶马尔科夫假设衍生出Bi-gram语言模型,该模型假设句中单词的出现概率只与其前面相邻的前1个单词有关,所以模型表达式可简化成如下:
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−1)(4) P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-1}) \tag{4} P(S)=P(W1,W2,,Wn)=P(W1)P(W2W1)P(WnWn1)(4)

式中条件概率从语料库中统计得到。

2.2.1 N-gram

同理可得,基于二阶及以上马尔科夫假设能生出N-gram语言模型,该模型假设句中单词的出现概率只与其前面相邻的前 N-1个单词有关,所以模型表达式可简化成如下:
P(S)=P(W1,W2,…,Wn)=P(W1)P(W2∣W1)⋯P(Wn∣Wn−N+1,…,Wn−1)(5) P(S) = P(W_1, W_2, …, W_n) = P(W_1)P(W_2|W_1) \cdots P(W_n|W_{n-N+1}, \dots , W_{n-1}) \tag{5} P(S)=P(W1,W2,,Wn)=P(W1)P(W2W1)P(WnWnN+1,,Wn1)(5)

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐