【NLP自然语言处理】为什么说BERT是bidirectional

我们知道，Bert设计时主要采用的是Transformer编码器部分，要论述Bert为啥是双向的，我想从编码器和解码器的注意力机制来阐述。二者区别一个是双向，一个是单向，这也就是我如何理解的Bert采用的是双向编码器了。在看这篇博客前，需要对Transformer有一定的了解，在这里推荐博客。而解码器部分采用的是Masked Attention，

贾铜翌

684人浏览 · 2024-07-25 10:32:52

贾铜翌 · 2024-07-25 10:32:52 发布

首先，来看一下Transformer架构图：
在这里插入图片描述
我们知道，Bert设计时主要采用的是Transformer编码器部分，要论述Bert为啥是双向的，我想从编码器和解码器的注意力机制来阐述。

在看这篇博客前，需要对Transformer有一定的了解，在这里推荐博客翻译: 详细图解Transformer

我们知道，编码器部分的注意力机制采用多头注意力机制，而为什么要用MultiHead Attention，Transformer给出的解释为：Multi-head attention允许模型共同关注来自不同位置的不同表示子空间的信息；

而解码器部分采用的是Masked Attention，mask的目的是为了防止网络看到不该看到的内容。

二者区别一个是双向，一个是单向，这也就是我如何理解的Bert采用的是双向编码器了。

关于MultiHead Attention和Masked Attention机制，这篇博客及其推荐：MultiHead-Attention和Masked-Attention的机制和原理

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

魔乐社区虾王挑战赛 · OpenClaw虾客松正式启动！

cover

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

cover

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

所有评论(0)

查看更多评论

贾铜翌

已为社区贡献4条内容