gpt4 book ai didi

nlp - 单向 Transformer VS 双向 BERT

转载 作者:行者123 更新时间:2023-12-04 12:43:28 30 4
gpt4 key购买 nike

我刚看完 Transformer纸和BERT纸。但无法弄清楚为什么 BERT 论文中提到的 Transformer 是单向的,而 BERT 是双向的。由于他们不使用循环网络,因此解释方向并不那么简单。任何人都可以提供一些线索吗?谢谢。

最佳答案

为了澄清起见,Vaswani 等人的原始 Transformer 模型。是一种编码器-解码器架构。因此,“Transformer 是单向的”这一说法是有误导性的。

实际上,transformer 编码器是双向的,这意味着 self-attention 可以同时关注左侧和右侧的 token 。相比之下,解码器是单向的,因为在一次生成一个标记的文本时,您不能让解码器关注当前标记的右侧。转换器解码器通过向右屏蔽标记来限制自注意力。

BERT 使用变压器编码器架构,因此可以同时处理左右,从而产生“双向性”。

来自 BERT 论文本身:

We note that in the literature the bidirectional Transformer is often referred to as a “Transformer encoder” while the left-context-only version is referred to as a “Transformer decoder” since it can be used for text generation.



推荐阅读: this article .

关于nlp - 单向 Transformer VS 双向 BERT,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55114128/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com