gpt4 book ai didi

tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别?

转载 作者:行者123 更新时间:2023-12-02 23:47:28 25 4
gpt4 key购买 nike

这两个注意力机制被用在seq2seq模块中。这两种不同的注意力在 this 中作为乘法和加法注意力引入。 TensorFlow 文档。有什么区别?

最佳答案

我经历过这个Effective Approaches to Attention-based Neural Machine Translation 。在3.1部分他们提到了两个注意力之间的区别,如下,

  1. Luong 注意力在编码器和解码器中都使用了顶部隐藏层状态。 但是Bahdanau 注意力采用前向和后向源隐藏状态(顶部隐藏层)的串联

  2. Luong注意力中,他们在时间t获得解码器隐藏状态。然后计算注意力分数,并从中得到上下文向量,该向量将与解码器的隐藏状态连接起来,然后进行预测。

    但是在Bahdanau时间t,我们考虑t-1> 解码器的隐藏状态。然后我们如上所述计算对齐方式、上下文向量。但随后我们将此上下文与解码器在 t-1 处的隐藏状态连接起来。因此,在 softmax 之前,这个串联向量会进入 GRU 内部。

  3. Luong 有不同类型的阵营。 Bahdanau 只有 concat 分数对齐模型。

Alignment methdods

关于tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44238154/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com