- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这两个注意力机制被用在seq2seq模块中。这两种不同的注意力在 this 中作为乘法和加法注意力引入。 TensorFlow 文档。有什么区别?
最佳答案
我经历过这个Effective Approaches to Attention-based Neural Machine Translation 。在3.1部分他们提到了两个注意力之间的区别,如下,
Luong 注意力在编码器和解码器中都使用了顶部隐藏层状态。 但是Bahdanau 注意力采用前向和后向源隐藏状态(顶部隐藏层)的串联。
在Luong注意力中,他们在时间t获得解码器隐藏状态。然后计算注意力分数,并从中得到上下文向量,该向量将与解码器的隐藏状态连接起来,然后进行预测。
但是在Bahdanau时间t,我们考虑t-1> 解码器的隐藏状态。然后我们如上所述计算对齐方式、上下文向量。但随后我们将此上下文与解码器在 t-1 处的隐藏状态连接起来。因此,在 softmax 之前,这个串联向量会进入 GRU 内部。
Luong 有不同类型的阵营。 Bahdanau 只有 concat 分数对齐模型。
关于tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44238154/
这两个注意力机制被用在seq2seq模块中。这两种不同的注意力在 this 中作为乘法和加法注意力引入。 TensorFlow 文档。有什么区别? 最佳答案 我经历过这个Effective Appro
我正在尝试实现 Luong et al. 2015 中描述的注意力我自己在 PyTorch 中,但我无法让它工作。下面是我的代码,我现在只对“一般”注意情况感兴趣。我想知道我是否遗漏了任何明显的错误。
我是一名优秀的程序员,十分优秀!