tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别？-6ren

gpt4 book

didi

tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别？

转载作者：行者123 更新时间：2023-12-02 23:47:28

25

4

gpt4 key购买

nike

这两个注意力机制被用在seq2seq模块中。这两种不同的注意力在 this 中作为乘法和加法注意力引入。 TensorFlow 文档。有什么区别？

最佳答案

我经历过这个Effective Approaches to Attention-based Neural Machine Translation 。在3.1部分他们提到了两个注意力之间的区别，如下，

Luong 注意力在编码器和解码器中都使用了顶部隐藏层状态。 但是Bahdanau 注意力采用前向和后向源隐藏状态(顶部隐藏层)的串联。
在Luong注意力中，他们在时间t获得解码器隐藏状态。然后计算注意力分数，并从中得到上下文向量，该向量将与解码器的隐藏状态连接起来，然后进行预测。
但是在Bahdanau时间t，我们考虑t-1> 解码器的隐藏状态。然后我们如上所述计算对齐方式、上下文向量。但随后我们将此上下文与解码器在 t-1 处的隐藏状态连接起来。因此，在 softmax 之前，这个串联向量会进入 GRU 内部。
Luong 有不同类型的阵营。 Bahdanau 只有 concat 分数对齐模型。

关于tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44238154/

25

4

0

文章推荐： Eclipse，创建新 Java 类的快捷方式

文章推荐： wordpress - 按 id 链接到自定义分类法

文章推荐： ruby-on-rails - 作用域中的多个参数

文章推荐： angularjs - 如何在上传到服务器之前调整 $cordovaCapture.captureImage 图像的大小？

tensorflow - Luong 注意力和 Bahdanau 注意力有什么区别？
这两个注意力机制被用在seq2seq模块中。这两种不同的注意力在 this 中作为乘法和加法注意力引入。 TensorFlow 文档。有什么区别？最佳答案我经历过这个Effective Appro
pytorch - 在 PyTorch 中实现 Luong Attention
我正在尝试实现 Luong et al. 2015 中描述的注意力我自己在 PyTorch 中，但我无法让它工作。下面是我的代码，我现在只对“一般”注意情况感兴趣。我想知道我是否遗漏了任何明显的错误。

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

滴滴打车优惠券

全站热门文章

Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com