作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
来自 PyTorch Seq2Seq 教程,http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder
我们看到注意力机制严重依赖于 MAX_LENGTH
参数确定attn -> attn_softmax -> attn_weights
的输出维度, IE。
class AttnDecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
super(AttnDecoderRNN, self).__init__()
self.hidden_size = hidden_size
self.output_size = output_size
self.dropout_p = dropout_p
self.max_length = max_length
self.embedding = nn.Embedding(self.output_size, self.hidden_size)
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
self.dropout = nn.Dropout(self.dropout_p)
self.gru = nn.GRU(self.hidden_size, self.hidden_size)
self.out = nn.Linear(self.hidden_size, self.output_size)
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
MAX_LENGTH
变量是减少数量的机制。需要在
AttentionDecoderRNN
中训练的参数的数量.
MAX_LENGTH
预先确定。
我们应该初始化什么值 attn
层与?
output_size
? 如果是这样,那么这将是学习对目标语言中完整词汇的关注。这不是 Bahdanau (2015) 注意力论文的真正意图吗?
最佳答案
注意力调制解码器的输入。即注意力调制与输入序列长度相同的编码序列。因此,MAX_LENGTH
应该是所有输入序列的最大序列长度。
关于recurrent-neural-network - 没有 MAX_LENGTH 的 AttentionDecoderRNN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48698587/
来自 PyTorch Seq2Seq 教程,http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#at
我是一名优秀的程序员,十分优秀!