gpt4 book ai didi

recurrent-neural-network - 没有 MAX_LENGTH 的 AttentionDecoderRNN

转载 作者:行者123 更新时间:2023-12-04 08:44:12 33 4
gpt4 key购买 nike

来自 PyTorch Seq2Seq 教程,http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder

我们看到注意力机制严重依赖于 MAX_LENGTH参数确定attn -> attn_softmax -> attn_weights的输出维度, IE。

class AttnDecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
super(AttnDecoderRNN, self).__init__()
self.hidden_size = hidden_size
self.output_size = output_size
self.dropout_p = dropout_p
self.max_length = max_length

self.embedding = nn.Embedding(self.output_size, self.hidden_size)
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
self.dropout = nn.Dropout(self.dropout_p)
self.gru = nn.GRU(self.hidden_size, self.hidden_size)
self.out = nn.Linear(self.hidden_size, self.output_size)

进一步来说

self.attn = nn.Linear(self.hidden_size * 2, self.max_length)

据我所知 MAX_LENGTH变量是减少数量的机制。需要在 AttentionDecoderRNN 中训练的参数的数量.

如果我们没有 MAX_LENGTH预先确定。 我们应该初始化什么值 attn层与?

会不会是output_size ? 如果是这样,那么这将是学习对目标语言中完整词汇的关注。这不是 Bahdanau (2015) 注意力论文的真正意图吗?

最佳答案

注意力调制解码器的输入。即注意力调制与输入序列长度相同的编码序列。因此,MAX_LENGTH应该是所有输入序列的最大序列长度。

关于recurrent-neural-network - 没有 MAX_LENGTH 的 AttentionDecoderRNN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48698587/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com