python - RNN 中的隐藏大小与输入大小-6ren

python - RNN 中的隐藏大小与输入大小

转载作者：太空宇宙更新时间：2023-11-03 20:02:00

27

4

前提1:

关于 RNN 层中的神经元 - 我的理解是，在“每个时间步，每个神经元都接收输入向量 x (t) 和前一个时间步的输出向量 y (t –1)”^[1]:

前提2:

据我了解，在 Pytorch 的 GRU 层中，input_size 和 hidden_size 含义如下:

input_size – The number of expected features in the input x

hidden_size – The number of features in the hidden state h

自然地，hidden_size 应该表示 GRU 层中神经元的数量。

我的问题:

给定以下 GRU 层:

# assume that hidden_size = 3

class Encoder(nn.Module):
    def __init__(self, src_dictionary_size, hidden_size):
        super(Encoder, self).__init__()
        self.embedding = nn.Embedding(src_dictionary_size, hidden_size)
        self.gru = nn.GRU(input_size = hidden_size, hidden_size = hidden_size)

假设hidden_size为3，我的理解是上面的GRU层将有3个神经元，每个神经元在每个时间步同时接受大小为3的输入向量。

我的问题是:为什么 hidden_size 和 input_size 的参数必须相等？ IE。为什么 3 个神经元中的每一个都不能接受大小为 5 的输入向量？

举个例子:以下两种情况都会导致尺寸不匹配:

self.gru = nn.GRU(input_size = hidden_size, hidden_size = hidden_size-1)
self.gru = nn.GRU(input_size = hidden_size, hidden_size = hidden_size+1)

[1] 杰龙，奥雷利安。使用 Scikit-Learn 和 TensorFlow 进行机器学习实践(第 388 页)。奥莱利媒体。 Kindle版。

[3] https://pytorch.org/docs/stable/nn.html#torch.nn.GRU

<小时/>

添加完整代码以实现可重复性:

import torch
import torch.nn as nn

class Encoder(nn.Module):
    def __init__(self, src_dictionary_size, hidden_size):
        super(Encoder, self).__init__()
        self.hidden_size = hidden_size
        self.embedding = nn.Embedding(src_dictionary_size, hidden_size)
        self.gru = nn.GRU(input_size = hidden_size, hidden_size = hidden_size-1)

    def forward(self, pad_seqs, seq_lengths, hidden):
        """
        Args:
          pad_seqs of shape (max_seq_length, batch_size, 1): Padded source sequences.
          seq_lengths: List of sequence lengths.
          hidden of shape (1, batch_size, hidden_size): Initial states of the GRU.

        Returns:
          outputs of shape (max_seq_length, batch_size, hidden_size): Padded outputs of GRU at every step.
          hidden of shape (1, batch_size, hidden_size): Updated states of the GRU.
        """
        embedded_sqs = self.embedding(pad_seqs).squeeze(2)
        packed_sqs = pack_padded_sequence(embedded_sqs, seq_lengths)
        packed_output, h_n = self.gru(packed_sqs, hidden)
        output, input_sizes = pad_packed_sequence(packed_output)

        return output, h_n

    def init_hidden(self, batch_size=1):
        return torch.zeros(1, batch_size, self.hidden_size)

def test_Encoder_shapes():
    hidden_size = 5
    encoder = Encoder(src_dictionary_size=5, hidden_size=hidden_size)

    # maximum word count
    max_seq_length = 4

    # num sentences
    batch_size = 2
    hidden = encoder.init_hidden(batch_size=batch_size)

    # these are padded sequences (sentences of words). There are 2 sentences (i.e. 2 batches) with a maximum of 4 words.
    pad_seqs = torch.tensor([
        [1, 2],
        [2, 3],
        [3, 0],
        [4, 0]
    ]).view(max_seq_length, batch_size, 1)

    outputs, new_hidden = encoder.forward(pad_seqs=pad_seqs, seq_lengths=[4, 2], hidden=hidden)
    assert outputs.shape == torch.Size([4, batch_size, hidden_size]), f"Bad outputs.shape: {outputs.shape}"
    assert new_hidden.shape == torch.Size([1, batch_size, hidden_size]), f"Bad new_hidden.shape: {new_hidden.shape}"
    print('Success')

test_Encoder_shapes()

最佳答案

我刚刚解决了这个问题，这个错误是我自己造成的。

结论:input_size 和 hidden_size 的大小可能不同，这没有固有的问题。问题中的前提陈述正确。

上面(完整)代码的问题是 GRU 的初始隐藏状态没有正确的维度。初始隐藏状态必须与后续隐藏状态具有相同的维度。就我而言，初始隐藏状态的形状为 (1,2,5) 而不是 (1,2,4)。在前者中，5表示嵌入向量的维数。 4 表示 GRU 中的hidden_size(神经元数量)。正确的代码如下:

import torch
import torch.nn as nn

class Encoder(nn.Module):
    def __init__(self, src_dictionary_size, input_size, hidden_size):
        super(Encoder, self).__init__()
        self.hidden_size = hidden_size
        self.embedding = nn.Embedding(src_dictionary_size, input_size)
        self.gru = nn.GRU(input_size = input_size, hidden_size = hidden_size)

    def forward(self, pad_seqs, seq_lengths, hidden):
        """
        Args:
          pad_seqs of shape (max_seq_length, batch_size, 1): Padded source sequences.
          seq_lengths: List of sequence lengths.
          hidden of shape (1, batch_size, hidden_size): Initial states of the GRU.

        Returns:
          outputs of shape (max_seq_length, batch_size, hidden_size): Padded outputs of GRU at every step.
          hidden of shape (1, batch_size, hidden_size): Updated states of the GRU.
        """
        embedded_sqs = self.embedding(pad_seqs).squeeze(2)
        packed_sqs = pack_padded_sequence(embedded_sqs, seq_lengths)
        packed_output, h_n = self.gru(packed_sqs, hidden)
        output, input_sizes = pad_packed_sequence(packed_output)

        return output, h_n

    def init_hidden(self, batch_size=1):
        return torch.zeros(1, batch_size, self.hidden_size)

def test_Encoder_shapes():
    hidden_size = 4
    embedding_size = 5
    encoder = Encoder(src_dictionary_size=5, input_size = embedding_size, hidden_size = hidden_size)
    print(encoder)

    max_seq_length = 4
    batch_size = 2
    hidden = encoder.init_hidden(batch_size=batch_size)
    pad_seqs = torch.tensor([
        [1, 2],
        [2, 3],
        [3, 0],
        [4, 0]
    ]).view(max_seq_length, batch_size, 1)

    outputs, new_hidden = encoder.forward(pad_seqs=pad_seqs, seq_lengths=[4, 2], hidden=hidden)
    assert outputs.shape == torch.Size([4, batch_size, hidden_size]), f"Bad outputs.shape: {outputs.shape}"
    assert new_hidden.shape == torch.Size([1, batch_size, hidden_size]), f"Bad new_hidden.shape: {new_hidden.shape}"
    print('Success')

test_Encoder_shapes()

关于python - RNN 中的隐藏大小与输入大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59182518/

27

4

0

文章推荐： javascript - 在jsp中获取屏幕宽度作为变量

文章推荐： php - super 奇怪的 HTML 搞砸了

文章推荐： arrays - 替换周围元素

Tensorflow:我的 rnn 总是输出相同的值，rnn 的权重没有经过训练
我使用 tensorflow 实现了一个简单的 RNN 模型来学习时间序列数据的可能趋势并预测 future 值。然而，该模型总是在训练后产生相同的值。实际上，它得到的最佳模型是: y = b. RN
tensorflow - 属性错误: 'tensorflow.python.ops.rnn' has no attribute 'rnn'
我正在关注this tutorial关于循环神经网络。这是导入: import tensorflow as tf from tensorflow.examples.tutorials.mnist i
python - pure-python RNN 和 theano RNN 计算不同的梯度——提供的代码和结果
一段时间以来，我一直在苦思冥想，无法弄清楚我在实现这些 RNN 时做错了什么(如果有的话)。为了让你们省去前向阶段，我可以告诉你们这两个实现计算相同的输出，所以前向阶段是正确的。问题出在倒退阶段。这
tensorflow - RNN 模型不学习任何东西
我正在用 RNN 练习。我随机创建 5 个整数。如果第一个整数是奇数，则 y 值为 1，否则 y 为 0(因此，只有第一个 x 有效)。问题是，当我运行这个模型时，它不会“学习”:val_loss 和
Tensorflow RNN 权重矩阵初始化
我正在使用 bidirectional_rnn与 GRUCell但这是一个关于 Tensorflow 中 RNN 的普遍问题。我找不到如何初始化权重矩阵(输入到隐藏，隐藏到隐藏)。它们是随机初始化的
用于命名实体识别的 TensorFlow RNN
我正在尝试找出适应开放命名实体识别问题的最佳模型(生物学/化学，因此不存在实体字典，但必须通过上下文来识别它们)。目前我最好的猜测是调整 Syntaxnet，这样它就不会将单词标记为 N、V、ADJ
python - RNN 从哪里获取批量大小？
我正在通过以下方式训练 RNN: def create_rnn_model(stateful,length): model = Sequential() model.add(Simpl
python - RNN 参数没有更新？
我对 PyTorch 非常陌生，而且对一般神经网络也相当陌生。我试图构建一个可以猜测性别名字的神经网络，并且基于判断国籍的 PyTorch RNN 教程。我的代码运行没有错误，但损失几乎没有变化，
tensorflow - 我应该使用什么损失函数和指标来训练返回类别序列的 RNN？
我正在尝试训练一个模型，返回单词序列(RNN)的类。我为我的模型提供一系列嵌入: [ batchSize, sequence_length, word_embedding ] as float[]
python - RNN 不会对简单数据过度拟合
我正在尝试预测输入向量中每个数字的类别。有3个类(class)。如果输入值从 0 变为 1，则为 1 类。如果从 1 变为 0，则为 2 类。否则为 0 类。在第二个纪元之后，精度停留在 0.882
python - 有没有一种方法可以让我们在不使用热编码器的情况下训练 RNN？
我正在尝试为我的日志分析项目开发一个顺序 RNN。输入是一个日志序列，例如 [1,2,3,4,5,6,1,5,2,7,8,2,1] 目前我正在使用 keras 库中的 to_categorical
python - RNN LSTM估计正弦波频率和相位
为了加深我对 RNN 和 LSTM 的理解，我正在尝试实现一个简单的 LSTM 来估计正弦波的频率和相位。事实证明，这出奇地难以收敛。 MSE 相当高(以千为单位)唯一似乎有点工作的是，如果我生成所有
python - RNN 模型上的网格搜索时训练数据的形状不正确
请帮助我编写以下代码，当我尝试直接在数据上拟合模型时，该代码运行良好，但在网格搜索上失败(我已注释掉直接 model.fit()我的 grid.fit() 语句末尾的部分，这给了我满意的结果。还请告诉
python - RNN 中的隐藏大小与输入大小
前提1: 关于 RNN 层中的神经元 - 我的理解是，在“每个时间步，每个神经元都接收输入向量 x (t) 和前一个时间步的输出向量 y (t –1)”[1]: 前提2: 据我了解，在 Pytorch
python - 用于回归层的 RNN
我想训练一个 RNN 来解决一个简单的回归问题。我有一个形状为 (35584,) 的数组 X_train，它表示几年来每小时的测量值。我还有相应的 Y_train 形状为 (35584,) 作为预期值
java - Rnn 神经网络预测返回意想不到的预测
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
解决pytorch rnn 变长输入序列的问题
pytorch实现变长输入的rnn分类输入数据是长度不固定的序列数据，主要讲解两个部分 1、Data.DataLoader的collate_fn用法，以及按batch进行padding数据
基于循环神经网络(RNN)的古诗生成器
基于循环神经网络(RNN)的古诗生成器，具体内容如下之前在手机百度上看到有个“为你写诗”功能，能够随机生成古诗，当时感觉很酷炫= = 在学习了深度学习后，了解了一下原理，打算自己做个实现练练手
基于循环神经网络(RNN)实现影评情感分类
使用循环神经网络(RNN)实现影评情感分类作为对循环神经网络的实践，我用循环神经网络做了个影评情感的分类，即判断影评的感情色彩是正面的，还是负面的。选择使用RNN来做情感分类，主要是因为影评
tensorflow - 如何构建一个从输出到下一个输入有大量额外循环的 RNN 模型？
我的目标是在 Keras/TensorFlow 中构建一个 RNN，它由循环单元层(GRU、LSTM 等)以及从网络底部到顶部的循环组成，以添加注意力机制或特殊的内存类型。我不熟悉符号循环，所以首先我

首页

博学

6Ren·AI

商城

python - RNN 中的隐藏大小与输入大小