deep-learning - 理解有状态的 LSTM-6ren

deep-learning - 理解有状态的 LSTM

转载作者：行者123 更新时间：2023-12-03 20:20:15

25

4

关闭。这个问题需要更多 focused .它目前不接受答案。

想改进这个问题？更新问题，使其仅关注一个问题 editing this post .

1年前关闭。

Improve this question

我正在经历这个tutorial在 RNN/LSTM 上，我很难理解有状态的 LSTM。我的问题如下:

1.训练批量大小

在 RNNs 上的 Keras 文档中，我发现i中样本的隐藏状态批处理中的第 - 个位置将作为 i 中样本的输入隐藏状态提供- 下一批中的第一个位置。这是否意味着如果我们想将隐藏状态从一个样本传递到另一个样本，我们必须使用大小为 1 的批处理，从而执行在线梯度下降？有没有办法在大小>1的批处理中传递隐藏状态并对该批处理执行梯度下降？

2. 单字符映射问题

在教程的段落“单字符到单字符映射的有状态 LSTM”中，给出了一个使用 batch_size = 1 的代码。和 stateful = True学习根据字母表中的字母预测字母表的下一个字母。在代码的最后一部分(第 53 行到完整代码的末尾)，模型从一个随机字母 ('K') 开始进行测试，并预测'B'，然后给定'B'，它预测'C'，等等. 除了'K'，它似乎运作良好。但是，我尝试对代码进行以下调整(最后一部分，我保留了第 52 行及以上):

    # demonstrate a random starting point
    letter1 = "M"
    seed1 = [char_to_int[letter1]]
    x = numpy.reshape(seed, (1, len(seed), 1))
    x = x / float(len(alphabet))
    prediction = model.predict(x, verbose=0)
    index = numpy.argmax(prediction)
    print(int_to_char[seed1[0]], "->", int_to_char[index])
    letter2 = "E"
    seed2 = [char_to_int[letter2]]
    seed = seed2
    print("New start: ", letter1, letter2)
    for i in range(0, 5):
        x = numpy.reshape(seed, (1, len(seed), 1))
        x = x / float(len(alphabet))
        prediction = model.predict(x, verbose=0)
        index = numpy.argmax(prediction)
        print(int_to_char[seed[0]], "->", int_to_char[index])
        seed = [index]
    model.reset_states()

and these outputs:

    M -> B
    New start: M E
    E -> C
    C -> D
    D -> E
    E -> F

It looks like the LSTM did not learn the alphabet but just the positions of the letters, and that regardless of the first letter we feed in, the LSTM will always predict B since it's the second letter, then C and so on.

因此，将先前的隐藏状态作为当前隐藏状态的初始隐藏状态如何帮助我们学习，因为在测试期间，如果我们以字母“K”开头，例如，字母 A 到 J 之前不会被输入并且初始隐藏状态不会与训练期间相同？

3. 在一本书上训练一个 LSTM 来生成句子

我想在一整本书上训练我的 LSTM 以学习如何生成句子，也许还学习作者的风格，我怎样才能自然地在该文本上训练我的 LSTM(输入整个文本并让 LSTM 找出单词之间的依赖关系) 而不是自己“人为地”从那本书中创建成批的句子来训练我的 LSTM？我相信我应该使用有状态的 LSTM 会有所帮助，但我不确定如何。

最佳答案

在 Keras 中有一个有状态的 LSTM 意味着将使用一个 Keras 变量来存储和更新状态，实际上您可以随时检查状态向量的值(也就是说，直到您调用 reset_states() )。另一方面，无状态模型将在每次处理批处理时使用初始零状态，因此就好像您总是在 reset_states() 、 train_on_batch 和 test_on_batch 之后调用 predict_on_batch 。关于状态被重用于下一批有状态模型的解释就是与无状态模型的区别。当然，状态将始终在批处理中的每个序列中流动，并且您不需要有大小为 1 的批处理来发生这种情况。我看到有状态模型有用的两种情况:

你想训练分割的数据序列，因为这些序列很长，而且在整个长度上训练是不切实际的。

在预测时间，您希望检索序列中每个时间点的输出，而不仅仅是在末尾(因为您想将其反馈回网络或因为您的应用程序需要它)。我个人在我导出以供以后集成的模型中这样做(它们是批量大小为 1 的训练模型的“副本”)。

我同意字母表的 RNN 示例在实践中似乎并不是很有用；它仅在您以字母 A 开头时才有效。如果您想学习重现从任何字母开始的字母表，则需要使用此类示例(字母表的子序列或旋转)来训练网络。但我认为一个常规的前馈网络可以学习预测字母表的下一个字母，训练像 (A, B), (B, C) 等这样的对。我认为这个例子比其他任何东西都更适合演示目的.

您可能已经阅读过它，但热门帖子 The Unreasonable Effectiveness of Recurrent Neural Networks 显示了一些有趣的结果，这些结果与您想要做的事情一致(尽管它并没有真正深入到实现细节)。我没有使用文本数据训练 RNN 的个人经验，但是您可以研究许多方法。您可以构建基于字符的模型(如帖子中的模型)，您可以在其中一次输入并接收一个字符。更高级的方法是对文本进行一些预处理，并将它们转换为数字序列； Keras 包含一些 text preprocessing functions 来做到这一点。将单个数字作为特征空间可能效果不佳，因此您可以简单地将每个单词转换为具有 one-hot 编码的向量，或者更有趣的是，让网络为每个词学习最佳向量表示，这就是他们所说的 en embedding 。您可以进一步进行预处理并查看 NLTK 之类的内容，特别是如果您想删除停用词、标点符号等。最后，如果您有不同大小的序列(例如，您使用的是全文而不是固定大小的摘录，这对您可能重要也可能不重要)，您需要更加小心并使用 masking 和/或 sample weighting .根据具体问题，您可以相应地设置培训。如果您想学习生成相似的文本，“Y”将类似于“X”(单热编码)，仅移动一个(或多个)位置(在这种情况下，您可能需要使用 return_sequences=True 和TimeDistributed layers)。如果您想确定作者，您的输出可能是 softmax Dense layer 。

希望有帮助。

关于deep-learning - 理解有状态的 LSTM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41695117/

25

4

0

文章推荐： akka - Akka System Guardian 的自定义主管策略

文章推荐： r - 停止打印大量零(不是科学计数法)

文章推荐： tfs - Cake Build 自动合并功能

lstm - LSTM 单元如何映射到层？
我无法准确理解 LSTM 单元的范围——它如何映射到网络层。来自格雷夫斯 (2014): 在我看来，在单层网络中，layer = lstm 单元。这实际上如何在多层 rnn 中工作？三层RNN LS
machine-learning - lstm(256) + lstm(256) 和 lstm(512) 有什么区别？
这是代码 model = Sequential() model.add(LSTM(256, input_shape=(None, 1), return_sequences=True)) model.a
lstm - Pytorch 隐藏状态 LSTM
为什么我们需要在pytorch中初始化LSTM中的隐藏状态h0。由于 h0 无论如何都会被计算并被覆盖？是不是很像整合一个一 = 0 一个= 4 即使我们不做a=0，也应该没问题.. 最佳答案重点
lstm - Deeplearning4j LSTM 时间序列预测示例
我正在尝试使用 LSTM 在 Deeplearning4j 中进行一些简单的时间序列预测，但我很难让它工作。我有一个简单的文本文件，其中包含如下所示的数字列表，并希望网络学习预测下一个数字。有没有
keras - 对如何实现时间分布的 LSTM + LSTM 感到困惑
在大量阅读和绘制图表之后，我想我已经提出了一个模型，我可以将其用作更多测试我需要调整哪些参数和功能的基础。但是，我对如何实现以下测试用例感到困惑(所有数字都比最终模型小几个数量级，但我想从小处着手):
lstm - torch.nn.LSTM 运行时错误
我正在尝试实现“Livelinet:用于预测教育视频中的活力的多模式深度循环神经网络”中的结构。为了简单说明，我将 10 秒音频剪辑分成 10 个 1 秒音频剪辑，并从该 1 秒音频剪辑中获取频谱图
python - Tensorflow LSTM - LSTM 单元上的矩阵乘法
我正在 Tensorflow 中制作 LSTM 神经网络。输入张量大小为 92。 import tensorflow as tf from tensorflow.contrib import rnn
python - 在 LSTM 层之前具有嵌入层的 Keras LSTM
我正在尝试 keras IMDB 数据的示例，数据形状是这样的: x_train shape: (25000, 80) 我只是把keras例子的原始代码改成了这样的代码: model = Sequen
lstm - 如何正确地为 PyTorch 中的嵌入、LSTM 和线性层提供输入？
我需要了解如何使用 torch.nn 的不同组件正确准备批量训练的输入。模块。具体来说，我希望为 seq2seq 模型创建一个编码器-解码器网络。假设我有一个包含这三层的模块，按顺序: nn.Emb
tensorflow - Keras - 有状态 LSTM 与无状态 LSTM
我很难概念化 Keras 中有状态 LSTM 和无状态 LSTM 之间的区别。我的理解是，在每个批处理结束时，在无状态情况下“网络状态被重置”，而对于有状态情况，网络状态会为每个批处理保留，然后必须在
lstm - PyTorch LSTM - 使用词嵌入而不是 nn.Embedding()
nn.Embedding() 是学习 LSTM 所必需的吗？我在 PyTorch 中使用 LSTM 来预测 NER - 此处是类似任务的示例 - https://pytorch.org/tutori
python - 塑造 LSTM 的数据，并将密集层的输出馈送到 LSTM
我正在尝试找出适合我想要拟合的模型的正确语法。这是一个时间序列预测问题，我想在将时间序列输入 LSTM 之前使用一些密集层来改进时间序列的表示。这是我正在使用的虚拟系列: import pandas
deep-learning - 堆叠式 LSTM 网络中每个 LSTM 层的输入是什么？
我在理解堆叠式 LSTM 网络中各层的输入-输出流时遇到了一些困难。假设我已经创建了一个如下所示的堆叠式 LSTM 网络: # parameters time_steps = 10 features
lstm - 将 LSTM 中的 Tanh 激活更改为 ReLU
LSTM 类中的默认非线性激活函数是 tanh。我希望在我的项目中使用 ReLU。浏览文档和其他资源，我无法找到一种简单的方法来做到这一点。我能找到的唯一方法是定义我自己的自定义 LSTMCell，但
lstm - 是否可以在 PyTorch 中使用 LSTMCells 模块实现多层 LSTM？
在 PyTorch 中，有一个 LSTM 模块，除了输入序列、隐藏状态和单元状态之外，它还接受 num_layers 参数，该参数指定我们的 LSTM 有多少层。然而，还有另一个模块 LSTMCel
machine-learning - TensorFlow:在另一个 LSTM 之上的 LSTM
没什么好说的作为介绍:我想在 TensorFlow 中将 LSTM 堆叠在另一个 LSTM 上，但一直被错误阻止，我不太明白，更不用说单独解决了。代码如下: def RNN(_X, _istate,
machine-learning - 双向 LSTM 和 LSTM 有什么区别？
有人可以解释一下吗？我知道双向 LSTM 具有前向和反向传递，但是与单向 LSTM 相比，它有什么优势？它们各自更适合什么？最佳答案 LSTM 的核心是使用隐藏状态保留已经通过它的输入信息。单向
python - LSTM 内的 Tensorflow 序列到序列 LSTM(嵌套)
我想构建一个带有特殊词嵌入的 LSTM，但我对它的工作原理有一些疑问。您可能知道，一些 LSTM 对字符进行操作，因此它是字符输入，字符输出。我想做同样的事情，通过对单词的抽象来学习使用嵌套的 LS
Keras LSTM for continuous output and with EarlyStopping(用于连续输出和早期停止的KERAS LSTM)
我编写了一个LSTM回归模型。它是最后一个LSTM层的BATCH_SIZE=1和RETURN_Sequence=True的模型。我还设置了VERIFICATION_DATA和耐心进行培训。但似乎存在一
python - TensorFlow:为下一批记住 LSTM 状态(有状态 LSTM)
给定一个训练有素的 LSTM 模型，我想对单个时间步执行推理，即以下示例中的 seq_length = 1。在每个时间步之后，需要为下一个“批处理”记住内部 LSTM(内存和隐藏)状态。在推理的最开始

首页

博学

6Ren·AI

商城

deep-learning - 理解有状态的 LSTM