tensorflow - 如何在 LSTM 层之间实现跳跃连接结构-6ren

tensorflow - 如何在 LSTM 层之间实现跳跃连接结构

转载作者：行者123 更新时间：2023-12-05 02:08:33

28

4

最近学习了ResNet的skip connection，发现这种网络结构在训练的时候可以有很大的提升，在U-net等卷积网络中也适用。但是，我不知道如何使用 LSTM 自动编码器网络实现类似的结构。看起来我被一些尺寸问题困住了......我是用keras的方法实现的，但是一直报错。所以这里是网络代码:

# lstm autoencoder recreate sequence
from numpy import array
from keras.models import Sequential
from keras.layers import LSTM
from keras.layers import Dense
from keras.layers import RepeatVector
from keras.layers import TimeDistributed
from keras.utils import plot_model
# from keras import regularizers
from keras.regularizers import l1
from keras.optimizers import Adam
import keras.backend as K
model = Sequential()
model.add(LSTM(512, activation='selu', input_shape=(n_in,1),return_sequences=True))
model.add(LSTM(256, activation='selu',return_sequences=True)) 
model.add(LSTM(20, activation='selu'))  
model.add(RepeatVector(n_in))
model.add(LSTM(20, activation='selu',return_sequences=True)) 
model.add(LSTM(256, activation='selu',return_sequences=True)) 
model.add(LSTM(512, activation='selu', return_sequences=True))
model.add(TimeDistributed(Dense(1)))
# model.add
plot_model(model=model, show_shapes=True)

就像在resnet或unet中跳过连接图一样，我正在尝试像这样修改网络:

编码器 lstm 层的输出还将前一层输出组合(连接，或相加？)作为解码器 lstm 层的输入。如图所示，对应层是对称的。这样的连接想法可能吗？但我是 keras API 和跳过连接结构的新手，我不知道如何实现它。

最佳答案

首先，您需要开始使用函数式 API 而不是 Sequential。函数式 API 允许您在每一层中构建任意输入和输出连接，而不是堆叠网络。

在以下位置了解有关函数式 API 的更多信息: https://keras.io/guides/functional_api/

关于从 LSTM 层构建跳跃连接，它与为任何类型的层构建跳跃一样简单。我将向您展示示例代码:

input = Input(shape=input_shape)
a = LSTM(32, return_sequences=True)(input)

x = LSTM(64, return_sequences=True)(a) # main1 
a = LSTM(64, return_sequences=True)(a) # skip1

x = LSTM(64, return_sequences=True)(x) # main1
x = LSTM(64, return_sequences=True)(x) # main1

b = Add()([a,x]) # main1 + skip1

x = LSTM(128, return_sequences=True)(b) # main2
b = LSTM(128, return_sequences=True)(b) # skip2

x = LSTM(128, return_sequences=True)(x) # main2
x = LSTM(128, return_sequences=True)(x) # main2

c = Add()([b,x]) # main2 + skip2

x = LSTM(256, return_sequences=False)(c)

x = Dense(512, activation='relu')(x)
x = Dense(128, activation='relu')(x)

x = Dense(2, activation='softmax')(x)
model = Model(input, x)

此代码将产生以下网络:

如您所见，Add 层接收前一层加上 block 之前的层(第一个 block 中的 a)作为参数。

由于 Add 要求所有参数具有相同的形状，因此您必须在 skip 侧添加一个额外的 LSTM 以均衡 block 开始和结束的形状(与原始 ResNet 相同的概念) .

当然你应该搞乱这个网络，添加不同种类的层，Dropout，regularizers 、Activation 或您选择为您的案例工作的任何内容。这只是一个树桩网络，用于显示与 LSTM 的跳过连接。

其余部分与您已经训练过的任何其他网络几乎相同。

关于tensorflow - 如何在 LSTM 层之间实现跳跃连接结构，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60772323/

28

4

0

文章推荐： laravel - 在 PhpStorm 中为 Laravel 项目实时编辑

文章推荐： tensorflow - 如何创建一个 Keras 层来进行 4D 卷积 (Conv4D)？

lstm - LSTM 单元如何映射到层？
我无法准确理解 LSTM 单元的范围——它如何映射到网络层。来自格雷夫斯 (2014): 在我看来，在单层网络中，layer = lstm 单元。这实际上如何在多层 rnn 中工作？三层RNN LS
machine-learning - lstm(256) + lstm(256) 和 lstm(512) 有什么区别？
这是代码 model = Sequential() model.add(LSTM(256, input_shape=(None, 1), return_sequences=True)) model.a
lstm - Pytorch 隐藏状态 LSTM
为什么我们需要在pytorch中初始化LSTM中的隐藏状态h0。由于 h0 无论如何都会被计算并被覆盖？是不是很像整合一个一 = 0 一个= 4 即使我们不做a=0，也应该没问题.. 最佳答案重点
lstm - Deeplearning4j LSTM 时间序列预测示例
我正在尝试使用 LSTM 在 Deeplearning4j 中进行一些简单的时间序列预测，但我很难让它工作。我有一个简单的文本文件，其中包含如下所示的数字列表，并希望网络学习预测下一个数字。有没有
keras - 对如何实现时间分布的 LSTM + LSTM 感到困惑
在大量阅读和绘制图表之后，我想我已经提出了一个模型，我可以将其用作更多测试我需要调整哪些参数和功能的基础。但是，我对如何实现以下测试用例感到困惑(所有数字都比最终模型小几个数量级，但我想从小处着手):
lstm - torch.nn.LSTM 运行时错误
我正在尝试实现“Livelinet:用于预测教育视频中的活力的多模式深度循环神经网络”中的结构。为了简单说明，我将 10 秒音频剪辑分成 10 个 1 秒音频剪辑，并从该 1 秒音频剪辑中获取频谱图
python - Tensorflow LSTM - LSTM 单元上的矩阵乘法
我正在 Tensorflow 中制作 LSTM 神经网络。输入张量大小为 92。 import tensorflow as tf from tensorflow.contrib import rnn
python - 在 LSTM 层之前具有嵌入层的 Keras LSTM
我正在尝试 keras IMDB 数据的示例，数据形状是这样的: x_train shape: (25000, 80) 我只是把keras例子的原始代码改成了这样的代码: model = Sequen
lstm - 如何正确地为 PyTorch 中的嵌入、LSTM 和线性层提供输入？
我需要了解如何使用 torch.nn 的不同组件正确准备批量训练的输入。模块。具体来说，我希望为 seq2seq 模型创建一个编码器-解码器网络。假设我有一个包含这三层的模块，按顺序: nn.Emb
tensorflow - Keras - 有状态 LSTM 与无状态 LSTM
我很难概念化 Keras 中有状态 LSTM 和无状态 LSTM 之间的区别。我的理解是，在每个批处理结束时，在无状态情况下“网络状态被重置”，而对于有状态情况，网络状态会为每个批处理保留，然后必须在
lstm - PyTorch LSTM - 使用词嵌入而不是 nn.Embedding()
nn.Embedding() 是学习 LSTM 所必需的吗？我在 PyTorch 中使用 LSTM 来预测 NER - 此处是类似任务的示例 - https://pytorch.org/tutori
python - 塑造 LSTM 的数据，并将密集层的输出馈送到 LSTM
我正在尝试找出适合我想要拟合的模型的正确语法。这是一个时间序列预测问题，我想在将时间序列输入 LSTM 之前使用一些密集层来改进时间序列的表示。这是我正在使用的虚拟系列: import pandas
deep-learning - 堆叠式 LSTM 网络中每个 LSTM 层的输入是什么？
我在理解堆叠式 LSTM 网络中各层的输入-输出流时遇到了一些困难。假设我已经创建了一个如下所示的堆叠式 LSTM 网络: # parameters time_steps = 10 features
lstm - 将 LSTM 中的 Tanh 激活更改为 ReLU
LSTM 类中的默认非线性激活函数是 tanh。我希望在我的项目中使用 ReLU。浏览文档和其他资源，我无法找到一种简单的方法来做到这一点。我能找到的唯一方法是定义我自己的自定义 LSTMCell，但
lstm - 是否可以在 PyTorch 中使用 LSTMCells 模块实现多层 LSTM？
在 PyTorch 中，有一个 LSTM 模块，除了输入序列、隐藏状态和单元状态之外，它还接受 num_layers 参数，该参数指定我们的 LSTM 有多少层。然而，还有另一个模块 LSTMCel
machine-learning - TensorFlow:在另一个 LSTM 之上的 LSTM
没什么好说的作为介绍:我想在 TensorFlow 中将 LSTM 堆叠在另一个 LSTM 上，但一直被错误阻止，我不太明白，更不用说单独解决了。代码如下: def RNN(_X, _istate,
machine-learning - 双向 LSTM 和 LSTM 有什么区别？
有人可以解释一下吗？我知道双向 LSTM 具有前向和反向传递，但是与单向 LSTM 相比，它有什么优势？它们各自更适合什么？最佳答案 LSTM 的核心是使用隐藏状态保留已经通过它的输入信息。单向
python - LSTM 内的 Tensorflow 序列到序列 LSTM(嵌套)
我想构建一个带有特殊词嵌入的 LSTM，但我对它的工作原理有一些疑问。您可能知道，一些 LSTM 对字符进行操作，因此它是字符输入，字符输出。我想做同样的事情，通过对单词的抽象来学习使用嵌套的 LS
Keras LSTM for continuous output and with EarlyStopping(用于连续输出和早期停止的KERAS LSTM)
我编写了一个LSTM回归模型。它是最后一个LSTM层的BATCH_SIZE=1和RETURN_Sequence=True的模型。我还设置了VERIFICATION_DATA和耐心进行培训。但似乎存在一
python - TensorFlow:为下一批记住 LSTM 状态(有状态 LSTM)
给定一个训练有素的 LSTM 模型，我想对单个时间步执行推理，即以下示例中的 seq_length = 1。在每个时间步之后，需要为下一个“批处理”记住内部 LSTM(内存和隐藏)状态。在推理的最开始

首页

博学

6Ren·AI

商城

tensorflow - 如何在 LSTM 层之间实现跳跃连接结构