python - LSTM Autoencoder 的这些实现之间的区别？-6ren

python - LSTM Autoencoder 的这些实现之间的区别？

转载作者：行者123 更新时间：2023-12-03 18:59:32

25

4

引发这个问题的具体原因是 return_sequence TensorFlow 版本的 LSTM 层的参数。
文档说:

Boolean. Whether to return the last output. in the output sequence,or the full sequence. Default: False.

我见过一些实现，尤其是自动编码器，它们使用此参数将输出序列中除最后一个元素以外的所有内容作为自动编码器的“编码器”部分的输出。
以下是三不同的实现。我想了解差异背后的原因，因为这些差异看起来非常大，但都称自己为同一件事。
示例 1(TensorFlow):
此实现去除 LSTM 的所有输出，除了序列的最后一个元素，然后重复该元素若干次以重建序列:

model = Sequential()
model.add(LSTM(100, activation='relu', input_shape=(n_in,1)))
# Decoder below
model.add(RepeatVector(n_out))
model.add(LSTM(100, activation='relu', return_sequences=True))
model.add(TimeDistributed(Dense(1)))

在查看 PyTorch 中自动编码器的实现时，我没有看到作者这样做。相反，他们将 LSTM 的整个输出用于编码器(有时后跟一个密集层，有时没有)。
示例 1(PyTorch):
这个实现在应用 LSTM 层之前训练嵌入......它似乎几乎打败了基于 LSTM 的自动编码器的想法......序列在到达 LSTM 层时已经被编码。

class EncoderLSTM(nn.Module):
  def __init__(self, input_size, hidden_size, n_layers=1, drop_prob=0):
    super(EncoderLSTM, self).__init__()
    self.hidden_size = hidden_size
    self.n_layers = n_layers

    self.embedding = nn.Embedding(input_size, hidden_size)
    self.lstm = nn.LSTM(hidden_size, hidden_size, n_layers, dropout=drop_prob, batch_first=True)

  def forward(self, inputs, hidden):
    # Embed input words
    embedded = self.embedding(inputs)
    # Pass the embedded word vectors into LSTM and return all outputs
    output, hidden = self.lstm(embedded, hidden)
    return output, hidden

示例 2(PyTorch):
本示例编码器第一展开输入具有一个 LSTM 层，然后通过具有较少数量隐藏节点的第二个 LSTM 层进行压缩。除了扩展之外，这似乎与我发现的这篇论文一致: https://arxiv.org/pdf/1607.00148.pdf
然而，在这个实现的解码器中，没有最终的密集层。解码通过第二个 lstm 层进行，该层将编码扩展回与原始输入相同的维度。 See it here .这与论文不符(虽然不知道论文是否权威)。

class Encoder(nn.Module):
  def __init__(self, seq_len, n_features, embedding_dim=64):
    super(Encoder, self).__init__()
    self.seq_len, self.n_features = seq_len, n_features
    self.embedding_dim, self.hidden_dim = embedding_dim, 2 * embedding_dim
    self.rnn1 = nn.LSTM(
      input_size=n_features,
      hidden_size=self.hidden_dim,
      num_layers=1,
      batch_first=True
    )
    self.rnn2 = nn.LSTM(
      input_size=self.hidden_dim,
      hidden_size=embedding_dim,
      num_layers=1,
      batch_first=True
    )
  def forward(self, x):
    x = x.reshape((1, self.seq_len, self.n_features))
    x, (_, _) = self.rnn1(x)
    x, (hidden_n, _) = self.rnn2(x)
    return hidden_n.reshape((self.n_features, self.embedding_dim))

题:
我想知道实现中的这种差异。差异似乎相当大。所有这些有效的方法都可以完成同样的事情吗？或者其中一些是对“真正的”LSTM 自动编码器的误导性尝试？

最佳答案

没有官方或正确的方法来设计基于 LSTM 的自动编码器的架构......名称提供的唯一细节是模型应该是自动编码器并且它应该在某处使用 LSTM 层。
您发现的每个实现都是不同且独特的，即使它们可以用于相同的任务。
让我们来描述它们:

TF 实现 :

它假设输入只有一个 channel ，这意味着序列中的每个元素只是一个数字，并且已经过预处理。

LSTM layer 的默认行为在 Keras/TF 是仅输出 LSTM 的最后一个输出，您可以将其设置为使用 return_sequences 输出所有输出步骤范围。

在这种情况下，输入数据已缩小到 (batch_size, LSTM_units)

考虑到 LSTM 的最后一个输出当然是先前输出的函数(特别是如果它是有状态的 LSTM)

它适用于 Dense(1)在最后一层以获得与输入相同的形状。

PyTorch 1 :

他们在输入被馈送到 LSTM 之前将嵌入应用于输入。

这是标准做法，它有助于例如将每个输入元素转换为向量形式(参见 word2vec 例如，在文本序列中，不是向量的每个单词都映射到向量空间) .它只是一个预处理步骤，使数据具有更有意义的形式。

这并没有违背 LSTM 自动编码器的想法，因为嵌入是独立应用于输入序列的每个元素，所以当它进入 LSTM 层时不会被编码。

PyTorch 2 :

在这种情况下，输入形状不是 (seq_len, 1)就像在第一个 TF 示例中一样，因此解码器不需要密集之后。作者在 LSTM 层中使用了与输入形状相等的单元数。

最后，您根据要训练的数据来选择模型的架构，特别是:性质(文本、音频、图像)、输入形状、您拥有的数据量等等......

关于python - LSTM Autoencoder 的这些实现之间的区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65188556/

25

4

0

文章推荐： java - 正则表达式模式需要帮助 Java toString() 方法

文章推荐： google-cloud-platform - 使用推送订阅作为负载均衡器的细节

文章推荐： julia - 减少 DifferentialEquations.jl 中的内存分配

实例讲解JQuery中this和$(this)区别
平时很少在jquery中用到this。查看代码时发现用到了，就调试出this的值，心想原来如此。还是挺有用的。这里总结一下this与$(this)的区别和使用。　　$(this)生成的是什么？
jsf - Java单例类与JSF应用程序范围的托管bean - 区别？
使用单例类和应用程序范围的托管 bean 来保存应用程序数据有区别吗？我需要查找某些 JNDI 资源，例如远程 bean 接口(interface)，因此我为自己编写了一个单例来缓存我的引用并且只允
Groovy - 闭包与方法 - 区别
如果您仔细查看包含的图片，您会注意到您可以使用 Eclipse IDE 重构 Groovy 代码并将方法转换为闭包，反之亦然。那么，闭包到底是什么，它与方法有什么不同呢？有人可以举一个使用闭包的好例子
打包和重新打包之间的 Vagrant 区别
vagrant box repackage有什么区别( docs ) 和 vagrant package ( docs )？我意识到 vagrant package仅适用于 VirtualBox 提
Java BigDecimal 区别
我想看看是否有人可以解释为什么以下代码适用于 valueOf 但不适用于其他代码。 import java.math.BigDecimal; public class Change { publ
closures - 闭包与匿名函数(区别？)
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicates: What is Closures/Lambda in PHP or Javascript in layman te
docker - Docker和Chef工会，区别
This question already has answers here: Vagrant, Docker, Puppet, Chef (3个答案) 2年前关闭。 docker和chef有什么共同
c# - 调试和发布之间的C#区别
以下代码在95％的机器上产生相同的输出，但是在几台机器上却有所不同。在 Debug模式下，输出: Changing from New to Fin OK 但在 Release模式下: Changing
javascript - 创建一个对象和初始化一个对象 - 区别
////Creating Object var Obj; // init Object Obj= {}; 它们之间有什么区别两个？有没有可能把它变成一个单行？这样使用有什么好处吗？
java - 程序定时器和自动定时器 - 区别
我想找出定时器服务之间的区别。我应该使用哪个以及何时使用。我正在使用 Jboss 应用服务器。 1) java.ejb.Schedule。 @Schedule注解或配置自xml。 2) javax.e
将对象传递给它时方法签名之间的 C++ 区别
我发现在 C++ 中可以通过三种不同的方式将对象传递给函数。假设我的类(class)是这样的: class Test { int i; public: Test(int x);
java - 字符串到对象类型转换 - 区别
有什么区别。 public class Test { public static void main(String args[]) { String toBeCast = "c
MYSQL 自动增加一列或只有一个整数，区别？
如果我有一列，设置为主索引，设置为INT。如果我不将其设置为自动递增，而只是将唯一的随机整数插入其中，与自动递增相比，这是否会减慢 future 的查询速度？如果我在主索引和唯一索引为 INT 的
ios - NSDateFormatter 区别
这两种日期格式有什么区别。第一个给出实际时间，第二个给出时间购买添加时区偏移值。 NSDateFormatter * dateFormatter = [[NSDateFormatter alloc]
javascript - 调用函数与返回函数调用 - 区别？
如果有一个函数，请说foo: function foo() { console.log('bar'); } 那么在 JavaScript 中，从另一个函数调用一个函数有什么区别，如下所示: f
javascript - 使用更具体的模块导入有什么好处/区别？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 4 年前。 Improv
一些构造函数代码之间的 C++ 区别
代码是什么: class Time { private: int hours; int minutes; int seconds; pu
两个数组声明之间的 C++ 区别
我知道这是非常基本的，但有人介意解释一下这两个数组声明之间的区别吗: #include array myints; ...和: int myints[5]; ...以及为什么 myints.size
伪类和伪元素在特异性计算中的 CSS 区别？
我学会了如何根据 http://reference.sitepoint.com/css/specificity 计算 css 特异性但是，基于this reference，我不明白伪类(来自c)和伪元
何时使用括号之间的 Linux 区别
为什么在运行 2) 时会出现额外的空行？对我来说 1 就像 2。那么为什么 2) 中的额外行？ 1) export p1=$(cd $(dirname $0) && pwd) #

首页

博学

6Ren·AI

商城

python - LSTM Autoencoder 的这些实现之间的区别？