- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在查看 Tensorflow text_generation 教程 (https://www.tensorflow.org/tutorials/text/text_generation),想知道为什么尽管 GRU 层的状态设置为 TRUE,但它们仍在随机播放训练数据?
这与文档相矛盾 ( https://www.tensorflow.org/api_docs/python/tf/keras/layers/RNN ):“关于在 RNN 中使用有状态的注意事项:您可以将 RNN 层设置为‘有状态’,这意味着为一批中的样本计算的状态将被重新用作下一批中样本的初始状态。这假设不同连续批处理中样本之间的一对一映射。”
教程中的代码片段:
dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE, drop_remainder=True)
tf.keras.layers.GRU(rnn_units,
return_sequences=True,
stateful=True,
recurrent_initializer='glorot_uniform')
最佳答案
文档有误。我按照 TensorFlow 文档中的步骤进行操作,但是当我设置 stateful=False
时,我使用随机数据获得了更好的结果。
关于tensorflow - Tensorflow text_generation 教程中有状态 GRU 的误导性训练数据混洗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60934038/
我是 ML 框架和 Python 的新手。我从 https://github.com/xiaochus/TrafficFlowPrediction 获得了 keras-tensorflow 项目的源代
我是 ML 框架和 Python 的新手。我从 https://github.com/xiaochus/TrafficFlowPrediction 获得了 keras-tensorflow 项目的源代
我对深度学习有点陌生,我一直在尝试使用深度学习方法进行自然语言处理并使用路透社数据集创建一个简单的情感分析器。这是我的代码: import numpy as np from keras.dataset
我将Keras代码转换为PyTorch,是因为我比前者更熟悉后者。但是,我发现它不是在学习(或只是勉强学习)。 下面,我提供了几乎所有的PyTorch代码,包括初始化代码,以便您可以自己尝试。您唯一需
我似乎无法理解 keras GRU 层中返回状态和返回序列之间的差异。 由于 GRU 单元没有单元状态(它等于输出),那么返回状态与 keras GRU 层中的返回序列有何不同? 更具体地说,我构建了
这是我正在查看的 API,https://pytorch.org/docs/stable/nn.html#gru 它输出: output形状(seq_len,batch,num_directions
我安装了 dgraph gru 用于面试 go get github.com/dgraph-io/gru cd $GOPATH/src/github.com/dgraph-io/gru git che
Tensorflow 中的二元分类问题: 我已经阅读了在线教程并尝试使用门控循环单元 (GRU) 将其应用于实时问题。我已经尝试了所有我知道的改进分类的可能性。 1) 开始添加堆叠的 RNN(GRU)
我正在尝试使用 Tensorflow 实现一些自定义 GRU 单元。我需要堆叠这些单元格,并且我想继承 tensorflow.keras.layers.GRU 。但是,在查看源代码时,我注意到只能将
我正在尝试使用训练有素的 Keras 序列模型 (GRU) 来预测一些新的数据样本,但在创建时间序列生成器时遇到一些问题。 在训练过程中,使用 model.predict_generator() 预测
我正在使用 Mycroft AI 唤醒词检测,并试图了解网络的维度。以下几行显示了 Keras 中的模型: model = Sequential() model.add(GRU( pa
目标 尝试在多变量时间序列数据集上运行 LSTM 自动编码器: X_train (200, 23, 178) - X_val (100, 23, 178) - X_test (100, 23, 178
在 Keras 书籍 (F. Chollet) 中关于耶拿天气数据集(第 #6 章)的 GRU 架构训练之后,我很难理解预测阶段: 最后一层 - 密集,无激活 - 按预期输出数字流:尺寸:行数 X 1
我正在尝试在 Keras 中训练单词级别的语言模型。 我有 X 和 Y,形状都是 (90582L, 517L) 当我尝试拟合这个模型时: print('Build model...') model =
根据 Theano 官方教程(http://deeplearning.net/tutorial/code/lstm.py)中提供的 LSTM 代码,我更改了 LSTM 层代码(即函数 lstm_lay
我想在一些时间序列数据上运行 GRU 单元,根据最后一层的激活对它们进行聚类。我对 GRU 单元实现做了一个小改动 def __call__(self, inputs, state, scope=No
默认只返回最后一个state,所以一次输入一个step的input ?
我正在查看 Tensorflow text_generation 教程 (https://www.tensorflow.org/tutorials/text/text_generation),想知道为
为什么GRU层的参数个数是9600? 不应该是 ((16+32)*32 + 32) * 3 * 2 = 9,408 吗? 或者,重新排列, 32*(16 + 32 + 1)*3*2 = 9408 mo
以下是 Tensorflow 的代码 GRUCell当先前的隐藏状态与序列中的当前输入一起提供时,单元显示了获得更新隐藏状态的典型操作。 def __call__(self, inputs, st
我是一名优秀的程序员,十分优秀!