gpt4 book ai didi

tensorflow - 如何加快tensorflow的rnn训练速度?

转载 作者:行者123 更新时间:2023-12-03 00:37:20 25 4
gpt4 key购买 nike

现在基地tensorflow-char-rnn我启动了一个 word-rnn 项目来预测下一个单词。但我发现我的火车数据集中速度太慢了。这是我的培训详细信息:

  • 训练数据大小:10 亿字
  • 词汇量:75 万个
  • RNN 模型:lstm
  • RNN 层:2
  • 单元格大小:200
  • 序列长度:20
  • batch size:40(batch size太大会导致OOM异常)

机器详细信息:

  • Amazon p2 实例
  • 1 核 K80 GPU
  • 16G显存
  • 4核CPU
  • 60G内存

在我的测试中,训练数据1个epoch的时间需要17天!实在是太慢了,然后我把seq2seq.rnn_decoder改成tf.nn.dynamic_rnn,但是时间还是17天。

我想找出太慢的原因是我的代码引起的还是一直这么慢?因为我听到一些传言说 Tensorflow rnn 比其他 DL 框架慢。

这是我的模型代码:

class SeqModel():
def __init__(self, config, infer=False):
self.args = config
if infer:
config.batch_size = 1
config.seq_length = 1

if config.model == 'rnn':
cell_fn = rnn_cell.BasicRNNCell
elif config.model == 'gru':
cell_fn = rnn_cell.GRUCell
elif config.model == 'lstm':
cell_fn = rnn_cell.BasicLSTMCell
else:
raise Exception("model type not supported: {}".format(config.model))

cell = cell_fn(config.hidden_size)

self.cell = cell = rnn_cell.MultiRNNCell([cell] * config.num_layers)

self.input_data = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
self.targets = tf.placeholder(tf.int32, [config.batch_size, config.seq_length])
self.initial_state = cell.zero_state(config.batch_size, tf.float32)

with tf.variable_scope('rnnlm'):
softmax_w = tf.get_variable("softmax_w", [config.hidden_size, config.vocab_size])
softmax_b = tf.get_variable("softmax_b", [config.vocab_size])

embedding = tf.get_variable("embedding", [config.vocab_size, config.hidden_size])
inputs = tf.nn.embedding_lookup(embedding, self.input_data)


outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=self.initial_state)

# [seq_size * batch_size, hidden_size]
output = tf.reshape(tf.concat(1, outputs), [-1, config.hidden_size])

self.logits = tf.matmul(output, softmax_w) + softmax_b
self.probs = tf.nn.softmax(self.logits)

self.final_state = last_state


loss = seq2seq.sequence_loss_by_example([self.logits],
[tf.reshape(self.targets, [-1])],
[tf.ones([config.batch_size * config.seq_length])],
config.vocab_size)
self.cost = tf.reduce_sum(loss) / config.batch_size / config.seq_length

self.lr = tf.Variable(0.0, trainable=False)
tvars = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(self.cost, tvars),
config.grad_clip)
optimizer = tf.train.AdamOptimizer(self.lr)
self.train_op = optimizer.apply_gradients(zip(grads, tvars))

Here is the GPU load during the training

非常感谢。

最佳答案

正如您所提到的,batch_size 的调整非常重要,它可以带来令人印象深刻的加速,但请检查您的困惑是否保持相关性。

监控您的 GPU 事件可以为您提供有关潜在 I/O 瓶颈的提示。

最重要的是,使用采样softmax代替常规softmax要快得多。这需要您使用[config.vocab_size, config.hidden_​​size]权重矩阵而不是[config.hidden_​​size, config.vocab_size]。这绝对是我的观点的正确方式。

希望这有帮助。

pltrdy

关于tensorflow - 如何加快tensorflow的rnn训练速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41096896/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com