gpt4 book ai didi

tensorflow - 反向传播的内存要求——为什么不使用均值激活?

转载 作者:行者123 更新时间:2023-12-04 17:43:30 24 4
gpt4 key购买 nike

我需要帮助了解神经网络的内存要求以及它们在训练和评估过程之间的差异。更具体地说,训练过程的内存要求(我使用的是运行在 TensorFlow 之上的 Keras API)。

对于包含 N 个权重的 CNN,当使用大小为 x 的批处理时,权重本身和输入数据需要恒定的内存量。在正向传递期间,GPU 需要额外的 x*N 内存单元(具体所需数量对问题而言并不重要)以同时传递所有样本并计算每个神经元的激活。

我的问题是关于反向传播过程,似乎该过程需要额外的 x*N 单元内存 (*) 用于每个样本的每个权重的特定梯度。根据我的理解,这意味着算法计算每个样本的特定梯度,然后将它们相加以反向传播到上一层。

问。既然每批只有一个更新步骤,为什么不对每个神经元的平均激活执行梯度计算?这样,训练所需的额外内存将仅为 (x+1)*N 而不是 2*x*N。

(*) 这是根据我自己在评估 (~4200) 和训练 (~1200) 期间允许的最大批量大小的小实验得出的。显然,这是一种非常简化的查看内存需求的方式

最佳答案

简短的回答是:这正是小批量 SGD 反向传播算法的工作方式。回顾它的起源和使用标准 SGD 和小批量 SGD 的区别,原因就更清楚了。

标准随机梯度下降算法通过模型传递单个样本,然后反向传播其梯度并更新模型权重,然后再对下一个样本重复该过程。主要的缺点是它是一个串行过程(不能同时运行样本,因为每个样本都需要在一个已经被前一个样本更新过的模型上运行),所以它的计算成本非常高。此外,每次更新仅使用一个样本会导致非常嘈杂的梯度。

mini-batch SGD 使用相同的原理,但有一个区别 - 梯度是从多个样本中累积的,并且每 x 个样本仅执行一次更新。这有助于在训练期间获得平滑的梯度,并使多个样本能够并行地通过模型。这是在使用 keras/tensorflow 进行小批量训练时使用的算法(通常称为批处理,但该术语实际上意味着使用 batch gradient decent,这是一种略有不同的算法)。

我还没有找到任何关于使用每层梯度的平均值进行更新的工作。检查这种算法的结果很有趣。它的内存效率更高,但它也可能无法达到良好的最低点。

关于tensorflow - 反向传播的内存要求——为什么不使用均值激活?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53278677/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com