gpt4 book ai didi

tensorflow - 什么是 "convolution warmup"?

转载 作者:行者123 更新时间:2023-12-03 12:40:38 27 4
gpt4 key购买 nike

我以前几次遇到过这个短语,主要是在神经网络和 tensorflow 的背景下,但我的印象是它更普遍,并不局限于这些环境。

here例如,他们说这个“卷积预热”过程需要大约 10k 次迭代。

为什么卷积需要预热?是什么阻止他们立即达到最高速度?

我能想到的一件事是内存分配。如果是这样,我希望它会在 1(或至少 <10)次迭代后得到解决。为什么是 10k?

编辑澄清:我知道预热是一个时间段或迭代次数,直到卷积运算符达到其最高速度(每个运算符的时间)。我要问的是 - 为什么需要它以及在这段时间内发生了什么使卷积更快?

最佳答案

训练神经网络的工作原理是提供训练数据、计算输出误差并将误差反向传播回各个连接。对于对称性破缺,训练不是从全零开始,而是随机连接强度。

事实证明,在随机初始化的情况下,第一次训练迭代并不是很有效。网络与期望的行为相去甚远,因此计算出的误差很大。反向传播这些大错误会导致超调。

预热阶段旨在使初始网络远离随机网络,并趋向于对所需网络的第一次近似。一旦实现了近似,就可以加快学习率。

这是一个实证结果。迭代次数将取决于程序域的复杂性,因此也取决于必要网络的复杂性。卷积神经网络相当复杂,因此预热对它们来说更为重要。

关于tensorflow - 什么是 "convolution warmup"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51579060/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com