gpt4 book ai didi

machine-learning - 神经网络中的批量归一化

转载 作者:行者123 更新时间:2023-11-30 08:25:05 24 4
gpt4 key购买 nike

我对 ANN 还很陌生,我刚刚阅读了批量归一化论文( http://arxiv.org/pdf/1502.03167.pdf ),但我不确定我是否明白他们在做什么(更重要的是,为什么它有效)

假设我有两层 L1 和 L2,其中 L1 产生输出并将其发送到 L2 中的神经元。批量归一化只是获取 L1 的所有输出(即每个神经元的每个输出,获得完全连接网络的 |L1| X |L2| 数字的总体向量),将它们归一化为平均值为 0,标准差为 1,然后将它们输入到 L2 中各自的神经元(加上他们在论文中讨论的 gamma 和 beta 的线性变换)?

如果情况确实如此,这对神经网络有什么帮助?恒定分布有什么特别之处?

最佳答案

在网络的标准 SGD 训练期间,隐藏层的输入分布将会发生变化,因为其之前的隐藏层也在不断变化。这被称为协变量偏移,可能是一个问题;例如,参见 here .

众所周知,如果训练数据被“白化”,即以每个分量都具有高斯分布且独立于其他分量的方式进行变换,则神经网络收敛得更快。请参阅论文中引用的论文 (LeCun et al., 1998b) 和 (Wiesler & Ney, 2011)。

作者现在的想法是不仅将这种白化应用于输入层,而且也应用于每个中间层的输入。在整个输入数据集上执行此操作的成本太高,因此他们改为批量执行此操作。他们声称这可以极大地加快训练过程,并且也可以起到一种正则化的作用。

关于machine-learning - 神经网络中的批量归一化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29979251/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com