gpt4 book ai didi

python - 如何使用 tf.nn.batch_normalization 处理移动均值和移动方差?

转载 作者:太空宇宙 更新时间:2023-11-04 02:17:28 24 4
gpt4 key购买 nike

对于我的实现,我必须先定义权重,并且不能在 TensorFlow 中使用高级函数,如 tf.layers.batch_normalization 或 tf.layers.dense。所以要进行批量归一化,我需要使用 tf.nn.batch_normalization。我知道为了计算每个小批量的均值和方差我可以使用 tf.nn.moments,但是移动均值和方差呢?有没有人有这样做的经验或知道实现的例子?我看到人们谈论使用 tf.nn.batch_normalization 可能很棘手,所以我想知道这样做的复杂性。换句话说,是什么让它变得棘手,在实现过程中我应该注意哪些要点?除了移动平均线和方差之外,还有什么我应该注意的吗?

最佳答案

您必须警惕术语 running_meanrunning_variance。在数学和传统的计算机科学中,它们被称为在没有看到完整数据的情况下计算这些值的方法。它们也称为 meanvariance在线 版本。并不是说他们能够事先准确地确定 meanvariance。他们只是不断更新一些变量 meanvariance 的值,因为有更多的数据进来。如果你的数据大小是有限的,那么一旦看到完整的数据,他们的如果完整数据可用,值将与计算值相匹配。

batch normalization的情况不同。您不应以与上一段相同的方式来考虑running meanrunning variance

训练时间

在训练期间,meanvariance 是为batch 计算的。它们不是运行均值运行方差。因此,您可以安全地使用 tf.nn.moments 来做到这一点。

测试时间

在测试期间,您使用的应该称为 population_estimated_meanpopulation_estimated_variance。这些量是在训练期间计算的,但不会直接使用。计算它们以供以后在测试期间使用。

现在的一个陷阱是,有些人可能想使用 Knuth 公式 来计算这些量。这是不可取的。 <强>为什么? : 因为,训练是在几个 epoch 上完成的。因此,同一数据集出现的次数与 epochs 的次数一样多。由于数据扩充通常也是随机的,因此计算标准的运行均值运行方差 可能很危险。相反,通常使用的是指数衰减估计

您可以通过在 batch_meanbatch_variance 上使用 tf.train.ExponentialMovingAverage 来实现这一点。在这里,您指定过去样本相对于当前样本的相关性。通过设置 trainable=False,确保您用于计算的变量应该是 不可训练的

在测试期间,您将使用这些变量作为meanvariance

有关实现的更多详细信息,您可以查看 this link .

关于python - 如何使用 tf.nn.batch_normalization 处理移动均值和移动方差?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52333905/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com