gpt4 book ai didi

machine-learning - 小批量梯度下降和梯度下降之间是否有固定的关系

转载 作者:行者123 更新时间:2023-11-30 08:30:36 31 4
gpt4 key购买 nike

对于凸优化,如逻辑回归。
例如我有 100 个训练样本。在小批量梯度下降中,我将批量大小设置为10。
因此,经过 10 次小批量渐变体面更新后。 更新一次梯度下降可以获得相同的结果吗?

对于非凸优化,如神经网络。
我知道小批量梯度下降有时可以避免一些局部最优。 但是他们之间有没有固定的关系。

最佳答案

当我们说批量梯度下降时,它是使用所有数据来更新参数。下面是批量梯度下降的说明。请注意,批量梯度下降的每次迭代都涉及计算整个训练数据集上损失函数梯度的平均值。图中,-gamma是学习率的负值。

enter image description here

当批量大小为1时,称为随机梯度下降(GD)。

当你将批量大小设置为10时(我假设总训练数据大小>>10),这种方法称为迷你批量随机GD,它是真正随机GD和批量GD(使用所有训练数据)之间的折衷方案。一次更新数据)。小批量的表现比真正的随机梯度下降更好,因为当每一步计算的梯度使用更多的训练样本时,我们通常会看到更平滑的收敛。下面是 SGD 的图示。在此在线学习设置中,每次更新迭代都包括从外界选择一个随机训练实例 (z_t) 并更新参数 w_t

enter image description here

我在这里包含的两个数字来自此 paper .

来自wiki :

The convergence of stochastic gradient descent has been analyzed using the theories of convex minimization and of stochastic approximation. Briefly, when the learning rates \alpha decrease with an appropriate rate, and subject to relatively mild assumptions, stochastic gradient descent converges almost surely to a global minimum when the objective function is convex or pseudoconvex, and otherwise converges almost surely to a local minimum. This is in fact a consequence of the Robbins-Siegmund theorem.

关于您的问题:

[convex case] Can I get the same result with one times gradient decent updating?

如果“相同结果”的含义是“收敛”到全局最小值,那么是。 L´eon Bottou 在他的 paper 中批准了这一点。 。也就是说,SGD 或小批量 SGD 几乎肯定会收敛到全局最小值。请注意,当我们说“几乎肯定”时:

It is obvious however that any online learning algorithm can be mislead by a consistent choice of very improbable examples. There is therefore no hope to prove that this algorithm always converges. The best possible result then is the almost sure convergence, that is to say that the algorithm converges towards the solution with probability 1.

对于非凸情况,同一篇论文(第 5 节)也证明了随机或小批量几乎肯定会收敛到局部最小值。

关于machine-learning - 小批量梯度下降和梯度下降之间是否有固定的关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26398555/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com