gpt4 book ai didi

machine-learning - 随机梯度下降的足够通用的收敛标准应该是什么

转载 作者:行者123 更新时间:2023-11-30 08:55:46 33 4
gpt4 key购买 nike

我正在实现随机梯度下降的通用模块。这需要参数:训练数据集、loss(x,y)、dw(x,y) - 每个样本损失和每个样本梯度变化。

现在,对于收敛标准,我想到了:-

a) 每 10% 的 dataset.size 检查损失函数,在某个窗口上取平均值

b) 每经过数据集大小的 10-20% 后检查权重向量之间差异的范数

c) 训练集上的误差稳定。

d)梯度符号的变化(再次,在每个固定间隔后检查)-

我注意到这些检查(检查精度等)还取决于其他因素,例如步长、学习率......并且效果可能因训练问题而异。

我似乎无法决定通用停止标准应该是什么,无论 SGD 模块抛出的训练集、fx、df/dw 是什么。你们是做什么的?

此外,对于 (d),n 维向量的“符号变化”的含义是什么?例如,在给定 dw_i、dw_i+1 的情况下,我如何检测符号的变化,它在 2 维以上是否有意义?

附注对非数学/ latex 符号表示歉意……仍在适应这些东西。

最佳答案

首先,随机梯度下降是梯度下降法的在线版本。更新规则一次使用一个示例。

假设,f(x) 是单个示例的成本函数,N 维向量的 SGD 停止标准通常为:

enter image description here

enter image description here

查看此 1 ,或者这个 2 了解详情。

其次,使用所谓的“小批量”的随机梯度下降有进一步的变化。它的工作原理与 SGD 相同,只是它使用多个训练示例来进行梯度的每次估计。这种技术减少了梯度估计的方差,并且通常可以更好地利用现代计算机中的分层内存组织。请参阅此 3

关于machine-learning - 随机梯度下降的足够通用的收敛标准应该是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13059564/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com