gpt4 book ai didi

machine-learning - 为什么不训练部分时期呢?

转载 作者:行者123 更新时间:2023-11-30 09:35:37 25 4
gpt4 key购买 nike

似乎没有人运行他们的模型“10.5”个周期。其理论上的原因是什么?

对我来说有点直观的是,如果我有一组完全独特的样本训练集,那么训练不足和过度训练之间的最佳拐点应该在完整的时期之间。然而,在大多数情况下,单个训练样本通常会以某种方式相似/相关。

有可靠的统计依据吗?或者说,有人进行过实证研究吗?

最佳答案

我对这个前提提出异议:在我工作的地方,我们经常运行部分纪元,尽管大型数据集的范围更大:比如 40.72 纪元。

对于小数据集或短期训练,问题在于对每个观察值赋予相同的权重,因此很自然地认为需要对每个观察值进行相同的处理次数。正如您所指出的,如果输入样本是相关的,那么这样做就不那么重要了。

我认为一个基本原因是方便:整数更容易解释和讨论。对于许多模型来说,最佳训练没有拐点:它是一条平缓的曲线,因此几乎可以肯定在准确度的“最佳点”内存在整数个时期。因此,更方便地发现 10 个 epoch 比 11 个 epoch 稍好一些,即使最佳点(在迭代计数上存在微小差异的多次训练运行中发现)恰好是 10.2 个 epoch。 yield 递减表示,如果 9-12 个 epoch 给了我们非常相似的良好结果,我们只需注意到 10 是 8-15 个 epoch 范围内的最佳性能,接受结果,然后继续生活。

关于machine-learning - 为什么不训练部分时期呢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43681853/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com