gpt4 book ai didi

cntk - 为什么作为时间常数的动量在并行训练的第一个时期是不同的?

转载 作者:行者123 更新时间:2023-12-04 22:50:26 24 4
gpt4 key购买 nike

给定配置 momentumPerMB=0.9,我在第一个 epoch 中观察到 momentumAsTimeConstant 的值。其余时期具有预期的此值。这似乎只发生在并行训练中(1bit 和 BM,还没有验证 MA)。

01/11/2017 00:08:08:开始 Epoch 1:每个样本的学习率 = 0.000500 有效动量 = 0.900000 作为时间常数的动量 = 155504.2 个样本01/11/2017 00:18:04:开始 Epoch 2:每个样本的学习率 = 0.000500 有效动量 = 0.900000 动量作为时间常数 = 19438.0 个样本

知道为什么会这样吗?

最佳答案

我们建议指定 momentumAsTimeConstant,因为此度量对于小批量大小是不变的。

关于cntk - 为什么作为时间常数的动量在并行训练的第一个时期是不同的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41621979/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com