- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
以下是 Pytorch 中随机权重平均的一小段工作代码,取自 here .
loader, optimizer, model, loss_fn = ...
swa_model = torch.optim.swa_utils.AveragedModel(model)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=300)
swa_start = 160
swa_scheduler = SWALR(optimizer, swa_lr=0.05)
for epoch in range(300):
for input, target in loader:
optimizer.zero_grad()
loss_fn(model(input), target).backward()
optimizer.step()
if epoch > swa_start:
swa_model.update_parameters(model)
swa_scheduler.step()
else:
scheduler.step()
# Update bn statistics for the swa_model at the end
torch.optim.swa_utils.update_bn(loader, swa_model)
# Use swa_model to make predictions on test data
preds = swa_model(test_input)
在第 160 个纪元之后的此代码中
swa_scheduler
用于代替通常的
scheduler
.什么
swa_lr
表示?
documentation说,
Typically, in SWA the learning rate is set to a high constant value. SWALR is a learning rate scheduler that anneals the learning rate to a fixed value, and then keeps it constant.
optimizer
的学习率会发生什么变化?在第 160 个时代之后? swa_lr
影响optimizer
学习率? optimizer
是
ADAM
以
1e-4
的学习率初始化.那么上面的代码是否意味着对于前 160 个时期的训练学习率将是
1e-4
然后对于剩余的时期数,它将是
swa_lr=0.05
?如果是,定义
swa_lr
是个好主意吗?也到
1e-4
?
最佳答案
does the above code imply that for the first 160 epochs the learning rate for training will be
1e-4
1e-4
,在前 160 个 epoch 期间,学习率由第一个调度程序管理 scheduler
.这是一个初始化为 torch.optim.lr_scheduler.CosineAnnealingLR
.学习率将遵循以下曲线:for the remaining number of epochs it will be
swa_lr=0.05
swa_scheduler
.这个被初始化为 torch.optim.swa_utils.SWALR
.您可以在文档页面上阅读:SWALR is a learning rate scheduler that anneals the learning rate to a fixed value [
swa_lr
], and then keeps it constant.
swa_lr
并将保持这种状态。第二部分将是:If yes, is it a good idea to define
swa_lr
also to1e-4
Typically, in SWA the learning rate is set to a high constant value.
swa_lr
至 1e-4
将导致以下学习率配置文件:关于python - 在 PyTorch 中设置随机权重平均的学习率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68726290/
我使用 QBFC v13 和 Delphi XE6。 目标是从我的应用程序创建 Estimate 并将其参数设置到 QuickBooks 中。 我从 QBFC13 导入类型库并将其添加到我的项目中。
我有一个数据库,其中有很多格式不正确的地址。在这个地址中,我只有一个街道地址或带有城市名称的街道。在我的应用程序中,用户选择一些类别,然后我想在 map 上显示例如 50,100,300 等地址。(不
在大多数软件项目中,缺陷源自需求、设计、编码和缺陷更正。根据我的经验,大多数缺陷都源于编码阶段。 我有兴趣了解软件开发人员使用哪些实用方法来降低缺陷注入(inject)率。 我已经看到以下方法的使用取
我正在使用实时 API 中的标签订阅构建一个应用程序,并且有一个与容量规划相关的问题。我们可能有大量用户同时发布到订阅的主题标签,因此问题是 API 实际发布到我们的订阅处理端点的频率是多少?例如,如
尝试使用 NULLIF 或 IFNULL 函数,但仍收到被零除的消息。 SELECT client_id ,COUNT(distinct CASE WHEN status = 'failed' THE
我目前正在开发一个使用 Django-rest-framework 制作的 API。我必须根据每个用户组设置限制率。 我们目前使用默认配置的 memcached 作为缓存后端,即按站点缓存。 在使用
我认为有时在神经网络(特别是一般对抗网络)训练期间改变丢失率可能是一个好主意,从高丢失率开始,然后线性地将丢失率降低到零。您认为这有意义吗?如果是的话,是否有可能在 tensorflow 中实现这一点
我有一个 Windows Server 2008,Plesk 运行着两个网站。有时服务器运行缓慢,并且有一个 named.exe 进程使 CPU 峰值达到 100%。它持续很短的时间,过一会儿它又来了
我正在使用 scikit-learn 随机森林分类器,我想通过将成功投票所需的树数量从大于 50% 增加到 75% 来降低 FP 率,在阅读文档后我不这样做确定如何做到这一点。有没有人有什么建议。 (
当我连续按下按键事件(字母 k)时,为什么以下按键事件不会减慢 3000 密耳?如果我按住手指,计数会迅速增加,因为 mcount 上没有 setTimeout。这是为什么?每次计数之间应该有延迟,但
我是一名优秀的程序员,十分优秀!