gpt4 book ai didi

neural-network - 为什么我们需要显式调用 zero_grad()?

转载 作者:IT老高 更新时间:2023-10-28 21:45:25 24 4
gpt4 key购买 nike

为什么我们需要在 PyTorch 中显式地将梯度归零?为什么调用 loss.backward() 时梯度不能归零?将梯度保留在图上并要求用户将梯度显式归零可以服务于什么场景?

最佳答案

我们明确需要调用 zero_grad() 因为在 loss.backward() 之后(计算梯度时),我们需要使用 optimizer.step () 进行梯度下降。更具体地说,梯度不会自动归零,因为这两个操作 loss.backward()optimizer.step() 是分开的,而 optimizer.step () 需要刚刚计算的梯度。

另外,有时我们需要在一些批处理之间累积梯度;为此,我们可以简单地多次调用 backward 并优化一次。

关于neural-network - 为什么我们需要显式调用 zero_grad()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44732217/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com