gpt4 book ai didi

浅谈pytorch中为什么要用 zero_grad() 将梯度清零

转载 作者:qq735679552 更新时间:2022-09-27 22:32:09 29 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章浅谈pytorch中为什么要用 zero_grad() 将梯度清零由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

pytorch中为什么要用 zero_grad() 将梯度清零

调用backward()函数之前都要将梯度清零,因为如果梯度不清零,pytorch中会将上次计算的梯度和本次计算的梯度累加.

这样逻辑的好处是,当我们的硬件限制不能使用更大的bachsize时,使用多次计算较小的bachsize的梯度平均值来代替,更方便,坏处当然是每次都要清零梯度.

?
1
2
3
4
optimizer.zero_grad()
output = net( input )
loss = loss_f(output, target)
loss.backward()

补充:Pytorch 为什么每一轮batch需要设置optimizer.zero_grad 。

CSDN上有人写过原因,但是其实写得繁琐了.

根据pytorch中的backward()函数的计算,当网络参量进行反馈时,梯度是被积累的而不是被替换掉;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad 了.

其实这里还可以补充的一点是,如果不是每一个batch就清除掉原有的梯度,而是比如说两个batch再清除掉梯度,这是一种变相提高batch_size的方法,对于计算机硬件不行,但是batch_size可能需要设高的领域比较适合,比如目标检测模型的训练.

关于这一点可以参考这里 。

关于backward()的计算可以参考这里 。

补充:pytorch 踩坑笔记之w.grad.data.zero_() 。

在使用pytorch实现多项线性回归中,在grad更新时,每一次运算后都需要将上一次的梯度记录清空,运用如下方法

?
1
2
w.grad.data.zero_()
b.grad.data.zero_()

  。

但是,运行程序就会报如下错误:

浅谈pytorch中为什么要用 zero_grad() 将梯度清零

报错,grad没有data这个属性, 。

原因是,在系统将w的grad值初始化为none,第一次求梯度计算是在none值上进行报错,自然会没有data属性 。

修改方法:添加一个判断语句,从第二次循环开始执行求导运算 。

?
1
2
3
4
5
6
7
8
9
for i in range(100):
     y_pred = multi_linear(x_train)
     loss = getloss(y_pred,y_train)
     if i != 0:
         w.grad.data.zero_()
         b.grad.data.zero_()
     loss.backward()
     w.data = w.data - 0.001 * w.grad.data
     b.data = b.data - 0.001 * b.grad.data

  。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我.

原文链接:https://blog.csdn.net/u011959041/article/details/102760868 。

最后此篇关于浅谈pytorch中为什么要用 zero_grad() 将梯度清零的文章就讲到这里了,如果你想了解更多关于浅谈pytorch中为什么要用 zero_grad() 将梯度清零的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com