python - 如何在 autograd 反向传播中禁用某些模块的梯度更新？-6ren

python - 如何在 autograd 反向传播中禁用某些模块的梯度更新？

转载作者：太空宇宙更新时间：2023-11-04 04:02:36

25

4

我正在构建一个用于强化学习的多模型神经网络，其中包括一个 Action 网络、一个世界模型网络和一个评论家。这个想法是训练世界模型根据来自 Action 网络的输入和之前的状态来模拟你试图掌握的任何模拟，训练评论家根据世界模型输出最大化贝尔曼方程(随时间的总强化)，然后通过世界模型反向传播批评值，为训练 Action 提供梯度目标。因此 - 从某个状态开始， Action 网络输出一个 Action ，该 Action 被馈送到模型中以生成下一个状态，并且该状态被馈送到批评网络以针对某个目标状态进行评估。

为了使所有这些都起作用，我必须使用 3 个单独的损失函数，每个网络一个，它们都会为一个或多个网络中的梯度添加一些东西，但它们可能会发生冲突。例如 - 为了训练世界模型，我使用来自环境模拟的目标，对于评论家，我使用当前状态奖励 + 折扣 * 下一状态预测值的目标。然而，为了训练 a actor，我只是使用负评值(value)作为损失，并通过所有三个模型一路反向传播以校准最佳 Action 。

我可以在没有任何批处理的情况下通过渐进地清零梯度来完成这项工作，但这样做效率低下，并且不允许我为任何类型的“时间序列批处理”优化器更新步骤累积梯度。每个模型都有自己的可训练参数，但执行图流经所有三个网络。因此在按顺序触发网络后的校准循环中:...

        if self.actor.calibrating:
            self.actor.optimizer.zero_grad()
            #Pick loss For maximizing the value of all actions
            loss = -self.critic.value
            #Backpropagate through all three networks to train actor output
            #How do I stop the critic and model networks from incrementing their gradient values?
            loss.backward(retain_graph=True)
            self.actor.optimizer.step()
        if self.model.calibrating:
            self.model.optimizer.zero_grad()
            #Reduce loss for ambiguous actions
            loss = self.model.get_loss() * self.actor.get_confidence()**2
            #How can I block this from backpropagating through action network?
            loss.backward(retain_graph=True)
            self.model.optimizer.step()
        if self.critic.calibrating:
            self.critic.optimizer.zero_grad()
            #Reduce loss for ambiguous actions
            loss = self.critic.get_loss(self.goal) * self.actor.get_confidence()**2
            #How do I stop this from backpropagating through the model and action networks?
            loss.backward(retain_graph=True)
            self.critic.optimizer.step()

...

最后 - 我的问题分为两部分:

如何在给定层暂时停止 loss.backward() 而不永远分离它？
如何阻止 loss.backward() 更新一些梯度，而我只是在流过一个模型以获得另一个模型的梯度？

最佳答案

由于同事的建议尝试 requires_grad 设置，解决了这个问题。 (我原以为这会破坏执行图，但事实并非如此)

所以 - 回答我自己的两个问题:

如果您以正确的顺序校准链接模型，您可以一次将它们分离，这样 loss.backward() 就不会运行不需要的模型。我在想这会破坏图表，但是......这是 Pytorch，而不是 Tensorflow 1.x，并且无论如何都会在每次前向传递时重新生成图表。傻我昨天错过了这个。
如果您将模型(或图层或单个权重)的 requires_grad 设置为 False，则 loss.backward() 仍将遍历整个连接图，但它会保留那些单独的梯度，同时仍会更早地设置任何梯度在图中。正是我想要的。

此代码可最大程度地减少不必要的图形遍历和梯度更新的执行。我仍然需要重构它以随着时间的推移进行交错更新，以便它可以在逐步优化器之前累积几个循环的梯度，但这绝对可以按预期工作。

#Step through all models in a chain to create gradient paths from critic back through the world model, to the actor.
    def step(self):
        #Get the current state from the simulation
        state = self.world.state
        #Fire the actor to select a softmax action.
        self.actor(state)
        #run the world simulation on that action.
        self.world.step(self.actor.action)
        #Combine the action and starting state as input to the world model.
        if self.actor.calibrating:
            action_state = torch.cat([self.actor.value, state], dim=0)
        else:
            #Push softmax action closer to 1.0
            action_state = torch.cat([self.actor.hard_value, state], dim=0)
        #Run the model and then the critic on the action_state
        self.critic(self.model(action_state))
        if self.actor.calibrating:
            self.actor.optimizer.zero_grad()
            self.model.requires_grad = False
            self.critic.requires_grad = False
            #Pick loss For maximizing the value of the action choice
            loss = -self.critic.value * self.actor.get_confidence()
            loss.backward(retain_graph=True)
            self.actor.optimizer.step()
        if self.model.calibrating:
            #Don't need to backpropagate through actor again
            self.actor.value.detach_()
            self.model.optimizer.zero_grad()
            self.model.requires_grad = True
            #Reduce loss for ambiguous actions
            loss = self.model.get_loss() * self.actor.get_confidence()**2
            loss.backward(retain_graph=True)
            self.model.optimizer.step()
        if self.critic.calibrating:
            #Don't need to backpropagate through the model or actor again
            self.model.value.detach_()
            self.critic.optimizer.zero_grad()
            self.critic.requires_grad = True
            #Reduce loss for ambiguous actions
            loss = self.critic.get_loss(self.goal) * self.actor.get_confidence()**2
            loss.backward(retain_graph=True)
            self.critic.optimizer.step()

关于python - 如何在 autograd 反向传播中禁用某些模块的梯度更新？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57945356/

25

4

0

文章推荐： javascript - 如何切换扩展元素的类？

文章推荐： c - 多请求单响应同步

文章推荐： c - 使用 md5sum 更简单的不变量

文章推荐： python - 如何在 Python 中使 for 循环更快？

javascript - Mongoose 更新/更新？
我查看了网站上的一些问题，但还没有完全弄清楚我做错了什么。我有一些这样的代码: var mongoose = require('mongoose'), db = mongoose.connect('m
javascript - 更新、退出、更新、进入带有转换的模式
基本上，根据 this bl.ocks，我试图在开始新序列之前让所有 block 都变为 0。我认为我需要的是以下顺序: 更新为0 退出到0 更新随机数输入新号码我尝试通过添加以下代码块来遵循上述
java - 强制在线程内进行 GUI 更新 - JSlider 更新
我试图通过使用随机数在循环中设置 JSlider 位置来模拟“赛马”的投注结果。我的问题是，当然，我无法在线程执行时更新 GUI，因此我的 JSlider 似乎没有在竞赛，它们从头到尾都在运行。我尝试
php - PDO 更新帮助执行 pdo 更新
该功能非常简单: 变量:$table是正在更新的表$fields 是表中的字段，$values 从帖子生成并放入 $values 数组中而$where是表的索引字段的id值$indxfldnm 是索引
java - 数据库多线程插入(更新)和单线程顺序插入(更新)的性能比较？
让我们想象一个环境:有一个数据库客户端和一个数据库服务器。数据库客户端可以是 Java 程序或其他程序等；数据库服务器可以是mysql、oracle等。需求是在数据库服务器上的一个表中插入大量记录。
php - 更新、插入和删除时的 MySQL 更新 ID
在我当前的应用程序中，我正在制作一个菜单结构，它可以递归地创建自己的子菜单。然而，由于这个原因，我发现很难也允许某种重新排序方法。大多数应用程序可能只是通过“排序”列进行排序，但是在这种情况下，尽管这
ios - 更新/过期后供应配置文件 key 将更改 - 更新
Provisioning Profile 有 key ， key 链依赖于它。我想知道 key 什么时候会改变。 Key will change after renew Provisioning Pr
javascript - 是否应该发布 MongoDB 插入/更新/更新/删除？
截至目前，我在\server\publications.js 中有我的 MongoDB“选择”，例如: Meteor.publish("jobLocations", function () { r
ios - Swift:更新 UI - 主线程上的整个功能或只是 UI 更新？
我读到 UI 应该始终在主线程上更新。但是，当谈到实现这些更新的首选方法时，我有点困惑。我有各种函数可以执行一些条件检查，然后使用结果来确定如何更新 UI。我的问题是整个函数应该在主线程上运行吗？应
docker - yum 更新/apk 更新/apt-get 更新在代理后面不起作用
我在代理后面，我无法构建 Docker 镜像。我试过 FROM ubuntu , FROM centos和 FROM alpine ，但是 apt-get update/yum update/apk
java - 更新-更新 java truststore 中的自签名 CA 证书
我构建了一个 Java 应用程序，它向外部授权客户端公开网络服务。 Web 服务使用带有证书身份验证的 WS-security。基本上我们充当自定义证书颁发机构 - 我们在我们的服务器上维护一个 ja
asp.net - 更新 dll 时使用 app_offline.htm 使应用程序脱机更新 dll 时失败
因此，我有时会在上传新版本时使用 app_offline.htm 使应用程序离线。但是，当我上传较大的 dll 时，我收到黄色错误屏幕，指出无法加载 dll。这似乎与我对 app_offline.
visual-studio-cordova - 更新 Node 和 NPM VS Cordova 更新 5
我刚刚下载了 VS Apache Cordova Tools Update 5，但遇到了 Node 和 NPM 的问题。我使用默认的空白 cordova 项目进行测试。版本如果我在 VS 项目中对
angularjs - 避免 ng-view 在 $location.search 更新 GET 参数时获取 "wiped"(更新)
所以我有一个使用传单库实例化的 map 对象。 map 实例在单独的模板中创建并以这种方式路由:- var app = angular.module('myApp', ['ui', 'ngResour
java - Java 6 更新 19,20 中的绘图性能与 Java 6 更新 3 相比？
我使用较早的 Java 6 u 3 获得的帧速率是新版本的两倍。很奇怪。谁能解释一下？在 Core 2 Duo 1.83ghz 上，集成视频(仅使用一个内核)- 1500(较旧的 java)与 70
javascript - angular ng-click inside ng-repeat 更新 $scope 然后使用 $apply 更新 dom
我正在使用 angular 1.2 ng-repeat 创建的 div 也包含 ng-click 点击时 ng-click 更新 $scope $scope 中的变化反射(reflect)在使用 $a
android - public final void moveCamera(CameraUpdate 更新)和 public final void animateCamera(CameraUpdate 更新)之间的区别？
这些方法有什么区别 public final void moveCamera(CameraUpdate更新)和public final void animateCamera (CameraUpdate
列表树(更新)
我尝试了另一篇文章中某人评论中关于如何将树更改为列表的建议。但是，我在某处(或某物)有未声明的变量，所以我列表中的值是 [_G667, _G673, _G679]，而不是 [5, 2, 6]，这是正确
Java数据库大数据量查询/更新
实现以下场景的最佳方法是什么？我需要从java应用程序调用/查询包含数百万条记录的数据库表。然后，对于表中的每条记录，我的应用程序应该调用第三方 API 并获取状态字段作为响应。然后我的应用程序应该
Java重绘()/更新()
只是在编写一些与 java 图形相关的代码，这是我今天的讲座中的非常简单的示例。不管怎样，互联网似乎说更新不会被系统触发器调用，例如调整框架大小等。在这个例子中，更新是由这样的触发器调用的(因此当我只

首页

博学

6Ren·AI

商城

python - 如何在 autograd 反向传播中禁用某些模块的梯度更新？