machine-learning - 停止梯度更新架构中子网络的权重-6ren

machine-learning - 停止梯度更新架构中子网络的权重

转载作者：行者123 更新时间：2023-11-30 09:21:02

30

4

我的架构如下(使用 nngraph 构建):

require 'nn'
require 'nngraph'


input = nn.Identity()()
net1 = nn.Sequential():add(nn.SpatialConvolution(1, 5, 3, 3)):add(nn.ReLU(true)):add(nn.SpatialConvolution(5, 20, 4, 4))
net2 = nn.Sequential():add(nn.SpatialFullConvolution(20, 5, 4, 4)):add(nn.ReLU(true)):add(nn.SpatialFullConvolution(5, 1, 3, 3)):add(nn.Sigmoid())
net3 = nn.Sequential():add(nn.SpatialConvolution(1, 20, 3, 3)):add(nn.ReLU(true)):add(nn.SpatialConvolution(20, 40, 4, 4)):add(nn.ReLU(true)):add(nn.SpatialConvolution(40, 2, 3, 3)):add(nn.Sigmoid())

output1 = net1(input)
output2 = net2(output1)
output3 = net3(output2)
gMod = nn.gModule({input}, {output1, output3})


target1 = torch.rand(20, 51, 51)
target2 = torch.rand(2, 49, 49)
target2[target2:gt(0.5)] = 1
target2[target2:lt(0.5)] = 0
-- Do a forward pass
out1, out2 = unpack(gMod:forward(torch.rand(1, 56, 56)))

cr1 = nn.MSECriterion()
cr1:forward(out1, target1)
gradient1 = cr1:backward(out1, target1)

cr2 = nn.BCECriterion()
cr2:forward(out2, target2)
gradient2 = cr2:backward(out2, target2)


-- Now update the weights for the networks
LR = 0.001
gMod:backward(input, {gradient1, gradient2})
gMod:updateParameters(LR)

我想知道:

1) 如何停止gradient2更新net1的权重，并且仅有助于更新net2和的权重net3？

2)如何防止gradient2更新net3权重，但更新其他子[网络]权重？

最佳答案

我找到了问题的解决方案。下面我贴出每一个的相关代码:

问题 1:

这有点棘手，但完全可行。如果 net2 的第一层权重不应该用 gradient2 更新，则需要修改之后层的 updateGradInput() 函数并使其输出零张量。这是通过以下代码完成的:

input = nn.Identity()()
net1 = nn.Sequential():add(nn.SpatialConvolution(1, 5, 3, 3)):add(nn.ReLU(true)):add(nn.SpatialConvolution(5, 20, 4, 4))
net2 = nn.Sequential():add(nn.SpatialFullConvolutionInputGrad0(20, 5, 4, 4)):add(nn.ReLU(true)):add(nn.SpatialFullConvolution(5, 1, 3, 3)):add(nn.Sigmoid())
net3 = nn.Sequential():add(nn.SpatialConvolution(1, 20, 3, 3)):add(nn.ReLU(true)):add(nn.SpatialConvolution(20, 40, 4, 4)):add(nn.ReLU(true)):add(nn.SpatialConvolution(40, 2, 3, 3)):add(nn.Sigmoid())

-- Modifying the updateGradInput function so that it will output a zeroed-out tensor at the first layer of net2
local tempLayer = net2:get(1)
function tempLayer:updateGradInput(input, gradOutput)
         self.gradInput:resizeAs(input):zero()
         return self.gradInput
end

output1 = net1(input)
output2 = net2(output1)
output3 = net3(output2)
gMod = nn.gModule({input}, {output1, output3})

-- Everything else is the same ...

问题 2:

input = nn.Identity()()
net1 = nn.Sequential():add(nn.SpatialConvolution(1, 5, 3, 3)):add(nn.ReLU(true)):add(nn.SpatialConvolution(5, 20, 4, 4))
net2 = nn.Sequential():add(nn.SpatialFullConvolution(20, 5, 4, 4)):add(nn.ReLU(true)):add(nn.SpatialFullConvolution(5, 1, 3, 3)):add(nn.Sigmoid())
net3 = nn.Sequential():add(nn.SpatialConvolution(1, 20, 3, 3)):add(nn.ReLU(true)):add(nn.SpatialConvolution(20, 40, 4, 4)):add(nn.ReLU(true)):add(nn.SpatialConvolution(40, 2, 3, 3)):add(nn.Sigmoid())

net3.updateParameters = function() end -- Doing this prevents net3 weights get updated during the backward pass since the updateParameters function has been over-ridden

output1 = net1(input)
output2 = net2(output1)
output3 = net3(output2)
gMod = nn.gModule({input}, {output1, output3})

-- Everything else is the same ...

关于machine-learning - 停止梯度更新架构中子网络的权重，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38688591/

30

4

0

文章推荐： javascript - 神经网络反向传播不起作用

文章推荐： javascript - 在 Sharethis 上的电子邮件中添加主题？

文章推荐： javascript - 在 React 项目中保护 .env 参数

文章推荐： python - Tensorflow DNNClassifier 返回错误的预测

makefile - 覆盖父 makefile 中子 make 分配的变量
我正在使用 Make，并且有一个 makefile，它设置了一个变量，该变量的值需要我从父 makefile 覆盖。我尝试在父 makefile 中设置变量并使用 export 将其传递给子 make
html - 如何控制父 div 中子 div 的换行位置？
全屏运行下面的代码片段并调整屏幕大小以查看最后一行中的图像如何堆叠/环绕。它们直接包裹在下一行的正中央。我希望它们向左环绕。 #instafeed{ text-align: center; } #
jquery - 父容器 div 中子 div 的自动宽度
我在这个网站上找到了以下 jsfiddle，它 90% 回答了我的查询。 JSFiddle 但是我希望能够在内部 div 上包含边距。我已经尝试修改计算以考虑边距，但如果内部 div 不换行或溢出，我
html - 父 div 中子 div 的对齐问题
我有 div(class name:xyz) 在其中插入小的 4 div (class name:ax )。我需要垂直插入前两个 div，第三个应该水平插入第一个，第四个应该垂直插入第三个。但是所有的
c++ - 我怎样才能捕捉到 Qt 中子 Widget 的变化？
我有一些动态添加的 QWidgets，我想在它们发生变化时执行一些任务。我想我不能使用 connect() 因为我还需要触发更改的 QWidget 的名称。我如何才能同时查看更改了哪个 QWidg
c# - 如何更改 MVC 中子 Action 的顺序
我想在子操作中生成 HTML head 部分；而该页面还有许多其他子操作。 html head 部分取决于其他操作来确定应包含哪些 js/css 文件。不同的子 Action 可以共享同一个js/cs
javascript - 获取封闭 div 中子 div 的索引。未列出
我正在构建一个 Angular 7 应用程序。我想获取父 div 中某个 div 的“索引”或行。我的标记如下所示: 我知道如果标记如下所示，我可以轻松做到这一点，但如果
ruby - 处理 Node.js 中子 shell 的输出
如果我在 Ruby 中调用系统方法，它将在子 shell 中执行我的命令并输出它可以输出的所有内容。因此，如果我将其放入 file.rb 中: system 'vim' 然后运行 $ ruby
javascript - 使用 css 中子 div 的基线对齐 div
我可以对齐两个 div只需设置他们的 display至 inline-block并使用相同的 line-height如下图所示: 但是，我想要的是根据内部 div 的基线对齐两个嵌套 div，如下所示
ember.js - ember.js 中子 Controller 如何访问其父 Controller
我的父 Controller 上有一些属性，我希望我的子 Controller 可以访问这些属性。我想像这样访问它: App.ApplicationController = Ember.Object
css - 容器 div 高度不缩放以匹配 IE 中子 SVG 的高度
我有一个容器 div，里面有一个 SVG: 以及以下 CSS: svg { width: 100%; height: 1
active-directory - 特定 OU 中子 OU 中所有用户的 LDAP 查询
我必须处理的事件目录是这样布置的:域包含许多 OU。这些 OU 之一被命名为“主 OU”。在这个 OU 中，有几个以全局办事处位置命名的 OU(即“芝加哥”“巴黎”)。任何实际有血有肉的用户帐户都被
cocoa - 如何在 Objective-C 中子 NSTextView 的焦点上围绕 NSBox 绘制焦点环
我在 NSBox 中有一个 NSTextView。我想每当 NSTextView 获得焦点时在 NSBox 周围绘制焦点环，并在 NSTextView 失去焦点时立即删除焦点环。谢谢最佳答案为此
jquery - 绕过/阻止 jQuery 中子 div 的 slideUp 事件
在下面的代码中，我有一个链接，其 div id 是“my-acc-hover-container”。当用户将鼠标悬停在该链接上时，一个新的部分将向下滑动，其中包含“Hello Guest”和“Logi
java - 根据 fxml、java fx 中子 UI 的点击更新父级 UI
我正在使用 javafx 创建一个像 sqlyog 这样的应用程序。我的问题是我想添加数据库。无论何时添加，它都应该更新具有所有其他数据库的 TreeView 。出现创建数据库的对话框，给出名称并设置
ios - 以编程方式将 UIScrollView 滚动到 Swift 中子 UIView( subview )的顶部
我的 UIScrollView 中有几个屏幕的内容，它只能垂直滚动。我想以编程方式滚动到包含在其层次结构中某处的 View 。 UIScrollView 移动以便 subview 位于 UIScro
python - Openstack 中子 : How to update port vif-model using update_port() api
我想更新已创建端口的 vif_model。我在 CLI 中使用以下命令 neutron port-update --binding:vif_model=avp 如何使用 neutron 的 pyth
html - 如何使用 HTML CSS 对齐容器 div 中子 div 的 2 个 super 子 div
我在一个程序中有两个查询。查询1:我正在尝试在容器 div 的子 div 内水平对齐两个子 super 子分区。下面是我的代码，你能帮我解决这个问题吗？我已附上所需的输出。查询2:从代码中你可以看
html - 如何使用 HTML CSS 对齐容器 div 中子 div 的 2 个 super 子 div
我在一个程序中有两个查询。查询1:我正在尝试在容器 div 的子 div 内水平对齐两个子 super 子分区。下面是我的代码，你能帮我解决这个问题吗？我已附上所需的输出。查询2:从代码中你可以看

首页

博学

6Ren·AI

商城

machine-learning - 停止梯度更新架构中子网络的权重