gpt4 book ai didi

python - 在 Theano 中定义关于子张量的梯度

转载 作者:太空狗 更新时间:2023-10-29 20:20:08 27 4
gpt4 key购买 nike

从概念上讲,我有一个关于 Theano 的简单问题,但我一直无法找到答案(尽管学习了很多小时的教程,但我要坦白地说,我并不真正理解共享变量在 Theano 中的工作原理)。

我正在尝试实现“反卷积网络”;具体来说,我有一个 3 张量的输入(每个输入都是一个 2D 图像)和一个 4 张量的代码;对于第 i 个输入 codes[i] 表示一组代码字,它们一起对输入 i 进行编码。

我在弄清楚如何对代码字进行梯度下降方面遇到了很多麻烦。以下是我的代码的相关部分:

idx = T.lscalar()
pre_loss_conv = conv2d(input = codes[idx].dimshuffle('x', 0, 1,2),
filters = dicts.dimshuffle('x', 0,1, 2),
border_mode = 'valid')
loss_conv = pre_loss_conv.reshape((pre_loss_conv.shape[2], pre_loss_conv.shape[3]))
loss_in = inputs[idx]
loss = T.sum(1./2.*(loss_in - loss_conv)**2)

del_codes = T.grad(loss, codes[idx])
delc_fn = function([idx], del_codes)
train_codes = function([input_index], loss, updates = [
[codes, T.set_subtensor(codes[input_index], codes[input_index] -
learning_rate*del_codes[input_index]) ]])

(这里的代码和字典是共享的张量变量)。 Theano 对此不满意,特别是定义

del_codes = T.grad(loss, codes[idx])

我得到的错误消息是:theano.gradient.DisconnectedInputError: grad 方法被要求计算关于一个变量的梯度,该变量不属于成本计算图的一部分,或者仅被使用由不可微运算符:Subtensor{int64}.0

我猜它需要一个符号变量而不是代码[idx];但是我不确定如何将所有内容连接起来以获得预期的效果。我猜我需要将最后一行更改为类似

learning_rate*del_codes)     ]])

有人能给我一些关于如何正确定义这个函数的指示吗?我想我可能遗漏了一些关于使用 Theano 的基本知识,但我不确定是什么。

提前致谢!

-贾斯汀

更新:Kyle 的建议非常有效。下面是我使用的具体代码

current_codes = T.tensor3('current_codes')
current_codes = codes[input_index]
pre_loss_conv = conv2d(input = current_codes.dimshuffle('x', 0, 1,2),
filters = dicts.dimshuffle('x', 0,1, 2),
border_mode = 'valid')
loss_conv = pre_loss_conv.reshape((pre_loss_conv.shape[2], pre_loss_conv.shape[3]))
loss_in = inputs[input_index]
loss = T.sum(1./2.*(loss_in - loss_conv)**2)

del_codes = T.grad(loss, current_codes)
train_codes = function([input_index], loss)
train_dicts = theano.function([input_index], loss, updates = [[dicts, dicts - learning_rate*del_dicts]])
codes_update = ( codes, T.set_subtensor(codes[input_index], codes[input_index] - learning_rate*del_codes) )
codes_update_fn = function([input_index], updates = [codes_update])

for i in xrange(num_inputs):
current_loss = train_codes(i)
codes_update_fn(i)

最佳答案

总结调查结果:

分配 grad_var = codes[idx],然后创建一个新变量,例如:subgrad = T.set_subtensor(codes[input_index], codes[input_index] - learning_rate*del_codes[input_index])

然后调用train_codes = function([input_index], loss, updates = [[codes, subgrad]])

似乎可以解决问题。通常,我会尝试为尽可能多的事物创建变量。有时,尝试在单个语句中做太多事情会导致棘手的问题,而且以后很难调试和理解!此外,在这种情况下,我认为 theano 需要一个共享变量,但如果共享变量是在需要它的函数内创建,就会出现问题。

很高兴这对你有用!

关于python - 在 Theano 中定义关于子张量的梯度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24468482/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com