- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
问题总结:自定义函数的backward pass中如何处理输入和输出的维度?
根据manual ,自定义函数的基本结构如下:
class MyFunc(torch.autograd.Function):
@staticmethod
def forward(ctx, input): # f(x) = e^x
result = input.exp()
ctx.save_for_backward(result)
return result
@staticmethod
def backward(ctx, grad_output): # df(x) = e^x
result, = ctx.saved_tensors
return grad_output * result
对于单个输入和输出维度,这完全没问题,而且效果很好。但是对于更高的维度,向后传递变得困惑。显然,PyTorch 只接受
backward
的结果与
forward
的结果具有相同的维度(对于相同的输入)。返回错误的形状会产生
RuntimeError: Function MyFunc returned an invalid gradient at index 0 - got [*] but expected shape compatible with [*]
.所以我想知道:
向后实际上计算什么?
f(x) = ( f_1(x_1, ... , x_n), ... , f_k(x_1, ... , x_n) )
与
n
输入和
k
输出,我希望梯度计算会产生维度
k*n
的雅可比矩阵.然而,PyTorch 实现只需要一个维度为
n
的向量。 .那么向后结果实际上意味着什么,它不可能是雅可比行列式呢?
b*n
批量大小
b
.然后,而不是像
b*k*n
这样的东西预计渐变也具有形状
b*n
.它甚至打算考虑使用自定义函数处理批处理吗?
Function
更详细的界面,但我还没有找到它们。
最佳答案
它不存储/返回雅可比行列式(我想这与内存考虑有关)。
从训练的角度来看,我们不需要雅可比矩阵来进一步更新参数/反向传播。
对于更新参数,我们只需要 dL/dy_j
, j<n
:y_j -= alpha * dL/dy_j
并用于反向传播到 z
,说 z=f(y)=f(g(x))
:dL/dz_k = dL/dy_j * dy_j/dz_k
有人可能会说“但我们需要 dy_j/dz_k
在这里!” -- 确实如此,但我们不需要存储它(就像我们在这一步中根本不使用 dx_i/dy_j
的雅可比行列式一样)。
换句话说,雅可比行列式只是隐式使用,大部分不需要,因此为了内存而取消。
对于批处理部分,请注意小批量学习大多只是平均梯度。 PyTorch 期望您在向后函数中处理它(同样,该函数尽可能少地返回并节省尽可能多的内存)。
注意:可以“收集”雅可比矩阵并获得 n
- 你提到的大小的向量。具体来说,对 k
求和批量维度上的维度和平均值。
编辑:不是 100% 确定,但我认为向后调用(f(x)=y)预计会返回这个向量:
哪里\nabla x
是 backward
的输入参数.
关于python - PyTorch 自动毕业 : dimensionality of custom function gradients?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64777050/
main.cpp #include "Primes.h" #include int main(){ std::string choose; int num1, num2; w
似乎函数 qwertyInches() 应该可以工作但是当我在 main() 中调用它时它给了我 [Error] called object 'qwertyInches' is not a funct
我无法理解 C++ 语法的工作原理。 #include using namespace std; class Accumulator{ private: int value; public:
在 类中声明 函数成员时,我们可以同时执行这两种操作; Function first; Function() second; 它们之间有什么区别? 最佳答案 Function 代表任意函数: void
“colonna”怎么可能是一个简单的字符串: $('td.' + colonna).css('background-color','#ffddaa'); 可以正确突出显示有趣单元格的背景,并且: $
我正在尝试将网页中的动态参数中继到函数中,然后函数将它们传递给函数内部的调用。比如下面这个简化的代码片段,现在这样,直接传入参数是没有问题的。但是,如何在不为每个可能的 colorbox 参数设置 s
C++ 中是否有一种模式允许您返回一个函数,它返回一个函数本身。例如 std::function func = ...; do { func = func(); } while (func);
我正在将 Windows 程序集移植到 Linux。我有一些代码要移植。我实际上是 linux 中 C 的新手。我知道 C 基础知识是一样的! typedef struct sReader {
我一直在寻找一个很好的解释,所以我很清楚。示例: this.onDeleteHandler(index)}/> 对比 对比 this.nameChangedhandler(event, perso
function(){}.__proto__ === Function.prototype 和 Function.prototype === function(){}.__proto__ 得到不同的结
https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Function 据说 Propert
VBA 中的函数没有特殊类型。我很难理解如何在 Excel VBA 中将函数作为参数添加到函数中。 我想要完成的是这样的事情: function f(g as function, x as strin
所以我正在尝试制作一个包(我没有在下面包含我的 roxygen2 header ): 我有这个功能: date_from_text % dplyr::mutate(!!name := lubr
尝试从 std::function 派生一个类,对于初学者来说,继承构造函数。这是我的猜测: #include #include using namespace std; template cla
我正在尝试编写一个返回另一个函数的函数。我的目标是编写一个函数,它接受一个对象并返回另一个函数“search”。当我使用键调用搜索函数时,我想从第一个函数中给定的对象返回该键的值。 propertyO
我非常清楚函数式编程技术和命令式编程技术之间的区别。但是现在有一种普遍的趋势是谈论“函数式语言”,这确实让我感到困惑。 当然,像 Haskell 这样的一些语言比 C 等其他语言更欢迎函数式编程。但即
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
我在stackoverflow上查过很多类似的问题,比如call.call 1 , call.call 2 ,但我是新人,无法发表任何评论。我希望我能找到关于 JavaScript 解释器如何执行这些
向 Twilio 发送 SMS 时,Twilio 会向指定的 URL 发送多个请求,以通过 Webhook 提供该 SMS 传送的状态。我想让这个回调异步,所以我开发了一个 Cloud Functio
作为 IaC 的一部分,A 功能应用 ,让我们将其命名为 FuncAppX 是使用 Terraform 部署的,它有一个内置函数。 我需要使用 Terraform 在函数应用程序中访问相同函数的 Ur
我是一名优秀的程序员,十分优秀!