gpt4 book ai didi

deep-learning - 深度残差网络的直觉

转载 作者:行者123 更新时间:2023-12-04 12:18:29 25 4
gpt4 key购买 nike

我正在阅读 Deep Residual Network 论文,论文中有一个我无法完全理解的概念:

enter image description here

问题:

  • “希望 2 个权重层适合 F(x)”是什么意思?
  • 这里 F(x) 是用两个权重层(+ ReLu 非线性函数)处理 x,所以想要的映射是 H(x)=F(x)?残差在哪里?
  • 最佳答案

    What does it mean by "hope the 2 weight layers fit F(x)" ?



    所以显示的残差单元得到 F(x)通过加工 x有两个权重层。然后添加 xF(x)获取 H(x) .现在,假设 H(x)是与您的基本事实相匹配的理想预测输出。自 H(x) = F(x) + x ,获得想要的 H(x)取决于获得完美 F(x) .这意味着残差单元中的两个权重层实际上应该能够产生所需的 F(x) ,然后得到理想 H(x)是有保证的。

    Here F(x) is processing x with two weight layers(+ ReLu non-linear function), so the desired mapping is H(x)=F(x)? where is the residual?



    第一部分是正确的。 F(x)来自 x如下。
    x -> weight_1 -> ReLU -> weight_2
    H(x)来自 F(x)如下。
    F(x) + x -> ReLU 

    所以,我不明白你问题的第二部分。残差为 F(x) .

    作者假设残差映射(即 F(x))可能比 H(x) 更容易优化.为了用一个简单的例子来说明,假设理想的 H(x) = x .然后对于直接映射,由于存在如下非线性层的堆栈,因此很难学习恒等映射。
    x -> weight_1 -> ReLU -> weight_2 -> ReLU -> ... -> x

    因此,在中间使用所有这些权重和 ReLU 来近似身份映射将是困难的。

    现在,如果我们定义所需的映射 H(x) = F(x) + x ,那么我们只需要得到 F(x) = 0如下。
    x -> weight_1 -> ReLU -> weight_2 -> ReLU -> ... -> 0  # look at the last 0

    实现上述目标很容易。只需将任何权重设置为零,您的输出就会为零。加回来 x然后你得到你想要的映射。

    残差网络成功的另一个因素是从第一层到最后一层的不间断梯度流。这超出了您的问题的范围。您可以阅读论文:“深度残差网络中的身份映射”以获取更多信息。

    关于deep-learning - 深度残差网络的直觉,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43290192/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com