gpt4 book ai didi

optimization - 如果使用RELU激活函数解决梯度消失问题,为什么ResNet的主要目的是?

转载 作者:行者123 更新时间:2023-12-02 19:28:57 25 4
gpt4 key购买 nike

我读到ResNet通过使用skip函数解决了梯度消失问题。但它们不是已经用 RELU 解决了吗?关于 ResNet,我还遗漏了一些其他重要的事情吗?或者即使在使用 RELU 后也会出现梯度消失问题吗?

最佳答案

ReLU 激活解决了由于 sigmoid 非线性导致的梯度消失问题(由于 sigmoid 的平坦区域导致梯度消失)。

另一种“消失”梯度似乎与网络深度有关(例如参见 this )。基本上,当将梯度从层 N 反向传播到层 N-k 时,梯度作为深度的函数消失(在普通架构中)。 resnet 的想法是帮助梯度反向传播(例如,参见 Identity mappings in deep residual networks ,其中他们提出了 resnet v2 并认为恒等跳过连接在这方面做得更好)。

一篇非常有趣且相对较新的论文,阐明了 resnet 的工作是 resnets behaves as ensembles of relatively small networks 。本文的 tl;dr 可以(非常粗略地)总结为:残差网络表现为一个整体:删除单个层(即单个残差分支,而不是其跳过连接)并不会真正影响性能,但性能会下降以平滑的方式作为被移除的层数的函数,这就是集成的行为方式。训练期间的大部分梯度来自短路径。他们表明,与训练所有路径相比,仅训练这条短路径不会以统计上显着的方式影响性能。这意味着残差网络的影响并不真正来自深度,因为长路径的影响几乎不存在。

关于optimization - 如果使用RELU激活函数解决梯度消失问题,为什么ResNet的主要目的是?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62091567/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com