gpt4 book ai didi

machine-learning - 为什么门控激活函数(在 Wavenet 中使用)比 ReLU 效果更好?

转载 作者:行者123 更新时间:2023-11-30 08:34:37 24 4
gpt4 key购买 nike

我最近阅读了 Wavenet 和 PixelCNN 论文,在这两篇论文中他们都提到使用门控激活函数比 ReLU 效果更好。但在这两种情况下,他们都解释了原因。

我已经在其他平台上询问过(例如 r/machinelearning),但到目前为止我还没有得到任何回复。也许他们只是(偶然)尝试了这种替代品,结果产生了良好的结果?

引用函数:y = tanh(Wk,f * x) 。 σ(Wk,g*x)

卷积的 sigmoid 和 tanh 之间的逐元素乘法。

最佳答案

我做了一些挖掘,并与一位 friend 进行了更多交谈,他向我推荐了 Dauphin 等人的一篇论文。等人。关于“门控卷积网络的语言建模”。他在论文的第 3 节中对此主题提供了很好的解释:

LSTMs enable long-term memory via a separate cell controlled by input and forget gates. This allows information to flow unimpeded through potentially many timesteps. Without these gates, information could easily vanish through the transformations of each timestep.

In contrast, convolutional networks do not suffer from the same kind of vanishing gradient and we find experimentally that they do not require forget gates. Therefore, we consider models possessing solely output gates, which allow the network to control what information should be propagated through the hierarchy of layers.

换句话说,这意味着他们采用了门的概念并将其应用于顺序卷积层,以控制允许通过的信息类型,显然这比使用 ReLU 效果更好。

编辑:但是为什么它效果更好,我仍然不知道,如果有人能给我一个甚至远程直观的答案,我将不胜感激,我环顾四周,显然我们我们的判断仍然基于反复试验。

关于machine-learning - 为什么门控激活函数(在 Wavenet 中使用)比 ReLU 效果更好?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56061504/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com