gpt4 book ai didi

machine-learning - 为什么使用 tanh 作为 MLP 的激活函数?

转载 作者:行者123 更新时间:2023-11-30 08:21:34 26 4
gpt4 key购买 nike

我个人正在研究神经网络理论并遇到一些问题。

在许多书籍和引用文献中,对于隐藏层的激活函数,都使用了超切线函数。

书籍提出了非常简单的理由,即 tanh 函数的线性组合可以描述具有给定误差的几乎所有形状的函数。

但是,有一个问题。

  1. 这是使用 tanh 函数的真正原因吗?
  2. 如果是的话,这是使用 tanh 函数的唯一原因吗?
  3. 如果是的话,tanh 函数是唯一可以做到这一点的函数吗?
  4. 如果不是,真正的原因是什么?..

我在这里继续思考...请帮助我摆脱这个心理(?...)陷阱!

最佳答案

大多数时候 tanh 比 sigmoid 和逻辑函数收敛得更快,并且表现出更好的精度 [1] 。然而,最近 Hinton 提出了整流线性单元(ReLU)[2]显示 ReLU 训练速度比 tanh 快六倍 [3]达到相同的训练误差。您可以引用[4]看看 ReLU 提供了哪些好处。

<小时/>

根据大约 2 年机器学习经验。我想分享一些最常用的论文策略以及我在计算机视觉方面的经验。

规范化输入非常重要

良好的归一化可以获得更好的性能并快速收敛。大多数时候我们会减去平均值,使输入均值为零,以防止权重改变相同方向,从而缓慢收敛[5]最近google也指出了训练深度学习时内部协变量移出的现象,并提出了批量归一化[6]从而对每个均值为零、单位方差为零的向量进行归一化。

数据越多,准确性越高

更多的训练数据可以很好地泛化特征空间并防止过度拟合。在计算机视觉中,如果训练数据不够,增加训练数据的技巧大多是数据论证和综合训练数据。

选择一个好的激活函数可以让训练更好、更高效。

ReLU 非线性激活效果更好,并且在深度学习和 MLP 方面取得了最先进的结果。此外,它还有一些好处,例如反向传播易于实现且计算成本较低,可有效训练更深层的神经网络。然而,当单元处于零活跃状态时,ReLU 将获得零梯度并且不会进行训练。因此,提出了一些改进的 ReLU,例如Leaky ReLU 和 Noise ReLU,最流行的方法是 PReLU [7]由微软提出,对传统的重复单位进行了推广。

其他

  • 如果初始学习率不会振荡或发散,请选择较大的初始学习率,以便找到更好的全局最小值。
  • 打乱数据

关于machine-learning - 为什么使用 tanh 作为 MLP 的激活函数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24282121/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com