machine-learning - 人工神经网络-为什么隐藏层通常使用 sigmoid 激活函数而不是 tanh-sigmoid 激活函数？-6ren

machine-learning - 人工神经网络-为什么隐藏层通常使用 sigmoid 激活函数而不是 tanh-sigmoid 激活函数？

转载作者：行者123 更新时间：2023-11-30 09:08:59

29

4

为什么隐藏层中主要选择 log-sigmoid 激活函数而不是 tanh-sigmoid 激活函数？另外，如果我使用 Z 分数归一化，我可以在隐藏层中使用 sigmoid 激活函数吗？

最佳答案

古代历史

使用 sigmoid 函数的动机历史上是出于物理动机。第一个神经网络，在很早的时候，实际上使用了阶跃函数

其动机是，这就是神经元在大脑中的工作方式，至少在当时是这样理解的。在某个固定的激活能量下，神经元“激活”，从不活动 (0) 变为事件 (1)。然而，这些网络很难训练，而且标准范式也是物理驱动的，例如“经常使用的神经元会获得更强的连接”。这适用于非常小的网络，但根本无法扩展到更大的网络。

梯度下降和 sigmoid 的出现

在 80 年代，当人们发现可以使用梯度下降来训练神经网络时，神经网络发生了一场轻微的革命。这使得网络能够扩展到更大的规模，但它也意味着步骤激活的结束，因为它是不可微分的。然而，考虑到阶跃激活的悠久历史及其合理的物理动机，人们对于完全放弃它犹豫不决，因此用 sigmoid 函数来近似它，该函数具有其许多特征，但在 0 附近可微。

后来，人们开始使用 tanh 函数，因为它以零为中心，在某些情况下提供了更好的特性。

革命

然后在 2000 年，《自然》杂志上发表了一篇开创性的论文，建议使用 ReLU激活函数:

这是由早期激活函数的问题引起的，但最重要的是速度以及它不受 vanishing gradient problem 影响的事实。。从那时起，基本上所有顶级神经网络研究都在使用 ReLU 激活或其细微变化。

唯一的异常(exception)可能是循环网络，其中输出作为输入反馈。在这些情况下，使用 ReLU 等无界激活函数会很快导致结果爆炸，而在这些情况下人们仍然使用 sigmoid 和/或 tanh。

关于machine-learning - 人工神经网络-为什么隐藏层通常使用 sigmoid 激活函数而不是 tanh-sigmoid 激活函数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45113646/

29

4

0

文章推荐： JavaScript 迭代事件处理程序/监听器

文章推荐： javascript - 我在外部 html 中的 javascript 没有加载

文章推荐： machine-learning - 什么代表 Keras 中训练结果的损失或准确性

implementation - 通常，如何在javascript解释器或计时器中实现setTimeout？
时间过后如何用javascript或任何其他解释语言实现的函数被调用？换句话说，在javascript解释器中是否存在循环，该循环始终检查计时器列表，或者操作系统是否有任何特定方式来处理此循环？谢
c - 比较2个单链接列表中的元素并进行程序崩溃(通常)
我有项目要做。假设是这样的: 从带有单词的文件中，我只需要阅读字母单词(进入名为Words的列表-下面的代码)-我是使用lib中的isalpha()函数做到的。列表的每个元素包含一个单词我需要从输入
c++ - (通常)最快的方法来删除设置的交叉点
我有两套test和 test1我需要从 test 中删除元素存在于 test1例如如果test包含 1,2,3,4,5 和 test1包含 3,5,6,7:那么函数应该在 test 上执行所以里面只
c++ - 通常，解引用指针表达式结果是引用类型吗？
引用指针导致间接使用对象的值。但我从来没有真正理解“使用”是什么意思。我开始思考这个问题，直到我的编译器对以下代码产生错误 int i = 0, *pi = &i; decltype(*pi) c;
Perl 通常 Taint 是什么意思
我读了很多关于 Taint在 Perl 变量、模式等中，例如来自 docs : $AUTOLOAD can now be tainted If you call a subroutine by a t
scala - 为什么我们需要 flatMap(通常)？
我一直在研究 FP 语言(断断续续)，并且使用过 Scala、Haskell、F# 和其他一些语言。我喜欢我所看到的并理解 FP 的一些基本概念(绝对没有范畴论的背景——所以请不要谈论数学)。所以，
c++ - 通常，使用C++模板会产生比使用宏执行相同代码更大的可执行文件吗？
在C语言中，当您想要进行通用编程时，唯一受语言支持的选项是宏。它们效果很好并且被广泛使用，但是如果可以使用内联函数或常规函数，则不建议使用它们。 (如果使用gcc，您还可以使用gcc statemen
python - 是否可以捕获请求的所有异常？ (通常，对于模块)
我有一些代码可以进行 requests.get() 调用，这可能会以各种方式失败。我想捕获 requests 异常，但不关心调用失败的原因。我想避免这样的代码 try: r = reques
c - 通常，C 解析器如何区分类型转换和函数调用？
我正在尝试编写一个 C 解析器，用于我自己的教育。我知道我可以使用像 YACC 这样的工具来简化这个过程，但我想尽可能多地从经验中学习，所以我从头开始。我的问题是我应该如何处理这样的一行: doSo
mysql - 从不删除条目？好主意？通常？
我正在设计一个系统，但我认为让最终用户能够删除数据库中的条目并不是一个好主意。我是这么认为的，因为通常最终用户一旦获得管理员权限，最终可能会在数据库中弄得一团糟，然后求助于我来修复它。当然，如果他们
sql - 通常，字符串(或varchar)字段用作连接字段吗？
我们有两张 table 。第一个包含名称 (varchar) 字段。第二个包含引用第一个表中的名称字段的字段。第二个表中的外键将针对与该名称关联的每一行重复。通常不鼓励使用 varchar/strin
swift - 为什么我的 HKWorkoutSession(通常)没有结束？
我正在为 Apple Watch 开发一个非常简单的锻炼应用程序。它使用 Health Kit 开始和结束锻炼，我唯一的问题是，当我尝试结束锻炼时，它通常不会结束 session ，我收到此错误 20
sql - 检查SQL Server错误日志以获取详细信息。通常，断言失败是由软件错误或数据损坏引起的
当前，我们在执行sql查询脚本时遇到一些失败的问题。错误讯息为， ” 系统断言检查失败。检查SQL Server错误日志以获取详细信息。通常，断言失败是由软件错误或数据损坏引起的。要检查数据库是否损
c++ - 通常，如何在 C++ 中的结构和类之间进行选择
这是一个非常简单的问题，但我似乎找不到在某些情况下选择一个而不是另一个的一般规则。假设我有一个简单的 Point 类，如下所示: class Point { public: Point();
java - 通常，在应用程序的什么地方放置 SQL 查询？
这个问题在这里已经有了答案: Java Programming - Where should SQL statements be stored? [closed] (15 个答案) 关闭 9 年前。
service-worker - Service Worker 应该预缓存哪些文件(通常)？
我很欣赏这个问题可能有点“基于意见”，但是，我认为一个概括的答案可以极大地帮助将来有兴趣了解更多关于 PWA 和 Service Workers 的其他人。背景我在网上搜索过，但很惊讶地发现没有明
design-patterns - 在解释器中，词法分析器之后(通常)是什么？
对于编程语言解释器，我想知道解释器经历的事件顺序。例如，我认为事情是这样的: 解释器得到一些输入词法分析器/分词器获取输入并划分标记 x 获取代币列表 ??? 代码被执行什么步骤属于 ??? sp
flutter - 为什么(通常)在 BLoC 模式上有一个存储库层？
我是 Flutter 的新手，刚刚从阅读有关 Flutter 的教程中听说了 BLoC 概念。从这里 tutorial ，第一次听说BLoC。但是我在这篇文章中也看到了一个名为“Repository”
c++ - 如何从(通常)返回引用(对成员数据)的成员函数返回常量
我正在为下/上三角矩阵(double)编写一个类。通过利用 n*n 三角矩阵只有 n*(n + 1)/2 [可能非零] 元素这一事实，我在内部只存储平面数组成员中的元素数量。首先，我有一个“普通”(
java - 通常，您将 Java .class 文件存储在哪里？
我有一个 Java src 文件夹，我在其中存储我的 .java 文件。然后我使用终端编译它们并最终在同一目录中获得 .class 文件。这不一定会打扰我，但我从未见过专业人士这样做。按照专业惯例(

首页

博学

6Ren·AI

商城