python - 为什么在神经网络中将误差乘以 sigmoid 的导数？-6ren

python - 为什么在神经网络中将误差乘以 sigmoid 的导数？

转载作者：行者123 更新时间：2023-11-30 08:30:13

24

4

这是代码:

import numpy as np

# sigmoid function
def nonlin(x,deriv=False):
    if(deriv==True):
        return x*(1-x)
    return 1/(1+np.exp(-x))

# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])

# output dataset            
y = np.array([[0,0,1,1]]).T

# seed random numbers to make calculation
# deterministic (just a good practice)
np.random.seed(1)

# initialize weights randomly with mean 0
syn0 = 2*np.random.random((3,1)) - 1

for iter in xrange(10000):

    # forward propagation
    l0 = X
    l1 = nonlin(np.dot(l0,syn0))

    # how much did we miss?
    l1_error = y - l1

    # multiply how much we missed by the 
    # slope of the sigmoid at the values in l1
    l1_delta = l1_error * nonlin(l1,True)

    # update weights
    syn0 += np.dot(l0.T,l1_delta)

print "Output After Training:"
print l1

这是网站:http://iamtrask.github.io/2015/07/12/basic-python-network/

代码第 36 行，l1 误差 乘以输入的导数以及权重。我不知道为什么要这样做，并且花了几个小时试图弄清楚。我刚刚得出这样的结论:这是错误的，但有些事情告诉我，考虑到有多少人推荐并使用本教程作为学习神经网络的起点，这可能是不正确的。

在文章中，他们这样说

Look at the sigmoid picture again! If the slope was really shallow (close to 0), then the network either had a very high value, or a very low value. This means that the network was quite confident one way or the other. However, if the network guessed something close to (x=0, y=0.5) then it isn't very confident.

我似乎无法理解为什么 sigmoid 函数输入的高低与置信度有任何关系。当然，它有多高并不重要，因为如果预测的产出很低，那么它就会非常不自信，不像他们所说的那样，因为它很高，所以应该有信心。

如果您想强调错误，那么将 l1_error 立方化肯定会更好吗？

考虑到到目前为止，我终于找到了一种有前途的方法来真正直观地开始学习神经网络，这真是令人失望，但我再次错了。如果您有一个我可以很容易理解的好地方来开始学习，我将不胜感激。

最佳答案

看看这张图片。如果 sigmoid 函数给你一个高值或低值(相当好的置信度)，则该值的导数为低值。如果您在最陡斜率 (0.5) 处获得一个值，则该值的导数为“高”。

当函数给我们一个不好的预测时，我们希望将权重改变一个更大的数字，相反，如果预测良好(高置信度)，我们不想改变我们的权重太多。

Sigmoid function and derivative

关于python - 为什么在神经网络中将误差乘以 sigmoid 的导数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45787261/

24

4

0

文章推荐： java - Codename One 添加组件到容器

文章推荐： Javascript DatePicker 格式年份为 2 位数字

文章推荐： java - 如何将 .doc 或 .docx 文件转换为 .pdf 文件？

math - 如何计算流数据的变化率(导数)？
我有一个随时间变化的数据流。如何使用 C# 确定变化率？自从上微积分课已经很长时间了，但现在是我第一次真正需要它(15 年来)。现在，当我搜索“衍生品”这个词时，我会得到金融方面的东西，以及我认为并
matlab - 样条插值及其(精确)导数
假设我有以下数据和命令: clc;clear; t = [0:0.1:1]; t_new = [0:0.01:1]; y = [1,2,1,3,2,2,4,5,6,1,0]; p = interp1(
matlab - 样条插值及其(精确)导数
假设我有以下数据和命令: clc;clear; t = [0:0.1:1]; t_new = [0:0.01:1]; y = [1,2,1,3,2,2,4,5,6,1,0]; p = interp1(
python - 指数中可变时间间隔的 Pandas 导数
我曾经使用这个公式来计算每秒记录的信号的导数，然后对其应用滚动平均值。 df.rolling(rollingWindow, center=True).mean().diff(rollingWindow
Python - 索贝尔 x 导数
通过这里的一些帮助，我想出了一个函数，它似乎将索贝尔导数应用于 X 方向的图像 F(x,y) = F(x+1,y) - F( x，y)我无法使用任何 OpenCV 函数，并且我需要 2D 输出数组比
neural-network - 如何独立于任何损失函数实现 Softmax 导数？
对于神经网络库，我实现了一些激活函数和损失函数及其衍生物。它们可以任意组合，输出层的导数只是损失导数和激活导数的乘积。但是，我未能独立于任何损失函数实现 Softmax 激活函数的导数。由于归一化，
neural-network - 反向传播中的 ReLU 导数
我要在使用 ReLU 的神经网络上进行反向传播。在我之前的一个项目中，我在一个使用 Sigmoid 激活函数的网络上做了，但现在我有点困惑，因为 ReLU 没有导数。这是一个 image关于 we
c++ - OpenCV 中的 Sobel 导数
我的任务是制作自己的 Sobel 方法，而不是使用 OpenCV 中的 cv::Sobel。我尝试实现我在 Programming techniques 找到的一个但是，当我运行该程序时，cv::M
lisp - 哪种语言可以计算抽象函数的 Frechet/Gateaux 导数？
我愿意计算一个不完全明确的函数的 Frechet/Gateaux 导数，我的问题是:最有效的方法是什么？您会推荐我使用哪种语言？准确地说，我的问题是我有一个函数，比如 F，它是多维函数对(即从 R^
types - 如何使用 Flux.jl 绘制函数及其梯度/导数
我想使用 Flux.jl 绘制函数及其梯度和 Plots.jl using Flux.Tracker using Plots f(x::Float64) = 3x^2 + 2x + 1 df(x::F
python - 在 python 中更快地实现 ReLu 导数？
我已将 ReLu 导数实现为: def relu_derivative(x): return (x>0)*np.ones(x.shape) 我也尝试过: def relu_derivativ
c++ - 在 opencv 中组合 Scharr 导数
我几乎没有关于 Scharr 导数及其 OpenCV 实现的问题。我对具有 (3X3) 内核的二阶图像导数感兴趣。我从 Sobel 二阶导数开始，它未能在图像中找到一些细线。看完this page底
python - 使用 NumPy 的 ReLU 导数
import numpy as np def relu(z): return np.maximum(0,z) def d_relu(z): z[z>0]=1 z[z 0).as
c++ - C++ 中的 Runge-Kutta (RK4) 导数
你好，我用 C++ 创建了一个小的运动模拟。我想向学生展示 Euler、Runge-Kutta 和 MidPoint 方法之间的差异，有些 Material 点在撞击球体时会移动和反弹。但是当我切换
nixos - 如何在不抛出 `cannot coerce a set to a string` 的情况下覆盖 Nix 导数？
或者，目标:如何以声明方式从 Nix 不稳定中获取单个包？我是 NixOS 的新手，目前正在尝试安装比默认版本更新的 Consul 0.5.2我的 NixOS 版本(最新稳定版)。我正在尝试通过覆盖
python - pytorch 梯度/导数/沿轴的差异，如 numpy.diff
我已经为此苦苦挣扎了很长一段时间。我想要的只是一个 torch.diff() 函数。然而，许多矩阵运算似乎并不容易与张量运算兼容。我已经尝试了大量不同的 pytorch 操作组合，但它们都不起作用。
ios - 如何使用 dx 和 dy(导数)创建 Swift CGVector？
我试图了解如何在 Swift 中创建 Vector，因为当我执行 CGVectorMake() 时，它告诉我将 dx 和 dy(导数)作为 CGFloat 传递。如何创建仅包含该信息的向量(线)？谁
c++ - OpenCV:在 QImage 上使用 GaussianBlur 或 Sobel 导数
我希望你能帮助我。我正在使用 QT 并尝试对图像的边缘进行简单检测。但是当我启动时我的程序崩溃了 cv::GaussianBlur( src, src, cv::Size(3,3), 0, 0, c
python - Savitzky-Golay 导数，用 SciPy 的 signal.savgol_filter 计算需要缩放吗？
我正在计算信号的一阶和二阶导数，然后进行绘图。我选择了在 SciPy(信号模块)中实现的 Savitzky-Golay 滤波器。我想知道是否需要缩放输出 - 在同一过滤器的 Matlab 实现中，指定

首页

博学

6Ren·AI

商城

python - 为什么在神经网络中将误差乘以 sigmoid 的导数？