python - Relu 性能比 sigmoid 差？-6ren

python - Relu 性能比 sigmoid 差？

转载作者：行者123 更新时间：2023-11-30 09:51:28

29

4

我在所有层和输出上使用 sigmoid，得到的最终错误率为 0.00012，但是当我使用理论上更好的 Relu 时，我得到了最差的结果。谁能解释为什么会发生这种情况？我正在使用一个非常简单的 2 层实现代码，可在 100 个网站上使用，但仍然在下面给出，

import numpy as np
#test
#avg(nonlin(np.dot(nonlin(np.dot([0,0,1],syn0)),syn1)))
#returns list >> [predicted_output, confidence]
def nonlin(x,deriv=False):#Sigmoid
    if(deriv==True):
        return x*(1-x)

    return 1/(1+np.exp(-x))

def relu(x, deriv=False):#RELU
    if (deriv == True):
        for i in range(0, len(x)):
            for k in range(len(x[i])):
                if x[i][k] > 0:
                    x[i][k] = 1
                else:
                    x[i][k] = 0
        return x
    for i in range(0, len(x)):
        for k in range(0, len(x[i])):
            if x[i][k] > 0:
                pass  # do nothing since it would be effectively replacing x with x
            else:
                x[i][k] = 0
    return x

X = np.array([[0,0,1],
            [0,0,0],  
            [0,1,1],
            [1,0,1],
            [1,0,0],
            [0,1,0]])

y = np.array([[0],[1],[0],[0],[1],[1]])

np.random.seed(1)

# randomly initialize our weights with mean 0
syn0 = 2*np.random.random((3,4)) - 1
syn1 = 2*np.random.random((4,1)) - 1

def avg(i):
        if i > 0.5:
            confidence = i
            return [1,float(confidence)]
        else:
            confidence=1.0-float(i)
            return [0,confidence]
for j in xrange(500000):

    # Feed forward through layers 0, 1, and 2
    l0 = X
    l1 = nonlin(np.dot(l0,syn0Performing))
    l2 = nonlin(np.dot(l1,syn1))
    #print 'this is',l2,'\n'
    # how much did we miss the target value?
    l2_error = y - l2
    #print l2_error,'\n'
    if (j% 100000) == 0:
        print "Error:" + str(np.mean(np.abs(l2_error)))
        print syn1

    # in what direction is the target value?
    # were we really sure? if so, don't change too much.
    l2_delta = l2_error*nonlin(l2,deriv=True)

    # how much did each l1 value contribute to the l2 error (according to the weights)?
    l1_error = l2_delta.dot(syn1.T)

    # in what direction is the target l1?
    # were we really sure? if so, don't change too much.
    l1_delta = l1_error * nonlin(l1,deriv=True)

    syn1 += l1.T.dot(l2_delta)
    syn0 += l0.T.dot(l1_delta)
print "Final Error:" + str(np.mean(np.abs(l2_error)))
def p(l):
        return avg(nonlin(np.dot(nonlin(np.dot(l,syn0)),syn1)))

因此 p(x) 是训练后的预测函数，其中 x 是输入值的 1 x 3 矩阵。

最佳答案

为什么说理论上更好呢？在大多数应用中，ReLU 已被证明更好，但这并不意味着它普遍更好。您的示例非常简单，输入在 [0,1] 之间缩放，与输出相同。这正是我期望 sigmoid 表现良好的地方。由于梯度消失问题和大型网络的其他一些问题，您在实践中不会在隐藏层中遇到 sigmoid，但这对您来说几乎不是问题。

此外，如果您万一使用了 ReLU 导数，您的代码中就缺少了“else”。您的导数将被简单地覆盖。

作为复习，这里是 ReLU 的定义:

f(x)=max(0,x)

...这意味着它可以将你的激活值无限增加。您希望避免在最后(输出)层使用 ReLU。

顺便说一句，只要有可能，您就应该利用矢量化操作:

def relu(x, deriv=False):#RELU
    if (deriv == True):
        mask = x > 0
        x[mask] = 1
        x[~mask] = 0
    else: # HERE YOU WERE MISSING "ELSE"
        return np.maximum(0,x)

是的，它比 if/else 你正在做的要快得多。

关于python - Relu 性能比 sigmoid 差？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44351395/

29

4

0

文章推荐： java - gui截图，选择问题保存位置

文章推荐： javascript - Angular 2 : building svg icons with *ngIf adds nothing to DOM

文章推荐： java - 删除没有界面的复制/粘贴代码

文章推荐： javascript - React 和 jQuery 插件

css - 滑出抽屉在手机上 FPS 差
我的应用程序上有一个抽屉式菜单，它在桌面上运行良好，但在任何移动设备上我都看到一个丑陋的卡顿。在 header 中，我有一个 bool 值，在单击汉堡包时将其设置为 true/false，这会将 o
algorithm - 为什么通过插入元素构建堆的运行时间比使用 heapify 差？
在CLRS书中，自上而下的heapify构建堆的复杂度为O(n)。也可以通过反复调用插入来建立堆，其最坏情况下的复杂度为nlg(n)。我的问题是:对于后一种方法性能较差的原因，是否有任何见解？我问
python - Relu 性能比 sigmoid 差？
我在所有层和输出上使用 sigmoid，得到的最终错误率为 0.00012，但是当我使用理论上更好的 Relu 时，我得到了最差的结果。谁能解释为什么会发生这种情况？我正在使用一个非常简单的 2 层实
sql - 百分位分数，有多少人做的比你做的 postgresql 差
我想计算有多少人(百分比)在我的测试中表现比我差。这是我想要的结果: student | vak | resultaat | percentielscore ---------+-------
c# - PLINQ 的性能比通常的 LINQ 差
令人惊讶的是，使用 PLINQ 并没有在我创建的一个小测试用例上产生好处；事实上，它比通常的 LINQ 还要糟糕。测试代码如下: int repeatedCount = 10000000;
ios - MKOverlayRenderer 比 MKOverlayView 差？
我正在开发一个高度基于 map 的应用程序，并且我正在使用 MBXMapKit 框架(基于 MapKit 构建)以便在我的 MapView 中显示自定义 Mapbox map 图 block 而不是默
c# - DbContext 查询性能较 ObjectContext 差
这个问题在这里已经有了答案: Is it always better to use 'DbContext' instead of 'ObjectContext'? (1 个回答) 关闭 9 年前。
video - FFmpeg: "filter_complex"导致质量比 "vf"差
我正在尝试使用 FFmpeg 进行一些复杂的视频转码(例如连接多个文件)。为此，我一直在尝试使用 filter_complex，但我注意到我之前使用普通视频过滤器看到的质量略有下降。为了仔细检查，我
r - mclapply() 的性能明显比 lapply() 差。我怎样才能加快速度？
我是 R 中并行计算的新手，想使用并行包来加速我的计算(这比下面的示例更复杂)。但是，与通常的 lapply 函数相比，使用 mclapply 函数的计算时间更长。我在我的笔记本电脑上安装了一个全新
machine-learning - BERT 的表现比 word2vec 差
我正在尝试使用 BERT 解决文档排名问题。我的任务很简单。我必须对输入文档进行相似度排名。这里唯一的问题是我没有标签——所以它更像是一个定性分析。我正在尝试一系列文档表示技术——主要是 word2
c++ - Boost Geometry:计算 vector 差
如何计算两点的差？例如:(5,7) - (2,3) = (3,4) using point = boost::geometry::model::point point p1 (2, 3); point
scenekit - 基本形状并/交/差 : too blind to see?
我是 ARKit 的新手，在检查了一些示例代码后，如 https://developer.apple.com/sample-code/wwdc/2017/PlacingObjects.zip我想知道是
python - 使用相同参数时，GridSearchCV 的性能比普通 SVM 差
社区。我正在编写一些机器学习代码，将一些数据分类。我尝试了不同的方法，但是当我使用SVM时，我遇到了这个问题。我有一组简单的数据(3 个类别，6 个特征)，当我使用具有固定参数(C=10、gam
php - 为什么 count 比 $count 差
我只是在查看不同问题的答案以了解更多信息。我看到一个answer这表示在 php 中编写是不好的做法 for($i=0;$i
PHP 多 cURL 性能比顺序 file_get_contents 差
我正在编写一个界面，我必须在其中启动 4 个 http 请求才能获取一些信息。我用两种方式实现了接口(interface): 使用顺序 file_get_contents。使用多 curl 。我
java - 为什么 haskell 的性能比 java 差
我想用随机数来愚弄一下，如果 haskell 中的随机生成器是否均匀分布，因此我在几次尝试后写了下面的程序(生成的列表导致堆栈溢出)。 module Main where import System.
python - Tensorflow C++ 评估性能比 Python 差
我在 Tensorflow 中构建了一个 LSTM 分类器(使用 Python)，现在我正在做一系列基准测试来衡量执行性能。基准测试代码加载在训练期间保存的模型并针对大量输入执行它。我有一个 Pyth
reactjs - React.memo 性能比 React.PureComponent 差
不久前，我重构了单元格渲染器组件以实现性能提升(我有一个巨大的表格)。我从功能性无状态组件重构为 PureComponent。例如: import React from 'react'; import
java - 为什么在我的 BufferedReader 中使用*更大*的缓冲区时性能会*差*？
当我改变缓冲区的大小时，我得到了无法从 BufferedReader 解释的奇怪结果。我曾强烈期望性能会随着缓冲区大小的增加而逐渐增加， yield 递减设置相当快，此后性能或多或少会持平。但看起来
java - 为什么我的 bagOfWord 朴素贝叶斯算法的性能比 wekas StringToWordVector 差？
我正在尝试为 1000 个正面+负面标签的 IMDB 评论 (txt_sentoken) 和 Java 的 weka API 构建一个基于朴素贝叶斯的分类器。由于我不知道 StringToWordV

首页

博学

6Ren·AI

商城

python - Relu 性能比 sigmoid 差？