- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在所有层和输出上使用 sigmoid,得到的最终错误率为 0.00012,但是当我使用理论上更好的 Relu 时,我得到了最差的结果。谁能解释为什么会发生这种情况?我正在使用一个非常简单的 2 层实现代码,可在 100 个网站上使用,但仍然在下面给出,
import numpy as np
#test
#avg(nonlin(np.dot(nonlin(np.dot([0,0,1],syn0)),syn1)))
#returns list >> [predicted_output, confidence]
def nonlin(x,deriv=False):#Sigmoid
if(deriv==True):
return x*(1-x)
return 1/(1+np.exp(-x))
def relu(x, deriv=False):#RELU
if (deriv == True):
for i in range(0, len(x)):
for k in range(len(x[i])):
if x[i][k] > 0:
x[i][k] = 1
else:
x[i][k] = 0
return x
for i in range(0, len(x)):
for k in range(0, len(x[i])):
if x[i][k] > 0:
pass # do nothing since it would be effectively replacing x with x
else:
x[i][k] = 0
return x
X = np.array([[0,0,1],
[0,0,0],
[0,1,1],
[1,0,1],
[1,0,0],
[0,1,0]])
y = np.array([[0],[1],[0],[0],[1],[1]])
np.random.seed(1)
# randomly initialize our weights with mean 0
syn0 = 2*np.random.random((3,4)) - 1
syn1 = 2*np.random.random((4,1)) - 1
def avg(i):
if i > 0.5:
confidence = i
return [1,float(confidence)]
else:
confidence=1.0-float(i)
return [0,confidence]
for j in xrange(500000):
# Feed forward through layers 0, 1, and 2
l0 = X
l1 = nonlin(np.dot(l0,syn0Performing))
l2 = nonlin(np.dot(l1,syn1))
#print 'this is',l2,'\n'
# how much did we miss the target value?
l2_error = y - l2
#print l2_error,'\n'
if (j% 100000) == 0:
print "Error:" + str(np.mean(np.abs(l2_error)))
print syn1
# in what direction is the target value?
# were we really sure? if so, don't change too much.
l2_delta = l2_error*nonlin(l2,deriv=True)
# how much did each l1 value contribute to the l2 error (according to the weights)?
l1_error = l2_delta.dot(syn1.T)
# in what direction is the target l1?
# were we really sure? if so, don't change too much.
l1_delta = l1_error * nonlin(l1,deriv=True)
syn1 += l1.T.dot(l2_delta)
syn0 += l0.T.dot(l1_delta)
print "Final Error:" + str(np.mean(np.abs(l2_error)))
def p(l):
return avg(nonlin(np.dot(nonlin(np.dot(l,syn0)),syn1)))
因此 p(x) 是训练后的预测函数,其中 x 是输入值的 1 x 3 矩阵。
最佳答案
为什么说理论上更好呢?在大多数应用中,ReLU 已被证明更好,但这并不意味着它普遍更好。您的示例非常简单,输入在 [0,1] 之间缩放,与输出相同。这正是我期望 sigmoid 表现良好的地方。由于梯度消失问题和大型网络的其他一些问题,您在实践中不会在隐藏层中遇到 sigmoid,但这对您来说几乎不是问题。
此外,如果您万一使用了 ReLU 导数,您的代码中就缺少了“else”。您的导数将被简单地覆盖。
作为复习,这里是 ReLU 的定义:
f(x)=max(0,x)
...这意味着它可以将你的激活值无限增加。您希望避免在最后(输出)层使用 ReLU。
顺便说一句,只要有可能,您就应该利用矢量化操作:
def relu(x, deriv=False):#RELU
if (deriv == True):
mask = x > 0
x[mask] = 1
x[~mask] = 0
else: # HERE YOU WERE MISSING "ELSE"
return np.maximum(0,x)
是的,它比 if/else 你正在做的要快得多。
关于python - Relu 性能比 sigmoid 差?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44351395/
在其 API documentation ,它说“计算整流线性”。 是 Re(ctified) L(inear)... 那么 U 是什么? 最佳答案 Re(ctified) L(inear) (U)n
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 3年前关闭。 Improve this qu
我看到这里记录了这个“tf.nn.relu”:https://www.tensorflow.org/api_docs/python/tf/nn/relu 但后来我在“model_fn”的这个页面上也看
我只是想知道 的用途和专业之间是否有任何显着差异 Dense(activation='relu') 和 keras.layers.ReLu 后一个如何以及在哪里可以使用?我最好的猜测是在功能 API
我最近在做一个基于 TensorFlow 的 Udacity 深度学习类(class)。 .我有一个简单的 MNIST大约 92% 准确的程序: from tensorflow.examples.tu
我在使用 relu 激活函数时无法实现反向传播。我的模型有两个隐藏层,两个隐藏层都有 10 个节点,输出层有一个节点(因此有 3 个权重,3 个偏差)。除了这个损坏的 backward_prop 函数
由于neuralnet包没有ReLU功能,所以我尝试写ReLU功能的代码。但是有一个错误我不明白。请在下面查看我的代码和错误信息。 relu=0,x,0)} nn =0)} relu <- funct
由于neuralnet包没有ReLU功能,所以我尝试写ReLU功能的代码。但是有一个错误我不明白。请在下面查看我的代码和错误信息。 relu=0,x,0)} nn =0)} relu <- funct
我已经用 relu 作为激活函数在 tensorflow 中编写了一个卷积网络,但是它不是学习(对于评估和训练数据集,损失都是恒定的)。对于不同的激活函数,一切都按其应有的方式工作。 这是创建 nn
我正在使用 python 2.7 并试图更好地了解 tensorflow 。 我正在使用以下代码尝试在 mnist 数据上训练自动编码器,当我使用 sigmoid 激活时,它可以正常(90%),但是当
所以我开始使用 Pytorch,并在 FashionMNIST 数据集上构建一个非常基本的 CNN。我在使用神经网络时注意到一些奇怪的行为,我不知道为什么会发生这种情况,在前向函数中,当我在每个线性层
我正在根据负值和正值的数据训练神经网络。 有没有什么方法可以将数据输入 ReLU 网络,而不将其全部转换为正数,并且有一个单独的输入来表示数据是负数还是正数? 我看到的问题是,输入层的负输入意味着除非
ReLU 函数,在这种情况下,我使用了 leaky ReLU 给我错误的输出。但是使用 sigmoid 函数它给了我一个可接受的输出 这是我的代码: import numpy as np def re
在 keras 文档中,函数 keras.activations.relu(x, alpha=0.0, max_value=None, Threshold=0.0) 定义为: f(x) = max_v
我正在尝试使用神经网络 (Keras) 逼近正弦函数。 是的,我阅读了相关的帖子:) Link 1 Link 2 Link 3 使用四个带 sigmoid 的隐藏神经元和一个带线性激活的输出层效果很好
作为一个更大项目的一部分,我一直在构建一个编程语言检测器,即代码片段的分类器。我的基线模型非常简单:将输入标记化并将片段编码为词袋,或者,在这种情况下,bag-of-tokens,并在这些特征之上制作
我正在实现一个神经网络,并希望使用 ReLU 作为神经元的激活函数。此外,我正在使用 SDG 和反向传播训练网络。我正在用范例 XOR 问题测试神经网络,到目前为止,如果我使用逻辑函数或双曲正切作为激
测试代码: ? 1
最近我观察到,在定义神经网络时,我们多次为每一层定义单独的 ReLU 对象。为什么我们不能在需要的地方使用相同的 ReLU 对象。 例如而不是像这样写- def __init__(self):
我们使用 ReLu 而不是 Sigmoid 激活函数,因为它没有像激活函数一样存在于 Sigmoid 中的梯度消失和爆炸问题, Leaky-ReLU 是 rely 的改进之一。大家都在谈论 Leaky
我是一名优秀的程序员,十分优秀!