- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
出于学习目的,我一直在尝试实现自己的玩具神经网络库。我已经尝试在各种逻辑门操作(如 Or、And 和 XOR)上测试它。虽然它适用于 OR 操作,但它无法用于 AND 和 XOR 操作。它很少为 AND 和 XOR 运算提供正确的输出。
我尝试了范围学习率。我还尝试了各种学习曲线来找到具有时期数的成本模式。
import numpy as np
class myNeuralNet:
def __init__(self, layers = [2, 2, 1], learningRate = 0.09):
self.layers = layers
self.learningRate = learningRate
self.biasses = [np.random.randn(l, 1) for l in self.layers[1:]]
self.weights = [np.random.randn(i, o) for o, i in zip(self.layers[:-1], self.layers[1:])]
self.cost = []
def sigmoid(self, z):
return (1.0 / (1.0 + np.exp(-z)))
def sigmoidPrime(self, z):
return (self.sigmoid(z) * (1 - self.sigmoid(z)))
def feedForward(self, z, predict = False):
activations = [z]
for w, b in zip(self.weights, self.biasses): activations.append(self.sigmoid(np.dot(w, activations[-1]) + b))
# for activation in activations: print(activation)
if predict: return np.round(activations[-1])
return np.array(activations)
def drawLearningRate(self):
import matplotlib.pyplot as plt
plt.xlim(0, len(self.cost))
plt.ylim(0, 5)
plt.plot(np.array(self.cost).reshape(-1, 1))
plt.show()
def backPropogate(self, x, y):
bigDW = [np.zeros(w.shape) for w in self.weights]
bigDB = [np.zeros(b.shape) for b in self.biasses]
activations = self.feedForward(x)
delta = activations[-1] - y
# print(activations[-1])
# quit()
self.cost.append(np.sum([- y * np.log(activations[-1]) - (1 - y) * np.log(1 - activations[-1])]))
for l in range(2, len(self.layers) + 1):
bigDW[-l + 1] = (1 / len(x)) * np.dot(delta, activations[-l].T)
bigDB[-l + 1] = (1 / len(x)) * np.sum(delta, axis = 1)
delta = np.dot(self.weights[-l + 1].T, delta) * self.sigmoidPrime(activations[-l])
for w, dw in zip(self.weights, bigDW): w -= self.learningRate * dw
for b, db in zip(self.biasses, bigDB): b -= self.learningRate *db.reshape(-1, 1)
return np.sum(- y * np.log(activations[-1]) - (1 - y) * np.log(1 - activations[-1])) / 2
if __name__ == '__main__':
nn = myNeuralNet(layers = [2, 2, 1], learningRate = 0.35)
datasetX = np.array([[1, 1], [0, 1], [1, 0], [0, 0]]).transpose()
datasetY = np.array([[x ^ y] for x, y in datasetX.T]).reshape(1, -1)
print(datasetY)
# print(nn.feedForward(datasetX, predict = True))
for _ in range(60000): nn.backPropogate(datasetX, datasetY)
# print(nn.cost)
print(nn.feedForward(datasetX, predict = True))
nn.drawLearningRate()
有时也会报“RuntimeWarning: overflow encountered in exp”,有时会导致收敛失败。
最佳答案
对于交叉熵错误,您需要在网络上有一个概率输出层才能正确工作。 Sigmoid 通常不起作用,也不应该真正使用。
您的公式似乎有点不对劲。对于您定义的当前网络布局:3 层(2、2、1),您有 w0(2x2) 和 w1(1x2)。记得找到 dw1 你有以下内容:
d1 = (guess - target) * sigmoid_prime(net_inputs[1]) <- when you differentiated da2/dz1 you ended up f'(z1) and not f'(a2)!
dw1 = d1 * activations[1]
db1 = np.sum(d1, axis=1)
d0 = d1 * w1 * sigmoid_prime(net_inputs[0])
dw0 = d0 * activations[0]
db0 = np.sum(d0, axis=1)
要记住的是每一层都有 net_inputs 作为
z := w @ x + b
和激活
a := f(z)
.在反向传播过程中,当您计算 da[i]/dz[i-1] 时,您需要将激活函数的导数应用于 z[i-1] 而不是 a[i]。
z = w @ x + b
a = f(z)
da/dz = f'(z) !!!
这是针对所有图层的。一些小的注意事项:
将误差计算切换为:np.mean(.5 * (activations[-1] - y) ** 2) 如果您没有对输出层使用软/硬最大激活函数(对于单输出神经元你为什么会这样)。
在delta计算期间在激活函数的导数中使用z-s
不要使用 Sigmoid(它在梯度消失方面有问题),尝试 ReLu:np.where(x <= 0, 0, x)/np.where(x<=0, 0, 1) 或它的一些变体。
对于 XOR 的学习率,在 [.0001, .1] 之间选择应该足以使用任何类型的优化。
如果您将权重矩阵初始化为:[number_of_input_units x number_of_output_units] 而不是 [number_of_output_units x number_of_input_units],您可以将 z = w @ x + b 更改为 z = x @ w + b 和您不需要调换输入和输出。
下面是上面的示例实现:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(0)
def cost(guess, target):
return np.mean(np.sum(.5 * (guess - target)**2, axis=1), axis=0)
datasetX = np.array([[0., 0.], [0., 1.], [1., 0.], [1., 1.]])
datasetY = np.array([[0.], [1.], [1.], [0.]])
w0 = np.random.normal(0., 1., size=(2, 4))
w1 = np.random.normal(0., 1., size=(4, 1))
b0 = np.zeros(4)
b1 = np.zeros(1)
f1 = lambda x: np.where(x <= 0, 0, x)
df1 = lambda d: np.where(d <= 0, 0, 1)
f2 = lambda x: np.where(x <= 0, .1*x, x)
df2 = lambda d: np.where(d <= 0, .1, 1)
costs = []
for i in range(250):
a0 = datasetX
z0 = a0 @ w0 + b0
a1 = f1(z0)
z1 = a1 @ w1 + b1
a2 = f2(z1)
costs.append(cost(a2, datasetY))
d1 = (a2 - datasetY) * df2(z1)
d0 = d1 @ w1.T * df1(z0)
dw1 = a1.T @ d1
db1 = np.sum(d1, axis=0)
dw0 = a0.T @ d0
db0 = np.sum(d0, axis=0)
w0 = w0 - .1 * dw0
b0 = b0 - .1 * db0
w1 = w1 - .1 * dw1
b1 = b1 - .1 * db1
print(f2(f1(datasetX @ w0 + b0) @ w1 + b1))
plt.plot(costs)
plt.show()
它给出的结果:
[[0.00342399]
[0.99856158]
[0.99983358]
[0.00156524]]
关于python - 如何正确实现反向传播,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56240097/
这个问题已经有答案了: How to do case insensitive string comparison? (23 个回答) 已关闭 3 年前。 用户在我的输入栏中写入“足球”,然后执行第 6
啊,不习惯 javascript 中的字符串。 character_id= + id + correct= + correctOrIncorrect 这就是我需要制作成字符串的内容。如果您无法猜测字符
$(function() { var base_price = 0; CalculatePrice(); $(".math1").on('change', function(e) { Calc
我找不到任何文章回答问题:将Spinnaker部署到Spinnaker将管理的同一Kubernetes集群是否安全/正确?我主要是指生产,HA部署。 最佳答案 我认为Spinnaker和Kuberne
我正在使用MSVC在Windows上从源代码(官方源代码发布,而不是从仓库中)构建Qt5(Qt 5.15.0)。 我正在设置环境。变量,依赖项等,然后运行具有1600万个选项的configure,最后
我需要打印一个包含重复单词的数组。我的数组已经可以工作,但我不知道如何正确计算单词数。我已经知道,当我的索引计数器 (i) 为 49 时,并且当 (i) 想要计数到 50 时,我会收到错误,但我不知道
我正在遵循一个指南,该指南允许 Google map 屏幕根据屏幕尺寸禁用滚动。我唯一挣扎的部分是编写一个代码,当我手动调整屏幕大小时动态更改 True/False 值。 这是我按照说明操作的网站,但
我有一个类“FileButton”。它的目的是将文件链接到 JButton,FileButton 继承自 JButton。子类继承自此以使用链接到按钮的文件做有用的事情。 JingleCardButt
我的 friend 数组只返回一个数字而不是所有数字。 ($myfriends = 3) 应该是…… ($myfriends = 3 5 7 8 9 12). 如果我让它进入 while 循环……整个
这个问题在这里已经有了答案: Is there a workaround to make CSS classes with names that start with numbers valid?
我正在制作一个 JavaScript 函数,当调整窗口大小时,它会自动将 div 的大小调整为与窗口相同的宽度/高度。 该功能非常基本,但我注意到在调整窗口大小时出现明显的“绘制”滞后。在 JS fi
此问题的基本视觉效果可在 http://sevenx.de/demo/bootstrap-carousel/inc.carousel/tabbed-slider.html 获得。 - 如果你想看一看。
我明白,如果我想从函数返回一个字符串文字或一个数组,我应该将其声明为静态的,这样当被调用的函数被返回时,内容就不会“消亡”。 但我的问题是,当我在函数内部使用 malloc 分配内存时会怎样? 在下面
在 mySQL 数据库中存储 true/false/1/0 值最合适(读取数据消耗最少)的数据字段是什么? 我以前使用过一个字符长的 tinyint,但我不确定它是否是最佳解决方案? 谢谢! 最佳答案
我想一次读取并处理CSV文件第一行中的条目(例如打印)。我假设使用Unix风格的\n换行符,没有条目长度超过255个字符,并且(现在)在EOF之前有一个换行符。这意味着它是fgets()后跟strto
所以,我们都知道 -1 > 2u == true 的 C/C++ 有符号/无符号比较规则,并且我有一种情况,我想有效地实现“正确”比较。 我的问题是,考虑到人们熟悉的尽可能多的架构,哪种方法更有效。显
**摘要:**文章的标题看似自相矛盾。 本文分享自华为云社区《Java异常处理:如何写出“正确”但被编译器认为有语法错误的程序》,作者: Jerry Wang 。 文章的标题看似自相矛盾,然而我在“正
我有一个数据框,看起来像: dataDemo % mutate_each(funs(ifelse(. == '.', REF, as.character(.))), -POS) # POS REF
有人可以帮助我使用 VBScript 重新格式化/正确格式化带分隔符的文本文件吗? 我有一个文本文件 ^分界如下: AGREE^NAME^ADD1^ADD2^ADD3^ADD4^PCODE^BAL^A
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我是一名优秀的程序员,十分优秀!