python - 为什么我的神经网络成本不断增加？-6ren

python - 为什么我的神经网络成本不断增加？

转载作者：行者123 更新时间：2023-11-28 18:19:00

25

4

我已经实现了一个神经网络来预测异或门。它有 1 个输入层和 2 个节点，1 个隐藏层和 2 个节点和 1 个输出层和 1 个节点。无论我尝试做什么，我的成本都在不断增加。我试过将我的学习率设置为较小的值，但这只会使成本缓慢增加。请感谢任何提示。

import numpy as np 

train_data = np.array([[0,0],[0,1],[1,0],[1,1]]).T
labels = np.array([[0,1,1,0]])

def sigmoid(z,deriv = False):
    sig =  1/(1+np.exp(-z))
    if deriv == True:
        return np.multiply(sig,1-sig)
    return sig
w1 = np.random.randn(2,2)*0.01
b1 = np.zeros((2,1))

w2 = np.random.randn(1,2)*0.01
b2 = np.zeros((1,1))

iterations = 1000
lr = 0.1

for i in range(1000):

    z1 = np.dot(w1,train_data) + b1
    a1 = sigmoid(z1)

    z2 = np.dot(w2,a1) + b2
    al = sigmoid(z2) #forward_prop

    cost = np.dot(labels,np.log(al).T) + np.dot(1-labels,np.log(1-al).T)
    cost = cost*(-1/4) 
    cost = np.squeeze(cost)#calcost

    dal = (-1/4) * (np.divide(labels,al) + np.divide(1-labels,1-al))
    dz2 = np.multiply(dal,sigmoid(z2,deriv = True)) 
    dw2 = np.dot(dz2,a1.T)
    db2 = np.sum(dz2,axis=1,keepdims = True)

    da1 = np.dot(w2.T,dz2)
    dz1 = np.multiply(da1,sigmoid(z1,deriv = True))
    dw1 = np.dot(dz1,train_data.T)
    db1 = np.sum(dz1,axis=1,keepdims = True) #backprop

    w1 = w1 - lr*dw1
    w2 = w2 - lr*dw2
    b1 = b1 - lr*db1
    b2 = b2 - lr*db2 #update params

    print(cost,'------',str(i))

最佳答案

主要错误在于交叉熵反向传播(推荐 these notes 进行检查)。正确的公式如下:

dal = -labels / al + (1 - labels) / (1 - al)

我还稍微简化了代码。这是一个完整的工作版本:

import numpy as np

train_data = np.array([[0,0], [0,1], [1,0], [1,1]]).T
labels = np.array([0, 1, 1, 1])

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

w1 = np.random.randn(2,2) * 0.001
b1 = np.zeros((2,1))

w2 = np.random.randn(1,2) * 0.001
b2 = np.zeros((1,1))

lr = 0.1
for i in range(1000):
    z1 = np.dot(w1, train_data) + b1
    a1 = sigmoid(z1)

    z2 = np.dot(w2, a1) + b2
    a2 = sigmoid(z2)

    cost = -np.mean(labels * np.log(a2) + (1 - labels) * np.log(1 - a2))

    da2 = (a2 - labels) / (a2 * (1 - a2))           # version #1
    # da2 = -labels / a2 + (1 - labels) / (1 - a2)  # version #2

    dz2 = np.multiply(da2, a2 * (1 - a2))
    dw2 = np.dot(dz2, a1.T)
    db2 = np.sum(dz2, axis=1, keepdims=True)

    da1 = np.dot(w2.T, dz2)
    dz1 = np.multiply(da1, a1 * (1 - a1))
    dw1 = np.dot(dz1, train_data.T)
    db1 = np.sum(dz1, axis=1, keepdims=True)

    w1 = w1 - lr*dw1
    w2 = w2 - lr*dw2
    b1 = b1 - lr*db1
    b2 = b2 - lr*db2

    print i, cost

关于python - 为什么我的神经网络成本不断增加？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46494984/

25

4

0

文章推荐： python - jupyter notebook 中的 Gremlin-python

文章推荐： javascript - 如何绘制具有不透明度的 Canvas 拖尾线

文章推荐： javascript - 单击时使元素成为其父列表的第一个子元素

php - 如何根据用户在表单中选择的日期范围输出值(成本)
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
声明引用的 C++ 成本？
声明引用会导致运行时成本吗？ Typename a; auto& b=a; func(b); 在循环内声明引用会导致多倍的运行时成本吗？ Typename a=Typename();//defa
python - 优化最佳增益与容量/成本
给定一组代表(成本， yield )的样本数据 items = [ (1000, 300), (500, 150), (400, 120), (300, 100), (200, 50), (55, 2
algorithm - 外部合并排序的时间复杂度/成本
我从 link 得到这个其中谈到了外部归并排序。来自幻灯片 6 示例:使用 5 个缓冲页，对 108 页文件进行排序第 0 次:[108/5] = 22 次排序运行，每次运行 5 页(最后一次运行
javascript - 本地存储的速度/成本
使用 Javascript 在 localStorage 中查找值的速度有多快？有没有人有指向任何性能测试的链接，这些测试表明是否值得在 JavaScript 对象中缓存数据？或者浏览器是否已经缓存
excel - 从续订日期计算 future 成本
我正在尝试创建一个电子表格，以跟踪具有已知保质期的元素的当前和 future 成本。这包括产品是什么、产品成本、产品生命周期(以月为单位)和最后购买日期。我已经尝试了几种方法来摆弄 Excel 公式
traminer - 不等长序列的可变 indel 成本
我正在使用最佳匹配算法在 TraMineR 中进行序列分析。不幸的是，我的由于右删失数据，序列长度不等 .我的序列的最小长度是 5，最大长度是 11。长度的变化对于我感兴趣的序列之间的差异没有意义。
cryptography - Bcrypt - 多少次迭代/成本？
我读过一些文章说你应该将成本设置为至少 16 (216)，但其他人说 8 左右就可以了。是否有任何官方标准应该将成本设置为多高？最佳答案您应该使用的成本取决于您的硬件(和实现)的速度。一般来说
performance - L1缓存命中的周期/成本与在x86上注册的周期/成本？
我记得在我的架构类中假设L1缓存命中为1个周期(即与寄存器访问时间相同)，但是在现代x86处理器上实际上是真的吗？ L1缓存命中需要几个周期？与注册访问权限相比如何？最佳答案这是一篇很棒的文章:
本地开发时的 Azure Functions 成本
我正在尝试确定来自托管我的 azure 函数的 azure 存储帐户的成本。我主要在本地进行开发，并使用 azure 存储模拟器并运行 func start cmd。我的问题是，此设置是否仍然会增加我
arrays - 哪种方式编写数组更好(CPU 成本)？
我有一个为工作编写的大型复杂 VBA 脚本。我正在清理它，并注意到我可以用比我所做的更动态的方式定义我的数组。最初我将数组定义为字符串，如下所示: Dim header_arr(6) As Stri
firebase - firestore snapshotlistener 成本
任何人都可以为我指定以下情况下的费用: 当使用快照监听器的查询监听集合并且集合中的一个文档将被添加或更新时，我是否需要为已更新的文档或查询中的所有文档付费？示例:我在用户集合上有一个快照监听器，其中
debugging - 为什么逻辑回归中较高的学习率会产生 NaN 成本？
摘要我正在使用 Octave 和 Ling-Spam 语料库构建垃圾邮件与普通邮件的分类器；我的分类方法是逻辑回归。较高的学习率会导致计算成本为 NaN 值，但它不会破坏/降低分类器本身的性能。
锁定与性能的 Python 成本(多线程有意义吗？)
我正在从事一个项目，其中我的代码的吞吐量非常重要，经过一番考虑后我选择让我的程序线程化。主线程和子线程都在两个共享字典中添加和删除。考虑到在 python 中锁定的性能，我一直在通过互联网查看一些输
c - 写入框架数据而无需额外的 write() 成本
所以我在 TCP 套接字上发送数据，以数据大小为前缀，如下所示: write(socket, &length, sizeof(length)); write(socket, data, length)
Azure 媒体服务许可证 key 成本/数量
我正在评估 Azure 媒体服务作为我们正在构建的解决方案的托管平台。我已成功使用 DRM 设置动态加密并使用 Azure AD 设置内容保护。我还检查了定价，我知道您必须为编码作业(一次性)、流媒体
java - AWS S3 doObjectExist 成本
AWS S3 Java SDK 提供了一种方法 doesObjectExist()检查 S3 中是否存在对象。它内部使用什么操作？是吗GET , LIST , 或 HEAD ? 我的担忧主要与它的成本
glsl - webgl 着色器调试/性能/成本
我一直在使用 three.js 来试验和学习 GLSL 和 WebGL。我来自 3d 艺术世界，所以我了解网格、3d 数学、照明等的概念。虽然我确实查阅了 OpenGL 和 WebGL 文献(以及 g
web-services - 向最终用户计量和计费 azure 成本
我正在 Azure 中设计一个 Web 服务。是否可以计量每个最终用户的实际 Azure 平台使用成本？ Azure 是否向最终用户提供计费服务？最佳答案如今的 Windows Azure 计费模
mysql - AWS Aurora IOPS 成本
我目前在 MySql 中有一个表，如果我运行此查询，则有 730 万行，大小为 1.5GB: How to get the sizes of the tables of a mysql databas

首页

博学

6Ren·AI

商城

python - 为什么我的神经网络成本不断增加？