python - 我的神经网络用一条直线逼近 X^2-6ren

python - 我的神经网络用一条直线逼近 X^2

转载作者：行者123 更新时间：2023-12-04 10:15:36

我目前正在尝试从头开始实现我自己的神经网络，以测试我对该方法的理解。我认为事情进展顺利，因为我的网络成功地逼近 AND 和 XOR 函数而没有出现问题，但结果证明它在学习逼近一个简单的平方函数时遇到了问题。

我尝试使用各种不同的网络配置，包括 1 到 3 层和 1-64 个节点。我将学习率从 0.1 改为 0.00000001，并实现了权重衰减，因为我认为一些正则化可能会提供一些关于问题所在的见解。我还实现了梯度检查，这给了我相互矛盾的答案，因为它因尝试而异，从可怕的 0.6 差异到梦幻般的 1e-10。我正在使用泄漏 ReLU 激活函数，并将 MSE 作为我的成本函数。

有人可以帮我找出我缺少的东西吗？或者这纯粹是为了优化超参数？

我的代码如下:

import matplotlib.pyplot as plt
import numpy as np
import Sub_Script as ss

# Create sample data set using X**2

X = np.expand_dims(np.linspace(0, 1, 201), axis=0)
y = X**2

plt.plot(X.T, y.T)


# Hyper-parameters

layer_dims = [1, 64, 1]
learning_rate = 0.000001
iterations = 50000
decay = 0.00000001
num_ex = y.shape[1]


# Initializations

num_layers = len(layer_dims)
weights = [None] + [np.random.randn(layer_dims[l], layer_dims[l-1])*np.sqrt(2/layer_dims[l-1])for l in range(1, num_layers)]
biases = [None] + [np.zeros((layer_dims[l], 1)) for l in range(1, num_layers)]

dweights, dbiases, dw_approx, db_approx = ss.grad_check(weights, biases, num_layers, X, y, decay, num_ex)

# Main function: Iteration loop

for iter in range(iterations):
# Main function: Forward Propagation
z_values, acts = ss.forward_propagation(weights, biases, num_layers, X)
dweights, dbiases = ss.backward_propagation(weights, biases, num_layers, z_values, acts, y)
weights, biases = ss.update_paras(weights, biases, dweights, dbiases, learning_rate, decay, num_ex)

if iter % (1000+1) == 0:
    print('Cost: ', ss.mse(acts[-1], y, weights, decay, num_ex))


# Gradient Checking

dweights, dbiases, dw_approx, db_approx = ss.grad_check(weights, biases, num_layers, X, y, decay, num_ex)


# Visualization

plt.plot(X.T, acts[-1].T)

使用包含神经网络函数的 Sub_Script.py:

import numpy as np
import copy as cp

# Construct sub functions, forward, backward propagation and cost and activation functions
# Leaky ReLU Activation Function

def relu(x):
    return (x > 0) * x + (x < 0) * 0.01*x


# Leaky ReLU activation Function Gradient

def relu_grad(x):
    return (x > 0) + (x < 0) * 0.01


# MSE Cost Function

def mse(prediction, actual, weights, decay, num_ex):
    return np.sum((actual - prediction) ** 2)/(actual.shape[1]) + (decay/(2*num_ex))*np.sum([np.sum(w) for w in weights[1:]])


# MSE Cost Function Gradient

 def mse_grad(prediction, actual):
    return -2 * (actual - prediction)/(actual.shape[1])


# Forward Propagation

def forward_propagation(weights, biases, num_layers, act):
    acts = [[None] for i in range(num_layers)]
    z_values = [[None] for i in range(num_layers)]
    acts[0] = act

    for layer in range(1, num_layers):
        z_values[layer] = np.dot(weights[layer], acts[layer-1]) + biases[layer]
        acts[layer] = relu(z_values[layer])
    return z_values, acts


# Backward Propagation

def backward_propagation(weights, biases, num_layers, z_values, acts, y):
    dweights = [[None] for i in range(num_layers)]
    dbiases = [[None] for i in range(num_layers)]
    zgrad = mse_grad(acts[-1], y) * relu_grad(z_values[-1])
    dweights[-1] = np.dot(zgrad, acts[-2].T)
    dbiases[-1] = np.sum(zgrad, axis=1, keepdims=True)

    for layer in range(num_layers-2, 0, -1):
        zgrad = np.dot(weights[layer+1].T, zgrad) * relu_grad(z_values[layer])
        dweights[layer] = np.dot(zgrad, acts[layer-1].T)
        dbiases[layer] = np.sum(zgrad, axis=1, keepdims=True)

    return dweights, dbiases


# Update Parameters with Regularization

def update_paras(weights, biases, dweights, dbiases, learning_rate, decay, num_ex):
    weights = [None] + [w - learning_rate*(dw + (decay/num_ex)*w) for w, dw in zip(weights[1:], dweights[1:])]
    biases = [None] + [b - learning_rate*db for b, db in zip(biases[1:], dbiases[1:])]

    return weights, biases


# Gradient Checking

def grad_check(weights, biases, num_layers, X, y, decay, num_ex):
    z_values, acts = forward_propagation(weights, biases, num_layers, X)
    dweights, dbiases = backward_propagation(weights, biases, num_layers, z_values, acts, y)
epsilon = 1e-7
    dw_approx = cp.deepcopy(weights)
    db_approx = cp.deepcopy(biases)
    for layer in range(1, num_layers):
        height = weights[layer].shape[0]
        width = weights[layer].shape[1]
        for i in range(height):
            for j in range(width):
                w_plus = cp.deepcopy(weights)
                w_plus[layer][i, j] += epsilon
                w_minus = cp.deepcopy(weights)
                w_minus[layer][i, j] -= epsilon
                _, temp_plus = forward_propagation(w_plus, biases, num_layers, X)
                cost_plus = mse(temp_plus[-1], y, w_plus, decay, num_ex)
                _, temp_minus = forward_propagation(w_minus, biases, num_layers, X)
                cost_minus = mse(temp_minus[-1], y, w_minus, decay, num_ex)
                dw_approx[layer][i, j] = (cost_plus - cost_minus)/(2*epsilon)
            b_plus = cp.deepcopy(biases)
            b_plus[layer][i, 0] += epsilon
            b_minus = cp.deepcopy(biases)
            b_minus[layer][i, 0] -= epsilon
            _, temp_plus = forward_propagation(weights, b_plus, num_layers, X)
            cost_plus = mse(temp_plus[-1], y, weights, decay, num_ex)
            _, temp_minus = forward_propagation(weights, b_minus, num_layers, X)
            cost_minus = mse(temp_minus[-1], y, weights,  decay, num_ex)
            db_approx[layer][i, 0] = (cost_plus - cost_minus)/(2*epsilon)
    dweights_flat = [dw.flatten() for dw in dweights[1:]]
    dweights_flat = np.concatenate(dweights_flat, axis=None)
    dw_approx_flat = [dw.flatten() for dw in dw_approx[1:]]
    dw_approx_flat = np.concatenate(dw_approx_flat, axis=None)
    dbiases_flat = [db.flatten() for db in dbiases[1:]]
    dbiases_flat = np.concatenate(dbiases_flat, axis=None)
    db_approx_flat = [db.flatten() for db in db_approx[1:]]
    db_approx_flat = np.concatenate(db_approx_flat, axis=None)
    d_paras = np.concatenate([dweights_flat, dbiases_flat], axis=None)
    d_approx_paras = np.concatenate([dw_approx_flat, db_approx_flat], axis=None)
    difference = np.linalg.norm(d_paras - d_approx_paras)/(np.linalg.norm(d_paras) + 
np.linalg.norm(d_approx_paras))

    if difference > 2e-7:
        print(
        "\033[93m" + "There is a mistake in the backward propagation! difference = " + str(difference) + "\033[0m")
else:
    print(
        "\033[92m" + "Your backward propagation works perfectly fine! difference = " + str(difference) + "\033[0m")

return dweights, dbiases, dw_approx, db_approx

编辑:对我在代码中的一些旧评论进行了一些更正，以避免混淆

编辑 2:感谢@sid_508 帮助我找到代码的主要问题!我还想在此编辑中提及，我发现我实现权重衰减的方式存在一些错误。在进行建议的更改并暂时完全移除权重衰减元素后，神经网络似乎可以正常工作了!

最佳答案

我运行了你的代码，这是它给出的输出:

问题是你在最后一层也使用了 ReLU，所以你不能得到最好的拟合，在最后一层不使用激活，它应该产生更好的结果。

最后一层激活通常总是与您用于隐藏层的不同，这取决于您要使用的输出类型。对于连续输出，使用线性激活(基本上没有激活)，分类使用 sigmoid/softmax。

关于python - 我的神经网络用一条直线逼近 X^2，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61077051/

文章推荐： java - 具有自定义注释的字段的 Gson 自定义序列化

文章推荐：中间重新整形

文章推荐： r - 在 ggplot boxplot 中的填充组内显示单独的均值

文章推荐： r - 如何从二进制表/矩阵创建表达式输入样式格式？

android - java.lang.ClassNotFoundException : android. 网络.网络
这与 Payubiz payment gateway sdk 关系不大一体化。但是，主要问题与构建项目有关。每当我们尝试在模拟器上运行应用程序时。我们得到以下失败: What went wrong:
Docker 链接容器、Docker 网络、Compose 网络 - 我们现在应该如何 'link' 容器
我有一个现有的应用程序，其中包含在同一主机上运行的 4 个 docker 容器。它们已使用 link 命令链接在一起。然而，在 docker 升级后，link 行为已被弃用，并且似乎有所改变。我们现
网络:传输层和网络层之间的区别
在 Internet 模型中有四层:链路 -> 网络 -> 传输 -> 应用程序。我真的不知道网络层和传输层之间的区别。当我读到: Transport layer: include congesti
python ，网络
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
初始 http【网络】
前言：生活中，我们在上网时，打开一个网页，就可以看到网址，如下： https😕/xhuahua.blog.csdn.net/ 访问网站使用的协议类型：https(基于 http 实现的，只不过在
171、HBase性能调整：网络
网络避免网络问题降低Hadoop和HBase性能的最重要因素可能是所使用的交换硬件，在项目范围的早期做出的决策可能会导致群集大小增加一倍或三倍（或更多）时出现重大问题。需要考虑的重要事项：
189、故障排除和调试HBase：网络
网络网络峰值如果您看到定期的网络峰值，您可能需要检查compactionQueues以查看主要压缩是否正在发生。有关管理压缩的更多信息，请参阅管理压缩部分的内容。 Loopback IP
NoFlo - 如何启动图形/网络
Pure Data 有一个 loadbang 组件，它按照它说的做:当图形开始运行时发送一个 bang。 NoFlo 的 core/Kick 在其 IN 输入被击中之前不会发送其数据，并且您无法在 n
kubernetes - Minikube 网络
我有一台 Linux 构建机器，我也安装了 minikube。在 minikube 实例中，我安装了 artifactory，我将使用它来存储各种构建工件我现在希望能够在我的开发机器上做一些工作(这
http - 我需要多少种视频格式？ - 网络
我想知道每个视频需要多少种不同的格式才能支持所有主要设备？在我考虑的主要设备中:安卓手机 + iPhone + iPad . 对具有不同比特率的视频进行编码也是一种好习惯吗？那里有太多相互矛盾的信
Flutter 网络 flavor
我有一个使用 firebase 的 Flutter Web 应用程序，我有两个 firebase 项目(dev 和 prod)。我想为这个项目设置 Flavors(只是网络没有移动)。在移动端，我
passwords - 传输前对密码进行哈希处理？ (网络)
我正在读这篇文章Ars article关于密码安全，它提到有一些网站“在传输之前对密码进行哈希处理”？现在，假设这不使用 SSL 连接 (HTTPS)，a.这真的安全吗？ b．如果是的话，你会如何在
networking - docker 网络
我试图了解以下之间的关系: eth0在主机上；和 docker0桥;和 eth0每个容器上的接口(interface) 据我了解，Docker: 创建一个 docker0桥接，然后为其分配一个与主机上
java - 不可序列化对象 - 网络
我需要编写一个java程序，通过网络将对象发送到客户端程序。问题是一些需要发送的对象是不可序列化的。如何最好地解决这个问题？最佳答案发送在客户端重建对象所需的数据。关于java - 不可序列化对
Java 网络，不仅仅是简单的聊天室
所以我最近关注了this有关用 Java 制作基本聊天室的教程。它使用多线程，是一个“面向连接”的服务器。我想知道如何使用相同的 Sockets 和 ServerSockets 来发送对象的 3d 位
java图像接收(网络)服务器
我想制作一个系统，其中java客户端程序将图像发送到中央服务器。中央服务器保存它们并运行使用这些图像的网站。我应该如何发送图像以及如何接收它们？我可以使用同一个网络服务器来接收和显示网站吗？最佳答
email - 网络::SMTPAuthenticationError
我正在尝试设置我的 rails 4 应用程序，以便它发送电子邮件。有谁知道我为什么会得到: Net::SMTPAuthenticationError 534-5.7.9 Application-spe
Java 网络 - 连接两台计算机
我正在尝试编写一个简单的客户端-服务器程序，它将客户端计算机连接到服务器计算机。到目前为止，我的代码在本地主机上运行良好，但是当我将客户端代码中的 IP 地址替换为服务器计算机的本地 IP 地址时，
Java 网络 - 在同一线程中的不同端口上并行启动多个服务器套接字
我需要在服务器上并行启动多个端口，并且所有服务器套接字都应在 socket.accept() 上阻塞。同一个线程需要启动客户端套接字(许多)来连接到特定的 ServerSocket。这能实现吗？
java - 网络/数据库作业的足够线程数
我的工作执行了大约 10000 次以下任务: 1) HTTP 请求(1 秒) 2)数据转换(0.3秒) 3)数据库插入(0.7秒) 每次迭代的总时间约为 2 秒，分布如上所述。我想做多任务处理，但我

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 我的神经网络用一条直线逼近 X^2