deep-learning - PyTorch 中的双层神经网络不收敛

转载作者：行者123 更新时间：2023-12-04 03:44:31

25

4

问题

我正在尝试使用不同的方法(TensorFlow、PyTorch 和从头开始)实现 2 层神经网络，然后根据 MNIST 数据集比较它们的性能。

我不确定我犯了什么错误，但 PyTorch 中的准确率只有 10% 左右，基本上是随机猜测。我认为可能权重根本没有更新。

请注意，我特意使用了 TensorFlow 提供的数据集，以使我通过 3 种不同方法使用的数据保持一致，以便准确比较。

from tensorflow.examples.tutorials.mnist import input_data
import torch

class Net(torch.nn.Module):
    def __init__(self):
      super(Net, self).__init__()
      self.fc1 =  torch.nn.Linear(784, 100)
      self.fc2 =  torch.nn.Linear(100, 10)

    def forward(self, x):
      # x -> (batch_size, 784)
      x = torch.relu(x)
      # x -> (batch_size, 10)
      x = torch.softmax(x, dim=1)
      return x

net = Net()
net.zero_grad()
Loss = torch.nn.CrossEntropyLoss()
optimizer =  torch.optim.SGD(net.parameters(), lr=0.01)

for epoch in range(1000):  # loop over the dataset multiple times

    batch_xs, batch_ys = mnist_m.train.next_batch(100)
    # convert to appropriate settins
    # note the input to the linear layer should be (n_sample, n_features)
    batch_xs = torch.tensor(batch_xs, requires_grad=True)
    # batch_ys -> (batch_size,)
    batch_ys = torch.tensor(batch_ys, dtype=torch.int64)

    # forward
    # output -> (batch_size, 10)
    output = net(batch_xs)
    # result -> (batch_size,)
    result = torch.argmax(output, dim=1)
    loss = Loss(output, batch_ys)

    # backward
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

最佳答案

这里的问题是您没有应用完全连接的层 fc1 和 fc2。

您的 forward() 目前看起来像:

def forward(self, x):
    # x -> (batch_size, 784)
    x = torch.relu(x)
    # x -> (batch_size, 10)
    x = torch.softmax(x, dim=1)
    return x

所以如果你把它改成:

def forward(self, x):
    # x -> (batch_size, 784)
    x = self.fc1(x)             # added layer fc1
    x = torch.relu(x)  

    # x -> (batch_size, 10)
    x = self.fc2(x)             # added layer fc2
    x = torch.softmax(x, dim=1)
    return x

它应该可以工作。

关于 Umang Guptas 的回答:在我看来，像 Mr.Robot 那样，在调用 backward() 之前先调用 zero_grad() 就可以了。这应该不是问题。

编辑:

所以我做了一个简短的测试 - 我将迭代设置为从 1000 到 10000 以查看它是否真的在减少。 (当然，我也将数据加载到 mnist_m，因为您发布的代码中未包含此数据)

我在代码中添加了一个打印条件:

if epoch % 1000 == 0:
    print('Epoch', epoch, '- Loss:', round(loss.item(), 3))

每 1000 次迭代打印出损失:

Epoch 0 - Loss: 2.305
Epoch 1000 - Loss: 2.263
Epoch 2000 - Loss: 2.187
Epoch 3000 - Loss: 2.024
Epoch 4000 - Loss: 1.819
Epoch 5000 - Loss: 1.699
Epoch 6000 - Loss: 1.699
Epoch 7000 - Loss: 1.656
Epoch 8000 - Loss: 1.675
Epoch 9000 - Loss: 1.659

使用 PyTorch 版本 0.4.1 测试

所以你可以看到，随着 forward() 的改变，网络现在正在学习，其余的代码我没有动过。

祝你好运!

关于deep-learning - PyTorch 中的双层神经网络不收敛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53235440/

25

4

0

文章推荐： ruby-on-rails - capybara Poltergeist IOError : closed stream

文章推荐： wix - 将命令行参数从 WiX 包传递给 MSI

文章推荐： Django:模拟上次修改日期和修改次数

java - 遗传算法 - 收敛
我有几个关于我的遗传算法和整体 GA 的问题。我创建了一个 GA，当给定一条曲线时，它会尝试找出产生这条曲线的函数。例子如下积分 {{-2, 4},{-1, 1},{0, 0},{1, 1},{2
genetic-algorithm - 如何让我的 GA 收敛？
我正在尝试编写一个 GA 来解决以下难题... 二进制编码(我认为)非常有效。每件作品可以是: 原始向上或翻转的方式 - 1 位旋转 0(即无)、90、180 或 270 度 - 2 位在位置 (
algorithm - 如何检查 Page Rank 收敛？
我正在编写一个小代码(顺序)来计算适度数据集的网页排名(尽管并非完全微不足道)。算法是这样的: while ( not converged ) { // Do a bunch of thing
python - 使用 Tensorflow 收敛 LSTM 网络
我正在尝试检测长时间序列中的微事件。为此，我将训练一个 LSTM 网络。数据。每个时间样本的输入是 11 个不同的特征，经过一定程度的标准化以适合 0-1。输出将是两个类之一。批处理。由于巨大类别
r - 在 R 中使用 optim 与 GARCH 收敛
我试图通过使用 optim 函数在 R 中找到最佳 GARCH 模型的参数。但是，我的值(value)观会变得很高，这是没有意义的。我在 MATLAB 中使用 fminsearch 实现了类似的算法，
r - glmnet 未从 cv.glmnet 收敛 lambda.min
我运行了 20 倍 cv.glmnet 套索模型以获得 lambda 的“最佳”值。但是，当我尝试重现 glmnet() 的结果时，我收到一条错误消息: Warning messages: 1: fr
modelica - 使用 "Save start values in the model"选项帮助 Dymola 收敛
我在 dymola 中构建了一个模型。虽然在初始化过程中出现了一些错误，但最终还是计算成功了。模型收敛成功后，我尝试使用“在模型中保存起始值”选项将正确的迭代变量 strat 值存储到模型中，以便模
python - pymc3 中具有(大)时间^2 项的分层模型中的 MCMC 收敛
我有一个分层 Logit，可以随着时间的推移进行观察。正在关注Carter 2010 ，我添加了时间、时间^2 和时间^3 术语。在添加时间变量之前，模型会使用 Metropolis 或 NUTS 进
c++ - 在 S 型神经网络 C++ 中使用反向传播，异或总是向 0.5 收敛
再次感谢您花时间阅读这篇文章。我知道这个问题已经被问了很多，而且我已经检查了很多关于这个问题的帖子:然而，我对使用反向传播的成功 XOR 学习的探索仍未完成。我按照建议尝试调整学习率、动量、有/无

首页

博学

6Ren·AI

商城

deep-learning - PyTorch 中的双层神经网络不收敛

问题