python - Pytorch Siamese 网络不收敛-6ren

python - Pytorch Siamese 网络不收敛

转载作者：行者123 更新时间：2023-12-04 13:36:16

大家，早安
下面是我对 pytorch siamese 网络的实现。我使用 32 批量大小、MSE 损失和 SGD 以 0.9 动量作为优化器。

class SiameseCNN(nn.Module):
    def __init__(self):
        super(SiameseCNN, self).__init__()                                      # 1, 40, 50
        self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(),             # 8, 34, 44
                                    nn.Conv2d(8, 16, 5), nn.ReLU(),             # 16, 30, 40
                                    nn.MaxPool2d(2, 2),                         # 16, 15, 20
                                    nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
                                    nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
        self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
        self.linear2 = nn.Sequential(nn.Linear(100, 2), nn.ReLU())
        
    def forward(self, data):
        res = []
        for j in range(2):
            x = self.convnet(data[:, j, :, :])
            x = x.view(-1, 64 * 15 * 20)
            res.append(self.linear1(x))
        fres = abs(res[1] - res[0])
        return self.linear2(fres)

每个批次包含交替对，即 [pos, pos], [pos, neg], [pos, pos]等等...然而，网络不收敛，问题似乎是 fres在网络中每一对都是一样的(不管是正对还是负对)， self.linear2(fres)的输出总是约等于 [0.0531, 0.0770] .这与我所期望的相反，即 [0.0531, 0.0770] 的第一个值随着网络的学习，正对将接近 1，而负对的第二个值将接近 1。这两个值也需要相加为 1。
我已经为 2 channel 网络架构测试了完全相同的设置和相同的输入图像，其中，而不是输入 [pos, pos]您将以深度方式堆叠这两个图像，例如 numpy.stack([pos, pos], -1) . nn.Conv2d(1, 8, 7)尺寸也更改为 nn.Conv2d(2, 8, 7)在这个设置中。这工作得很好。
我还为传统的 CNN 方法测试了完全相同的设置和输入图像，我只是将单个正负灰度图像传递到网络中，而不是将它们堆叠(与 2-CH 方法一样)或将它们传入作为图像对(与 Siamese 方法一样)。这也很完美，但结果不如 2 channel 方法好。
编辑(我尝试过的解决方案):

我尝试了许多不同的损失函数，包括 HingeEmbeddingLoss 和 CrossEntropyLoss，都或多或少地导致了相同的问题。所以我认为可以肯定地说问题不是由使用的损失函数引起的；损失。

不同的批量大小似乎也对这个问题没有影响。

我尝试按照建议增加可训练参数的数量
Keras Model for Siamese Network not Learning and always predicting the same ouput
也不起作用。

尝试更改此处实现的网络架构:https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb .换句话说，将前向传递更改为以下代码。还将损失更改为 CrossEntropy，将优化器更改为 Adam。仍然没有运气:

def forward(self, data):
    res = []
    for j in range(2):
        x = self.convnet(data[:, j, :, :])
        x = x.view(-1, 64 * 15 * 20)
        res.append(x)
    fres = self.linear2(self.linear1(abs(res[1] - res[0]))))
    return fres

我还尝试将整个网络从 CNN 更改为线性网络，如下所示:https://github.com/benmyara/pytorch-examples/blob/master/notebooks/1_NeuralNetworks/9_siamese_nn.ipynb .还是不行。

尝试按照此处的建议使用更多数据:Keras Model for Siamese Network not Learning and always predicting the same ouput .没运气...

尝试使用 torch.nn.PairwiseDistance convnet 的输出之间.进行了某种改进；网络在前几个时期开始收敛，然后每次都达到相同的平台:

def forward(self, data):
    res = []
    for j in range(2):
        x = self.convnet(data[:, j, :, :])
        res.append(x)
    pdist = nn.PairwiseDistance(p=2)
    diff = pdist(res[1], res[0])
    diff = diff.view(-1, 64 * 15 * 10)
    fres = self.linear2(self.linear1(diff))
    return fres

另一件可能要注意的事情是，在我的研究范围内，为每个对象训练了一个 Siamese 网络。因此，第一类与包含相关对象的图像相关联，第二类与包含其他对象的图像相关联。不知道这是否可能是问题的原因。然而，在传统 CNN 和 2 channel CNN 方法的背景下，这不是问题。
根据要求，这是我的培训代码:

model = SiameseCNN().cuda()
ls_fn = torch.nn.BCELoss()
optim = torch.optim.SGD(model.parameters(),  lr=1e-6, momentum=0.9)
epochs = np.arange(100)
eloss = []
for epoch in epochs:
    model.train()
    train_loss = []
    for x_batch, y_batch in dp.train_set:
        x_var, y_var = Variable(x_batch.cuda()), Variable(y_batch.cuda())
        y_pred = model(x_var)
        loss = ls_fn(y_pred, y_var)
        train_loss.append(abs(loss.item()))
        optim.zero_grad()
        loss.backward()
        optim.step()
    eloss.append(np.mean(train_loss))
    print(epoch, np.mean(train_loss))

备注 dp在 dp.train_set是一个具有属性的类 train_set, valid_set, test_set ，其中每个集合的创建方式如下:

DataLoader(TensorDataset(torch.Tensor(x), torch.Tensor(y)), batch_size=bs)

根据请求，这是预测概率与真实标签的示例，您可以看到模型似乎没有在学习:

Predicted:  0.5030623078346252 Label:  1.0
Predicted:  0.5030624270439148 Label:  0.0
Predicted:  0.5030624270439148 Label:  1.0
Predicted:  0.5030625462532043 Label:  0.0
Predicted:  0.5030625462532043 Label:  1.0
Predicted:  0.5030626654624939 Label:  0.0
Predicted:  0.5030626058578491 Label:  1.0
Predicted:  0.5030627250671387 Label:  0.0
Predicted:  0.5030626654624939 Label:  1.0
Predicted:  0.5030627846717834 Label:  0.0
Predicted:  0.5030627250671387 Label:  1.0
Predicted:  0.5030627846717834 Label:  0.0
Predicted:  0.5030627250671387 Label:  1.0
Predicted:  0.5030628442764282 Label:  0.0
Predicted:  0.5030627846717834 Label:  1.0
Predicted:  0.5030628442764282 Label:  0.0

最佳答案

我认为你的方法是正确的，你做得很好。对我来说有点奇怪的是最后一层有 RELU 激活。通常对于连体网络，当两个输入图像属于同一类时，您希望输出高概率，否则输出低概率。因此，您可以使用单个神经元输出和 sigmoid 激活函数来实现这一点。
因此，我将重新实现您的网络如下:

class SiameseCNN(nn.Module):
    def __init__(self):
        super(SiameseCNN, self).__init__()                                      # 1, 40, 50
        self.convnet = nn.Sequential(nn.Conv2d(1, 8, 7), nn.ReLU(),             # 8, 34, 44
                                    nn.Conv2d(8, 16, 5), nn.ReLU(),             # 16, 30, 40
                                    nn.MaxPool2d(2, 2),                         # 16, 15, 20
                                    nn.Conv2d(16, 32, 3, padding=1), nn.ReLU(), # 32, 15, 20
                                    nn.Conv2d(32, 64, 3, padding=1), nn.ReLU()) # 64, 15, 20
        self.linear1 = nn.Sequential(nn.Linear(64 * 15 * 20, 100), nn.ReLU())
        self.linear2 = nn.Sequential(nn.Linear(100, 1), nn.Sigmoid())
        
    def forward(self, data):
        for j in range(2):
            x = self.convnet(data[:, j, :, :])
            x = x.view(-1, 64 * 15 * 20)
            res.append(self.linear1(x))
        fres = res[0].sub(res[1]).pow(2)
        return self.linear2(fres)

然后为了与训练保持一致，您应该使用二元交叉熵:

criterion_fn = torch.nn.BCELoss()

当两个输入图像属于同一类时，请记住将标签设置为 1。
另外，我建议你在 linear1 之后使用一点 dropout，大约有 30% 的概率丢弃一个神经元。层。

关于python - Pytorch Siamese 网络不收敛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61793268/

文章推荐： oauth-2.0 - 支持 "Personal Access Tokens"或 "API keys"

文章推荐： amazon-web-services - AWS Amplify build设置

文章推荐： R中的排名偏好匹配

java - 遗传算法 - 收敛
我有几个关于我的遗传算法和整体 GA 的问题。我创建了一个 GA，当给定一条曲线时，它会尝试找出产生这条曲线的函数。例子如下积分 {{-2, 4},{-1, 1},{0, 0},{1, 1},{2
genetic-algorithm - 如何让我的 GA 收敛？
我正在尝试编写一个 GA 来解决以下难题... 二进制编码(我认为)非常有效。每件作品可以是: 原始向上或翻转的方式 - 1 位旋转 0(即无)、90、180 或 270 度 - 2 位在位置 (
algorithm - 如何检查 Page Rank 收敛？
我正在编写一个小代码(顺序)来计算适度数据集的网页排名(尽管并非完全微不足道)。算法是这样的: while ( not converged ) { // Do a bunch of thing
python - 使用 Tensorflow 收敛 LSTM 网络
我正在尝试检测长时间序列中的微事件。为此，我将训练一个 LSTM 网络。数据。每个时间样本的输入是 11 个不同的特征，经过一定程度的标准化以适合 0-1。输出将是两个类之一。批处理。由于巨大类别
r - 在 R 中使用 optim 与 GARCH 收敛
我试图通过使用 optim 函数在 R 中找到最佳 GARCH 模型的参数。但是，我的值(value)观会变得很高，这是没有意义的。我在 MATLAB 中使用 fminsearch 实现了类似的算法，
r - glmnet 未从 cv.glmnet 收敛 lambda.min
我运行了 20 倍 cv.glmnet 套索模型以获得 lambda 的“最佳”值。但是，当我尝试重现 glmnet() 的结果时，我收到一条错误消息: Warning messages: 1: fr
modelica - 使用 "Save start values in the model"选项帮助 Dymola 收敛
我在 dymola 中构建了一个模型。虽然在初始化过程中出现了一些错误，但最终还是计算成功了。模型收敛成功后，我尝试使用“在模型中保存起始值”选项将正确的迭代变量 strat 值存储到模型中，以便模
python - pymc3 中具有(大)时间^2 项的分层模型中的 MCMC 收敛
我有一个分层 Logit，可以随着时间的推移进行观察。正在关注Carter 2010 ，我添加了时间、时间^2 和时间^3 术语。在添加时间变量之前，模型会使用 Metropolis 或 NUTS 进
c++ - 在 S 型神经网络 C++ 中使用反向传播，异或总是向 0.5 收敛
再次感谢您花时间阅读这篇文章。我知道这个问题已经被问了很多，而且我已经检查了很多关于这个问题的帖子:然而，我对使用反向传播的成功 XOR 学习的探索仍未完成。我按照建议尝试调整学习率、动量、有/无

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - Pytorch Siamese 网络不收敛