python - 如何在 PyTorch 中保存某个批号的训练进度？-6ren

python - 如何在 PyTorch 中保存某个批号的训练进度？

转载作者：行者123 更新时间：2023-12-05 01:10:55

我只是想使用 PyTorch 库训练一个 ResNet18 模型。训练数据集由 25,000 张图像组成。因此，即使是第一个 epoch 也需要很长时间才能完成。因此，我想在某个没有之后保存进度。批量迭代完成。但是我不知道如何修改我的代码以及如何在我的代码中使用 torch.save() 和 torch.load() 函数来保存周期性进度。

我的代码如下:


                # BUILD THE NETWORK
import torch
import torch.nn as nn
import torch.optim as optim
import torch.utils.data
import torch.nn.functional as F
import torchvision
import torchvision.models as models
from torchvision import transforms
from PIL import Image
import matplotlib.pyplot as plt

                # DOWNLOAD PRETRAINED MODELS ON ImageNet

model_resnet18 = torch.hub.load('pytorch/vision', 'resnet18', pretrained = True)
model_resnet34 = torch.hub.load('pytorch/vision', 'resnet34', pretrained = True)

for name, param in model_resnet18.named_parameters():
    if('bn' not in name):
        param.requires_grad = False

for name, param in model_resnet34.named_parameters():
    if('bn' not in name):
        param.requires_grad = False

num_classes = 2

model_resnet18.fc = nn.Sequential(nn.Linear(model_resnet18.fc.in_features, 512),
                                  nn.ReLU(),
                                  nn.Dropout(),
                                  nn.Linear(512, num_classes))

model_resnet34.fc = nn.Sequential(nn.Linear(model_resnet34.fc.in_features, 512),
                                  nn.ReLU(),
                                  nn.Dropout(),
                                  nn.Linear(512, num_classes))

                    # FUNCTIONS FOR TRAINING AND LOADING DATA

def train(model, optimizer, loss_fn, train_loader, val_loader, epochs = 5, device = "cuda"):
    print("Inside Train Function\n")
    for epoch in range(epochs):
        print("Epoch : {} running".format(epoch))
        training_loss = 0.0
        valid_loss = 0.0
        model.train()
        k = 0
        for batch in train_loader:
            optimizer.zero_grad()
            inputs, targets = batch
            inputs = inputs.to(device)
            output = model(inputs)
            loss = loss_fn(output, targets)
            loss.backward()
            optimizer.step()
            training_loss += loss.data.item() * inputs.size(0)
            print("End of batch loop iteration {} \n".format(k))
            k = k + 1
        training_loss /= len(train_loader.dataset)

        model.eval()
        num_correct = 0
        num_examples = 0
        for batch in val_loader:
            inputs, targets = batch
            inputs.to(device)
            output = model(inputs)
            targets = targets.to(device)
            loss = loss_fn(output, targets)
            valid_loss += loss.data.item() * inputs.size(0)

            correct = torch.eq(torch.max(F.softmax(output, dim = 1), dim = 1)[1], targets).view(-1)
            num_correct += torch.sum(correct).item()
            num_examples += correct.shape[0]
        valid_loss /= len(val_loader.dataset)

        print('Epoch: {}, Training Loss: {:.4f}, Validation Loss: {:.4f}, accuracy = {:.4f}'.format(epoch, training_loss, valid_loss, num_correct / num_examples))

batch_size = 32
img_dimensions = 224

img_transforms = transforms.Compose([ transforms.Resize((img_dimensions, img_dimensions)),
                                      transforms.ToTensor(),
                                      transforms.Normalize(mean = [0.485, 0.456, 0.406], std = [0.229, 0.224, 0.225])
])

img_test_transforms = transforms.Compose([ transforms.Resize((img_dimensions, img_dimensions)),
                                           transforms.ToTensor(),
                                           transforms.Normalize(mean = [0.485, 0.456, 0.406], std = [0.229, 0.224, 0.225])
])

def check_image(path):
    try:
        im = Image.open(path)
        return True
    except:
        return False

train_data_path = "E:\Image Recognition\dogsandcats\\train\\"
train_data = torchvision.datasets.ImageFolder(root=train_data_path,transform=img_transforms, is_valid_file=check_image)

validation_data_path = "E:\\Image Recognition\\dogsandcats\\validation\\"   
validation_data = torchvision.datasets.ImageFolder(root=validation_data_path,transform=img_test_transforms, is_valid_file=check_image)

test_data_path = "E:\\Image Recognition\\dogsandcats\\test\\"
test_data = torchvision.datasets.ImageFolder(root=test_data_path,transform=img_test_transforms, is_valid_file=check_image)

num_workers = 6
train_data_loader      = torch.utils.data.DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=num_workers)
validation_data_loader = torch.utils.data.DataLoader(validation_data, batch_size=batch_size, shuffle=False, num_workers=num_workers)
test_data_loader       = torch.utils.data.DataLoader(test_data, batch_size=batch_size, shuffle=False, num_workers=num_workers)

print(torch.cuda.is_available(), "\n")

if torch.cuda.is_available():
    device = torch.device("cuda") 
else:
    device = torch.device("cpu")

print(f'Num training images: {len(train_data_loader.dataset)}')
print(f'Num validation images: {len(validation_data_loader.dataset)}')
print(f'Num test images: {len(test_data_loader.dataset)}')

def test_model(model):
    print("Inside Test Model Function\n")
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_data_loader:
            images, labels = data[0].to(device), data[1].to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print('correct: {:d}  total: {:d}'.format(correct, total))
    print('accuracy = {:f}'.format(correct / total))

model_resnet18.to(device)
optimizer = optim.Adam(model_resnet18.parameters(), lr=0.001)
if __name__ == "__main__":
    train(model_resnet18, optimizer, torch.nn.CrossEntropyLoss(), train_data_loader, validation_data_loader, epochs=2, device=device)
    test_model(model_resnet18)

model_resnet34.to(device)
optimizer = optim.Adam(model_resnet34.parameters(), lr=0.001)
if __name__ == "__main__":
    train(model_resnet34, optimizer, torch.nn.CrossEntropyLoss(), train_data_loader, validation_data_loader, epochs=2, device=device)
    test_model(model_resnet34)

import os
def find_classes(dir):
    classes = os.listdir(dir)
    classes.sort()
    class_to_idx = {classes[i]: i for i in range(len(classes))}
    return classes, class_to_idx

def make_prediction(model, filename):
    labels, _ = find_classes('E:\\Image Recognition\\dogsandcats\\test\\test')
    img = Image.open(filename)
    img = img_test_transforms(img)
    img = img.unsqueeze(0)
    prediction = model(img.to(device))
    prediction = prediction.argmax()
    print(labels[prediction])
    
  
make_prediction(model_resnet34, 'E:\\Image Recognition\\dogsandcats\\test\\test\\3.jpg') #dog
make_prediction(model_resnet34, 'E:\\Image Recognition\\dogsandcats\\test\\test\\5.jpg') #cat


torch.save(model_resnet18.state_dict(), "./model_resnet18.pth")
torch.save(model_resnet34.state_dict(), "./model_resnet34.pth")


# Remember that you must call model.eval() to set dropout and batch normalization layers to
# evaluation mode before running inference. Failing to do this will yield inconsistent inference results.

resnet18 = torch.hub.load('pytorch/vision', 'resnet18')
resnet18.fc = nn.Sequential(nn.Linear(resnet18.fc.in_features,512),nn.ReLU(), nn.Dropout(), nn.Linear(512, num_classes))
resnet18.load_state_dict(torch.load('./model_resnet18.pth'))
resnet18.eval()

resnet34 = torch.hub.load('pytorch/vision', 'resnet34')
resnet34.fc = nn.Sequential(nn.Linear(resnet34.fc.in_features,512),nn.ReLU(), nn.Dropout(), nn.Linear(512, num_classes))
resnet34.load_state_dict(torch.load('./model_resnet34.pth'))
resnet34.eval()

# Test against the average of each prediction from the two models
models_ensemble = [resnet18.to(device), resnet34.to(device)]

correct = 0
total = 0

if __name__ == '__main__':
    with torch.no_grad():
        for data in test_data_loader:
            images, labels = data[0].to(device), data[1].to(device)
            predictions = [i(images).data for i in models_ensemble]
            avg_predictions = torch.mean(torch.stack(predictions), dim=0)
            _, predicted = torch.max(avg_predictions, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()


if total != 0:
    print('accuracy = {:f}'.format(correct / total))
print('correct: {:d}  total: {:d}'.format(correct, total))

确切地说，我想在 的末尾保存我的进度，以便在 train_loader: 循环中进行批处理，例如 k = 1500。

如果有人可以指导我修改我的代码，以便我可以保存我的进度并在以后恢复它，那将非常感激。

最佳答案

每当您想保存训练进度时，您需要保存两件事:

模型的状态字典
优化器的状态字典

这可以通过以下方式完成:

def save_checkpoint(model, optimizer, save_path, epoch):
    torch.save({
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict(),
        'epoch': epoch
    }, save_path)

要恢复训练，您可以恢复模型和优化器的状态字典。

def load_checkpoint(model, optimizer, load_path):
    checkpoint = torch.load(load_path)
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    epoch = checkpoint['epoch']
    
    return model, optimizer, epoch

您可以在训练中的任何时间点保存您的模型，只要您需要。但是，最好在完成一个 epoch 后保存。

关于python - 如何在 PyTorch 中保存某个批号的训练进度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63655048/

文章推荐： ffmpeg - 使用 ffmpeg 覆盖多个视频

文章推荐： python - Mindstorms EV3 如何通过蓝牙与我的 PC 通信？

pytorch - PyTorch 为什么叫 PyTorch？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 3 年前。此帖子于去年编辑
pytorch - 验证阶段完成后gpu内存仍然被占用，pytorch
据我所知，在使用 GPU 训练和验证模型时，GPU 内存主要用于加载数据，向前和向后。据我所知，我认为 GPU 内存使用应该相同 1) 训练前，2) 训练后，3) 验证前，4) 验证后。但在我的例子中
pytorch - PyTorch 中复数的矩阵乘法
我正在尝试在 PyTorch 中将两个复数矩阵相乘，看起来 the torch.matmul functions is not added yet to PyTorch library for com
pytorch - Pytorch 中软标签的交叉熵
我正在尝试定义二分类问题的损失函数。但是，目标标签不是硬标签0，1，而是0~1之间的一个 float 。 Pytorch 中的 torch.nn.CrossEntropy 不支持软标签，所以我想自己写
pytorch - PyTorch 数据集应该返回什么？
我正在尝试让 PyTorch 与 DataLoader 一起工作，据说这是处理小批量的最简单方法，在某些情况下这是获得最佳性能所必需的。 DataLoader 需要一个数据集作为输入。大多数关于 D
pytorch - Pytorch DataLoader迭代顺序是否稳定？
Pytorch Dataloader 的迭代顺序是否保证相同(在温和条件下)？例如: dataloader = DataLoader(my_dataset, batch_size=4,
pytorch - Pytorch NLLLOSS的理解
PyTorch 的负对数似然损失，nn.NLLLoss定义为: 因此，如果以单批处理的标准重量计算损失，则损失的公式始终为: -1 * (prediction of model for correct
pytorch - PyTorch:new_ones与1
在PyTorch中，new_ones()与ones()有什么区别。例如， x2.new_ones(3,2, dtype=torch.double) 与 torch.ones(3,2, dtype=to
pytorch - PyTorch 中复杂掩码的最大池化
假设我有一个矩阵 src带形状(5, 3)和一个 bool 矩阵 adj带形状(5, 5)如下， src = tensor([[ 0, 1, 2], [ 3, 4,
pytorch - PyTorch 如何在张量的每一行中随机设置固定数量的元素
我想知道如果不在第 4 行中使用“for”循环，下面的代码是否有更有效的替代方案？ import torch n, d = 37700, 7842 k = 4 sample = torch.cat([
pytorch - PyTorch 中的自定义损失函数
我有三个简单的问题。如果我的自定义损失函数不可微会发生什么？ pytorch 会通过错误还是做其他事情？如果我在我的自定义函数中声明了一个损失变量来表示模型的最终损失，我应该放 requires_
pytorch - PyTorch 中参数与张量的区别
我想知道 PyTorch Parameter 和 Tensor 的区别？现有answer适用于使用变量的旧 PyTorch？最佳答案这就是 Parameter 的全部想法。类(附加)在单个图像中
pytorch - Pytorch 中是否有一种方法可以以可以反向传播的方式计算唯一值的数量？
给定以下张量(这是网络的结果 [注意 grad_fn]): tensor([121., 241., 125., 1., 108., 238., 125., 121., 13., 117., 12
pytorch - Pytorch 线性模块类定义中的常量
什么是__constants__在 pytorch class Linear(Module):定义于 https://pytorch.org/docs/stable/_modules/torch/nn
pytorch - pytorch conv2d的源代码在哪里？
我在哪里可以找到pytorch函数conv2d的源代码？它应该在 torch.nn.functional 中，但我只找到了 _add_docstr 行，如果我搜索conv2d。我在这里看了: ht
pytorch - PyTorch 中的默认膨胀值
如 documentation 中所述在 PyTorch 中，Conv2d 层使用默认膨胀为 1。这是否意味着如果我想创建一个简单的 conv2d 层，我必须编写 nn.conv2d(in_chann
pytorch - PyTorch 如何实现反向卷积？
我阅读了 Pytorch 的源代码，发现它没有实现 convolution_backward 很奇怪。函数，唯一的 convolution_backward_overrideable 函数是直接引发错
pytorch - pytorch 中的一种热门编码
我对编码真的很陌生，现在我正在尝试将我的标签变成一种热门编码。我已经完成将 np.array 传输到张量，如下所示 tensor([4., 4., 4., 4., 4., 4., 4., 4., 4.
pytorch - PyTorch 中用于文本输入的卷积神经网络
我正在尝试实现 text classification model使用CNN。据我所知，对于文本数据，我们应该使用一维卷积。我在 pytorch 中看到了一个使用 Conv2d 的示例，但我想知道如何
pytorch - Pytorch 中类别不平衡的多标签分类
我有一个多标签分类问题，我正试图用 Pytorch 中的 CNN 解决这个问题。我有 80,000 个训练示例和 7900 个类；每个示例可以同时属于多个类，每个示例的平均类数为 130。问题是我的

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在 PyTorch 中保存某个批号的训练进度？