python - 如何在训练期间调整 gpu 批量大小？-6ren

python - 如何在训练期间调整 gpu 批量大小？

转载作者：行者123 更新时间：2023-12-03 16:50:29

27

4

我感到惊讶的是，我在网上找不到任何关于如何在不停止训练的情况下动态调整 GPU 批量大小的资源。

想法如下:

1) 有一个(几乎)与使用中的 GPU 无关的训练脚本。批量大小将动态调整而不会受到用户的干扰或不需要调整。

2) 仍然能够指定所需的训练批次大小，即使太大而无法装入已知的最大 GPU。

例如，假设我想使用批量大小为 4096 张图像(每张图像 1024x1024)来训练模型。假设我可以访问具有不同 NVidea GPU 的服务器，但我不知道会提前分配给我哪一个。 (或者每个人都想使用最大的 GPU，而在我的任期到来之前我已经等了很长时间)。

我希望我的训练脚本找到最大批量大小(假设它是每个 GPU 批次 32 个图像)，并且仅在处理完所有 4096 个图像后才更新优化器(一个训练批次 = 128 个 GPU 批次)。

最佳答案

有不同的方法可以解决这个问题。但是如果指定可以完成这项工作的 GPU，或者使用多个 GPU 不是一种选择，那么动态调整 GPU 批量大小会很方便。

I prepared this repo with an illustrative training example in pytorch (它应该在 TensorFlow 中类似地工作)

在下面的代码中，try/except 用于在不停止训练的情况下尝试不同的 GPU 批量大小。当批处理变得太大时，它会被缩小并关闭自适应。请检查 repo 以获取实现细节和可能的错误修复。

它还实现了一种称为批量欺骗的技术，该技术在进行反向传播之前执行许多前向传递。在 PyTorch 中，它只需要替换 optimizer.zero_grad()。

import torch
import torchvision
import torch.optim as optim
import torch.nn as nn

# Example of how to use it with Pytorch
if __name__ == "__main__":

    # #############################################################
    # 1) Initialize the dataset, model, optimizer and loss as usual.
    # Initialize a fake dataset

    trainset = torchvision.datasets.FakeData(size=1_000_000,
                                             image_size=(3, 224, 224),
                                             num_classes=1000)

    # initialize the model, loss and SGD-based optimizer
    resnet = torchvision.models.resnet152(pretrained=True,
                                          progress=True)
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.SGD(resnet.parameters(), lr=0.01)

    continue_training = True  # criteria to stop the training

    # #############################################################
    # 2) Set parameters for the adaptive batch size
    adapt = True  # while this is true, the algorithm will perform batch adaptation
    gpu_batch_size = 2  # initial gpu batch_size, it can be super small
    train_batch_size = 2048  # the train batch size of desire

    # Modified training loop to allow for adaptive batch size
    while continue_training:

        # #############################################################
        # 3) Initialize dataloader and batch spoofing parameter
        # Dataloader has to be reinicialized for each new batch size.
        trainloader = torch.utils.data.DataLoader(trainset,
                                                  batch_size=int(gpu_batch_size),
                                                  shuffle=True)

        # Number of repetitions for batch spoofing
        repeat = max(1, int(train_batch_size / gpu_batch_size))

        try:  # This will make sure that training is not halted when the batch size is too large

            # #############################################################
            # 4) Epoch loop with batch spoofing
            optimizer.zero_grad()  # done before training because of batch spoofing.

            for i, (x, y) in enumerate(trainloader):

                y_pred = resnet(x)
                loss = criterion(y_pred, y)
                loss.backward()

                # batch spoofing
                if not i % repeat:
                    optimizer.step()
                    optimizer.zero_grad()

                # #############################################################
                # 5) Adapt batch size while no RuntimeError is rased.
                # Increase batch size and get out of the loop
                if adapt:
                    gpu_batch_size *= 2
                    break

                # Stopping criteria for training
                if i > 100:
                    continue_training = False

        # #############################################################
        # 6) After the largest batch size is found, the training progresses with the fixed batch size.
        # CUDA out of memory is a RuntimeError, the moment we will get to it when our batch size is too large.
        except RuntimeError as run_error:
            gpu_batch_size /= 2  # resize the batch size for the biggest that works in memory
            adapt = False  # turn off the batch adaptation

            # Number of repetitions for batch spoofing
            repeat = max(1, int(train_batch_size / gpu_batch_size))

            # Manual check if the RuntimeError was caused by the CUDA or something else.
            print(f"---\nRuntimeError: \n{run_error}\n---\n Is it a cuda error?")

如果你有可以在 Tensorflow、Caffe 或其他人中执行类似操作的代码，请分享!

关于python - 如何在训练期间调整 gpu 批量大小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58971123/

27

4

0

文章推荐： pycharm - 如何在Pycharm Community Edition中创建UML图？

文章推荐： flutter - 保持 Flutter 的样式独立于 View 代码

java - JPA/Hibernate 批量(批量)插入
这是我在阅读了几个关于 jpa 批量插入的主题后创建的简单示例，我有 2 个持久对象用户和站点。一个用户可以有多个站点，所以我们在这里有一对多的关系。假设我想创建用户并将多个站点创建/链接到用户帐户。
azure - 如何在文档数据库中上传多个文档(批量)
我有文档列表(对象)，该对象有多个文档，即存在 Json 记录，但是当我尝试上传文档束(记录)时，它没有上传到文档数据库，但当我上传单个文档记录时，它上传成功。 List listObj = ne
perl - 如何检查域名是否可用(批量)？
我希望进行批量域名查找，看看是否有一些域名可供购买。我找不到 perl 模块，但似乎应该有一种方法可以在 perl 中执行此操作。我正在寻找免费的东西。谢谢! 最佳答案从这里:http://www.
axapta - 批量 FTPWebRequest
我制作了一个批处理类来检查 FTP 上的文件、下载它们并在 FTP 上删除它们。当我手动运行它(不是批量运行)时，它运行完美，下载 FTP 中的所有文件并在下载完成后删除它们。当我尝试批量运行时，
string - 批量 * 通配符替换
我有一个 *+* 形式的字符串 base。我想得到+之前的所有内容。例如，如果 base=foo+bar，我想获取 foo。我尝试过使用字符串替换来实现 set left=%base:+*=% 但这
mysql - 如何使MySQL默认引擎为innodb？(批量)
我需要创建几十个表，并且我需要它们是innodb，有没有办法做到这一点，而不是将 engine=innodb 附加到每个 create table 语句？最佳答案可以在服务器级别指定默认引擎，在
linux - 如何在windows中获取unix风格的提示符(批量)
我正在尝试制作显示 unix/linux 提示符的 dos shell。代码是: @echo off :hi set tmpdrv=%cd:~0,2% if %homedrive% == %tmpdr
matlab - 批量/并行进行一维卷积
我有以下代码，基本上是在二维矩阵的每一行上进行一维卷积。卷积核是一样的。所以真的是 SIMD 案例。 a = [ 1,2,3,4,5; 6,7,8,9,7; 7,6
windows - 如何通过文件夹循环移动文件夹(批量)？
情况: 我尝试在 shell 中的循环内移动文件，但我的代码无法正常工作。 for /D %%F in (*) do ( if "%%F" NEQ "%directoryToPutFilesIn
windows - 批量 |回显多个变量到文件
目录包含 2 个(或更多)任意名称的视频文件。 video1.mkv video2.mkv 需要找出每个视频的持续时间。为此，我们使用 MediaInfo . setlocal EnableDelay
windows - 如何从文件名中删除空格(批量)
如何在 Windows 中批量删除数千个文件中的空格(而不是替换为下划线)？我可以从 DOS 命令执行此操作吗？目前: file one.mp3 file two.mp3 所有文件需要变成: fil
windows - 批量 IF 变量比较神秘地不起作用
我想创建一个批处理文件，它读取 2 个不同的值，并根据它们的比较方式进行相应处理。但是，比较永远不会起作用。代码是: REM string1 and string2 contain the follo
windows - 批量 - 使用通配符将文件夹复制到多个文件夹
我正在尝试将一个文件夹的子文件夹复制到许多其他名称未知的文件夹中。目的是在所有使用它的员工文件夹中备份程序的源文件。如果在员工文件夹中找不到程序文件夹，则不应执行任何操作。这看起来如下: 来源: F:
python - 检测文本是否为英文(批量)
我正在寻找一种简单的方法来检测一小段文本(几句话)是否为英语。在我看来，这个问题比尝试检测任意语言要容易得多。有没有可以做到这一点的软件？我正在用 python 编写，并且更喜欢 python 库，但
android - 批量 Firebase 云消息传递的限制
我们正在尝试向 8k 种不同的设备发送促销推送消息。我们正在成功响应推送通知 URL https://fcm.googleapis.com/fcm/send 但只有部分用户收到此通知，并非全部。那么
batch-file - 批量，用延迟扩展参数替换延迟扩展字符串
基本上我只是用这一段来替换我的 var 中的一个字符串，但我无法让嵌套延迟扩展正常工作。这甚至可能吗？ set replace=!replace:!search!=!replaceVal!! 我知道执
bash - FFmpeg:一次编码多个视频文件(批量)
如何使用 ffmpeg 对一批视频文件进行编码，使用相同的设置？我找到了 one-line solution将当前文件夹中的 .avi 文件转换为 .mov。请注意，我要编码 .mov -> .mo
batch-file - "Counter"批量
我正在尝试制作一个批处理文件，每次循环时都会将变量增加 1，然后检查变量是否等于 5，如果不是，则再次循环。我知道这可能有一个 while 循环，但我不知道如何做到这一点，我现在只是享受学习 Batc
读取带有变量行的 CSV 以跳过、批量
我正在尝试创建一个循环，读取多个 CSV 文件，这些文件都具有相同类型的气温数据。但是，我想跳过数据上方的行。这些是数据集中的“警报”。每个文件可能有不同数量的警报，因此要跳过不同数量的行。见下文:
batch-file - 在文件中回显多个单词会使它崩溃。 (批量)
因此，我正在批量创建一个Mail程序，而消息传递部分出现了问题。消息传递部分是无限循环。当我输入多个单词时，它会崩溃。这是代码。请帮忙! :rep set line= set /p line=

首页

博学

6Ren·AI

商城

python - 如何在训练期间调整 gpu 批量大小？