- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Pytorch 高效使用GPU的操作由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
前言 。
深度学习涉及很多向量或多矩阵运算,如矩阵相乘、矩阵相加、矩阵-向量乘法等。深层模型的算法,如BP,Auto-Encoder,CNN等,都可以写成矩阵运算的形式,无须写成循环运算。然而,在单核CPU上执行时,矩阵运算会被展开成循环的形式,本质上还是串行执行。GPU(Graphic Process Units,图形处理器)的众核体系结构包含几千个流处理器,可将矩阵运算并行化执行,大幅缩短计算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构,面向通用计算的GPU已成为加速可并行应用程序的重要手段。得益于GPU众核(many-core)体系结构,程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍.
目前,GPU已经发展到了较为成熟的阶段。利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。如果对适当的深度神经网络进行合理优化,一块GPU卡相当于数十甚至上百台CPU服务器的计算能力,因此GPU已经成为业界在深度学习模型训练方面的首选解决方案.
如何使用GPU?现在很多深度学习工具都支持GPU运算,使用时只要简单配置即可。Pytorch支持GPU,可以通过to(device)函数来将数据从内存中转移到GPU显存,如果有多个GPU还可以定位到哪个或哪些GPU。Pytorch一般把GPU作用于张量(Tensor)或模型(包括torch.nn下面的一些网络模型以及自己创建的模型)等数据结构上.
单GPU加速 。
使用GPU之前,需要确保GPU是可以使用,可通过torch.cuda.is_available()的返回值来进行判断。返回True则具有能够使用的GPU.
通过torch.cuda.device_count()可以获得能够使用的GPU数量.
如何查看平台GPU的配置信息?在命令行输入命令nvidia-smi即可 (适合于Linux或Windows环境)。图5-13是GPU配置信息样例,从中可以看出共有2个GPU.
图 GPU配置信息 。
把数据从内存转移到GPU,一般针对张量(我们需要的数据)和模型。 对张量(类型为FloatTensor或者是LongTensor等),一律直接使用方法.to(device)或.cuda()即可.
1
2
3
4
5
6
|
device
=
torch.device(
"cuda:0"
if
torch.cuda.is_available()
else
"cpu"
)
#或device = torch.device("cuda:0")
device1
=
torch.device(
"cuda:1"
)
for
batch_idx, (img, label)
in
enumerate
(train_loader):
img
=
img.to(device)
label
=
label.to(device)
|
对于模型来说,也是同样的方式,使用.to(device)或.cuda来将网络放到GPU显存.
1
2
3
4
|
#实例化网络
model
=
Net()
model.to(device)
#使用序号为0的GPU
#或model.to(device1) #使用序号为1的GPU
|
多GPU加速 。
这里我们介绍单主机多GPUs的情况,单机多GPUs主要采用的DataParallel函数,而不是DistributedParallel,后者一般用于多主机多GPUs,当然也可用于单机多GPU.
使用多卡训练的方式有很多,当然前提是我们的设备中存在两个及以上的GPU.
使用时直接用model传入torch.nn.DataParallel函数即可,如下代码:
#对模型 。
net = torch.nn.DataParallel(model) 。
这时,默认所有存在的显卡都会被使用.
如果你的电脑有很多显卡,但只想利用其中一部分,如只使用编号为0、1、3、4的四个GPU,那么可以采用以下方式:
1
2
3
4
5
6
7
|
#假设有4个GPU,其id设置如下
device_ids
=
[
0
,
1
,
2
,
3
]
#对数据
input_data
=
input_data.to(device
=
device_ids[
0
])
#对于模型
net
=
torch.nn.DataParallel(model)
net.to(device)
|
或者 。
os.environ["CUDA_VISIBLE_DEVICES"] = ','.join(map(str, [0,1,2,3])) 。
net = torch.nn.DataParallel(model) 。
其中CUDA_VISIBLE_DEVICES 表示当前可以被Pytorch程序检测到的GPU.
下面为单机多GPU的实现代码.
背景说明 。
这里使用波士顿房价数据为例,共506个样本,13个特征。数据划分成训练集和测试集,然后用data.DataLoader转换为可批加载的方式。采用nn.DataParallel并发机制,环境有2个GPU。当然,数据量很小,按理不宜用nn.DataParallel,这里只是为了说明使用方法.
加载数据 。
1
2
3
4
5
6
|
boston
=
load_boston()
X,y
=
(boston.data, boston.target)
X_train, X_test, y_train, y_test
=
train_test_split(X, y, test_size
=
0.2
, random_state
=
0
)
#组合训练数据及标签
myset
=
list
(
zip
(X_train,y_train))
|
把数据转换为批处理加载方式批次大小为128,打乱数据 。
1
2
3
4
|
from
torch.utils
import
data
device
=
torch.device(
"cuda:0"
if
torch.cuda.is_available()
else
"cpu"
)
dtype
=
torch.FloatTensor
train_loader
=
data.DataLoader(myset,batch_size
=
128
,shuffle
=
True
)
|
定义网络 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
class
Net1(nn.Module):
"""
使用sequential构建网络,Sequential()函数的功能是将网络的层组合到一起
"""
def
__init__(
self
, in_dim, n_hidden_1, n_hidden_2, out_dim):
super
(Net1,
self
).__init__()
self
.layer1
=
torch.nn.Sequential(nn.Linear(in_dim, n_hidden_1))
self
.layer2
=
torch.nn.Sequential(nn.Linear(n_hidden_1, n_hidden_2))
self
.layer3
=
torch.nn.Sequential(nn.Linear(n_hidden_2, out_dim))
def
forward(
self
, x):
x1
=
F.relu(
self
.layer1(x))
x1
=
F.relu(
self
.layer2(x1))
x2
=
self
.layer3(x1)
#显示每个GPU分配的数据大小
print
(
"\tIn Model: input size"
, x.size(),
"output size"
, x2.size())
return
x2
|
把模型转换为多GPU并发处理格式 。
1
2
3
4
5
6
7
8
|
device
=
torch.device(
"cuda:0"
if
torch.cuda.is_available()
else
"cpu"
)
#实例化网络
model
=
Net1(
13
,
16
,
32
,
1
)
if
torch.cuda.device_count() >
1
:
print
(
"Let's use"
, torch.cuda.device_count(),
"GPUs"
)
# dim = 0 [64, xxx] -> [32, ...], [32, ...] on 2GPUs
model
=
nn.DataParallel(model)
model.to(device)
|
运行结果 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
Let's use
2
GPUs
DataParallel(
(module): Net1(
(layer1): Sequential(
(
0
): Linear(in_features
=
13
, out_features
=
16
, bias
=
True
)
)
(layer2): Sequential(
(
0
): Linear(in_features
=
16
, out_features
=
32
, bias
=
True
)
)
(layer3): Sequential(
(
0
): Linear(in_features
=
32
, out_features
=
1
, bias
=
True
)
)
)
)
|
选择优化器及损失函数 。
optimizer_orig = torch.optim.Adam(model.parameters(), lr=0.01) 。
loss_func = torch.nn.MSELoss() 。
模型训练,并可视化损失值 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
from
torch.utils.tensorboard
import
SummaryWriter
writer
=
SummaryWriter(log_dir
=
'logs'
)
for
epoch
in
range
(
100
):
model.train()
for
data,label
in
train_loader:
input
=
data.
type
(dtype).to(device)
label
=
label.
type
(dtype).to(device)
output
=
model(
input
)
loss
=
loss_func(output, label)
# 反向传播
optimizer_orig.zero_grad()
loss.backward()
optimizer_orig.step()
print
(
"Outside: input size"
,
input
.size() ,
"output_size"
, output.size())
writer.add_scalar(
'train_loss_paral'
,loss, epoch)
|
运行的部分结果 。
1
2
3
4
5
6
|
In Model:
input
size torch.Size([
64
,
13
]) output size torch.Size([
64
,
1
])
In Model:
input
size torch.Size([
64
,
13
]) output size torch.Size([
64
,
1
])
Outside:
input
size torch.Size([
128
,
13
]) output_size torch.Size([
128
,
1
])
In Model:
input
size torch.Size([
64
,
13
]) output size torch.Size([
64
,
1
])
In Model:
input
size torch.Size([
64
,
13
]) output size torch.Size([
64
,
1
])
Outside:
input
size torch.Size([
128
,
13
]) output_size torch.Size([
128
,
1
])
|
从运行结果可以看出,一个批次数据(batch-size=128)拆分成两份,每份大小为64,分别放在不同的GPU上。此时用GPU监控也可发现,两个GPU都同时在使用.
8. 通过web查看损失值的变化情况 。
图 并发运行训练损失值变化情况 。
图形中出现较大振幅,是由于采用批次处理,而且数据没有做任何预处理,对数据进行规范化应该更平滑一些,大家可以尝试一下.
单机多GPU也可使用DistributedParallel,它多用于分布式训练,但也可以用在单机多GPU的训练,配置比使用nn.DataParallel稍微麻烦一点,但是训练速度和效果更好一点。具体配置为:
1
2
3
4
|
#初始化使用nccl后端
torch.distributed.init_process_group(backend
=
"nccl"
)
#模型并行化
model
=
torch.nn.parallel.DistributedDataParallel(model)
|
单机运行时使用下面方法启动 。
python -m torch.distributed.launch main.py 。
使用GPU注意事项 。
使用GPU可以提升我们训练的速度,如果使用不当,可能影响使用效率,具体使用时要注意以下几点:
GPU的数量尽量为偶数,奇数的GPU有可能会出现异常中断的情况; 。
GPU很快,但数据量较小时,效果可能没有单GPU好,甚至还不如CPU; 。
如果内存不够大,使用多GPU训练的时候可通过设置pin_memory为False,当然使用精度稍微低一点的数据类型有时也效果.
以上这篇Pytorch 高效使用GPU的操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我.
原文链接:https://blog.csdn.net/xxboy61/article/details/97973288 。
最后此篇关于Pytorch 高效使用GPU的操作的文章就讲到这里了,如果你想了解更多关于Pytorch 高效使用GPU的操作的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 3 年前。 此帖子于去年编辑
据我所知,在使用 GPU 训练和验证模型时,GPU 内存主要用于加载数据,向前和向后。据我所知,我认为 GPU 内存使用应该相同 1) 训练前,2) 训练后,3) 验证前,4) 验证后。但在我的例子中
我正在尝试在 PyTorch 中将两个复数矩阵相乘,看起来 the torch.matmul functions is not added yet to PyTorch library for com
我正在尝试定义二分类问题的损失函数。但是,目标标签不是硬标签0,1,而是0~1之间的一个 float 。 Pytorch 中的 torch.nn.CrossEntropy 不支持软标签,所以我想自己写
我正在尝试让 PyTorch 与 DataLoader 一起工作,据说这是处理小批量的最简单方法,在某些情况下这是获得最佳性能所必需的。 DataLoader 需要一个数据集作为输入。 大多数关于 D
Pytorch Dataloader 的迭代顺序是否保证相同(在温和条件下)? 例如: dataloader = DataLoader(my_dataset, batch_size=4,
PyTorch 的负对数似然损失,nn.NLLLoss定义为: 因此,如果以单批处理的标准重量计算损失,则损失的公式始终为: -1 * (prediction of model for correct
在PyTorch中,new_ones()与ones()有什么区别。例如, x2.new_ones(3,2, dtype=torch.double) 与 torch.ones(3,2, dtype=to
假设我有一个矩阵 src带形状(5, 3)和一个 bool 矩阵 adj带形状(5, 5)如下, src = tensor([[ 0, 1, 2], [ 3, 4,
我想知道如果不在第 4 行中使用“for”循环,下面的代码是否有更有效的替代方案? import torch n, d = 37700, 7842 k = 4 sample = torch.cat([
我有三个简单的问题。 如果我的自定义损失函数不可微会发生什么? pytorch 会通过错误还是做其他事情? 如果我在我的自定义函数中声明了一个损失变量来表示模型的最终损失,我应该放 requires_
我想知道 PyTorch Parameter 和 Tensor 的区别? 现有answer适用于使用变量的旧 PyTorch? 最佳答案 这就是 Parameter 的全部想法。类(附加)在单个图像中
给定以下张量(这是网络的结果 [注意 grad_fn]): tensor([121., 241., 125., 1., 108., 238., 125., 121., 13., 117., 12
什么是__constants__在 pytorch class Linear(Module):定义于 https://pytorch.org/docs/stable/_modules/torch/nn
我在哪里可以找到pytorch函数conv2d的源代码? 它应该在 torch.nn.functional 中,但我只找到了 _add_docstr 行, 如果我搜索conv2d。我在这里看了: ht
如 documentation 中所述在 PyTorch 中,Conv2d 层使用默认膨胀为 1。这是否意味着如果我想创建一个简单的 conv2d 层,我必须编写 nn.conv2d(in_chann
我阅读了 Pytorch 的源代码,发现它没有实现 convolution_backward 很奇怪。函数,唯一的 convolution_backward_overrideable 函数是直接引发错
我对编码真的很陌生,现在我正在尝试将我的标签变成一种热门编码。我已经完成将 np.array 传输到张量,如下所示 tensor([4., 4., 4., 4., 4., 4., 4., 4., 4.
我正在尝试实现 text classification model使用CNN。据我所知,对于文本数据,我们应该使用一维卷积。我在 pytorch 中看到了一个使用 Conv2d 的示例,但我想知道如何
我有一个多标签分类问题,我正试图用 Pytorch 中的 CNN 解决这个问题。我有 80,000 个训练示例和 7900 个类;每个示例可以同时属于多个类,每个示例的平均类数为 130。 问题是我的
我是一名优秀的程序员,十分优秀!