解决pytorch load huge dataset(大数据加载)-6ren

解决pytorch load huge dataset(大数据加载)

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

27

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章解决pytorch load huge dataset(大数据加载)由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

问题

最近用pytorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory.

解决方法

首先自定义一个MyDataset继承torch.utils.data.Dataset，然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可.

MyDataset在__init__中声明一个文件对象，然后在__getitem__中缓慢读取数据，这样就不会一次把所有数据加载到内存中了。训练数据存放在train.txt中，每一行是一条数据记录.

import torch.utils.data as Datafrom tqdm import tqdmclass MyDataset(Data.Dataset):	def __init__(self,filepath):		number = 0		with open(filepath,"r") as f:			# 获得训练数据的总行数			for _ in tqdm(f,desc="load training dataset"):				number+=1		self.number = number		self.fopen = open(filepath,"r")	def __len__(self):		return self.number	def __getitem__(self,index):		line = self.fopen.__next__()		# 自定义transform()对训练数据进行预处理		data = transform(line)		return datatrain_dataset = MyDataset(filepath = "train.txt")training_data = Data.DataLoader(dataset=train_dataset, batch_size=32,num_workers=1)

注意

1、num_workers只能设置为1。因为MyDataset初始化时只有一个文件对象，在dataloader时num_workers=1只用一个线程去操作文件对象读取数据。如果num_workers>1, 会出错，多个线程同时操作同一个文件对象，得到的数据并不是你想要的.

2、每一个epoch结束以后，需要重新声明train_dataset和training_data。因为一个epoch结束以后，文件对象已经指向文件末尾，下一个epoch取数据时，什么也得不到.

3、因为这里__getitem__()只是顺序的从文件中取出一行，而与index无关，那么在DataLoader时，即使参数shuffle指定为True，得到的数据依然是顺序的，即该方法无法shuffle数据.

补充：Pytorch加载自己的数据集(使用DataLoader读取Dataset) 。

1. 我们经常可以看到Pytorch加载数据集会用到官方整理好的数据集

很多时候我们需要加载自己的数据集，这时候我们需要使用Dataset和DataLoader 。

Dataset：是被封装进DataLoader里，实现该方法封装自己的数据和标签.

DataLoader：被封装入DataLoaderIter里，实现该方法达到数据的划分.

2.Dataset

阅读源码后，我们可以指导，继承该方法必须实现两个方法:

_getitem_() 。

_len_() 。

因此，在实现过程中我们测试如下:

import torchimport numpy as np# 定义GetLoader类，继承Dataset方法，并重写__getitem__()和__len__()方法class GetLoader(torch.utils.data.Dataset):	# 初始化函数，得到数据    def __init__(self, data_root, data_label):        self.data = data_root        self.label = data_label    # index是根据batchsize划分数据后得到的索引，最后将data和对应的labels进行一起返回    def __getitem__(self, index):        data = self.data[index]        labels = self.label[index]        return data, labels    # 该函数返回数据大小长度，目的是DataLoader方便划分，如果不知道大小，DataLoader会一脸懵逼    def __len__(self):        return len(self.data)# 随机生成数据，大小为10 * 20列source_data = np.random.rand(10, 20)# 随机生成标签，大小为10 * 1列source_label = np.random.randint(0,2,(10, 1))# 通过GetLoader将数据进行加载，返回Dataset对象，包含data和labelstorch_data = GetLoader(source_data, source_label)

3.DataLoader

提供对Dataset的操作，操作如下:

torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)

参数含义如下:

dataset：加载torch.utils.data.Dataset对象数据。

batch_size：每个batch的大小。

shuffle：是否对数据进行打乱。

drop_last：是否对无法整除的最后一个datasize进行丢弃。

num_workers：表示加载的时候子进程数。

因此，在实现过程中我们测试如下（紧跟上述用例）:

from torch.utils.data import DataLoader# 读取数据datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)

此时，我们的数据已经加载完毕了，只需要在训练过程中使用即可.

4.查看数据

我们可以通过迭代器（enumerate）进行输出数据，测试如下:

for i, data in enumerate(datas): # i表示第几个batch， data表示该batch对应的数据，包含data和对应的labels    print("第 {} 个Batch {}".format(i, data))

。

输出结果如下图:

解决pytorch load huge dataset(大数据加载)

结果说明：由于数据的是10个，batchsize大小为6，且drop_last=False，因此第一个大小为6，第二个为4。每一个batch中包含data和对应的labels.

当我们想取出data和对应的labels时候，只需要用下表就可以啦，测试如下:

# 表示输出数据print(data[0])# 表示输出标签print(data[1])

结果如图:

解决pytorch load huge dataset(大数据加载)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我.

原文链接：https://blog.csdn.net/u011550545/article/details/87842760 。

最后此篇关于解决pytorch load huge dataset(大数据加载)的文章就讲到这里了,如果你想了解更多关于解决pytorch load huge dataset(大数据加载)的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

27

4

0

文章推荐： Python开发加薪利器之Docker的使用实践

文章推荐：让人开开心心的朋友圈背景图难得一身武功喜欢就要大胆往前冲

文章推荐：超级温柔的图片静物很治愈心灵的对生命而言接纳才是最好的温柔

文章推荐：解决pytorch rnn 变长输入序列的问题

解决@Cacheable在同一个类中方法调用不起作用的问题
@Cacheable在同一类中方法调用无效上述图片中，同一个类中genLiveBullets()方法调用同类中的queryLiveByRoom()方法，这样即便标识了Cacheable标签，
解决@Transaction注解导致动态切换更改数据库失效问题
目录 @Transaction注解导致动态切换更改数据库失效使用场景遇到问题解决 @Transaction
解决@RequestBody使用不能class类型匹配的问题
@RequestBody不能class类型匹配在首次第一次尝试使用@RequestBody注解开始加载字符串使用post提交（貌似只能post），加Json数据格式传输的时候，
解决@Autowired注入static接口的问题
目录 @Autowired注入static接口问题 @Autowired自动注入普通service很方便但是如果注入static修饰的serv
解决@RequestBody部分属性丢失的问题
目录 @RequestBody部分属性丢失问题描述 JavaBean实现 Controller实现
解决@PathVariable参数接收不完整的问题
目录解决@PathVariable参数接收不完整的问题今天遇到的问题是：解决办法： @PathVariable接受的参
解决@Transactional注解事务不回滚不起作用的问题
这几天在项目里面发现我使用@Transactional注解事务之后，抛了异常居然不回滚。后来终于找到了原因。如果你也出现了这种情况，可以从下面开始排查。 1、特性先来了解一下@Trans
解决@PathVariable对于特殊字符截断的问题
概述： ? 1
解决@Around对静态方法不生效的问题
场景：在处理定时任务时，由于这几个方法都是静态方法，在aop的切面中使用@Around注解，进行监控方法调用是否有异常。发现aop没有生效。代码如下：
解决.net项目中上传的图片或者文件太大无法上传问题
最近做项目的时候用户提出要上传大图片一张图片有可能十几兆本来用的第三方的上传控件有限制图片上传大小的设置以前设置的是2M&nb
azure - 解决 SystemForCrossDomainIdentityManagementBadResponse
我已经实现了这个SCIM reference code在我们的应用程序中。我实现的代码确实通过了此postman link中存在的所有用户测试集合。。我的 SCIM Api 也被 Azure 接受
javascript - 等待 ".then"解决
我一直对“然后”不被等待的行为感到困扰，我明白其原因。然而，我仍然需要绕过它。这是我的用例。 doWork(family) { return doWork1(family)
javascript - 解决 promise
我正在尝试查找 channel 中的消息是否仍然存在，但是，我不确定如何解决 promise ，查看其他答案和文档，我可以看到它可能是通过函数实现的，但我是不完全确定如何去做。我希望能在这方面获得一些
java - 解决 IllegalAccessError
我有以下情况: 同一工作区中的 2 个 Eclipse 项目:Apa 和 Bepa(为简洁起见，使用化名)。 Apa 项目引用(包括)Bepa 项目。我在 Bepa 有一个类 X，具有公共(publ
java - 解决 NoClassDefFoundError
这个问题已经有答案了: Why am I getting a NoClassDefFoundError in Java? (31 个回答) 已关闭 6 年前。我正在努力学习 spring。所以我输入
java - 解决 ConcurrentModificationException
我正在写一个小游戏，屏幕上有许多圆圈在移动。我在两个线程中管理圈子，如下所示: public void run() { int stepCount = 0; int dx;
python - 解决()执行中止
我在使用 Sympy 求解方程时遇到问题。当我运行代码时，例如: 打印(校正(10)) 我希望它打印一个数字 f。相反，它给我错误:执行中止。 def correction(r): from
css - div布局问题。解决
好吧，我制作的每个页面都有这个问题。我不确定我做错了什么，但我所有的页面都不适用于所有分辨率。可能是因为我使用的是宽屏？大声笑我不确定，但在小于宽屏分辨率的情况下，它永远不会看起来正确。它的某些部分你
c# - 解决 ||检查字符串时的运算符
我正在尝试像这样进行一个非常简单的文化 srting 检查 if(culture.ToUpper() == "ES-ES" || "IT-IT") { //do something } else
linux - 解决.bashrc的最佳方法是什么？
Closed. This question is off-topic. It is not currently accepting answers. Learn more。想改进这个问题吗？Upda

首页

博学

6Ren·AI

商城