- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章解决pytorch load huge dataset(大数据加载)由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
最近用pytorch做实验时,遇到加载大量数据的问题。实验数据大小在400Gb,而本身机器的memory只有256Gb,显然无法将数据一次全部load到memory.
首先自定义一个MyDataset继承torch.utils.data.Dataset,然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可.
MyDataset在__init__中声明一个文件对象,然后在__getitem__中缓慢读取数据,这样就不会一次把所有数据加载到内存中了。训练数据存放在train.txt中,每一行是一条数据记录.
import torch.utils.data as Datafrom tqdm import tqdmclass MyDataset(Data.Dataset): def __init__(self,filepath): number = 0 with open(filepath,"r") as f: # 获得训练数据的总行数 for _ in tqdm(f,desc="load training dataset"): number+=1 self.number = number self.fopen = open(filepath,"r") def __len__(self): return self.number def __getitem__(self,index): line = self.fopen.__next__() # 自定义transform()对训练数据进行预处理 data = transform(line) return datatrain_dataset = MyDataset(filepath = "train.txt")training_data = Data.DataLoader(dataset=train_dataset, batch_size=32,num_workers=1)
1、num_workers只能设置为1。因为MyDataset初始化时只有一个文件对象,在dataloader时num_workers=1只用一个线程去操作文件对象读取数据。如果num_workers>1, 会出错,多个线程同时操作同一个文件对象,得到的数据并不是你想要的.
2、每一个epoch结束以后,需要重新声明train_dataset和training_data。因为一个epoch结束以后,文件对象已经指向文件末尾,下一个epoch取数据时,什么也得不到.
3、因为这里__getitem__()只是顺序的从文件中取出一行,而与index无关,那么在DataLoader时,即使参数shuffle指定为True,得到的数据依然是顺序的,即该方法无法shuffle数据.
补充:Pytorch加载自己的数据集(使用DataLoader读取Dataset) 。
很多时候我们需要加载自己的数据集,这时候我们需要使用Dataset和DataLoader 。
Dataset:是被封装进DataLoader里,实现该方法封装自己的数据和标签.
DataLoader:被封装入DataLoaderIter里,实现该方法达到数据的划分.
阅读源码后,我们可以指导,继承该方法必须实现两个方法:
_getitem_() 。
_len_() 。
因此,在实现过程中我们测试如下:
import torchimport numpy as np# 定义GetLoader类,继承Dataset方法,并重写__getitem__()和__len__()方法class GetLoader(torch.utils.data.Dataset): # 初始化函数,得到数据 def __init__(self, data_root, data_label): self.data = data_root self.label = data_label # index是根据batchsize划分数据后得到的索引,最后将data和对应的labels进行一起返回 def __getitem__(self, index): data = self.data[index] labels = self.label[index] return data, labels # 该函数返回数据大小长度,目的是DataLoader方便划分,如果不知道大小,DataLoader会一脸懵逼 def __len__(self): return len(self.data)# 随机生成数据,大小为10 * 20列source_data = np.random.rand(10, 20)# 随机生成标签,大小为10 * 1列source_label = np.random.randint(0,2,(10, 1))# 通过GetLoader将数据进行加载,返回Dataset对象,包含data和labelstorch_data = GetLoader(source_data, source_label)
提供对Dataset的操作,操作如下:
torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last,num_workers)
参数含义如下:
dataset: 加载torch.utils.data.Dataset对象数据 。
batch_size: 每个batch的大小 。
shuffle:是否对数据进行打乱 。
drop_last:是否对无法整除的最后一个datasize进行丢弃 。
num_workers:表示加载的时候子进程数 。
因此,在实现过程中我们测试如下(紧跟上述用例):
from torch.utils.data import DataLoader# 读取数据datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)
此时,我们的数据已经加载完毕了,只需要在训练过程中使用即可.
我们可以通过迭代器(enumerate)进行输出数据,测试如下:
for i, data in enumerate(datas): # i表示第几个batch, data表示该batch对应的数据,包含data和对应的labels print("第 {} 个Batch {}".format(i, data))
。
输出结果如下图:
结果说明:由于数据的是10个,batchsize大小为6,且drop_last=False,因此第一个大小为6,第二个为4。每一个batch中包含data和对应的labels.
当我们想取出data和对应的labels时候,只需要用下表就可以啦,测试如下:
# 表示输出数据print(data[0])# 表示输出标签print(data[1])
结果如图:
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我.
原文链接:https://blog.csdn.net/u011550545/article/details/87842760 。
最后此篇关于解决pytorch load huge dataset(大数据加载)的文章就讲到这里了,如果你想了解更多关于解决pytorch load huge dataset(大数据加载)的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
@Cacheable在同一类中方法调用无效 上述图片中,同一个类中genLiveBullets()方法调用同类中的queryLiveByRoom()方法,这样即便标识了Cacheable标签,
目录 @Transaction注解导致动态切换更改数据库失效 使用场景 遇到问题 解决 @Transaction
@RequestBody不能class类型匹配 在首次第一次尝试使用@RequestBody注解 开始加载字符串使用post提交(貌似只能post),加Json数据格式传输的时候,
目录 @Autowired注入static接口问题 @Autowired自动注入普通service很方便 但是如果注入static修饰的serv
目录 @RequestBody部分属性丢失 问题描述 JavaBean实现 Controller实现
目录 解决@PathVariable参数接收不完整的问题 今天遇到的问题是: 解决办法: @PathVariable接受的参
这几天在项目里面发现我使用@Transactional注解事务之后,抛了异常居然不回滚。后来终于找到了原因。 如果你也出现了这种情况,可以从下面开始排查。 1、特性 先来了解一下@Trans
概述: ? 1
场景: 在处理定时任务时,由于这几个方法都是静态方法,在aop的切面中使用@Around注解,进行监控方法调用是否有异常。 发现aop没有生效。 代码如下:
最近做项目的时候 用户提出要上传大图片 一张图片有可能十几兆 本来用的第三方的上传控件 有限制图片上传大小的设置 以前设置的是2M&nb
我已经实现了这个SCIM reference code在我们的应用程序中。 我实现的代码确实通过了此postman link中存在的所有用户测试集合。 。我的 SCIM Api 也被 Azure 接受
我一直对“然后”不被等待的行为感到困扰,我明白其原因。然而,我仍然需要绕过它。这是我的用例。 doWork(family) { return doWork1(family)
我正在尝试查找 channel 中的消息是否仍然存在,但是,我不确定如何解决 promise ,查看其他答案和文档,我可以看到它可能是通过函数实现的,但我是不完全确定如何去做。我希望能在这方面获得一些
我有以下情况: 同一工作区中的 2 个 Eclipse 项目:Apa 和 Bepa(为简洁起见,使用化名)。 Apa 项目引用(包括)Bepa 项目。 我在 Bepa 有一个类 X,具有公共(publ
这个问题已经有答案了: Why am I getting a NoClassDefFoundError in Java? (31 个回答) 已关闭 6 年前。 我正在努力学习 spring。所以我输入
我正在写一个小游戏,屏幕上有许多圆圈在移动。 我在两个线程中管理圈子,如下所示: public void run() { int stepCount = 0; int dx;
我在使用 Sympy 求解方程时遇到问题。当我运行代码时,例如: 打印(校正(10)) 我希望它打印一个数字 f。相反,它给我错误:执行中止。 def correction(r): from
好吧,我制作的每个页面都有这个问题。我不确定我做错了什么,但我所有的页面都不适用于所有分辨率。可能是因为我使用的是宽屏?大声笑我不确定,但在小于宽屏分辨率的情况下,它永远不会看起来正确。它的某些部分你
我正在尝试像这样进行一个非常简单的文化 srting 检查 if(culture.ToUpper() == "ES-ES" || "IT-IT") { //do something } else
Closed. This question is off-topic. It is not currently accepting answers. Learn more。 想改进这个问题吗?Upda
我是一名优秀的程序员,十分优秀!