python - 训练深度学习模型时如何处理大型csv文件？-6ren

python - 训练深度学习模型时如何处理大型csv文件？

转载作者：行者123 更新时间：2023-12-01 15:56:03

25

4

我有一个用于训练深度学习模型的庞大数据集。它采用 .csv 格式。它大约有 2GB，现在，我只是用 Pandas 将整个数据加载到内存中。

df = pd.read_csv('test.csv')

然后将所有内容提供到 keras 模型中，然后像下面这样训练模型，

model.fit(df, targets)

我想知道在处理大型数据集时还有哪些其他选择。像大约 10 GB(或)的东西。我没有 ram 将所有内容加载到内存中并将其传递给模型。

我能想到的一种方法是以某种方式从 .csv 文件中获取随机样本/数据子集并通过数据生成器使用它，但问题是我找不到任何方法来读取 csv 文件的子集/样本将所有内容加载到内存中。

如何在不将所有内容加载到内存中的情况下训练模型？如果您有任何解决方案并且它使用一些内存，那没关系。只要让我知道。

最佳答案

我以前没有使用过这个功能，但可能是这样的:

class CsvSequence(Sequence):
    def __init__(self, batchnames):
       self.batchnames = batchnames

    def __len__(self):
       return len(self.batchnames)

    def __getitem__(self, i):
       name = self.batchnames[i]
       X = pd.read_csv(name + '-X.csv')
       Y = pd.read_csv(name + '-Y.csv')
       return X, Y

会工作。您需要通过将 10GB 文件拆分为例如 10 个较小的文件来预处理您的数据。 Unix split 如果您的 CSV 文件每行有一条记录(大多数情况下)，实用程序可能就足够了

作为如何使用它的不完整示例:

seq = CsvSequence([
  'data-1', 'data-2', 'data-3'])

model.fit_generator(seq)

但请注意，您很快就会想做一些更有效的事情，上面的内容会导致您的 CSV 文件被多次读取。如果这个加载比其他所有东西加在一起花费的时间更多，我不会感到惊讶

一个建议是在训练前预处理文件， saving them to numpy binary files .然后二进制文件可以 mmap ed in while load ing这效率更高。

关于python - 训练深度学习模型时如何处理大型csv文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59909965/

25

4

0

文章推荐： java - java帮助中的基数排序

文章推荐： java - 在 Mac OS X 中读取 Windows .CSV 文件

文章推荐： java - 使用 Lucene MultiFieldQueryParser 处理多个必填字段

文章推荐： ios - 应用程序删除和 APNS

python - 错误:函数arcLength中的(-215)计数> = 0 &&(深度== CV_32F ||深度== CV_32S)
我正在使用python 2.7 当我尝试在其上运行epsilon操作时出现此错误，这是我的代码 import cv2 import numpy as np img = cv2.imread('img
深度！程序员生涯的垃圾时间（上）
1 很多程序员对互联网行业中广泛讨论的“35岁危机”表示不满，似乎所有的程序员都有着35岁的职业保质期。然而，随着AI技术的兴起，这场翻天覆地的技术革命正以更加残酷且直接的方式渗透到各行各业。程序员
git - 如何打印子模块级别/深度
我有一个包含多个子模块的项目，我想列出每个子模块的相对深度该项目: main_project submodule1 submodule1\submodule1_1 submo
c++ - 深度+颜色的3D投影
我有一张彩色图像及其深度图，它们都是由 Kinect 捕获的。我想将它投影到另一个位置(以查看它在另一个视角下的样子)。由于我没有 Kinect 的内在参数(相机参数)；我该如何实现？ P.S:我正在
android - 使用包含路径和查询参数的(深度)链接打开应用程序
给出了这三个网址: 1) https://example.com 2) https://example.com/app 3) https://example.com/app?param=hello 假
unity3d - 你如何在着色器中编写 z 深度？
这个着色器(最后的代码)使用 raymarching 来渲染程序几何: 但是，在图像(上图)中，背景中的立方体应该部分遮挡粉红色实体；不是因为这个: struct fragmentOutput {
javascript - ThreeJS - 房间内 - 深度
我希望能够在 ThreeJS 中创建一个房间。这是我到目前为止所拥有的: http://jsfiddle.net/7oyq4yqz/ var camera, scene, renderer, geom
haskell - 深度 Haskell 递归中异常的替代方案是什么？
我正在尝试通过编写小程序来学习 Haskell...所以我目前正在为简单表达式编写一个词法分析器/解析器。 (是的，我可以使用 Alex/Happy...但我想先学习核心语言)。我的解析器本质上是一
php parse_ini_file oop & 深度
我想使用像 [parse_ini_file][1] 这样的东西。例如，我有一个 boot.ini 文件，我将加载该文件以进行进一步的处理: ;database connection sett
java - Mockito - 深度 stub
我正在使用 Mockito 来测试我的类(class)。我正在尝试使用深度 stub ，因为我没有办法在 Mockito 中的另一个模拟对象中注入(inject) Mock。 class MyServ
javascript - polymer/深度/选择器在移动设备中不起作用
我试图在调整设备屏幕大小时重新排列布局，所以我这样做: if(screenOrientation == SCREEN_ORIENTATION_LANDSCAPE) { document
c - OpenGL Ubuntu 深度
我正在 Ubuntu 上编写一个简单的 OpenGL 程序，它使用顶点数组绘制两个正方形(一个在另一个前面)。由于某种原因，GL_DEPTH_TEST 似乎不起作用。后面的物体出现在前面的物体前面
c - int 深度 UNUSED_PARAM
static FAST_FUNC int fileAction(const char *pathname, struct stat *sb UNUSED_PARAM, void *mo
c++ - std::is_base_of() 深度
我有这样的层次结构: namespace MyService{ class IBase { public: virtual ~IBase(){} protected: IPointer
php - 循环到子级的 FINITIE 深度
我正在制作一个图片库，需要一些循环类别方面的帮助。下一个深度是图库配置文件中的已知设置，因此这不是关于无限深度循环的问题，而是循环已知深度并输出所有结果的最有效方法。本质上，我想创建一个包含系统中
java - 在树状结构中迭代 n 深度
如何以编程方式在树状结构上获取 n 深度迭代器？在根目录中我有 List 每个节点有 Map> n+1 深度。我已修复 1 个深度: // DEPTH 1 nodeData.forEach(base
css - polymer 深度 CSS
我正在构建一个包含大量自定义元素的 Polymer 单页界面。现在我希望我的元素具有某种主样式，我可以在 index.html 或我的主要内容元素中定义它。可以这样想: index.html
java - 深度 sleep 连接蓝牙设备失败
我正在尝试每 25 秒连接到配对的蓝牙设备，通过 AlarmManager 安排，它会触发 WakefulBroadcastReceiver 以启动服务以进行连接。设备进入休眠状态后，前几个小时一切正
c++ - 如何处理(深度)嵌套函数调用中的默认值？
假设有一个有默认值的函数: int foo(int x=42); 如果这被其他人这样调用: int bar(int x=42) { return foo(x); } int moo(int x=42)
Javascript URL 深度(级别)
是否可以使用 Javascript 获取 url 深度(级别)？如果我有这个网址:www.website.com/site/product/category/item -> depth=4www.w

首页

博学

6Ren·AI

商城

python - 训练深度学习模型时如何处理大型csv文件？