python - Pandas `read_csv` 方法使用过多 RAM-6ren

python - Pandas `read_csv` 方法使用过多 RAM

转载作者：行者123 更新时间：2023-11-28 22:25:22

28

4

我目前正在玩 Rotten Tomatoes dataset在 Kaggle 上使用 pandas DataFrame() 来操作数据。

我已经从 sklearn 中实现了 CountVectorizer() 来提取特征(大小为 5000)。然后我将 10 万行特征和标签保存到 .csv。更准确地说，.csv 共有 100k 行和 5001 列。它的大小约为 1GB 内存。

当我尝试读取 .csv 时出现了问题:

pd.read_csv('train.csv', header=0, 
             delimiter=",", engine='c', na_filter=False, dtype=np.int64)

CSV 解析器使用了过多的 RAM。我的系统上有 8gb 的 RAM，这显然是不够的。

有什么方法可以减少 RAM 使用量吗？我不受限于 pandas 库。

最佳答案

您可以尝试在 pandas.read_csv 中使用 chunksize 选项。它将允许您分批处理数据，避免一次将所有数据加载到内存中。当您处理每个批处理时，您可以去除任何不必要的列并将数据保存在一个新的、更小的对象中，您可以将其放入内存中。示例如下:

chunks = pd.read_csv('train.csv', header=0, delimiter=",", engine='c', na_filter=False, dtype=np.int64, chunksize=50000)

slim_data = []
for chunk in chunks:
    {do your processing here}
final_data = pd.concat(slim_data)

在示例中，每个 block 都是 50,000 条采用 pandas DataFrame 格式的记录。然后，您遍历 50,000 条记录的每个 block ，您可以在其中对每个 block 进行处理，并将处理后的 DataFrame 附加到一个新对象(slim_data 作为上面的示例)，然后将所有 block 连接成一个您可以在建模中使用的最终 DataFrame。

重申一下，只有在处理每批数据时删除数据元素或以更有效的方式表示数据元素时，以上方法才有效，否则您将再次遇到内存问题。但是，这将使您不必一次将所有数据加载到内存中。

关于python - Pandas `read_csv` 方法使用过多 RAM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45532711/

28

4

0

文章推荐： ios - 如何获取设备 UIInterfaceOrientation

文章推荐： java - 古巴平台的应用洞察

文章推荐： javascript - 他们会修复移动滚动事件吗？

ram - 计算机如何直接访问 RAM 中的内存位置？
如果我们想访问数组的元素 i，我们会这样做:i *(每个元素的大小)+ 数组的起始地址 = 我们需要访问的元素的内存位置。然后 CPU 直接访问 RAM 中的该位置。这是怎么发生的？假设我要定位的内
python 没有足够的 RAM 使用磁盘空间而不是 RAM
考虑以下 python 代码 with open(sys.argv[2], 'r') as fin, \ open(sys.argv[3], 'w') as fout:
Java 进程使用的 RAM 多于分配的 RAM？
基本上我在 Centos 6.2 16GB 系统上运行我的世界服务器我通过 rtoolkit 引导来启动我的服务器，现在我分配它使用 12GB，但它使用的 muc 比这多，我不知道为什么。我运行此命
c - 内存映射显示的 RAM 多于物理可用的 RAM
我正在开发一个小型 x86 内核。我正在访问并尝试读取 GRUB 在多重引导 header 中提供的内存映射。我有一个 Intel i3 cpu 和 4 GiB 的 RAM。在这台机器上运行时，我正在
ram - 限制 CPP 应用程序的 RAM 使用
我有 3 GB 内存。有没有办法只为 C++ 应用程序分配 512MB 的 RAM？否则有没有办法暂时将我的 RAM 减少到 512MB 以进行测试？谢谢，阿肖克最佳答案使用SetProce
c - DMA 传输 RAM 到 RAM
我的一个 friend 告诉我，在 x86 架构上，DMA Controller 无法在两个不同的 RAM 位置之间传输。它只能在RAM和外设(如PCI总线)之间传输。这是真的吗？因为 AFAIK
c - 分配 ram 显示任务管理器中 ram 使用量的两倍
做一些分析(内存和速度) 我一直被 win7 似乎分配的 RAM 正好是我要求的两倍这一事实所困扰...注意这是我第一次在 win7 上进行这样的主动分析，所以我真的不知道会发生什么。我在 win7
java - 如何复制正在运行的应用程序的 RAM，保存它，然后将其重新加载到 RAM 中？
我经常玩 retrofit 版的 Minecraft。这样做的一个缺点是，每当我启动 Minecraft 时，编译所有模组都需要花费大量时间。这可能需要大约 15 分钟左右的时间，在我看来，这太长了。
linux - 如何通过 DMA 将数据从 RAM 传输到 RAM？
我想编写一个内核模块，可以通过 DMA 将数据从 RAM 传输到 RAM。有一些帖子讨论这个，但我真的不明白。有人说可能，也有人说不可能。如果我对 ldd3 的理解是正确的，RAM 到 RAM 的复
powershell - 单值 Total Ram/Free Ram 可用内存/总内存
我正在寻找一种方法来查找总内存和正在使用的内存的单个熟值输出。 gwmi Win32_OperatingSystem | select TotalVisibleMemorySize, FreePhys
postgresql - 用于缓存的 Heroku Postgres RAM 与 Memcache RAM
我在 Heroku 上有一个网络应用程序，我试图了解添加具有 1GB RAM 的 Memcached 实例与向我的 Postgres 服务器添加 1GB RAM 之间的区别/权衡。如果我添加一个 M
python - 我需要通过将 Python 字典存储在硬盘驱动器而不是 RAM 中来释放 RAM。是否可以？
在我的例子中，我有一个包含大约 6000 个实例化类的字典，其中每个类都有 1000 个属性变量，所有类型都是字符串或字符串列表。当我建立这本字典时，我的 RAM 变得非常高。有没有一种方法可以在将字
c++ - 如果你已经消耗了所有的视频 ram，SDL Texture 会自动使用普通 Ram 吗？
我的问题是:如果您用完了所有可用的视频内存，并尝试创建新纹理 (SDL)，是否会自动使用普通内存而不是视频内存？或者，您是否必须尝试使用使用普通 ram 的表面 (SDL)？如果您出于任何原因无法
c - 当 ram 地址存储为 u32 时从 ram 内存中获取值
我在从 ram 地址获取值时遇到问题。我有一些限制，即它必须是 C 代码，并且存储信息的地址由 u32 值给出，例如 0x001c0080。环境是ARM的，我用的是eclipse sdk。我怎样才
linux - 如果 2GB RAM 可以使用虚拟内存完成工作，则需要 8GB RAM
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
c - 区域 ram 溢出，section .text 不适合区域 ram
我正在尝试使用 GCC 编译器(标准 C)编译裸机应用程序。我使用 Cyclone V SoC 和 Cortex-A9 处理器。 eclipse DS-5。我收到这些错误 - “Region ram
python - 如果 RAM 不是问题，是逐行读取更快还是将所有内容读入 RAM 并访问它？ - Python
如果 RAM 不是问题(我的服务器上有接近 200GB)，是逐行读取更快还是将所有内容读入 RAM 并访问它？每行将是大约 200-500 个 unicode 字符的字符串。每个文件有近 200 万行
大 RAM 机器上的 pandas 内存错误但小 RAM 机器上没有 : same code, 相同的数据
我在我的两台机器上运行以下命令: import os, sqlite3 import pandas as pd from feat_transform import filter_anevexp db
c++ - 将数组从 RAM 复制到 GPU 以及从 GPU 复制到 RAM
我正在尝试在我的一个项目中引入一些 CUDA 优化。但我认为我在这里做错了什么。我想实现一个简单的矩阵 vector 乘法 (result = matrix * vector)。但是当我想将结果复制回
c++ - 为什么我的程序设计为耗尽 RAM 和 CPU 而没有使用所有 RAM 和 CPU？
#include #include #include #include #include #include using namespace std; char randomLetter()

首页

博学

6Ren·AI

商城

python - Pandas `read_csv` 方法使用过多 RAM