python - 6.5 GB 文件上的 Pandas read_csv 消耗超过 170GB RAM

转载作者：太空狗更新时间：2023-10-29 17:20:20

24

4

我想提出来，只是因为它太疯狂了。也许韦斯有一些想法。该文件非常规则:1100 行 x ~3M 列，数据以制表符分隔，仅由整数 0、1 和 2 组成。显然这不是预期的。

如果我如下预填充数据框，它会消耗约 26GB 的 RAM。

h = open("ms.txt")
header = h.readline().split("\t")
h.close()
rows=1100
df = pd.DataFrame(columns=header, index=range(rows), dtype=int)

系统信息:

python 2.7.9
ipython 2.3.1
numpy 1.9.1
Pandas 0.15.2.

欢迎任何想法。

最佳答案

你的例子的问题。

在小规模上尝试您的代码，我注意到即使您设置了 dtype=int，您实际上在结果数据框中以 dtype=object 结束。

header = ['a','b','c']
rows = 11
df = pd.DataFrame(columns=header, index=range(rows), dtype=int)

df.dtypes
a    object
b    object
c    object
dtype: object

这是因为即使您向 pd.read_csv 函数提供列为 dtype=int 的指令，它也无法覆盖最终由数据确定的数据类型在专栏中。

这是因为 pandas 是 tightly coupled到 numpy 和 numpy dtypes。

问题是，您创建的数据框中没有数据，因此 numpy 默认数据为 np.NaN，不适合整数。

这意味着 numpy 会混淆并默认返回到数据类型 object。

对象数据类型的问题。

与将 dtype 设置为整数或 float 相比，将 dtype 设置为 object 意味着内存消耗和分配时间的开销很大。

您的示例的解决方法。

df = pd.DataFrame(columns=header, index=range(rows), dtype=float)

这很好用，因为 np.NaN 可以存在于 float 中。这产生

a    float64
b    float64
c    float64
dtype: object

并且应该占用更少的内存。

更多关于如何与数据类型相关的信息

有关 dtype 的详细信息，请参阅此相关帖子: Pandas read_csv low_memory and dtype options

关于python - 6.5 GB 文件上的 Pandas read_csv 消耗超过 170GB RAM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28219902/

24

4

0

文章推荐： python - 一段python代码如何判断它是否在unittest下运行

文章推荐： angular-cli - 如何更改生成的 css/js 包文件的名称

文章推荐： c - 如何在 Windows 上用 C 实现定时器

文章推荐： angular - 如何制作 Angular2 Service 单例？

ram - 计算机如何直接访问 RAM 中的内存位置？
如果我们想访问数组的元素 i，我们会这样做:i *(每个元素的大小)+ 数组的起始地址 = 我们需要访问的元素的内存位置。然后 CPU 直接访问 RAM 中的该位置。这是怎么发生的？假设我要定位的内
python 没有足够的 RAM 使用磁盘空间而不是 RAM
考虑以下 python 代码 with open(sys.argv[2], 'r') as fin, \ open(sys.argv[3], 'w') as fout:
Java 进程使用的 RAM 多于分配的 RAM？
基本上我在 Centos 6.2 16GB 系统上运行我的世界服务器我通过 rtoolkit 引导来启动我的服务器，现在我分配它使用 12GB，但它使用的 muc 比这多，我不知道为什么。我运行此命
c - 内存映射显示的 RAM 多于物理可用的 RAM
我正在开发一个小型 x86 内核。我正在访问并尝试读取 GRUB 在多重引导 header 中提供的内存映射。我有一个 Intel i3 cpu 和 4 GiB 的 RAM。在这台机器上运行时，我正在
ram - 限制 CPP 应用程序的 RAM 使用
我有 3 GB 内存。有没有办法只为 C++ 应用程序分配 512MB 的 RAM？否则有没有办法暂时将我的 RAM 减少到 512MB 以进行测试？谢谢，阿肖克最佳答案使用SetProce
c - DMA 传输 RAM 到 RAM
我的一个 friend 告诉我，在 x86 架构上，DMA Controller 无法在两个不同的 RAM 位置之间传输。它只能在RAM和外设(如PCI总线)之间传输。这是真的吗？因为 AFAIK
c - 分配 ram 显示任务管理器中 ram 使用量的两倍
做一些分析(内存和速度) 我一直被 win7 似乎分配的 RAM 正好是我要求的两倍这一事实所困扰...注意这是我第一次在 win7 上进行这样的主动分析，所以我真的不知道会发生什么。我在 win7
java - 如何复制正在运行的应用程序的 RAM，保存它，然后将其重新加载到 RAM 中？
我经常玩 retrofit 版的 Minecraft。这样做的一个缺点是，每当我启动 Minecraft 时，编译所有模组都需要花费大量时间。这可能需要大约 15 分钟左右的时间，在我看来，这太长了。
linux - 如何通过 DMA 将数据从 RAM 传输到 RAM？
我想编写一个内核模块，可以通过 DMA 将数据从 RAM 传输到 RAM。有一些帖子讨论这个，但我真的不明白。有人说可能，也有人说不可能。如果我对 ldd3 的理解是正确的，RAM 到 RAM 的复
powershell - 单值 Total Ram/Free Ram 可用内存/总内存
我正在寻找一种方法来查找总内存和正在使用的内存的单个熟值输出。 gwmi Win32_OperatingSystem | select TotalVisibleMemorySize, FreePhys
postgresql - 用于缓存的 Heroku Postgres RAM 与 Memcache RAM
我在 Heroku 上有一个网络应用程序，我试图了解添加具有 1GB RAM 的 Memcached 实例与向我的 Postgres 服务器添加 1GB RAM 之间的区别/权衡。如果我添加一个 M
python - 我需要通过将 Python 字典存储在硬盘驱动器而不是 RAM 中来释放 RAM。是否可以？
在我的例子中，我有一个包含大约 6000 个实例化类的字典，其中每个类都有 1000 个属性变量，所有类型都是字符串或字符串列表。当我建立这本字典时，我的 RAM 变得非常高。有没有一种方法可以在将字
c++ - 如果你已经消耗了所有的视频 ram，SDL Texture 会自动使用普通 Ram 吗？
我的问题是:如果您用完了所有可用的视频内存，并尝试创建新纹理 (SDL)，是否会自动使用普通内存而不是视频内存？或者，您是否必须尝试使用使用普通 ram 的表面 (SDL)？如果您出于任何原因无法
c - 当 ram 地址存储为 u32 时从 ram 内存中获取值
我在从 ram 地址获取值时遇到问题。我有一些限制，即它必须是 C 代码，并且存储信息的地址由 u32 值给出，例如 0x001c0080。环境是ARM的，我用的是eclipse sdk。我怎样才
linux - 如果 2GB RAM 可以使用虚拟内存完成工作，则需要 8GB RAM
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
c - 区域 ram 溢出，section .text 不适合区域 ram
我正在尝试使用 GCC 编译器(标准 C)编译裸机应用程序。我使用 Cyclone V SoC 和 Cortex-A9 处理器。 eclipse DS-5。我收到这些错误 - “Region ram
python - 如果 RAM 不是问题，是逐行读取更快还是将所有内容读入 RAM 并访问它？ - Python
如果 RAM 不是问题(我的服务器上有接近 200GB)，是逐行读取更快还是将所有内容读入 RAM 并访问它？每行将是大约 200-500 个 unicode 字符的字符串。每个文件有近 200 万行
大 RAM 机器上的 pandas 内存错误但小 RAM 机器上没有 : same code, 相同的数据
我在我的两台机器上运行以下命令: import os, sqlite3 import pandas as pd from feat_transform import filter_anevexp db
c++ - 将数组从 RAM 复制到 GPU 以及从 GPU 复制到 RAM
我正在尝试在我的一个项目中引入一些 CUDA 优化。但我认为我在这里做错了什么。我想实现一个简单的矩阵 vector 乘法 (result = matrix * vector)。但是当我想将结果复制回
c++ - 为什么我的程序设计为耗尽 RAM 和 CPU 而没有使用所有 RAM 和 CPU？
#include #include #include #include #include #include using namespace std; char randomLetter()

首页

博学

6Ren·AI

商城

python - 6.5 GB 文件上的 Pandas read_csv 消耗超过 170GB RAM

你的例子的问题。

对象数据类型的问题。

您的示例的解决方法。

更多关于如何与数据类型相关的信息