python - 即使有 block ，Dask 也会耗尽内存-6ren

python - 即使有 block ，Dask 也会耗尽内存

转载作者：行者123 更新时间：2023-12-02 03:01:31

25

4

我正在处理大型 CSV 文件，我需要制作笛卡尔积(合并操作)。由于内存错误，我尝试用 Pandas 解决问题(您可以查看 Panda 的代码和数据格式示例对于相同的问题，here)但没有成功。现在，我正在尝试使用 Dask，它应该可以管理巨大的数据集，即使它的大小大于可用的 RAM。

首先我阅读了两个 CSV:

from dask import dataframe as dd

BLOCKSIZE = 64000000  # = 64 Mb chunks


df1_file_path = './mRNA_TCGA_breast.csv'
df2_file_path = './miRNA_TCGA_breast.csv'

# Gets Dataframes
df1 = dd.read_csv(
    df1_file_path,
    delimiter='\t',
    blocksize=BLOCKSIZE
)
first_column = df1.columns.values[0]
df1.set_index(first_column)
df2 = dd.read_csv(
    df2_file_path,
    delimiter='\t',
    blocksize=BLOCKSIZE
)
first_column = df2.columns.values[0]
df2.set_index(first_column)

# Filter common columns
common_columns = df1.columns.intersection(df2.columns)
df1 = df1[common_columns]
df2 = df2[common_columns]

然后，我将操作存储在磁盘上以防止内存错误:

# Computes a Cartesian product
df1['_tmpkey'] = 1
df2['_tmpkey'] = 1

# Neither of these two options work
# df1.merge(df2, on='_tmpkey').drop('_tmpkey', axis=1).to_hdf('/tmp/merge.*.hdf', key='/merge_data')
# df1.merge(df2, on='_tmpkey').drop('_tmpkey', axis=1).to_parquet('/tmp/')

我做了 a repo to try with exactly the same CSV files that I'm using .我试过使用较小的 blocksize 值，但我得到了同样的错误。我错过了什么吗？非常感谢任何形式的帮助。

最佳答案

我使用以下方法成功运行了您的代码，内存限制为 32GB。

我去掉了参数 BLOCKSIZE 并在 df1 和 df2 上使用了 repartition。

df1 = df1.repartition(npartitions=50)
df2 = df2.repartition(npartitions=1)

请注意，与 df1 相比，df2 的大小确实更小(2.5 MB 对 23.75 MB)，这就是为什么我只为 df2 保留一个分区并进行剪切的原因df1 分为 50 个分区。

这样做应该能让代码为您所用。对我来说，使用的内存保持在 12GB 以下。

为了检查，我计算了结果的长度:

len(df) # 3001995

按照上面的内容创建一个包含 50 个分区的 parquet 文件。您可以再次使用 repartition 来获得您想要的 partition_size。

注意:

添加这个应该会加速你的代码:

from dask.distributed import Client
client = Client()

在我的例子中，由于我的运行环境，我不得不使用参数 Client(processes=False)。

关于python - 即使有 block ，Dask 也会耗尽内存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59865572/

25

4

0

文章推荐： python - 具有不等组的 Pandas 条形图

文章推荐： c++ - 访问 vector vector 元素时出现段错误

文章推荐： python - 如何使用pyqt4创建圆形图像？

文章推荐： java - 如何初始化 JAX-RS HttpHeader

Azure SNAT 耗尽 - 我如何知道它何时发生？
我们认为 Cloud Foundry 中的一组虚拟机存在 Azure SNAT 耗尽问题。这些机器不经过负载平衡器。我已经浏览过这份文件: https://learn.microsoft.com/e
java - GLES2 TouchEventPool 耗尽
我正在使用 onSceneTouchEvent 在 TMX map 上移动玩家: @Override public Scene onCreateScene() { ...
Python 子进程引用导致 fd 耗尽
关于这篇文章:Python del Statement , 我最近遇到了以下片段: # custom_process.py import threading import subprocess myL
python - 保留文件描述符以防止 FD 耗尽
我有一个具有多个线程的 python 应用程序，其中线程 2 到 n 可能会打开任意数量的文件。我想确保当线程 1 尝试打开文件时，它绝对不会因为文件描述符耗尽而失败。简而言之，我想保留文件描述符而不
c# 多线程应用程序中的 TCP 耗尽
我开发了一个 c# .net 4 应用程序，它每天对组织中的每台计算机(超过 70,000 台)执行 WMI 查询。由于与此线程无关的原因，我无法从服务器运行该应用程序，而是从我的 Windows X
python - pytorch 耗尽 GPU 内存
我正在尝试在 pytorch 中实现 Yolo-v2。但是，我似乎只是通过网络传递数据而耗尽了内存。该模型很大，如下所示。但是，我觉得我在用我的网络做一些愚蠢的事情(比如不在某处释放内存)。网络在 c
android - 如何在 Android 中进行应用程序明智的电池使用/耗尽
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
Python Postgres psycopg2 ThreadedConnectionPool 耗尽
我在这里查看了几个与“太多客户”相关的主题，但仍然无法解决我的问题，所以我必须针对我的具体情况再次询问。基本上，我设置了本地 Postgres 服务器并需要进行数万次查询，所以我使用了 Python
c++ - 耗尽 std::random_device 的熵
我正在使用 std::random_device 并想检查它的剩余熵。根据 cppreference.com: std::random_device::entropy double entropy()
macos - docker 卷上的 inode 耗尽
我有以下 docker-compos.yml 文件: web: build: . ports: - "4200:4200" - "35729:35729" vo
linux - Linux 中的进程 ID 耗尽
如果 Linux 操作系统用完进程 ID 会怎样？是否会删除较旧的进程以释放空间以适应 future 的请求？最佳答案我假设您问的是达到进程限制时会发生什么。在这种情况下，系统不允许创建新进程，直
azure-sql-database - 创建新索引时防止 DTU 耗尽
我们将 Azure SQL 用作单个数据库并在 DTU 定价模型下使用。我们有一个包含约 50M 条记录的表，我们想在单个字符串属性上添加一个新的非聚集索引。问题是这是一个生产数据库。如果我使用简单
c# - Azure 服务总线监听器打开太多 TCP 连接(耗尽)
我们有多个服务总线监听器在应用服务内作为连续的 Azure Webjobs 运行。总共有 12 个监听器 Web 作业在同一个 S1 应用服务计划上运行。环境很小，每天总共大约有~1000-10000
Azure WebApp SNAT 耗尽 - 私有(private)终结点能否改进
Der Azure 网络专家，我们的 Web 应用程序经常耗尽出站 TCP 连接。大多数出站连接实际上是 Azure 内部连接(SQL、BlobStore、后端服务)。但我们还没有虚拟网络和专用端点
c++ - 为什么需要 sleep(1) 来让 socket 耗尽？
我下载了一个简单的静态网络服务器的源代码 http://www.ibm.com/developerworks/systems/library/es-nweb/sidefile1.html 但是，我对第
ruby-on-rails - Rails Puma 耗尽 Redis 连接
我已经查看了有关 SO 的其他类似问题，但无法很好地将所有内容拼凑在一起。我有一个 Rails 应用程序(在 Heroku 上)，它使用具有多进程和多线程的 Puma。我的应用程序还使用 Redis
go - 为什么 request.ParseForm() 耗尽 request.Body？
在此代码中，如果我对 ParseForm() 调用进行注释，请求将按预期工作 package main import ( "fmt" "net/http" "net/url"
PHPExcel 耗尽 256、512 和 1024MB RAM
我不明白。 XSLX 表大约有 3MB 大，但即使是 1024MB 的 RAM 也不足以让 PHPExcel 将其加载到内存中吗？我这里可能做错了什么: function ReadXlsxTable
spring-integration - 使用 WebSphere MQ 耗尽 JMS 连接
我已配置 CachingConnectionFactory包装了一个 MQTopicConnectionFactory和 MQQueueConnectionFactory每个缓存大小设置为 10。这
php - 为什么 PHP Allowed memory size of 134217728 bytes 耗尽？
我正在检查 CodeEval 中的一些问题并在 PHP 中遇到这个奇怪的错误。我没有用其他语言遇到过这样的事情，所以我不知道为什么会发生这种情况。不包括整个答案(请不要帮我找到解决方案，除了 PHP

首页

博学

6Ren·AI

商城

python - 即使有 block ，Dask 也会耗尽内存