gpt4 book ai didi

python - 计数没有。使用 dask 的大型 Parquet 文件中的行数没有内存错误

转载 作者:行者123 更新时间:2023-12-05 07:11:00 24 4
gpt4 key购买 nike

我有 20 个 parquet 文件,每个文件大小约为 5GB。我想数没有。整个数据集中的记录数。

我有当前代码:

from dask.distributed import Client, LocalCluster

cluster = LocalCluster(n_workers=8, threads_per_worker=1)
client = Client(cluster)

import dask.dataframe as dd

df = dd.read_parquet("s3://bucket/2020_03_31/*.parquet", columns=['id'], chunksize="1000MB")
df.count().compute()

但是代码挂起并抛出内存不足错误。我的机器有 16 个内核和 64gb 内存。

编辑:

按照要求,我删除了 chunksize 参数,但输出仍然挂起。甚至诊断页面也会停止加载。我没有遇到内存不足错误,但我不知道发生了什么。

# Output hangs
df = dd.read_parquet("s3://bucket/2020_03_31/*.parquet", columns=['id'])

最佳答案

我建议删除 chunksize 参数。通过这样做,您要求 Dask 将许多行组聚合到单个任务中,这可能会淹没您的内存。

关于python - 计数没有。使用 dask 的大型 Parquet 文件中的行数没有内存错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60973662/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com