gpt4 book ai didi

python - Dask 读取 csv 与 pandas 读取 csv

转载 作者:行者123 更新时间:2023-11-28 20:56:19 38 4
gpt4 key购买 nike

我有以下问题。我有一个巨大的 csv 文件,想用多处理加载它。对于一个包含 500000 行和 130 列不同数据类型的示例文件,Pandas 需要 19 秒。我试过 dask 因为我想多处理阅读。但这需要更长的时间,我想知道为什么。我有 32 个内核。并试过这个:

import dask.dataframe as dd
import dask.multiprocessing
dask.config.set(scheduler='processes')
df = dd.read_csv(filepath,
sep='\t',
blocksize=1000000,
)
df = df.compute(scheduler='processes') # convert to pandas

最佳答案

当从磁盘读取一个巨大的文件时,瓶颈是IO。由于 Pandas 使用 C 解析引擎进行了高度优化,因此几乎没有什么好处。任何使用多处理或多线程的尝试都可能会降低性能,因为您将花费相同的时间从磁盘加载数据,并且只会增加一些用于同步不同进程或线程的开销。

关于python - Dask 读取 csv 与 pandas 读取 csv,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54823577/

38 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com