gpt4 book ai didi

python - 使用 Dask 读取多个文件

转载 作者:太空宇宙 更新时间:2023-11-03 21:43:31 26 4
gpt4 key购买 nike

我正在尝试使用 dask 对 24 个科学数据文件进行简单的并行读取,每个文件约为 250MB,总共约为 6GB。数据采用二维数组格式。它存储在并行文件系统上,并从集群读取,尽管我现在只从单个节点读取。数据的格式类似于HDF5(称为Adios),读取方式类似于h5py包。每个文件的读取时间大约为 4 秒。我正在遵循此处阅读的 skimage 示例( http://docs.dask.org/en/latest/array-creation.html )。然而,无论有多少 worker ,我都没有得到加速。我想也许我用错了,也许仍然只使用 1 个工作人员,但当我分析它时,确实有 24 个工作人员。如何加快读取这些数据的速度? dask_profile

import adios as ad
import numpy as np
import dask.array as da
import dask

bpread = dask.delayed(lambda f: ad.file(f)['data'][...],pure=True)
lazy_datas = [bpread(path) for path in paths]
sample = lazy_datas[0].compute()

#read in data
arrays = [da.from_delayed(lazy_data,dtype=sample.dtype,shape=sample.shape) for lazy_data in lazy_datas]
datas = da.stack(arrays,axis=0)
datas2 = datas.compute(scheduler='processes',num_workers=24)

最佳答案

我建议查看调度程序仪表板的 /profile 选项卡。这将告诉您哪些代码行占用了最多时间。

我的第一个猜测是,您已经最大限度地发挥了磁盘为您提供数据的能力。您不受 CPU 限制,因此添加更多核心没有帮助。但这只是一个猜测,与往常一样,您必须进一步分析和调查您的情况才能确定。

关于python - 使用 Dask 读取多个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52675420/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com