gpt4 book ai didi

dask - 使用 Dask 中的所有内核

转载 作者:行者123 更新时间:2023-12-04 21:34:15 25 4
gpt4 key购买 nike

我正在使用 24 个 vCPU 的谷歌云计算实例。运行代码如下

import dask.dataframe as dd
from distributed import Client
client = Client()

#read data
logd = (dd.read_csv('vol/800000test', sep='\t', parse_dates=['Date'])
.set_index('idHttp')
.rename(columns={'User Agent Type':'UA'})
.categorize())

当我运行它时(这也是我在加载数据后进行的后验数据分析的情况)我看到使用了 11 个内核,有时是 4 个。

enter image description here

有什么办法可以更好地控制这个,充分利用内核吗?

最佳答案

read_csv 将根据 chunksize 参数将您的文件分成块,每个输入文件至少一个块。您只读取了一个文件,而且您似乎获得了四个分区(即大小 < 4 * 64MB)。这对于数据量来说可能是合理的,而许多小任务的额外并行化可能只会增加开销。

不过,您可以更改 blocksize 参数并查看它对您有什么不同,或者查看当您传递多个文件时会发生什么,例如,read_csv('vol/*test') .或者,您可以将调用中的分区设置为 set_index .

关于dask - 使用 Dask 中的所有内核,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42655413/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com