gpt4 book ai didi

dask - 如何使用Dask使用所有CPU核心?

转载 作者:行者123 更新时间:2023-12-01 22:29:48 24 4
gpt4 key购买 nike

我有一个包含超过 35000 行的 pandas 系列。我想使用 dask 使其更有效率。但是,我的 dask 代码和 pandas 代码都花费相同的时间。最初“ser”是pandas系列,fun1fun2是在系列的各个行中执行模式匹配的基本函数。

Pandas :

ser = ser.apply(fun1).apply(fun2)

达克:

ser = dd.from_pandas(ser, npartitions = 16)
ser = ser.apply(fun1).apply(fun2)

在检查CPU核心的状态时,我发现并非所有核心都在使用。只有一个核心已适应 100%。

是否有任何方法可以使用 dask 使系列代码更快,或者在串行执行 Dask 操作时利用 cpu 的所有核心?

最佳答案

参见http://dask.pydata.org/en/latest/scheduler-overview.html

您调用的函数很可能是纯 python 的,因此需要 GIL,该锁确保线程内一次只执行一个 python 指令。在这种情况下,您需要在单独的进程中运行函数才能看到并行性。您可以使用多进程调度程序来做到这一点

ser = ser.apply(fun1).apply(fun2).compute(scheduler='processes')

或者使用分布式调度程序(它在单台机器上运行良好,并且实际上具有一些下一代优势,例如状态仪表板);在最简单的默认情况下,创建一个客户端就足够了:

client = dask.distributed.Client()

但你应该阅读the docs

关于dask - 如何使用Dask使用所有CPU核心?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51212688/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com