gpt4 book ai didi

dask - 当计算速度比分布式 dask 中的传输速度快时,如何复制数据?

转载 作者:行者123 更新时间:2023-12-01 05:53:58 31 4
gpt4 key购买 nike

我有一个较大的对象(150 MB),我需要将它广播给所有 dask 分布式工作人员,以便它可以在 future 的任务中使用。我尝试了几种方法:

  • Client.scatter(broadcast=True) :这需要从一台机器(我在其中运行客户端和调度程序)发送所有数据,这会造成带宽瓶颈。
  • Client.submit其次是 Client.replicate :这些工作人员共享一个文件系统,因此我可以安排加载数据的任务,然后将数据复制到所有工作人员,而不是发送数据。这似乎使用树策略来分发数据,这比之前的选项更快。

  • 但是,强制每个工作人员在本地运行加载数据功能可能会更快,而不是在一个工作人员上加载数据并将其序列化到工作人员之间。有没有办法做到这一点? Client.run似乎是我想要的一部分,但我需要为加载的数据取回一个 future ,我可以稍后将其传递给其他任务。

    最佳答案

    这里的简短回答是“不”,没有直接的方法可以做到这一点。如果您习惯使用内部代码(可能会在没有警告的情况下更改),则可以将某些东西一起破解。

    另一种方法是定义对象如何序列化的计算行为,然后在反序列化代码中再次调用该函数。

    关于dask - 当计算速度比分布式 dask 中的传输速度快时,如何复制数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51027287/

    31 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com