gpt4 book ai didi

Dask Distributed - 相同的持久数据多个客户端

转载 作者:行者123 更新时间:2023-12-04 17:37:44 26 4
gpt4 key购买 nike

我们正在尝试使用 Dask Distributed 为前端进行一些繁重的计算和可视化。

现在我们有一个使用 gunicorn 的工作人员连接到现有的分布式 Dask 集群,工作人员使用 read_csv 上传当前数据并持久化到集群中。

我试过使用 pickle 从持久数据帧中保存 future ,但它不起作用。

我们希望有多个 gunicorn worker,每个都有不同的客户端连接到同一个集群并使用相同的数据,但是如果有更多的 worker,每个 worker 都会上传一个新的数据帧。

最佳答案

听起来您正在寻找 Dask 的 publish datasets 能力

一个方便的方法是使用 client.datasets 映射

客户端 1

client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df

客户端 2..n

client = Client('...')  # same scheduler
df = client.datasets['my-data']

关于Dask Distributed - 相同的持久数据多个客户端,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56016553/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com