gpt4 book ai didi

dask - 如何在多台机器上运行dask?

转载 作者:行者123 更新时间:2023-12-01 15:30:10 25 4
gpt4 key购买 nike

<分区>

我最近找到了 Dask。我有一些关于 Dask Dataframe 和其他数据结构的非常基本的问题。

  1. Dask Dataframe 是不可变数据类型吗?
  2. Dask数组和Dataframe是惰性数据结构吗?

我不知道我的情况是使用 dask 还是 spark 或 pandas。我有 200 GB 的数据要计算。使用普通 python 程序计算操作需要 9 个小时。但是利用16核处理器可以在更短的时间内并行处理。如果我在 pandas 中拆分数据框,我需要担心计算的交换和关联属性。另一方面,我可以使用独立的 spark 集群来拆分数据并并行运行。

我是否需要像 Spark 一样在 Dask 中设置任何集群?
如何在我自己的计算节点上运行 Dask dataframes?
Dask 需要设置主从吗?

我是 pandas 的粉丝,所以我正在寻找类似于 pandas 的解决方案。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com