gpt4 book ai didi

python - 如何将数据框重新分区为固定大小的分区?

转载 作者:太空狗 更新时间:2023-10-30 02:55:18 27 4
gpt4 key购买 nike

我有一个由延迟函数创建的 dask 数据框,它由随机大小的分区组成。我想将数据帧重新划分为大小(大约)10000 的 block 。

我可以使用 np.ceil(df.size/10000) 计算出正确的分区数,但这似乎可以立即计算出结果?

IIUC 要计算结果,它必须将所有数据帧读入内存,这将是非常低效的。相反,我想将整个操作指定为要提交给分布式调度程序的 dask 图,因此不应在本地进行任何计算。

是否有某种方法可以指定 npartitions 而无需立即计算所有底层延迟函数?

最佳答案

简短的回答可能是“不,如果不查看数据就无法做到这一点”。这里的原因是图的结构取决于惰性分区的值。例如,根据您的总数据量,我们将在图中使用不同数量的节点。

关于python - 如何将数据框重新分区为固定大小的分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42849572/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com