gpt4 book ai didi

dask - dask 数据帧的延迟重新分区

转载 作者:行者123 更新时间:2023-12-01 15:19:00 28 4
gpt4 key购买 nike

在延迟数据帧处理的几个阶段之后,我需要在保存数据帧之前对其进行重新分区。但是,.repartition() 方法要求我知道分区的数量(而不是分区的大小),这取决于处理后数据的大小,这是未知的。

我想我可以通过 df.memory_usage().sum() 来延迟计算大小,但是 repartition() 似乎不接受它(标量)作为一个论点。

有没有办法进行这种自适应(基于数据大小)的惰性重新分区?

附言。由于这是我管道中的(几乎)最后一步,我可能可以通过转换为延迟和“手动”重新分区来解决这个问题(我不需要返回到数据帧),但我正在寻找一种更简单的方法做这个。

附言。按分区大小重新分区也是一个非常有用的功能

最佳答案

不幸的是,Dask 的任务图构建是立即发生的,并且无法以分区数量无法立即获知或延迟计算的方式进行分区(或执行任何操作)。

您可以像您建议的那样切换到较低级别的系统,例如 delayed。在这种情况下,我会切换到使用 futures并跟踪结果的大小,即时触发适当的分区合并。不过,这可能比预期的要复杂得多。

关于dask - dask 数据帧的延迟重新分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46360479/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com