gpt4 book ai didi

python - 删除 Dask 中的空分区

转载 作者:行者123 更新时间:2023-11-28 22:22:14 34 4
gpt4 key购买 nike

从 CSV 加载数据时,无法加载某些 CSV,导致分区为空。我想删除所有空分区,因为某些方法似乎不适用于空分区。我已尝试重新分区,其中(例如)repartition(npartitions=10) 有效,但大于此值的值仍会导致分区为空。

实现此目标的最佳方法是什么?谢谢。

最佳答案

我发现按日期过滤 Dask 数据帧通常会导致空分区。如果您在使用具有空分区的数据框时遇到问题,可以根据 MRocklin 的指导使用以下函数来剔除它们:

def cull_empty_partitions(df):
ll = list(df.map_partitions(len).compute())
df_delayed = df.to_delayed()
df_delayed_new = list()
pempty = None
for ix, n in enumerate(ll):
if 0 == n:
pempty = df.get_partition(ix)
else:
df_delayed_new.append(df_delayed[ix])
if pempty is not None:
df = dd.from_delayed(df_delayed_new, meta=pempty)
return df

关于python - 删除 Dask 中的空分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47812785/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com