gpt4 book ai didi

python - 将 dask dataframe 保存到 csv 并在不计算两次的情况下找出其长度

转载 作者:行者123 更新时间:2023-12-01 09:44:48 34 4
gpt4 key购买 nike

说,我有一些 dask 数据框。我想用它做一些操作,而不是保存到 csv 并打印它的长度。

据我所知,下面的代码会让 dask 计算 df 两次,对吗?

df = dd.read_csv('path/to/file', dtype=some_dtypes)
#some operations...
df.to_csv("path/to/out/*")
print(len(df))

有可能避免计算两次吗?

更新。这就是我使用@mdurant 的解决方案时发生的情况 enter image description here

但实际上行数几乎减少了 6 倍

enter image description here

最佳答案

是的,您可以做到这一点。可选关键字 compute=to_csv 以制作写入磁盘过程的惰性版本,以及 df.size,类似于len(),但也是惰性计算的。

import dask
futs = df.to_csv("path/to/out/*", compute=False)
_, l = dask.compute(futs, df.size)

这将注意到写入和长度所需的共同工作,而不必两次读取数据。

关于python - 将 dask dataframe 保存到 csv 并在不计算两次的情况下找出其长度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51594400/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com