gpt4 book ai didi

python - 我如何检查在 Dask 上调用计算是否安全?

转载 作者:太空宇宙 更新时间:2023-11-04 00:20:01 24 4
gpt4 key购买 nike

当前我的 PC 在尝试计算整个列的 log1p 时卡住,这是一个大型数据集(4GB ~ 1.25 亿行),当我运行此命令时:

df_train = dd.read_csv('data/train.csv')
s = df_train.unit_sales.map_partitions(np.log1p)
s.compute()

那么,我如何才能知道计算函数是否安全?

最佳答案

请注意,当您调用 .compute() 时,您正在将惰性 Dask 数据帧转换为内存中的 Pandas 数据帧。您的结果(在本例中为 s.compute())应该很适合内存。如果您愿意,可以调用 s.memory_usage().compute() 来查看计算结果的大小。

相反,通常只计算小结果或使用 .to_csv().to_parquet() 等方法将大结果写回磁盘。如果您在集群上并且想要使用分布式内存,那么您可能想要使用 persist 而不是 compute

关于python - 我如何检查在 Dask 上调用计算是否安全?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49475930/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com