gpt4 book ai didi

apache-spark - 从缓存中删除 Spark 数据帧

转载 作者:行者123 更新时间:2023-12-03 07:27:06 25 4
gpt4 key购买 nike

我正在使用 Spark 1.3.0 和 python api。在转换巨大的数据帧时,我缓存了许多 DF 以加快执行速度;

df1.cache()
df2.cache()

一旦某些数据帧的使用结束并且不再需要,我如何从内存中删除 DF(或取消缓存它??)?

例如,df1 在整个代码中使用,而 df2 用于很少的转换,之后就不再需要它了。我想强制删除 df2 以释放更多内存空间。

最佳答案

只需执行以下操作:

df1.unpersist()
df2.unpersist()

Spark automatically monitors cache usage on each node and drops out old data partitions in a least-recently-used (LRU) fashion. If you would like to manually remove an RDD instead of waiting for it to fall out of the cache, use the RDD.unpersist() method.

关于apache-spark - 从缓存中删除 Spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32218769/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com