gpt4 book ai didi

python - 如何从 pyspark 删除数据帧来管理内存?

转载 作者:行者123 更新时间:2023-11-30 22:05:15 26 4
gpt4 key购买 nike

我列出了我的数据帧以删除未使用的数据帧。首先,我使用下面的函数列出我从一篇文章中找到的数据帧

from pyspark.sql import DataFrame

def list_dataframes():

return [k for (k, v) in globals().items() if isinstance(v, DataFrame)]

然后我尝试从列表中删除未使用的内容。我在下面使用的代码

df2.unpersist()

当我再次列出时,df2 仍然存在。如何删除数据帧以在 pyspark 上拥有一些内存?或者您还有其他建议吗?谢谢。

最佳答案

如果您使用的是最新或较旧的 Spark,您可以使用 df.unpersist() 来实现相同的效果,但旧版本有一个错误,该错误已在 Spark 的最新版本(2.3.2)中修复,该错误不会更新存储内存统计数据它可以工作,但不会更新统计数据,因此我请求您在最新的 Spark 上运行它以查看统计数据差异

请参阅以下链接了解更多信息

unpersist() issue

ReleaseNote for 2.3.2

如果有用,请批准答案。

关于python - 如何从 pyspark 删除数据帧来管理内存?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53072838/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com