gpt4 book ai didi

caching - 为什么 unpersist() 不会从 Azure Databricks 的 pyspark 缓存中删除我的路径?

转载 作者:行者123 更新时间:2023-12-05 05:55:33 25 4
gpt4 key购买 nike

我正在读取特定路径下的 csv 文件:

spark.read.format('csv').load('/mnt/path/')

我正在缓存我的数据框以访问损坏的记录 enter link description here

data_frame.cache()

在笔记本的末尾,我想使用 data_frame.unpersist() 从缓存中删除此路径

然后我正在更改底层数据,例如删除或添加新文件到表路径

但是如果我再次读取 csv,spark.read.format('csv').load('/mnt/path/'),spark 没有最后的更改,它仍然显示缓存的数据

这让我觉得数据框并不是真的未缓存。

解决这个问题的唯一方法是重启集群。

我不想使用 spark.catalog.clearCache(),因为这会影响缓存集群上运行的所有作业。我只想取消缓存当前笔记本中的特定数据帧。

如有任何建议或意见,我们将不胜感激。


编辑:我没有将它分配给我的数据框。看起来之间有区别data_frame = data_frame.unpersist()data_frame.unpersist()

最佳答案

尝试添加设置为 true 的阻塞标志,以便您的计算等待缓存数据真正被删除。

[ def unpersist(blocking: Boolean) ]
data_frame.unpersist(true)

关于caching - 为什么 unpersist() 不会从 Azure Databricks 的 pyspark 缓存中删除我的路径?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69476704/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com