gpt4 book ai didi

apache-spark - Spark 总是删除 RDD

转载 作者:行者123 更新时间:2023-12-04 04:42:45 25 4
gpt4 key购买 nike

我已经停止向 Spark 提供数据,但我仍然可以看到 Spark 正在删除 RDD,如下所示:

15/07/30 10:03:10 INFO BlockManager: Removing RDD 136661
15/07/30 10:03:10 INFO BlockManager: Removing RDD 136662
15/07/30 10:03:10 INFO BlockManager: Removing RDD 136664
15/07/30 10:03:10 INFO BlockManager: Removing RDD 136663

我很困惑为什么 spark 在没有生成新数据和 RDD 的情况下继续删除 RDD。

最佳答案

您可能已经知道,Spark 使用 LRU 算法管理持久化 RDD。尽管您没有添加更多数据,但 Spark 完全有可能删除这些 RDD,因为它们已经超出 Spark 应用程序(作业)的范围或只是“太旧了”。

缓存 RDD 的生命周期由 TimeStampedWeakValueHashMap 管理.基本上,如果 RDD 的时间戳早于特定阈值,则在调用 clearOldValues() 时将删除 RDD。

你的回答意味着你想确保这些 RDD 没有被删除,所以你可能想看看 persisting your Spark data directly into Cassandra因为他们一起玩得很好。

关于apache-spark - Spark 总是删除 RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31730284/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com