gpt4 book ai didi

apache-spark - Spark Streaming 清理 RDD 检查点目录

转载 作者:行者123 更新时间:2023-12-04 05:02:13 25 4
gpt4 key购买 nike

我们有来自 kafka 的 spark streaming 在 HDFS 服务器中创建检查点并且它没有被清理,现在我们在 HDFS 中有数百万个检查点。有没有办法从 spark 中自动清除它?

Spark 版本 1.6HDFS 2.70

There  are other random directories other than checkpoints which is not been cleared

最佳答案

val conf = new SparkConf().set("spark.cleaner.referenceTracking.cleanCheckpoints", "true")

不应为所有检查点自动完成清理,有必要在 spark 调用中保留它们。由于 Spark Streaming 将中间状态数据集保存为检查点并依赖它们从驱动程序故障中恢复。

关于apache-spark - Spark Streaming 清理 RDD 检查点目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45177019/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com