gpt4 book ai didi

apache-spark - Spark临时文件不会自动删除

转载 作者:行者123 更新时间:2023-12-02 20:29:16 27 4
gpt4 key购买 nike

我有 Spark 纱客户端提交作业,执行该操作时,它将在我的“spark.local.dir”下创建一个目录,其中包含以下文件:

__spark_conf__8681611713144350374.zip
__spark_libs__4985837356751625488.zip

有没有办法可以自动清理这些?每当我提交 Spark 作业时,我都会在同一文件夹中再次看到这些条目的新条目。这将淹没我的目录,我应该设置什么以使其自动清除?

即使在SO上,我也查看了几个在线链接,但找不到解决此问题的方法。我发现的是一种通过以下方式指定目录路径的方法
“spark.local.dir”。

最佳答案

存在三个SPARK_WORKER_OPTS以支持工作程序应用程序文件夹清除,在此处复制以供进一步引用:来自Spark Doc

  • spark.worker.cleanup.enabled,默认值为false,启用对工作程序/应用程序目录的定期清理。请注意,这仅影响独立模式,因为YARN的工作原理不同。仅清除已停止应用程序的目录。
  • spark.worker.cleanup.interval,默认值为1800,即30分钟,控制 worker 清理本地计算机上旧应用程序工作目录的间隔(以秒为单位)。
  • spark.worker.cleanup.appDataTtl,默认值为7 * 24 * 3600(7天),每个工作人员上保留应用程序工作目录的秒数。这是生存时间,应取决于您拥有的可用磁盘空间量。应用程序日志和jar将下载到每个应用程序工作目录。随着时间的推移,工作目录会迅速填满磁盘空间,尤其是如果您非常频繁地运行作业时。
  • 关于apache-spark - Spark临时文件不会自动删除,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54452406/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com