gpt4 book ai didi

apache-spark -/work/app-xxxxxxx/{0, 1, 2, ...} 中的 spark worker 目录和定期清理的目的

转载 作者:行者123 更新时间:2023-12-04 15:14:03 26 4
gpt4 key购买 nike

我正在运行 Spark 3.4 长时间运行的结构化流作业。每当作业开始时,形式为 的应用程序目录app-xxxxxxxxxx 中的作业创建工作目录。但是,在该目录中,会创建其他目录,第一个目录名为 0 ,第二个名为 1 等等。
我的第一个问题是,为什么要创建这些目录?在结构化流作业的过程中,微批处理可能会被触发 20 次,但只有 下的 4 个子目录。 app-xxxxxxxxxx 目录被创建,重点是这些子目录的创建并不对应于微批处理的执行。所以,我不确定为什么要创建它们。
我的第二个相关问题是,如何配置 Spark 以在一定时间后删除这些文件夹?每个都包含应用程序 .jar、stderr 和 stdout 文件,因此随着时间的推移,它们会占用大量空间。我的理解是设置 spark.worker.cleanup.enabled=true只为停止的应用程序启用清理。但是,就我而言,我有一个长时间运行的应用程序,我想为其启用清理。

最佳答案

您正在谈论工作目录和配置 spark.worker,所以我的假设是您正在 Spark 的独立模式下运行流式作业(不使用集群管理器,如 YARN,因为那里的情况完全不同)。
根据 Spark Standalone Mode 上的文档工作目录描述为:运行应用程序的目录,其中包括日志和暂存空间(默认:SPARK_HOME/work)。
这里的暂存空间意味着它“包括存储在磁盘上的映射输出文件和 RDD。这应该在系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。”
在工作文件夹中,您会为每个应用程序找到 .jar 库,以便执行程序可以访问这些库。此外,它还包含一些基于处理逻辑和实际数据(而不是处理触发器的数量)的临时数据。子文件夹 0、1 是针对同一应用程序的不同作业/阶段或运行而增加的。 (坦率地说,我并不完全了解这些子文件夹。)
这个文件夹的清理可以通过以下三个配置为SPARK_WORKER_OPTS进行调整如所述 here :

spark.worker.cleanup.enabled - Default: false:Enable periodic cleanup of worker / application directories. Note that this only affects standalone mode, as YARN works differently. Only the directories of stopped applications are cleaned up. This should be enabled if spark.shuffle.service.db.enabled is "true"

spark.worker.cleanup.interval - Default: 1800 (30 minutes):Controls the interval, in seconds, at which the worker cleans up old application work dirs on the local machine.

spark.worker.cleanup.appDataTtl - Default: 604800 (7 days, 7 * 24 * 3600):The number of seconds to retain application work directories on each worker. This is a Time To Live and should depend on the amount of available disk space you have. Application logs and jars are downloaded to each application work dir. Over time, the work dirs can quickly fill up disk space, especially if you run jobs very frequently.

关于apache-spark -/work/app-xxxxxxx/{0, 1, 2, ...} 中的 spark worker 目录和定期清理的目的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64666764/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com