- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在运行 Spark 3.4 长时间运行的结构化流作业。每当作业开始时,形式为 的应用程序目录app-xxxxxxxxxx 为 中的作业创建工作目录。但是,在该目录中,会创建其他目录,第一个目录名为 0 ,第二个名为 1 等等。
我的第一个问题是,为什么要创建这些目录?在结构化流作业的过程中,微批处理可能会被触发 20 次,但只有 下的 4 个子目录。 app-xxxxxxxxxx 目录被创建,重点是这些子目录的创建并不对应于微批处理的执行。所以,我不确定为什么要创建它们。
我的第二个相关问题是,如何配置 Spark 以在一定时间后删除这些文件夹?每个都包含应用程序 .jar、stderr 和 stdout 文件,因此随着时间的推移,它们会占用大量空间。我的理解是设置 spark.worker.cleanup.enabled=true
只为停止的应用程序启用清理。但是,就我而言,我有一个长时间运行的应用程序,我想为其启用清理。
最佳答案
您正在谈论工作目录和配置 spark.worker,所以我的假设是您正在 Spark 的独立模式下运行流式作业(不使用集群管理器,如 YARN,因为那里的情况完全不同)。
根据 Spark Standalone Mode 上的文档工作目录描述为:运行应用程序的目录,其中包括日志和暂存空间(默认:SPARK_HOME/work)。
这里的暂存空间意味着它“包括存储在磁盘上的映射输出文件和 RDD。这应该在系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。”
在工作文件夹中,您会为每个应用程序找到 .jar 库,以便执行程序可以访问这些库。此外,它还包含一些基于处理逻辑和实际数据(而不是处理触发器的数量)的临时数据。子文件夹 0、1 是针对同一应用程序的不同作业/阶段或运行而增加的。 (坦率地说,我并不完全了解这些子文件夹。)
这个文件夹的清理可以通过以下三个配置为SPARK_WORKER_OPTS
进行调整如所述 here :
spark.worker.cleanup.enabled - Default:
false
:Enable periodic cleanup of worker / application directories. Note that this only affects standalone mode, as YARN works differently. Only the directories of stopped applications are cleaned up. This should be enabled if spark.shuffle.service.db.enabled is "true"spark.worker.cleanup.interval - Default:
1800
(30 minutes):Controls the interval, in seconds, at which the worker cleans up old application work dirs on the local machine.spark.worker.cleanup.appDataTtl - Default:
604800
(7 days, 7 * 24 * 3600):The number of seconds to retain application work directories on each worker. This is a Time To Live and should depend on the amount of available disk space you have. Application logs and jars are downloaded to each application work dir. Over time, the work dirs can quickly fill up disk space, especially if you run jobs very frequently.
关于apache-spark -/work/app-xxxxxxx/{0, 1, 2, ...} 中的 spark worker 目录和定期清理的目的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64666764/
如果一个域有多个团队和多个 Web 应用程序,那么注册 Service Worker 来管理整个站点的最佳建议是什么?具有范围的顶级服务 worker /或子域中的多个服务 worker ?由于一个域
我开发了一个应用程序来分析播放 YouTube 视频时的网络流量。它使用 chrome.webRequest,我使用 onHeadersReceived 事件计算流量。 我想使用 service wo
假设我提供了不同网站使用的推送通知服务。此服务需要在我的客户站点上安装服务 worker 。我希望架构具有一些属性: 完全静态资源。安装service worker文件和配置JS片段等过程只需要完成一
我要缓存某人网站中的特定请求 ,那么我发现 service worker 是一个不错的选择。但我找不到任何方法 通过 tampermonkey 注入(inject)一个 service worker
当 Service Worker 更新时,它不会以正确的方式控制页面;它进入“等待”状态,等待被激活。 令人惊讶的是,更新后的 Service Worker 甚至在刷新页面后都无法控制选项卡。谷歌解释
有谁知道是否有办法在 service worker 中获取此号码或日期: 将我的服务 worker 缓存命名为 cache-1182 会很方便或 cache-20171127171448 我想在安装事
这link说: Workers may spawn more workers if they wish. So-called sub-workers must be hosted within the
有许多关于使用 ngsw-worker.js 安装 ServiceWorker 的分步指南;然而,甚至没有关于使用 safety-worker.js 卸载 ServiceWorker 的分步指南。 s
我正在尝试为我的网站使用后台定期同步。我正在使用 localhost 并在 1*1000 毫秒时注册 periodicsync 事件,但这根本不会触发。 我看过这个demo ,但即使我将该网站安装为应
我试图让用户安排一个周期性任务。我还在一个容器中运行多个 celery worker 。我对该容器的命令过去是这样的: celery worker -c 4 -B -l INFO -A my.cele
从我所看到的,你甚至可以缓存一个网页。根据此文档:https://www.mnot.net/cache_docs/#BROWSER ,表示可以缓存在浏览器缓存中。我看到即使是 serviceworke
我只是在测试 Service Worker 的功能以了解其工作原理。所以现在我遇到了一个问题。 var CACHE_NAME = 'my-site-cache-v1'; var urlsToCache
下图显示安装了两名工作人员 - 一名处于事件状态,另一名未处于事件状态(刚刚安装)。 注册 service worker 更改 service-worker.js并重新加载页面。 逻辑是 Servic
我正在尝试学习渐进式 Web 应用程序的一些基础知识,并且在我阅读的其中一篇教程中学习 [在安装了 service worker 并且用户导航到不同的页面或刷新后,service worker 将开始
我正在开发一个应用程序,其目标是定期(例如每小时)向用户发送通知。 我的想法是使用一个可以在选项卡关闭后运行的服务 worker ,并继续向用户发送这些通知。 网页需要能够与 Service Work
我正在尝试为一个简单但旧的 Django Web 应用程序安装 ServiceWorker。我开始使用示例 read-through caching example from the Chrome t
在我们开发的情况下,我们提供来自 https://localhost 的文件因为该应用程序托管在 salesforce.com 中。在 chrome service worker 中,chrome 会
我是服务人员的新手,并且浏览了各种文档(Google,Mozilla,serviceworke.rs,Github,StackOverflow questions)。最有用的是ServiceWorke
我正在解决一个问题,我有一组“热情的 worker ”。这意味着它们被维护在内存中,维护自己的上下文并且是可调用的。我一直在研究各种 Go Worker 实现,但都依赖于闭包或返回结果的简单计算函数。
我有一个部署到静态服务器的非根路径的网络应用程序。即MyApp构建时部署到路径/文件夹 https://example.com/myapp . MyApp正在使用 vue 和 webpack 所以我添
我是一名优秀的程序员,十分优秀!