- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在试验 Apache Airflow(版本 1.10rc2,使用 python 2.7)并将其部署到 kubernetes、webserver 和调度程序到不同的 pod,并且数据库也在使用 cloud sql,但我们一直面临调度程序内存不足的问题荚。
在 OOM 的时刻,我们只运行了 4 个示例 Dag(大约 20 个任务)。 Pod 的内存为 1Gib。我在其他帖子中看到,一个任务在运行时可能会消耗大约 50Mib 的内存,并且所有任务操作都在内存中,没有任何内容刷新到磁盘,因此已经提供了 1Gb。
是否有任何经验法则可以用来计算基于并行任务的调度程序需要多少内存?
除了降低并行度之外,是否有任何调整可以减少调度程序本身的内存使用?
我认为我们的用例不需要 Dask 或 Celery 为 worker 使用更多机器水平扩展 Airflow。
关于配置的更多细节:executor = Localexecutor
parallelism = 10
dag_concurrency = 5
max_active_runs_per_dag = 2
workers = 1
worker_concurrency = 16
min_file_process_interval = 1
min_file_parsing_loop_time = 5
dag_dir_list_interval = 30
当时运行的 dag 是 example_bash_operator、example_branch_operator、example_python_operator 和我们开发的一个 quickDag。
在某些情况下,所有这些都只是简单的任务/操作符,例如 DummyOperators、BranchOperatos、BashOperators,但只执行 echo 或 sleep 并且 PythonOperators 也只执行 sleep 。总共有大约 40 个任务,但并非所有任务都并行运行,因为其中一些是下游、依赖等,我们的并行度设置为 10,如上所述只有一个工作人员,dag_concurrency
是设置为 5。
我在 Airflow 日志中看不到任何异常,在任务日志中也看不到任何异常。
只运行这些 dag 中的一个,似乎 Airflow 正在相应地工作。
我可以在调度程序 pod 中看到很多调度程序进程,每个进程使用 0.2% 或更多的内存:PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
461384 airflow 20 0 836700 127212 23908 S 36.5 0.4 0:01.19 /usr/bin/python /usr/bin/airflow scheduler 461397 airflow 20 0 356168 86320 5044 R 14.0 0.3 0:00.42 /usr/bin/python /usr/bin/airflow scheduler 44 airflow 20 0 335920 71700 10600 S 28.9 0.2 403:32.05 /usr/bin/python /usr/bin/airflow scheduler 56 airflow 20 0 330548 59164 3524 S 0.0 0.2 0:00.02
这是使用 0.3% 内存运行的任务之一:PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
462042 airflow 20 0 282632 91120 10544 S 1.7 0.3 0:02.66 /usr/bin/python /usr/bin/airflow run example_bash_operator runme_1 2018-08-29T07:39:48.193735+00:00 --local -sd /usr/lib/python2.7/site-packages/apache_airflow-1.10.0-py2.7.egg/airflow/example_dags/example_bash_operator.py
最佳答案
实际上并没有一个简明的经验法则可以遵循,因为它可能会因您的工作流程而异。
如您所见,调度程序将创建多个 fork 进程。此外,每个任务(Dummy 除外)都将在其自己的进程中运行。根据运算符(operator)和它正在处理的数据,每个任务所需的内存量可能会有很大差异。
并行度设置将直接限制在所有 dag 运行/任务中同时运行的任务数量,这对使用 LocalExecutor 的您将产生最显着的效果。您也可以尝试设置 max_threads
下 [scheduler]
到 1。
因此,一个(非常)普遍的经验法则是善待资源:
[256 for scheduler itself] + ( [parallelism] * (100MB + [size of data you'll process]) )
关于Airflow Scheduler 内存不足问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52060390/
有人可以看看我对 Quartz xml 的简单测试(每秒触发一次)并给我一个线索,为什么没有作业被添加到 sheduler 中?基本上我希望每秒触发“SimpleJob”类,我可以确定正在传递哪个作业
我创建了一个 Akka 的调度程序来每天按固定时间发送邮件(例如每天早上 6:00)。那么 Actor 怎么称呼呢?我的意思是我应该使用什么逻辑?谢谢。 最佳答案 只是计算现在和下一个下午 6 点之间
我正在使用 Quartz 调度,更具体地说是一个设置为每周每天晚上 10 点醒来的 cron 触发器。 我接触的另一个小组正在询问调度程序在一天中将唤醒多少次以检查它是否需要运行作业。晚上 10 点作
出现这些错误: 2018-01-22 18:00:59,797 [ServerService Thread Pool -- 79] ERROR org.quartz.ee.servlet.Quartz
出现这些错误: 2018-01-22 18:00:59,797 [ServerService Thread Pool -- 79] ERROR org.quartz.ee.servlet.Quartz
我对 Quartz Scheduler 工作线程有疑问。我创建了一个调度程序任务,它将每 3 小时执行一次。我创建了一份工作和一个触发器。当我执行这个调度程序时,我观察到一个奇怪的行为,同一个作业被分
我正在为我的网络应用程序实现 Quartz 调度程序。 我必须每周安排周一、周二重复 3 周 Quartz Scheduler 中的两种方式, 1)简单触发器: Trigger trigger = n
我正在使用 airbnb 的 Airflow ,我创建了一个简单的任务,如下所示。但是,即使我将间隔设置为每小时或任何其他间隔,调度程序仍会继续运行任务。我注意到的另一件事是,如果我将调度间隔设置为“
嗨,我是 Quartz Scheduler 的新手,我是第一次实现它。我想知道调度程序的开始调用是否会执行暂停的作业?或 暂停的作业只能通过恢复调用而不是其他任何方式来激活。请帮助我。 最佳答案 首先
如果我有一个运行着一堆触发器的 Quartz 调度程序,并且我想清除所有触发器,那么最好如何做到这一点? 我考虑过迭代组和名称,随时调用取消安排,但是当有数千个触发器到位时,这似乎非常慢(取消安排 1
嗨,我是 Quartz Scheduler 的新手,我是第一次实现它。我想知道调度程序的开始调用是否会执行暂停的作业?或 暂停的作业只能通过恢复调用而不是其他任何方式来激活。请帮助我。 最佳答案 首先
我在这里遇到了很多问题。我使用 ocLazyLoader 来加载完整的日历并且它运行良好,但是每当我尝试包含 fullCalendar-scheduler 时我在 JavaScript 中遇到这个错误
我最近在 Tardos 和 Kleinberg 的算法设计的第 4 章中阅读了有关间隔调度算法的内容。为间隔调度问题提供的解决方案是这样的: Sort the n intervals based on
如果一个进程被硬件中断(第一级中断处理程序)中断,那么 CPU 调度程序是否意识到这一点(例如,调度程序是否独立于被中断的进程计算硬件中断的执行时间)? 更多详情:我正在尝试解决以下问题:htop 中
为什么它们用于不同类型的任务?在处理计算任务与 io 任务时,它们有何不同? Schedulers.computation( ) - meant for computational work such
我在 couchbase 中使用 Observables。 Schedulers.io() 和 Schedulers.computation() 之间有什么区别? 最佳答案 RxJava调度器简介。
我遇到了一个可观察的问题: 在服务中我有一个函数(在 edit.component 中): public patchOne(entity: Tier): Observable { const
我正在研究 Flux 和 Mono,并在多线程环境中使用它们,并使用提供工作线程的 Schedular。 有很多选项可以使用 elastic、parallel 和 newElastic 来启动 Sch
FullCalendar 有一个名为 Scheduler 的附加组件,我正尝试将其与 PrimeNG-Schedule 组件一起使用。查看 PrimeNG 文档,有一个“选项”属性,我可以使用它向 F
我搜索了有关如何使用 Mass Transit 的 Quartz 集成 (https://github.com/MassTransit/MassTransit-Quartz) 的示例实现或博客文章。
我是一名优秀的程序员,十分优秀!