Airflow Scheduler 内存不足问题-6ren

Airflow Scheduler 内存不足问题

转载作者：行者123 更新时间：2023-12-03 23:15:19

26

4

我们正在试验 Apache Airflow(版本 1.10rc2，使用 python 2.7)并将其部署到 kubernetes、webserver 和调度程序到不同的 pod，并且数据库也在使用 cloud sql，但我们一直面临调度程序内存不足的问题荚。

在 OOM 的时刻，我们只运行了 4 个示例 Dag(大约 20 个任务)。 Pod 的内存为 1Gib。我在其他帖子中看到，一个任务在运行时可能会消耗大约 50Mib 的内存，并且所有任务操作都在内存中，没有任何内容刷新到磁盘，因此已经提供了 1Gb。

是否有任何经验法则可以用来计算基于并行任务的调度程序需要多少内存？

除了降低并行度之外，是否有任何调整可以减少调度程序本身的内存使用？

我认为我们的用例不需要 Dask 或 Celery 为 worker 使用更多机器水平扩展 Airflow。

关于配置的更多细节:
executor = Localexecutorparallelism = 10dag_concurrency = 5max_active_runs_per_dag = 2workers = 1worker_concurrency = 16min_file_process_interval = 1min_file_parsing_loop_time = 5dag_dir_list_interval = 30
当时运行的 dag 是 example_bash_operator、example_branch_operator、example_python_operator 和我们开发的一个 quickDag。

在某些情况下，所有这些都只是简单的任务/操作符，例如 DummyOperators、BranchOperatos、BashOperators，但只执行 echo 或 sleep 并且 PythonOperators 也只执行 sleep 。总共有大约 40 个任务，但并非所有任务都并行运行，因为其中一些是下游、依赖等，我们的并行度设置为 10，如上所述只有一个工作人员，dag_concurrency 是设置为 5。

我在 Airflow 日志中看不到任何异常，在任务日志中也看不到任何异常。

只运行这些 dag 中的一个，似乎 Airflow 正在相应地工作。

我可以在调度程序 pod 中看到很多调度程序进程，每个进程使用 0.2% 或更多的内存:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND461384 airflow 20 0 836700 127212 23908 S 36.5 0.4 0:01.19 /usr/bin/python /usr/bin/airflow scheduler 461397 airflow 20 0 356168 86320 5044 R 14.0 0.3 0:00.42 /usr/bin/python /usr/bin/airflow scheduler 44 airflow 20 0 335920 71700 10600 S 28.9 0.2 403:32.05 /usr/bin/python /usr/bin/airflow scheduler 56 airflow 20 0 330548 59164 3524 S 0.0 0.2 0:00.02
这是使用 0.3% 内存运行的任务之一:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND462042 airflow 20 0 282632 91120 10544 S 1.7 0.3 0:02.66 /usr/bin/python /usr/bin/airflow run example_bash_operator runme_1 2018-08-29T07:39:48.193735+00:00 --local -sd /usr/lib/python2.7/site-packages/apache_airflow-1.10.0-py2.7.egg/airflow/example_dags/example_bash_operator.py

最佳答案

实际上并没有一个简明的经验法则可以遵循，因为它可能会因您的工作流程而异。

如您所见，调度程序将创建多个 fork 进程。此外，每个任务(Dummy 除外)都将在其自己的进程中运行。根据运算符(operator)和它正在处理的数据，每个任务所需的内存量可能会有很大差异。

并行度设置将直接限制在所有 dag 运行/任务中同时运行的任务数量，这对使用 LocalExecutor 的您将产生最显着的效果。您也可以尝试设置 max_threads下 [scheduler]到 1。

因此，一个(非常)普遍的经验法则是善待资源:

[256 for scheduler itself] + ( [parallelism] * (100MB + [size of data you'll process]) )

数据大小需要更改的位置取决于您是加载完整数据集还是在任务执行过程中处理它的块。

即使您认为不需要扩展集群，我仍然建议使用 CeleryExecutor，如果只是为了将调度程序和任务彼此隔离。这样，如果您的调度程序或 celery 工作人员死了，它不会同时中断。特别是在 k8 中运行时，如果您的调度程序 sigterms 它将与任何正在运行的任务一起杀死它。如果您在不同的 pod 中运行它们并且调度程序 pod 重新启动，则您可以不间断地完成任务。如果你有更多的 worker ，它会减少来自其他任务的内存/处理尖峰的影响。

关于Airflow Scheduler 内存不足问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52060390/

26

4

0

文章推荐： asp.net-core - 从 Razor 页面处理程序返回部分 View

文章推荐： c# - 如何使用包含空格的枚举项目名称？

文章推荐： domain-driven-design - 聚合根中子实体的目的是什么？

文章推荐： sybase - 在 syBase 中列出数据库中的所有表

SQL 查询导致我 sleep 不足
所以我正在为考试复习，并在 SQL 河(或荒地)中撞到了一块大石头我制作了以下表格并插入了以下数据: create table Permissions ( fileName VARCHAR(
JQueryUI 对话框 maxWidth 不足
我有一个使用 maxWidth 定义的 jqueryui 对话框。 $("#myDialog").dialog({ autoOpen: false, width: 'a
c - 如何使用平方根优化c中的循环(完美、丰富、不足)
注意:我遗漏了不相关的代码所以我目前正在研究 CCC 1996 P1，这个问题的全部目的是能够计算一个整数输入是完美数、不足数还是充数。我上面列出的代码可以工作，但是我认为它太慢了。该代码会迭代每个
r - R 中的关联规则 RAM 不足
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
python - Redis 使用的 RAM 不足
我正在使用 Go 和 Redis 开发 API。问题是RAM使用不足，我找不到问题的根源。 TL;DR 版本有数百/数千个哈希对象。每个 1 KB 的对象(键+值)占用大约 0.5 MB 的 RAM
kubernetes - 由于 CPU 不足，Pod 处于挂起状态
在我的 GCE Kubernetes 集群上，我无法再创建 pod。 Warning FailedScheduling pod (www.caveconditions.com-f1be467e3
kubernetes - Amazon EKS Fargate中的 pod 不足
当我尝试在EKS Fargate群集上安装指标服务器时，它抛出错误: 0/4 nodes are available: 4 Insufficient pods. 按照以下说明从此处安装指标服务器:ht
ios - 为什么 iOS 终止后台应用程序而不是以不同方式处理 RAM 不足？
遍布this document Apple 提到 iOS 在某些情况下会终止应用程序，最常见的原因似乎是释放一些 RAM。这会导致未实现状态恢复的应用程序出现问题——用户正在处理和暂时离开的一些内容可
audio - Google Cloud Speech:配额组 token 不足
尝试处理一个10分钟的音频文件时出现以下错误。我刚刚开始使用Google Cloud产品，所以我是唯一访问此资源的人。我怎么可能超出配额？配额设置为其默认值，我认为我没有任何限制。还有其他原因吗？我
r - 对R中事物类型的全面考察； 'mode' 和 'class' 和 'typeof' 不足
R 语言让我感到困惑。实体有模式和类，但即使这样也不足以完全描述实体。这个answer说 In R every 'object' has a mode and a class. 所以我做了这些实验:
kubernetes - Openshift:没有与以下所有谓词匹配的可用节点::cpu 不足 (173)、MatchNodeSelector (5)
我在 west-1 有一个 Openshift v3 项目。在其中，我有一个运行良好的应用程序，但在 GitHub 提交代码中非常下游的内容后，该应用程序停止工作。问题在于制作 pod: No nod
kubernetes - Openshift:没有与以下所有谓词匹配的可用节点::cpu 不足 (173)、MatchNodeSelector (5)
我在 west-1 有一个 Openshift v3 项目。在其中，我有一个运行良好的应用程序，但在 GitHub 提交代码中非常下游的内容后，该应用程序停止工作。问题在于制作 pod: No nod
wolfram-mathematica - 我可以使用 Stackoverflow API 检查哪些 SO 回答者 sleep 不足？
在 how-do-i-access-the-stackoverflow-api-from-mathematica我概述了如何使用 SO API 让 Mathematica 制作一些有趣的顶级回答者声誉
node.js - 小型 Node.js 应用程序 Pod 的 GKE CPU 不足
所以在 GKE 上，我有一个 Node.js app，每个 pod 使用大约:CPU(cores): 5m, MEMORY: 100Mi 但是我只能为每个 Node 部署 1 个 pod。我使用的是
javascript - 消费者的服务 'AnalyticsDefaultGroup' 的配额 'USER-100s' 和限制 'analyticsreporting.googleapis.com' 的 token 不足
我正在使用 async.eachOfSeries 超过 300 个数组并请求一些 GA api，它工作正常但有时我会收到错误.. UnhandledPromiseRejectionWarning:错误
amazon-s3 - 0/3 个节点可用 : 1 node(s) had taints that the pod didn't tolerate, 2 cpu 不足。 MR3 hive
我正在尝试在 AWS ec2 上托管的 kubernetes 集群上使用 mr3 设置配置单元。当我运行命令 run-hive.sh 时，Hive 服务器启动，并且 master-DAg 被初始化，但
google-cloud-pubsub - 消费者 'administrator' 的服务 'CLIENT_PROJECT-100s' 的配额 'pubsub.googleapis.com' 和限制 'project_number:#' 的 token 不足
创建订阅时有时会出现以下错误: Insufficient tokens for quota 'administrator' and limit 'CLIENT_PROJECT-100s' of ser

首页

博学

6Ren·AI

商城

Airflow Scheduler 内存不足问题