Airflow LocalExecutor 用于并行运行任务的高内存使用率 : expected or fixable?-6ren

Airflow LocalExecutor 用于并行运行任务的高内存使用率 : expected or fixable?

转载作者：行者123 更新时间：2023-12-04 11:30:51

25

4

情况:
Airflow 1.10.3 在 Kubernetes pod、LocalExecutor、parallelism=25 上运行
每天晚上，我们的 DAG 都会开始它们的预定运行，这意味着许多任务将并行运行。每个任务要么是在另一个 Pod 上开始实际工作的 KubernetesPodOperator，要么是等待另一个任务完成的 ExternalTaskSensor(在 ETL DAG 中)。

问题:
每个启动的任务将创建另外 2 个本地进程(除了工作进程)，每个进程占用 70MB。但所有这些进程都在等待，要么等待另一个 Pod (KubernetesPodOperator) 完成，要么等待另一个任务完成 (ExternalTaskSensor)。这是一个巨大的内存开销，似乎过分了。我们明确地选择了这个设置来将资源负载放在其他地方 (Kubernetes) 并使用 Airflow 轻量级:仅用于调度其他 pod。我们 future 的增长意味着我们希望在 Airflow pod 上扩展到数十个甚至数百个并行任务，但这在这些内存要求下不太可行。

题:
我们能做些什么呢？是否有设置可以减少每个并行任务的内存开销？也许在工作进程中运行 Operator？欢迎任何建议，谢谢!
(也许答案是:这就是 Airflow 的工作方式，在这种情况下:有没有更轻量级的调度解决方案的替代方案？)

我们尝试过的:
- 使用传感器“重新安排”模式而不是“戳”，以免传感器在等待时占用资源。是否导致任务卡在 up_for_reschedule 中。
- 玩并行度设置，但最终我们需要很多进程，所以这个值需要非常高。

附言这是我关于 SO 的第一个问题，因此欢迎改进/要求提供更多信息，谢谢!

更新
我知道 LocalExecutor 在这样的专业版中不能很好地工作。如果您有资源繁重的任务，比如 Airflow 运算符(operator)，那么切换到分布式设置是有意义的。但我一直认为我们的设置既有魅力又有纯粹的工作流程设置:只有 1 个 Airflow pod，它只安排其他 pod 并等待它们完成。使用 JVM 设置意味着很多线程大多处于空闲状态，等待 IO。一个 JVM 线程的开销大约是每个线程 1 MB，而使用 Airflow，我们每个任务必须处理 140MB!我可能会尝试创建一个 LocalThreadedExecutor ，它不会启动额外的进程......

最佳答案

这是 LocalExecutor 的固有问题。它基于 fork 过程。即使任务只是触发启动另一个 Pod，对于每个任务，Airflow 仍然会调度一个进程，这当然有很高的开销。

我的建议是转移到 Kubernetes 执行器 https://airflow.apache.org/docs/1.10.1/kubernetes.html .然后每个任务将自 Action 为一个 Pod 运行。然后，您不再需要显式使用 KubernetesPodOperator，而只需使用常规 Airflow 操作符，因为它们无论如何都将作为 pod 在 Kubernetes 中执行。最后，如果这是一种可行的方法，我认为从长远来看它会带来最好的结果。

关于Airflow LocalExecutor 用于并行运行任务的高内存使用率 : expected or fixable?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60549559/

25

4

0

文章推荐： python - 如何安全关闭mlflow ui？

文章推荐： vue.js - Nuxt 动态 Assets 未加载

文章推荐： visual-studio-code - VSCode 设置，EsLint 和 Prettier 冲突

expect - Expect 脚本还值得学习吗？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
expect - Expect 脚本的用户输入
我是脚本新手。如何编写 Expect 脚本以通过 ssh 连接到设备并提示用户输入密码？我们使用 pin + RSA token 代码作为密码，因此我无法存储密码。 #!/usr/bin/expect
expect - Expect 脚本中的 Do-while
我编写了以下代码并尝试执行它。但我在执行 do {”时遇到“无效的命令名称“do”” 代码: #!/usr/bin/expect set val 0; set input 5; do { pu
expect - Expect 的 "-r"命令中的 "expect -r PATTERN"是什么意思？
我已经查看了 Expect 联机帮助页并用 Google 搜索了它，但我还没有找到 expect 的 -r 是什么。我看到这个选项以前是这样用的 expect -r "\r\n\r\n" 在 expe
expect - 如何将调试信息重定向到 expect 脚本中的文本文件？
我的 shebang 看起来像这样: #!/usr/bin/expect -d 当我从命令行运行脚本时，它会提供我想要的内容。但是，我通过 crontab 运行这个脚本。是否可以将调试开关保持打开状
expect - 在一个 Expect 脚本中处理多个语句
我是 Expect 脚本的新手。我在 Linux 机器上为 ssh 编写了一个 Expect 脚本，在那里我在 ssh 到不同的 Linux 机器时遇到了问题。下面我复制了脚本。 !/usr/loc
actionscript-3 - 语法错误: expecting identifier before this. expecting colon before leftparen. expecting identifier before rightbrace
Scene 1, Layer 'script', Frame 1, Line 9 1084: Syntax error: expecting identifier before this. Sc
expect - log_file 命令不在 Expect 脚本中记录命令的输出
我正在运行调试命令以将命令的输出记录到文件中。我尝试了 log_file 命令，但它没有记录输出。我的代码如下: log_file -a gdb.txt send "~/debugulator.sh
Expect - expect_user 和 expect 的超时时间不同？
我希望 expect_user 有一个无限的(或非常大的)超时和 expect 的默认超时。有没有办法设置不同的超时？或者我是否只需要在每次更改用途之前手动执行此操作？最佳答案 expect 和ex
iOS内联if else编译错误: "Expected : "; "Expected expression"
我正在学习 iOS 编程(我来自 Android)，我正在寻找更容易获取字符串的方法。有了这个建议，我定义了下一个宏并在一些代码片段中使用它: #define STRING_BASE @"InfoPl
ruby-on-rails - Rspec expect( ) 与 expect { }
你好我是 rspec 的新手，我想弄清楚将 block 传递给 expect{} 和只使用 expect() 之间的区别这是一个简单的例子 require "rails_helper" RSpec.
reactjs - expect(received).toEqual(expected) - 错误
我正在尝试为 React JS 运行单元测试 - 使用 jest/enzyme。目前测试失败。不太清楚为什么，也许我没有正确调用 expect(wrapper.find)。这是我测试的一部分: F
expect - 如何在连接到 ssh 服务器时执行 expect 脚本
例如，现在我有一个“root.exp”期望脚本如下: spawn ssh user@ip expect "Password:" send "password" 然后，我要发送到这个ssh服务器的exp
expect - 使用 Expect 脚本将 IP 地址提取到变量
您好，我是 Expect 脚本编写的新手，我一直在尝试使用以下方法将 IP 地址获取到变量中: set timeout -1 spawn $env(SHELL) match_max 100000 se
javascript - expect.anything() 不适用于 expect.toBe()
expect.anything() 不适用于 expect.toBe()，但适用于 expect.toEqual() test("this will pass", () => { expect("
Linux shell : my `expect` script doesn't work as expected
我有一个如下所示的简单脚本，从命令行读取 2 个数字并将它们加在一起: $cat runexp.sh #!/bin/bash echo "read 1st number" read n1 echo "
linux - expect script + fit expect 以防不需要密码
当 Linux 机器的 $IP 登录后询问密码时，下面的 expect 脚本工作正常但在某些情况下，某些Linux机器不需要ssh密码(我们可以不用密码登录)，所以我需要更改我的期望脚本以支持没有
linux - Expect 脚本 - 发送字符串所需的引号与 expect 所需的引号冲突
我正在尝试使用 expect 远程登录服务器并更改用户密码。该应用程序要求，如果您要更改的密码包含特殊字符，则将其引用。问题是，还需要引用 expect send 语句，当我尝试将两者结合起来时，脚本
linux - expect + 如何识别 expect break 因为超时？
下面这个简单的 expect 脚本的目标是获取远程机器上的 hostname 名称有时期望脚本无法执行到 $IP_ADDRESS 的 ssh(因为远程机器不活动等) 所以在这种情况下，expect
rust - .expect( format!() ) : expected `&str` , 找到结构 `String`
我试图创建一个宏来替换， first: Some(first.as_ref().parse::().expect("Could not parse 'first'")) 我在其他模块(如 Clap w

首页

博学

6Ren·AI

商城

Airflow LocalExecutor 用于并行运行任务的高内存使用率 : expected or fixable?