gpt4 book ai didi

apache-spark - Apache AirFlow 如何实现可扩展性?

转载 作者:行者123 更新时间:2023-12-02 20:48:04 24 4
gpt4 key购买 nike

我发现,Airflow 中的许多运算符(operator)都会将数据存储在本地,然后再将其上传到目标系统。这意味着工作节点正在做大量的工作,以防数据很大。

Airbnb(开源 Airflow 的公司)表示,早在 2015 年,他们的 Airflow 集群中只有 6 个节点,可提供 5000 个工作岗位。

我在这里遗漏了什么吗?

最佳答案

Apache Airflow 的主要用途是任务调度和监控。它并不是被设计为通用数据处理引擎。不如将其视为 Oozie 的替代品,而不是 Apache Spark 或 Apache Hive。

虽然 Airflow 可以扩展它的工作人员(使用 Mesos、RabbitMQ/Celery),但繁重的工作仍然由分析系统执行。例如,Airflow 可以管理 Spark 作业和 Druid 查询,处理更改等。

关于apache-spark - Apache AirFlow 如何实现可扩展性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43433216/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com