gpt4 book ai didi

hadoop - Google Dataflow 的工作流程编排

转载 作者:可可西里 更新时间:2023-11-01 14:23:18 30 4
gpt4 key购买 nike

我们正在使用 Google Dataflow 进行批量数据处理,并寻找一些工作流编排工具选项,类似于 Azkaban 为 Hadoop 所做的事情。

我们正在寻找的关键事物是,

  • 配置工作流
  • 安排工作流程
  • 监控和警告失败的工作流
  • 能够重新运行失败的作业

我们已经评估了 Pentaho,但这些功能在其昂贵的企业版中可用。我们目前正在评估 Azkaban,因为它支持 javaprocess 作业类型。但 Azkaban 主要是为 Hadoop 作业创建的,因此它与 Hadoop 基础设施的集成比普通的 java 进程更深入。

感谢对开源或极低成本解决方案的一些建议。

最佳答案

听起来 Apache Airflow ( https://github.com/apache/incubator-airflow) 应该可以满足您的需求,它现在有一个数据流运算符 (https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py)。

关于hadoop - Google Dataflow 的工作流程编排,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39006399/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com