gpt4 book ai didi

hadoop - 关于构建基于 hadoop 的数据管道的调度工具的建议

转载 作者:可可西里 更新时间:2023-11-01 14:45:26 25 4
gpt4 key购买 nike

在 Apache Oozie 之间,Spotify/Luigiairbnb/airflow ,他们每个人的优缺点是什么?

我过去曾使用 oozie 和 airflow 使用 PIG 和 Hive 构建数据摄取管道。目前,我正在构建一个管道,该管道查看日志并提取有用的事件并将它们放在 Redshift 上。

我发现 Airflow 更易于使用/测试/设置。它有一个更酷的 UI,并允许用户从 UI 本身执行操作,而 Oozie 则不是这样。欢迎提供有关 Luigi 的任何信息或有关稳定性和问题的其他见解。

最佳答案

  • Azkaban:漂亮的用户界面,相对简单,非程序员也可以使用。在 LinkedIn 拥有悠久的历史。
  • Airflow:体面的 UI、类似 Python 的作业定义、非程序员半可访问、依赖声明语法很奇怪。
  • Luigi:OK UI,工作流程是纯 Python,需要扎实掌握 Python 编码和面向对象的概念,因此不适合非程序员。
  • Oozie:疯狂的基于 XML 的作业定义。这里是龙。 ;-)

恕我直言,Azkaban 强调简单性(不能使用不存在的功能),而其他人巧妙地鼓励复杂性。

简单的管道优于复杂的管道:更容易创建、更容易理解(尤其是当您没有创建时)并且更容易调试/修复。

当需要复杂的操作时,您希望以完全成功或完全失败的方式封装它们。

如果你能让它幂等(再次运行它会产生相同的结果)那就更好了。

关于hadoop - 关于构建基于 hadoop 的数据管道的调度工具的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35733441/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com