gpt4 book ai didi

mapreduce - 安排 Amazon 的 Elastic MapReduce 作业的工具/方法

转载 作者:行者123 更新时间:2023-12-02 03:52:07 24 4
gpt4 key购买 nike

我使用 EMR 创建新实例并处理作业,然后关闭实例。

我的要求是定期安排作业。一种简单的实现方式是使用 quartz 来触发 EMR 作业。但从长远来看,我对使用开箱即用的 mapreduce 调度解决方案很感兴趣。我的问题是,EMR 或 AWS-SDK 是否提供任何开箱即用的调度功能,我可以使用它来满足我的要求?我可以看到 Auto scaling 中有调度,但我想改为调度 EMR 作业流。

最佳答案

Apache Oozie Workflow Scheduler for Hadoop做到这一点。

Oozie is a workflow scheduler system to manage Apache Hadoop jobs.

Oozie Workflow jobs are Directed Acyclical Graphs (DAGs) of actions.

Oozie Coordinator jobs are recurrent Oozie Workflow jobs triggered by time (frequency) and data availabilty.

Oozie is integrated with the rest of the Hadoop stack supporting several types of Hadoop jobs out of the box (such as Java map-reduce, Streaming map-reduce, Pig, Hive, Sqoop and Distcp) as well as system specific jobs (such as Java programs and shell scripts).

Oozie is a scalable, reliable and extensible system.

这是一个用于配置 apache oozie 的 Elastic Map Reduce 引导操作的简单示例:https://github.com/lila/emr-oozie-sample

但要让您知道 oozie 有点复杂,当且仅当您有很多作业需要调度/监控/维护时,您才应该使用 oozie 否则只需创建一个一堆 cron 作业,如果你说只有 2 或 3 个作业要定期安排。

您也可以查看和探索 simple workflow from Amazon .

关于mapreduce - 安排 Amazon 的 Elastic MapReduce 作业的工具/方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14014486/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com