gpt4 book ai didi

hadoop - 如何使用 Elastic MapReduce API 在一个步骤中向 Hadoop 提交多个作业?

转载 作者:可可西里 更新时间:2023-11-01 14:10:41 29 4
gpt4 key购买 nike

Amazon EMR Documentation to add steps to cluster表示单个 Elastic MapReduce 步骤可以向 Hadoop 提交多个作业。然而,Amazon EMR Documentation for Step configuration建议单个步骤只能执行一次 hadoop-streaming.jar(也就是说,HadoopJarStep 是一个 HadoopJarStepConfig 而不是一组 HadoopJarStepConfigs)。

一次向 Hadoop 提交多个作业的正确语法是什么?

最佳答案

Amazon EMR Documentation说,你可以创建一个集群来在一个步骤中在主实例上运行一些脚本my_script.sh:

aws emr create-cluster --name "Test cluster" --ami-version 3.11 --use-default-roles
--ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance count 3
--steps Type=CUSTOM_JAR,Name=CustomJAR,ActionOnFailure=CONTINUE,Jar=s3://elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://mybucket/script-path/my_script.sh"]

my_script.sh 应该看起来像这样:

#!/usr/bin/env bash

hadoop jar my_first_step.jar [mainClass] args... &
hadoop jar my_second_step.jar [mainClass] args... &
.
.
.
wait

这样,多个作业将在同一个步骤中提交到 Hadoop——但不幸的是,EMR 接口(interface)将无法跟踪它们。为此,您应该使用 Hadoop Web 界面,如图所示 here ,或者简单地 ssh 到主实例并使用 mapred job 进行探索。

关于hadoop - 如何使用 Elastic MapReduce API 在一个步骤中向 Hadoop 提交多个作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24218865/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com