gpt4 book ai didi

hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?

转载 作者:可可西里 更新时间:2023-11-01 16:30:35 25 4
gpt4 key购买 nike

我正在 AWS 中创建一个数据管道来运行 Pig 任务。但是我的 Pig 任务需要 EMR 中的附加文件。在创建集群之后和运行 pig tasked 之前,我如何告诉 Data Pipeline 将文件复制到 EMR?

我只需要运行这两个命令。

hdfs dfs -mkdir /somefolder
hdfs dfs -put somefile_from_s3 /somefoler/

最佳答案

如果您可以选择修改 Pig 脚本,则可以运行 mkdir 并将命令放在脚本的顶部 ( https://pig.apache.org/docs/r0.9.1/cmds.html)。

否则,您可以使用在 EmrCluster 上运行的 ShellCommandActivity,并在 PigActivity 运行之前执行这些命令。此选项有一个缺点,因为如果 ShellCommandActivity 成功,但 PigActivity 失败,仅再次重新运行 PigActivity 将无法为您提供事件运行所需的文件,这意味着必须重新运行整个管道。因此,我会推荐第一种解决方案。

无论哪种方式,我都乐意为您制作一个工作样本。请让我知道您希望看到哪种解决方案。

谢谢。

关于hadoop - 在配置 EMR 后,如何将文件从 S3 复制到 Data Pipeline 中的 Amazon EMR?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34535028/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com