gpt4 book ai didi

amazon-web-services - 如何使用 RedShift 查询的输出作为 EMR 作业的输入?

转载 作者:行者123 更新时间:2023-12-04 19:08:51 25 4
gpt4 key购买 nike

所以我对 Redshift 的了解有限,这是我解决问题的计划......

我想获取查询结果,并将它们用作 EMR 作业的输入。以编程方式进行此操作的最佳方法是什么。

目前,我的 EMR 作业将 S3 中的一个平面文件作为输入,我使用 Amazon Java SDK 来设置此作业和所有内容。

我是否应该将 RedShift 查询的输出写入 S3,并将 EMR 作业指向那里,然后在 EMR 作业完成后删除该文件?

或者,RedShift 和 AWS SKD 是否提供了一种更足智多谋的方式来将查询从 RedShift 直接通过管道传输到 EMR,从而省去了 S3 步骤?

谢谢

最近与 Amazon Redshift 团队的成员进行了交谈,他们表示正在制定解决方案。

最佳答案

这很容易 - 不需要 Sqoop。添加 Cascading Lingual站在执行 Redshift 的作业的前面 UNLOAD到 S3 的命令:

UNLOAD ('select_statement')
TO 's3://object_path_prefix'
[ WITH ] CREDENTIALS [AS] 'aws_access_credentials'
[ option [ ... ] ]

然后你可以直接在 S3 上处理导出,或者添加一个 S3DistCp首先将数据带入 HDFS 的步骤。

这将比添加 Sqoop 的性能要高得多,而且维护起来也简单得多。

关于amazon-web-services - 如何使用 RedShift 查询的输出作为 EMR 作业的输入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17711018/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com