gpt4 book ai didi

hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本

转载 作者:可可西里 更新时间:2023-11-01 16:52:20 26 4
gpt4 key购买 nike

我正在尝试使用 AWS EMR 上的 pig 脚本批处理运动流中的一些数据。我只需要对流数据进行分组并将其移动到 s3。我试图每隔几个小时运行一次。起初它似乎非常适合 AWS Data Pipeline,但我不知道如何传递迭代号以用于运动检查点。看起来没有任何方法可以增加数字以传递给 pig 脚本。我看过这个例子 here ,它涉及一个始终在线的集群和一个 crontab 脚本,它们会增加迭代次数。有没有一种方法可以使用我缺少的 AWS Data Pipeline 来实现这一点?

最佳答案

我们确实有一个使用 Data Pipeline 来完成您想要的示例,但它使用 Hive 而不是 Pig。这可能足以让您了解如何走上正确的道路。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

如果此示例仍未回答您的问题,请告知我们,以便我们考虑创建另一个示例来解决您的用例。

关于hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31973063/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com