gpt4 book ai didi

python - 我们可以在 Hadoop Streaming 中级联多个 MapReduce 作业吗(lang : Python)

转载 作者:可可西里 更新时间:2023-11-01 14:45:05 26 4
gpt4 key购买 nike

我正在使用 Python,并且必须使用 Hadoop Streaming 处理以下场景:a) Map1->Reduce1->Map2->Reduce2b) 我不想存储中间文件c) 我不想安装 Cascading、Yelp、Oozie 等软件包。我将它们保留为最后的选择。

我已经在 SO 和其他地方进行过相同类型的讨论,但找不到关于 Python 的答案。能否请您提出建议。

最佳答案

b) I dont want to store intermediate files

c) I dont want to install packages like Cascading, Yelp, Oozie.

有什么理由吗?根据响应,可以提供更好的解决方案。

中间文件无法避免,因为前一个Hadoop作业的o/p不能作为i/p流到下一个作业。创建这样的脚本

run streaming job1
if job1 is not success then exit
run streaming job2
if job2 is success them remove o/p of job1 else exit
run streaming job3
if job3 is succcess them remove o/p of job2 else exit

关于python - 我们可以在 Hadoop Streaming 中级联多个 MapReduce 作业吗(lang : Python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8860214/

26 4 0