gpt4 book ai didi

hadoop - Oozie 和 Spark 集成

转载 作者:可可西里 更新时间:2023-11-01 14:53:03 25 4
gpt4 key购买 nike

Oozie 4.2.0 版支持作为 Spark 作业运行的 Spark 操作,是否可以在操作之间共享 RDD,例如我的一个操作将读取文件并执行一些转换并创建一个 RDD,比如 rdd1,然后将(Spark 操作)保存到 HDFS,现在另一个 oozie 操作可能会采用 rdd1 并执行一些转换和操作。

以上可以通过单个 Spark 驱动程序类实现,但我正在研究 oozie 解决方案,因为 Spark 驱动程序类对于复杂的工作流来说会非常复杂。

预先感谢您的回答。

问候,古兰加巴萨克

最佳答案

一个解决方案可能是使用 spark jobserver在多个作业中使用相同的 spark 上下文。

另一种解决方案可能是使用 tachyon基本上执行您上面描述的操作,并将中间结果存储到 tachyon 中,以便在下一个作业使用它时将其保存在内存中。

但是,执行此操作的最佳方法很可能是重构您的管道,使其可以在相同的上下文中执行,或者简单地处理性能损失。您可以将 rdd 保存到 hdfs 中并使用以下方法重新加载它:

# In job 1
rdd.saveAsObjectFile("path")

# In job 2
sc.objectFile[MyClass]("path")

关于hadoop - Oozie 和 Spark 集成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32078469/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com