gpt4 book ai didi

java - Apache Spark 和不可序列化的应用程序上下文

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:16:13 26 4
gpt4 key购买 nike

我是 Spark 的新手。

我想使用 Spark 和 map-reduce 方法并行化我的计算。但是我在 Map 阶段放入 PairFunction 实现的这个计算需要初始化一些上下文。此上下文包括来自第 3 方 jar 的几个单例对象,并且此对象不可序列化,因此我无法将它们分布在工作节点之间,也无法在我的 PairFunction 中使用它们。

所以我的问题是:我能否使用 Apache Spark 以某种方式并行化需要不可序列化上下文的作业?还有其他解决方案吗?也许我可以以某种方式告诉 Spark 在每个工作节点上初始化所需的上下文?

最佳答案

您可以尝试使用 mapPartitionforeachPartition 在执行程序中初始化您的第 3 方 jar。

rdd.foreachPartition { iter =>
//initialize here
val object = new XXX()
iter.foreach { p =>
//then you can use object here
}
}

关于java - Apache Spark 和不可序列化的应用程序上下文,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34993671/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com