gpt4 book ai didi

scala - Apache Spark 和远程方法调用

转载 作者:行者123 更新时间:2023-12-04 18:00:12 24 4
gpt4 key购买 nike

我想了解 Apache Spark 在幕后是如何工作的。在 Spark 中编写了一些代码之后,我非常确定它将 RDD 实现为 RMI Remote objects,不是吗?

通过这种方式,它可以在转换中修改它们,例如mapflatMap等。不属于 RDD 的对象在执行期间被简单地序列化并发送给工作人员。

在下面的示例中,linestokens 将被视为远程对象,而字符串toFind将被简单地序列化并复制给 worker 。

val lines: RDD[String] = sc.textFile("large_file.txt")
val toFind = "Some cool string"
val tokens =
lines.flatMap(_ split " ")
.filter(_.contains(toFind))

我错了吗?我在谷歌上搜索了一下,但没有找到任何关于如何在内部实现 Spark RDD 的引用资料。

最佳答案

你是对的。 Spark 序列化闭包以执行远程方法调用。

关于scala - Apache Spark 和远程方法调用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36461299/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com