gpt4 book ai didi

scala - 了解 Spark 中的闭包和并行性

转载 作者:可可西里 更新时间:2023-11-01 14:18:22 25 4
gpt4 key购买 nike

我正在尝试了解某些​​事情在 Spark 中是如何工作的。在示例中如 http://spark.apache.org/docs/latest/programming-guide.html#understanding-closures-a-nameclosureslinka

表示代码将对 RDD 中的值求和并将其存储在计数器中,但这里不是这种情况,因为它不起作用。只有当您删除 paralelize 时,它​​才会起作用。

有人可以向我解释一下这是如何工作的吗?还是例子有误?

谢谢

val data = Array(1,2,3,4,5)
var counter = 0
var rdd = sc.parallelize(data)

// Wrong: Don't do this!!
rdd.foreach(x => counter += x)

println("Counter value: " + counter)

最佳答案

打个比方,上面提供的解释是绝对正确的,让我深入解释一下 ->

让我们假设我们正在一个具有单个工作节点和执行器的节点上工作,并且我们在 RDD 上使用 foreach 来计算 RDD 中的元素数量。正如我们所知,我们在单个节点上,因此数据不会被分发,并且将保持单一身份,因此计数变量(闭包 -> 这些类型的变量称为闭包)将为每个元素计数,并且此更新将是每当发生增量时,每次都会发送给执行器,然后执行器将闭包提交给驱动程序节点。

Drivernode -> executor 和 driver 将驻留在单个节点上,因此驱动节点的计数变量将在执行节点的范围内,因此将更新驱动节点计数变量值。

我们已经从驱动程序节点而非执行程序节点获得了结果计数值。

Executor -> closure -> data

现在假设我们在集群环境中工作,假设有 2 个节点和 2 个 worker 和 executor。现在数据将被分成几个部分,因此 ->

Data -> Data_1, Data_2

Drivernode -> 在不同的节点上有它的计数变量,但对 Executor 1 和 Executor 2 不可见,因为它们驻留在不同的节点上,因此 executor1 和 executor2 无法更新驱动程序节点的 count 变量

Executor1-> processing(Data_1) with closure_1
Executor2-> processing(Data_1) with closure_2

闭包 1 将更新执行器 1,因为它可序列化为执行器 1,类似地,闭包 2 将更新执行器 2

为了解决这种情况,我们像这样使用 Accumulator:

val counter=sc.accumulator(0)

关于scala - 了解 Spark 中的闭包和并行性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32945165/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com