gpt4 book ai didi

java - 在 Spark 中,是否可以在两个执行者之间共享数据?

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:51:23 26 4
gpt4 key购买 nike

我有一个非常大的只读数据,我希望同一节点上的所有执行程序都使用它。这在 Spark 中可能吗?我知道,你可以广播变量,但你能广播非常大的数组吗?在幕后,它是否在同一节点上的执行者之间共享数据?这如何能够在同一节点上运行的执行程序的 JVM 之间共享数据?

最佳答案

是的,你可以使用 broadcast考虑数据时的变量是只读的(不可变的)。广播变量必须满足以下属性。

  • 适合内存
  • 不可变
  • 分发到集群

因此,这里唯一的条件是您的数据必须能够适合一个节点上的内存。这意味着数据不应该像大表那样超大或超出内存限制。

每个执行器都会收到广播变量的副本,并且该特定执行器中的所有任务都在读取/使用该数据。这就像向集群中的所有工作节点发送一个大的只读数据。即,只发送给每个工作人员一次,而不是每个任务和执行者(它的任务)读取数据。

关于java - 在 Spark 中,是否可以在两个执行者之间共享数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40190756/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com