gpt4 book ai didi

scala - 了解Spark和Scala中的并行性

转载 作者:行者123 更新时间:2023-12-04 07:54:37 24 4
gpt4 key购买 nike

我对Spark和Scala中的并行性有些困惑。我正在运行一个实验,其中我必须从磁盘更改中读取许多(csv)文件/处理某些列,然后将其写回到磁盘中。

在我的实验中,如果仅使用 SparkContext的parallelize方法,那么它似乎对性能没有任何影响。但是,简单地使用Scala的并行集合(通过par)可以将时间减少几乎一半。

我在本地主机模式下运行我的实验,并为spark上下文使用了参数local [2]。

我的问题是何时应使用scala的并行集合,何时应使用spark上下文的并行化?

最佳答案

为了支持多个节点的通用性,SparkContext将进行其他处理,这在数据大小上将是恒定的,因此对于庞大的数据集而言可以忽略不计。在1个节点上,此开销将使其比Scala的并行集合慢。

时使用Spark

  • 您有1个以上的节点
  • 您希望您的工作准备好扩展到多个节点
  • 由于数据量巨大,因此1个节点上的Spark开销可以忽略不计,因此您不妨选择功能更丰富的
  • 框架。

    关于scala - 了解Spark和Scala中的并行性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19774860/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com