gpt4 book ai didi

scala - .parallelize(...) 是 Apache Spark 中的惰性操作吗?

转载 作者:行者123 更新时间:2023-12-02 10:51:32 25 4
gpt4 key购买 nike

并行化(和其他加载操作)是仅在执行 Spark 操作时执行,还是在遇到 Spark 操作时立即执行?

请参阅 spark code 中的定义并行化

请注意例如 .textFile(...) 的不同后果:延迟计算意味着虽然最初可能会节省一些内存,但每次执行操作时都必须读取文本文件并且进行更改文本文件中的内容将影响更改后的所有操作。

最佳答案

parallelize 延迟执行:请参阅引用代码的 L726,说明“@note Parallelize 延迟执行。”

只有当您调用操作时,Spark 中的执行才会被触发,例如收集计数

因此 Spark 总计:

  1. 转换链由用户 API(您)设置,例如并行化、映射、减少...
  2. 一旦调用操作,转换链就会“放入”Catalyst 优化器中,进行优化,然后执行。

关于scala - .parallelize(...) 是 Apache Spark 中的惰性操作吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34480078/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com