gpt4 book ai didi

elasticsearch - Pyspark与Elasticsearch

转载 作者:行者123 更新时间:2023-12-03 01:04:03 24 4
gpt4 key购买 nike

我将Pyspark与Elasticsearch结合使用。我注意到,当您创建RDD时,不会在执行任何收集,计数或任何其他“最终”操作之前执行该RDD。

当我将转换后的RDD的结果用于其他事情时,是否还有执行和缓存转换后的RDD的方法。

最佳答案

就像我在评论部分所说的那样,

All transformations in Spark are lazy, in that they do not compute their results right away. Instead, they just remember the transformations applied to some base dataset (e.g. a file). The transformations are only computed when an action requires a result to be returned to the driver program. This design enables Spark to run more efficiently – for example, we can realize that a dataset created through map will be used in a reduce and return only the result of the reduce to the driver, rather than the larger mapped dataset.



没有其他办法了。

为什么很懒?

函数式编程的惰性评估优点:
  • 避免不必要的计算,并提高了计算复合表达式时的错误条件,从而提高了性能
  • 构造潜在的无限数据结构的能力
  • 将控制结构定义为抽象而非原始
  • 的能力

    注意:大多数新的函数式编程语言都是惰性的(例如Haskell,Scala)。甚至以为您正在使用Python,Spark都是用Scala编写的。

    不过,如果您想在每个RDD定义之后计算RDD,则可以根据需要在缓存后执行 count操作,但是这样做没有目的。您最终将在需要时获得RDD。

    关于elasticsearch - Pyspark与Elasticsearch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33187145/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com