gpt4 book ai didi

caching - 在 Apache Spark 中缓存 RDD 的目的是什么?

转载 作者:行者123 更新时间:2023-12-02 18:42:01 29 4
gpt4 key购买 nike

我是 Apache Spark 的新手,我在 Spark 中遇到了几个基本问​​题,在阅读 Spark Material 时我无法理解这些问题。每种 Material 都有自己的解释风格。我在 Ubuntu 上使用 PySpark Jupyter 笔记本进行练习。

根据我的理解,当我运行以下命令时,testfile.csv 中的数据将被分区并存储在各个节点的内存中。(实际上我知道它是一个惰性评估,在看到操作之前它不会处理命令),但概念仍然是

rdd1 = sc.textFile("testfile.csv")

我的问题是,当我运行以下转换和操作命令时,rdd2 数据将存储在哪里。


rdd2 = lambda x: x.split(",") )



  • 将RDD保存在内存中和cache()有什么区别


  • 最佳答案

    Does it stores in memory?

    当您通过操作(countprintforeach)运行 Spark 转换时,然后,只有这样你的图表才会被具体化,并且在你的情况下文件才会被消耗。 RDD.cache 的目的是确保 sc.textFile("testfile.csv") 的结果在内存中可用,并且不需要再次读取。

    不要将变量与幕后执行的实际操作混淆。缓存允许您重新迭代数据,如果您想重新迭代所述 RDD,并且只要您设置了正确的值,请确保它在内存中(如果有足够的内存来完整存储它) 存储级别(默认为StorageLevel.MEMORY)。 From the documentation (感谢@RockieYang):

    In addition, each persisted RDD can be stored using a different storage level, allowing you, for example, to persist the dataset on disk, persist it in memory but as serialized Java objects (to save space), replicate it across nodes, or store it off-heap in Tachyon. These levels are set by passing a StorageLevel object (Scala, Java, Python) to persist(). The cache() method is a shorthand for using the default storage level, which is StorageLevel.MEMORY_ONLY (store deserialized objects in memory).

    You can mark an RDD to be persisted using the persist() or cache() methods on it. The first time it is computed in an action, it will be kept in memory on the nodes. Spark’s cache is fault-tolerant – if any partition of an RDD is lost, it will automatically be recomputed using the transformations that originally created it.


    Is there any difference between keeping RDD in memory and cache()


    关于caching - 在 Apache Spark 中缓存 RDD 的目的是什么?,我们在Stack Overflow上找到一个类似的问题:

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号