gpt4 book ai didi

caching - Spark缓存只保留RDD的一小部分

转载 作者:行者123 更新时间:2023-12-02 18:46:37 25 4
gpt4 key购买 nike

当我显式调用 rdd.cache 时,我可以从 Spark 控制台存储选项卡中看到,实际上只有一小部分 rdd 被缓存。我的问题是剩下的部分在哪里? Spark 如何决定将哪一部分留在缓存中?

同样的问题也适用于 sc.textFile() 读取的初始原始数据。我知道这些 rdd 会自动缓存,即使 Spark 控制台存储表不显示有关其缓存状态的任何信息。我们知道其中有多少被缓存或丢失了吗?

最佳答案

cache()persist(StorageLevel.MEMORY_ONLY) 相同,您的数据量可能超出了可用内存。 Spark 然后以“最近最少使用”的方式逐出缓存。

您可以通过设置配置选项来调整用于缓存的保留内存。请参阅Spark Documentation有关详细信息,请注意:spark.driver.memoryspark.executor.memoryspark.storage.memoryFraction

不是专家,但我不认为 textFile() 会自动缓存任何内容; Spark Quick Start显式缓存文本文件 RDD: sc.textFile(logFile, 2).cache()

关于caching - Spark缓存只保留RDD的一小部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29502234/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com