gpt4 book ai didi

hadoop - RDD 存储在哪里?

转载 作者:可可西里 更新时间:2023-11-01 16:24:32 28 4
gpt4 key购买 nike

如果我有一个 Hadoop 集群,比如说,3 个数据节点和 1 个名称节点,并且在 spark 代码中我使用类似 dataframe.persist(MEMORY_AND_DISK) 的东西,这些数据在哪里持久化?它是在 Namenode 的(驱动程序)内存中还是在 Datanode 的(执行程序)内存中,还是两者都有?

此外,缓存数据的存储是否取决于堆大小?如果是这样,我该如何增加所有节点的堆大小?

最佳答案

NameNode不是driver,Datanode不是executor。 YARN 框架中的所有 Spark 进程都发生在 ResourceManagers 中(通常在 DataNode 上,是的),但它们每个应用程序都有自己的临时存储,由 YARN 配置设置。

如果您需要查找文件,Spark UI 的“存储”选项卡可能会告诉您文件的实际位置。

相对于 YARN 容器大小,您可以通过分别增加执行程序/驱动程序内存来​​增加堆大小。

关于hadoop - RDD 存储在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48734415/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com