gpt4 book ai didi

apache-spark - spark 中的 RDD 内存占用

转载 作者:行者123 更新时间:2023-12-04 04:17:05 31 4
gpt4 key购买 nike

我不确定内存占用的概念。加载例如 Parquet 文件时。 1GB 并在 Spark 中创建 RDD,每个 RDD 的内存食物打印是什么?

最佳答案

当您从 parquet 文件创建 RDD 时,在您对 RDD 运行操作(例如,首先,收集)之前,不会加载/执行任何内容。

现在您的内存占用很可能会随时间变化。假设您有 100 个分区并且它们大小相同(每个 10 MB)。假设您在一个有 20 个内核的集群上运行,那么在任何时间点您只需要在内存中有 10MB x 20 = 200MB 数据。

除此之外,考虑到 Java 对象往往占用更多空间,因此很难准确地说出 1GB 文件将在 JVM 堆中占用多少空间(假设您加载了整个文件)。它可以是我的 2 倍,也可以是更多。

测试这个的一个技巧是强制你的 RDD 被缓存。然后,您可以在 Storage 下检查 Spark UI 并查看 RDD 缓存了多少空间。

关于apache-spark - spark 中的 RDD 内存占用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37060245/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com