gpt4 book ai didi

python - Pyspark RDD 的最大文件大小

转载 作者:太空宇宙 更新时间:2023-11-04 12:02:17 25 4
gpt4 key购买 nike

我在工作中在 Pyspark shell 中练习 Pyspark(独立),这对我来说很新。关于我机器上的最大文件大小和 RAM(或任何其他规范)是否有经验法则?使用集群时怎么样?

我正在练习的文件大约有 1200 行。但我很想知道在机器规范或集群规范方面,可以将多大的文件读入 RDD。

最佳答案

您可以处理的数据大小没有硬性限制,但是当您的 RDD(弹性分布式数据集)大小超过 RAM 的大小时,数据将被移动到磁盘。即使在数据被移动到磁盘之后,spark 也同样能够处理它。例如,如果您的数据是 12GB,可用内存是 8GB,spark 会将剩余数据分发到磁盘并无缝处理所有转换/操作。话虽如此,您可以适本地处理等于磁盘大小的数据。

单个 RDD 的大小当然有 2GB 的大小限制。换句话说,一个 block 的最大大小不会超过 2GB。

关于python - Pyspark RDD 的最大文件大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51939204/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com