gpt4 book ai didi

apache-spark - spark.csv 如何确定读取的分区数?

转载 作者:行者123 更新时间:2023-12-05 05:16:28 27 4
gpt4 key购买 nike

在 Spark 2.2.0 中:我正在使用

读取一个文件
spark.csv.read("filepath").load().rdd.getNumPartitions

我在一个系统中为一个 350 MB 的文件分配了 77 个分区,在另一个系统中分配了 88 个分区。我还为一个 28 GB 的文件获得了 226 个分区,大约是 28*1024 MB/128 MB 。问题是,Spark CSV Data Source 是如何确定这个默认分区数的?

最佳答案

分区数量受多种因素影响——通常是

  • spark.default.parallelism
  • 您正在阅读的文件数(如果从目录中阅读文件)
  • 影响 spark.default.parallelism 的集群管理器/内核数量(参见 spark configuration)

从文本文件(以及 CSV)读取时的分区数应根据 CSVDataSource 确定为 math.min(defaultParallelism, 2)

关于apache-spark - spark.csv 如何确定读取的分区数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50496935/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com