gpt4 book ai didi

apache-spark - 从 S3 存储桶加载文件时,Spark 会创建多少个分区?

转载 作者:可可西里 更新时间:2023-11-01 14:15:35 27 4
gpt4 key购买 nike

如果文件默认从 HDFS 加载,spark 会为每个 block 创建一个分区。但是,当从 S3 存储桶加载文件时,spark 是如何决定分区的呢?

最佳答案

即使从 S3 存储桶中读取文件,Spark(默认情况下)也会为每个 block 创建一个分区,即分区总数 = 总文件大小/ block 大小。

S3 的 block 大小值可作为 Spark 使用的 Hadoop 的 core-site.xml 文件中的一个属性:

<property>
<name>fs.s3a.block.size</name>
<value>32M</value>
<description>Block size to use when reading files using s3a: file system.
</description>
</property>

与 HDFS 不同,AWS S3 不是文件系统。它是一个对象存储。 S3A 连接器使 S3 看起来像一个文件系统。

请查看 documentation了解更多详情。

关于apache-spark - 从 S3 存储桶加载文件时,Spark 会创建多少个分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37168716/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com