gpt4 book ai didi

hive - 通过从 Hive 表中读取数据创建的 spark 数据帧的分区数

转载 作者:行者123 更新时间:2023-12-05 01:12:28 24 4
gpt4 key购买 nike

我对 Spark 数据帧分区数有疑问。

如果我有包含列(名称、年龄、ID、位置)的 Hive 表(员工)。
CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String);
如果员工表有 10 个不同的位置。因此数据将在 HDFS 中被划分为 10 个分区。

如果我通过读取 Hive 表(员工)的整个数据来创建 Spark 数据帧(df)。

Spark将为数据帧(df)创建多少个分区?

df.rdd.partitions.size = ??

最佳答案

分区是根据 HDFS 的块大小创建的。

想象一下,您已将 10 个分区作为单个 RDD 读取,如果块大小为 128MB,则

分区数 =(大小为(以 MB 为单位的 10 个分区))/128MB

将存储在 HDFS 上。

请引用以下链接:

http://www.bigsynapse.com/spark-input-output

关于hive - 通过从 Hive 表中读取数据创建的 spark 数据帧的分区数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43886868/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com