gpt4 book ai didi

apache-spark - Spark 分区如何对 HDFS 中的文件进行操作?

转载 作者:行者123 更新时间:2023-12-03 06:12:06 26 4
gpt4 key购买 nike

我正在使用 HDFS 在集群上使用 Apache Spark。据我了解,HDFS正在数据节点上分发文件。因此,如果将“file.txt”放在文件系统上,它将被分成多个分区。现在我正在打电话

rdd = SparkContext().textFile("hdfs://.../file.txt") 

来自 Apache Spark。rdd 现在是否自动与文件系统上的“file.txt”分区相同?当我打电话时会发生什么

rdd.repartition(x)

where x > 那么hdfs使用的分区? Spark 是否会物理上重新排列 hdfs 上的数据以在本地工作?

示例:我将一个 30GB 的文本文件放在 HDFS 系统上,该系统将其分布在 10 个节点上。威尔 Spark a) 使用相同的 10 个分区? b) 当我调用 repartition(1000) 时,在集群中随机播放 30GB?

最佳答案

当 Spark 从 HDFS 读取文件时,它会为单个输入拆分创建单个分区。输入分割由用于读取此文件的 Hadoop InputFormat 设置。例如,如果您使用 textFile() 在 Hadoop 中它将是 TextInputFormat,这将为您返回单个 HDFS block 的单个分区(但分区之间的分割将在线分割完成,而不是精确的 block 分割),除非您有压缩文本文件。如果是压缩文件,您将获得单个文件的单个分区(因为压缩文本文件不可分割)。

当您调用 rdd.repartition(x) 时,它会将 N 个分区中的数据从 rdd 中的 N 分区中执行洗牌到 x 您想要的分区,分区将以循环方式完成。

如果您有一个 30GB 的未压缩文本文件存储在 HDFS 上,那么使用默认的 HDFS block 大小设置 (128MB) 它将存储在 235 个 block 中,这意味着您从此文件读取的 RDD 将有 235 个分区。当您调用repartition(1000)时,您的RDD将被标记为要重新分区,但实际上,只有当您在顶部执行操作时,它才会被洗牌到1000个分区这个RDD(延迟执行概念)的

关于apache-spark - Spark 分区如何对 HDFS 中的文件进行操作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29011574/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com