gpt4 book ai didi

hadoop - RDD分区和切片有什么区别?

转载 作者:可可西里 更新时间:2023-11-01 14:08:41 26 4
gpt4 key购买 nike

Spark Programming Guide提到分片是RDD(并行集合或Hadoop数据集)的一个特性。(“Spark将为集群的每个分片运行一个任务。”)但是在RDD持久化部分下,分区的概念没有介绍。此外,RDD docs仅提及分区而未提及切片,而 SparkContext docs提到了用于创建 RDD 的切片,但提到了用于在 RDD 上运行作业的分区。这两个概念是一样的吗?如果不是,它们有何不同?

Tuning - Level of Parallelism表示“Spark 会根据每个文件的大小自动设置要在每个文件上运行的“映射”任务的数量……对于分布式“归约”操作,例如 groupByKey 和 reduceByKey,它使用最大的父 RDD 分区数。你可以将并行级别作为第二个参数传递......”那么这是否解释了分区和切片之间的区别?分区与RDD存储相关,切片与并行度相关,默认情况下拼接是根据数据大小或分区数计算的?

最佳答案

它们是一样的。感谢 Matthew Farrellee,Spark 1.2 的文档已得到修复。错误中的更多详细信息:https://issues.apache.org/jira/browse/SPARK-1701

关于hadoop - RDD分区和切片有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23436640/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com