gpt4 book ai didi

apache-spark - Spark 笛卡尔不会引起洗牌?

转载 作者:行者123 更新时间:2023-12-04 03:20:27 25 4
gpt4 key购买 nike

因此,我尝试根据此 stackoverflow 帖子测试导致改组的 Spark 操作:LINK .但是,当 cartesian 操作不会导致 Spark 中的洗牌时,这对我来说没有意义,因为它们需要跨网络移动分区以便在本地将它们放在一起。

Spark 实际上是如何在幕后执行其笛卡尔distinct 操作的?

最佳答案

Shuffle 是一种特定于键值对 RDD 的操作(RDD[(T, U)] 通常被描述为 PairRDDsPairwiseRDDs) 并且或多或少等同于 Hadoop 中的洗牌阶段。 shuffle 的目标是根据键值和 Partitioner 将数据移动到特定的执行器。 .

Spark 中有不同类型的操作,需要网络流量,但不要使用与 shuffle 相同类型的逻辑,并不总是需要键值对。笛卡尔积是这些操作之一。它在机器之间移动数据(实际上它会导致更昂贵的数据移动)但不会在 key 和执行程序之间建立关系。

关于apache-spark - Spark 笛卡尔不会引起洗牌?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38709784/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com