gpt4 book ai didi

apache-spark - 当连接后跟合并时 spark 是如何工作的

转载 作者:行者123 更新时间:2023-12-01 13:27:49 26 4
gpt4 key购买 nike

假设我有 2 个 DataFramedf1df2

我执行一个join,然后执行一个coalesce

df1.join(df2, Seq("id")).coalesce(1)

似乎 Spark 创建了 2 个阶段,而第二个阶段(发生 SortMergeJoin 的地方)仅由一个任务计算。

所以这个独特的任务需要将整个数据帧都存储在内存中(参见:http://spark.apache.org/docs/latest/tuning.html#memory-usage-of-reduce-tasks)。

你能证实吗?

(我原以为排序使用 spark.sql.shuffle.partitions 设置和第三个附加阶段执行合并)。

比照DAG

enter image description here

最佳答案

我在书中找到了确认High Performance Spark .

Since tasks are executed on the child partition, the number of tasks executed in a stage that includes a coalesce operation is equivalent to the number of partitions in the result RDD of the coalesce transformation.

关于apache-spark - 当连接后跟合并时 spark 是如何工作的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47576005/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com