gpt4 book ai didi

apache-spark - 如何在 Spark SQL 中完成高度倾斜的连接?

转载 作者:行者123 更新时间:2023-12-02 16:50:00 24 4
gpt4 key购买 nike

我的连接执行如下:

SELECT
left.*,
right.*
FROM `/foo/bar/baz` AS left
JOIN `/foo2/bar2/baz2` AS right
ON left.something = right.something

数据集:/foo/bar/baz

+-----------+-------+
| something | val_1 |
+-----------+-------+
| a | 1 |
| a | 2 |
| a | 3 |
| a | 4 |
| a | 5 |
| a | 6 |
| a | ... |
| a | 10K |
| b | 1 |
| b | 2 |
| b | 3 |
+-----------+-------+

数据集:/foo2/bar2/baz2

+-----------+-------+
| something | val_2 |
+-----------+-------+
| a | 1 |
| a | 2 |
| b | 1 |
| b | 2 |
| b | 3 |
+-----------+-------+

我的执行程序出现 OOM 错误,我不想不必要地向执行程序投入更多内存。如何确保在不消耗额外资源的情况下成功执行此连接?

最佳答案

加盐加入

使此连接成功执行的一种策略是执行所谓的加盐连接。

在 Spark 中,盐渍连接通过将每个键有许多条目的表拆分为较小的部分,同时将较小的表分解为等效数量的副本来运行。这会产生与普通连接相同大小的输出,但较大表的任务大小较小,因此 OOM 错误的风险降低。您通过向左表添加一列从 0 到 N 的随机数并制作右表的 N 个副本来对连接进行加盐。如果您将新的随机列添加到连接中,您会将最大的存储桶减少到其先前大小的 1/N。

秘诀在于 EXPLODE 函数。 EXPLODE 是叉积:

SELECT
left.*,
right.*
FROM
(
SELECT
*,
FLOOR(RAND() * 8) AS salt
FROM `/foo/bar/baz`
) AS left
JOIN
(
SELECT
*,
EXPLODE(ARRAY(0,1,2,3,4,5,6,7)) AS salt
FROM `/foo2/bar2/baz2`
) AS right
ON
left.something = right.something
AND left.salt = right.salt

调整

  • 您如何选择爆炸因素?受过教育的猜测,主要是。 2 的幂是找到合适的大概值的好方法:8、16、32。
  • 一种类似的方法是在未加盐作业运行时查看每个执行程序的行数。

注意事项

  • 确保在加盐联接时不会出现差一错误。这会让您丢失一小部分记录。
  • CEIL(RAND() * N) 为您提供 0 到 N 之间的整数。FLOOR(RAND() * N) 为您提供 0 到 N - 1 之间的数字. 确保在加盐连接中分解出正确的数字集!

盐的开销

  • 对联接进行加盐并不一定会使您的构建速度更快。它只是给了它更好的成功机会。
  • 如果您对联接进行不必要的加盐处理,您实际上可能会开始看到性能下降。

关于apache-spark - 如何在 Spark SQL 中完成高度倾斜的连接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59160447/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com