sparksql数据倾斜那些事儿-6ren

sparksql数据倾斜那些事儿

转载作者：知者更新时间：2024-03-12 23:06:03

30

4

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

对 Hadoop Spark Flink 这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。

一、数据倾斜是什么？

何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一task处理的的数据量或者时间显著多于其它部分，从而使得该部分的处理速度成为整个任务处理的瓶颈。简单来说数据倾斜就是key的分化严重不均。

二、数据倾斜发生的现象

1、绝大多数 task 执行得都非常快，但个别 task 执行极慢。比如，总共有 1000 个 task，997 个 task都在 1 分钟之内执行完了，但是剩余两三个 task 却要5倍，10倍，甚至给多时间才能完成。这种情况很常见。

2、原本能够正常执行的 Spark 作业，某天突然报出 OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见。

三、数据倾斜发生原理

在进行 shuffle 的时候，必须将各个节点上相同的 key 拉取到某个节点上的一个 task 来进行处理，比如按照 key 进行聚合或 join 等操作。此时如果某个key 对应的数据量特别大的话，就会发生数据倾斜。比如大部分 key 对应 10 条数据，但是个别 key 却对应了 100 万条数据，那么大部分 task 可能就只会分配到 10 条数据，然后 1 秒钟就运行完了；但是个别 task 可能分配到了 100 万数据，要运行一两个小时。因此，整个 Spark 作业的运行进度是由运行时间最长的那个 task 决定的。

因此出现数据倾斜的时候，Spark 作业看起来会运行得非常缓慢，甚至可能因为某个 task 处理的数据量过大导致内存溢出。

四、数据倾斜产生场景

主要分为3类：

1、shuffle倾斜：

一般由shuffle算子导致，例如：count ，distinct ，avg ,min, max等aggregation操作和join倾斜(五大Join )。
在spark UI上可以看到整个作业(action/application)所有stage中Duration值最大，且有Shuffle Read，没有Input。

2、读倾斜：

源数据有倾斜(特别相同key多的场景)，加上列式存储(相同的key只存储一次)。
在spark UI上可以看到整个作业(action/application)所有stage中Duration值最大，且有Input，没有Shuffle Read。

3、写倾斜：

一般distribute by 或者 partition over 或者 reparation 小或者并发低造成最后只有几个task生产数据文件。

五、数据倾斜的危害

1、整体耗时过大（整个任务的完成由执行时间最长的那个Task决定）
2、应用程序可能异常退出（某个Task执行时处理的数据量远远大于正常节点，则需要的资源容易出现瓶颈，当资源不足，则应用程序退出）
3、资源闲置（处理等待状态的Task资源得不到及时的释放，处于闲置浪费状态）

六、数据倾斜的解决方案

1、过滤少数导致倾斜的 key

2、调整shuffle操作的并行度

set spark.sql.shuffle.partitions=1600;//默认200，可以按200、400、800、1600、3200…增加

3、小表广播

强制加上 broadcast hint 语法，即 /*+ broadcast(小表别名) */，将sortmergejoin转换为broadcastjoin

4、使用随机数和双重聚合

原有聚合SQL逻辑

select id,count(1) from tbl group by id ;

改成
现在聚合SQL逻辑

SELECT split(t2.new_id,'_')[0] AS id,sum(t2.cnt) AS cnt
FROM
    (SELECT t1.new_id ,
         count(1) AS cnt
    FROM
        (SELECT id,
         value,
         concat(id,
         '_',cast(rand()*10000 as int)%3) AS new_id
        FROM tbl) t1
        GROUP BY  new_id ) t2
GROUP BY  split(t2.new_id,'_')[0];

5、倾斜key增加随机数进行独立join

1.适应场景：两个表表join，都大表，无法使用broadcast Join,但倾斜key 不多。其中一个RDD有少数几个Key的数据量过大，另外一个RDD的Key分布较为均匀。

2.解决 : 先拆分倾斜表的倾斜key,加上随机数形成临时表a1,倾斜表其他非倾斜部分形成临时a2表; 对于非倾斜表过滤倾斜key，扩容形成临时表b1，非倾斜表非倾斜key 形成b2然后a1和b1进行join(同时去掉随机数)，a2和b2进行join，最后合并。

原有SQL逻辑

select t1.id,t2.value from  t1 join   t2 on t1.id=t2.id where t1.dt=20191001 ;

改成
优化后SQL逻辑
2个join一个union替代原来的join

--倾斜部分
select split(a.id,'_')[0],split(b.id,'_')[0],a.value,b.value from
 (select concat(t1.id,'_',cast(rand()*10000 as int)%3) AS id,t2.value from  t1  where t1.id  in ('倾斜id列表')) a
join
 ( SELECT id, value,concat(id,'_',suffix) AS id FROM
  (SELECT id, value , suffix  FROM t2 Lateral View explode(array(0,1,2)) tmp AS suffix  where t2.id  in ('倾斜id列表')) tt
 ) b
on a.id=b.id 
union all  -- 最后合并倾斜和非倾斜部分
--非倾斜部分
select t1.id,t2.value from  t1
 join  t2
on t1.id=t2.id 
where t1.dt='20191001' and  t1.id not in ('倾斜id列表') and t2.id not in ('倾斜id列表');    //非倾斜key

6、倾斜表随机数以及扩容表进行join

1.场景：两个表join,都是大表但是其中一个表数据存在的倾斜Key比较多，另外一个数据集数据分布比较均匀。

2.解决：倾斜表全部数据打散，非倾斜表全部扩容，然后join，去掉前缀。

原始A表的逻辑修改：

select id,value from A
改成
select id,value,concat(id,'_',cast(rand()*10000 as int)%3) as new_id from A

原始B表的逻辑修改：

select id,value from B
 
改成
  
select id,value,concat(id,'_',suffix) as new_id
from (
      select id,value ,suffix
      from B Lateral View explode(array(0,1,2))  tmp as suffix
)

Join逻辑修改==

select a.id, count(1)  from
A a join B b
on a.id=b.id
改成
  
SELECT split(c.new_id,'_')[0] AS id, sum(cnt) AS cnt
FROM
    (SELECT a.new_id,count(1) AS cnt
    FROM
        (SELECT id,value,concat(id,'_',cast(rand()*10000 as int )%3) AS new_id  FROM t1) a
        JOIN
        ( SELECT id, value,concat(id,'_',suffix) AS new_id FROM (SELECT id, value , suffix  FROM t2 Lateral View explode(array(0,1,2)) tmp AS suffix ) tt ) b
         ON a.new_id=b.new_id
     ) c
GROUP BY  split(c.new_id,'_')[0]

7、SparkSQL自适应分区

开启自适应分区
set spark.sql.adaptive.enabled = true;
开启自动处理倾斜
set spark.sql.adaptive.skewJoin.enabled = true;
倾斜因子
set spark.sql.adaptive.skewJoin.skewedPartitionFactor =5;

8、使用Hive ETL预处理数据，在前置任务或表里进行处理。

总结

优化项是要不断尝试，不断调试，然后才能得出来一个可行的，有效的方法。

vicente.liu 2022-06-27

注：本文有引用其他文章及图片，如有侵权，请私信，然后删除。

30

4

0

文章推荐：使用Karmada实现Helm应用的跨集群部署

文章推荐：深度优先搜索实现抓牛问题

文章推荐：剑指 Offer 22. 链表中倒数第k个节点 (Python 实现)

文章推荐： easyexecl导出100万行execl报字体错误的解决办法

iPhone 倾斜 CALayer
我是初学者，我正在做一些练习来熟悉 CALayer ... 我只是想知道如何“倾斜”(或倾斜)CALayer 45° 角？谢谢。最佳答案 CALayers 有一个属性 affineTransfor
html - 倾斜/倾斜的表头
无法理解如何制作this trick或 this与CSS。我的意思是标题和标志。这条线不直。它们是倾斜的/倾斜的边界。能否请您举个例子或只是举例说明这是可行的？最佳答案看看https://jsfi
iPhone 图像拉伸(stretch)(倾斜)
如何倾斜图像？例如，每个角都有一个 CGPoint，其坐标为 - p1、p2、p3、p4。然后，我需要设置 - p4.x+=50，p4.y+=30。因此这个角 (p4) 应该在 2D 透视中拉伸(st
html - 使用css实现浮雕/倾斜/3d边框效果
我想弄清楚如何通过仅使用 css 来实现元素底部的跟随边框，并使其尽可能对跨浏览器友好示例代码，带有标准边框 .object { width: 200px; height: 45p
html - 倾斜 Bootstrap 导航列表项并保持链接直
我正在尝试使用 CSS transform 来倾斜 Bootstrap 导航 li，我可以做到这一点，但是当我尝试扭转内部链接上的倾斜时，li 倾斜也会反转回来。我不知道为什么。我试着做这里接受的答案
CSS only 2 条纹背景(倾斜)
这个问题在这里已经有了答案: CSS: Set a background color which is 50% of the width of the window (14 个答案) 关闭 7 年前
html - 倾斜 Div 上的导航栏
我已经创建了一个预定的 div 来与我的导航栏一起使用，但是它弄乱了网站的其余格式。导航栏位于右上角，倾斜的 div 位于其下方，但它弄乱了网页上的所有其他内容。我一直在尝试一切都无济于事。 http
CSS3 一侧边框剪切/变换/倾斜
你好，我想像这里的附图一样对步骤菜单进行风格化。我该如何风格化这个？主要问题是菜单右侧的边框。检查我的 JSFiddle URL https://jsfiddle.net/hcx1pv8x/ , 不
javascript - 没有平移副作用的 SVG 倾斜
我正在尝试使用 HTML5 在 javascript 中倾斜 svg 元素，例如: 中的矩形元素是倾斜的，但 rect 元素也向右移动(不需要)，我尝试手动设置位置使用 transform
html - 倾斜 div 容器上的文本溢出
目前我对应该倾斜的容器使用clip-path。 .box { height: 150px; line-height: 150px; text-align: center; backgr
python - OpenCV - 调整照片倾斜角度(倾斜)
我有一个相机从上方指向禅宗花园。然而，相机固定在侧面而不是直接在板的上方。结果，图像看起来像这样(注意矩形的倾斜形状): 有没有办法处理图像，使沙子区域看起来或多或少像一个完美的正方形？ cap =
objective-c - UIScrollview 倾斜
我正在尝试使用倾斜 350 度的 UIScrollview，我首先想到的是使用变换属性，滚动上的倾斜起作用了，但现在滚动上的所有内容看起来都不对，当我谈论所有内容时，我指的是位置和这个卷轴的所有 ch
ruby-on-rails - 倾斜(Bundler 依赖错误)
我需要将我的应用程序升级到 Rails 3.2.16，当时我做了 bundle update rails它给了我以下错误。 Bundler could not find compatible vers
ruby-on-rails - Gem::LoadError: 倾斜？
我正在尝试运行 rake db:migrate在本地，但我收到以下错误: Gem::LoadError: You have already activated rake 10.2.2, but you
带有背景图片的 CSS3 倾斜 div，整个图片后面有图片
很难用语言表达我想要完成的事情，所以请查看这张照片作为示例: 如您所见，我希望创建一个带有图案背景的倾斜 div(简单)，但另一部分，即倾斜被半遮住的部分，也必须有背景图像。我想到了很多不同的想法，并
loops - 如何使用嵌套 for 循环将两个二维(倾斜)数组相加？
假设，我想将两个二维数组添加到第三个二维数组中。我正在使用以下代码: cudaMallocPitch((void**)&device_a, &pitch, 2*sizeof(int),2); cud
带有背景图片的 CSS3 倾斜 div，整个图片后面有图片
很难用语言表达我想要完成的事情，所以请查看这张照片作为示例: 如您所见，我希望创建一个带有图案背景的倾斜 div(简单)，但另一部分，即倾斜被半遮住的部分，也必须有背景图像。我想到了很多不同的想法，并
javascript - jquery 倾斜/ curl 引号混淆
我刚刚遇到了这种附加字符串的变体，其中包含存储在变量中的值，这是我以前从未见过的。谁能帮我解释一下这是怎么回事？这是我遇到的情况: var fruit = "banana"; $main = $('
loops - 如何使用嵌套 for 循环将两个二维(倾斜)数组相加？
假设，我想将两个二维数组添加到第三个二维数组中。我正在使用以下代码: cudaMallocPitch((void**)&device_a, &pitch, 2*sizeof(int),2); cud
Java Visual VM 倾斜 CPU
我正在尝试分析在 Windows 上运行的 Java UI 应用程序的 CPU 使用率。我将它连接到 VisualVM，但看起来 CPU 使用率最高的是 sum.rmi.transport.tcp.T

首页

博学

6Ren·AI

商城