spark学习之执行计划explain-6ren

spark学习之执行计划explain

转载作者：知者更新时间：2024-03-13 03:35:20

30

4

🐼今天我们来学习阅读spark的执行计划，在学习执行计划之前，我们需要了解spark中的代码是如何执行的，学习代码的执行过程有助于我们加深对spark的理解，对往期内容感兴趣的同学可以查看👇:

hadoop专题: hadoop系列文章.
spark专题: spark系列文章.
flink专题: Flink系列文章.

🐰本文主要是讲解spark sql的代码，从本质上说，操作dataframe和sql，spark都将转换为相同的底层执行计划，那我们这里就以sql代码执行为例。

1. spark代码处理流程

1.1 代码处理详细过程

流程图如下：

将sql语句转化为未决断的逻辑执行计划（未决断的意思就是只验证了sql语法的正确性，未验证表名列名的正确性）
使用catalog验证第一步中的表名列名信息，转化为逻辑执行计划（catalog描述了数据集的属性和数据集的位置）
接着对我们的sql语法进行优化，得到优化后的逻辑执行计划
优化后的逻辑执行计划转化为物理执行计划
根据合适CBO（代价选择）将物理执行计划转化为可以执行的代码
转化为rdd去执行任务

1.2 核心过程

分析
逻辑优化
生成物理执行计划
评估模型分析
代码生成

2. spark查看执行计划

2.1 explain的用法

下面介绍如何使用explain查询几种执行计划

explain()：只展示物理执行计划。（使用较多）
explain(mode=“simple”)：只展示物理执行计划。
explain(mode=“extended”)：展示物理执行计划和逻辑执行计划。
explain(mode=“codegen”) ：展示要 Codegen 生成的可执行 Java 代码。（使用较多）
explain(mode=“cost”)：展示优化后的逻辑执行计划以及相关的统计。
explain(mode=“formatted”)：以分隔的方式输出，它会输出更易读的物理执行计划，并展示每个节点的详细信息。

演示一下：我们这里有student表和score表，连接分组操作。

sqlway=spark.sql("""
select student.s_id,count(1)
from student
left join score
on student.s_id=score.s_id
group by student.s_id
""")
sqlway.explain(mode="extended")#展示物理执行计划和逻辑执行计划。

展示逻辑和物理执行计划结果如下：

图片中的各个部分解释如下：

Unresolved 逻辑执行计划：== Parsed Logical Plan ==
含义：Parser 组件检查 SQL 语法上是否有问题，然后生成 Unresolved（未决断）的逻辑计划，不检查表名、不检查列名。
Resolved 逻辑执行计划：== Analyzed Logical Plan ==
含义：通过访问 Spark 中的 Catalog 存储库来解析验证语义、列名、类型、表名等。
优化后的逻辑执行计划：== Optimized Logical Plan ==
含义：Catalyst 优化器根据各种规则进行优化。
物理执行计划：== Physical Plan ==
含义：生成java代码执行

3. spark阅读执行计划

这一部分将通过第二部分中的代码产生的执行进行解读。
悄悄告诉你们，执行计划的阅读方式是从下往上阅读。

3.1 阅读 Parsed Logical Plan

这一部分显示的是未决断的逻辑执行计划。从下至上依次是查看表名，然后join，然后聚合。

3.2 阅读 Analyzed Logical Plan

这一部分，是加入了catalog验证表名和列名之后的执行计划，和上一部分的很像，但增加了表的相关信息，#号代表列的序号，L代表长整型整数。

3.3 阅读 Optimized Logical Plan

这一部分，是优化后的逻辑执行计划，加入了判断空值、自动过滤等功能，优化了逻辑执行过程。

3.4 阅读 Physical Plan

这一部分，介绍一些物理执行计划中的名词：

HashAggregate：表示数据聚合，一般 HashAggregate 是成对出现，第一个HashAggregate 是将执行节点本地的数据进行局部聚合，另一个 HashAggregate 是将各个分区的数据进一步进行聚合计算。
Exchange：表示shuffle，表示需要在集群上移动数据。很多时候HashAggregate 会以 Exchange 分隔开来。
Project：表示 SQL 中的投影操作，就是选择列（例如：select name, age…）
BroadcastHashJoin：表示通过基于广播方式进行 HashJoin。
LocalTableScan ：表示全表扫描本地的表。

根据这些，我们可以看出，物理执行计划会去寻找表所在的文件位置，取出所需要的列，规约（预聚合），广播，join的方式，聚合的列等等信息。

4. 总结

在这一部分中，我们对spark sql对运行原理和执行计划进行了说明，学习这一部分的主要原因是让我们更加了解spark的运行机制，为后面我们学习spark的优化做基础。

5. 参考资料

尚硅谷spark3.0
spark权威指南

30

4

0

文章推荐： spark学习之资源调度

文章推荐： vue条件渲染使用场景（v-if VS v-show）

文章推荐： LeetCode_二叉树_中等_102.二叉树的层序遍历

文章推荐： Spring Boot2 resilience4j使用教程

mysql - EXPLAIN 关键字，它是否也执行查询或仅执行 "explains"查询？
INSERT 或 UPDATE 语句中的 EXPLAIN 关键字是执行查询，还是只是为您显示(“解释”)查询 - MySQL 新手，无法足够快地找到问题。最佳答案 Reference说 The EX
MongoDB。 db.collection.explain().find() 与 db.collection.find().explain()
这两个命令有什么区别？ db.collection.explain().find() db.collection.find().explain() 最佳答案正在运行 db.collection.ex
27、SQLite Explain
SQLite Explain（解释）在SQLite 语句之前，可以使用 “EXPLAIN” 关键字或 “EXPLAIN QUERY PLAN” 短语，用于描述表的细节。如果省略了 EXPLAI
Postgresql EXPLAIN 命令
我有一个查询，在 WHERE 子句之后有几个 filter 条件。此外，大多数涉及的列都有索引。当我运行 EXPLAIN 命令时，我看到: -> Bitmap Index Scan on fea
MySQL EXPLAIN 自动解析
我需要实现对 MySQL EXPLAIN 命令输出的自动分析，它将查询标记为“坏”(例如，如果不使用索引)、“中等”(可以优化)和“好” ”。是否有任何现有的解决方案或任何算法来实现它？最佳答案
mysql Explain - 我如何在网页上看到结果？
我在 SQL 字符串中的查询前面添加了 EXPLAIN 我在本地服务器上运行的网站的网页但是我如何才能看到 EXPLAIN 的输出？ Echo 和 print_r 都返回:资源 id #33 我如何
MySQL EXPLAIN 语句显示所有类型
我有一个快速且非常简单的问题。我有一个包含以下 SQL 的表: CREATE TABLE `users` ( `id` int(20) NOT NULL AUTO_INCREMENT, `use
MySQL EXPLAIN 输出解释
我有一个缓慢的 MySQl 查询，大约需要 15 秒才能运行。所以我做了一些调查，发现我可以使用 EXPLAIN 语句来查看瓶颈在哪里。所以我这样做了，但真的无法破译这些结果。如果我不得不尝试一下，
MySQL: 'EXPLAIN' 对类似查询显示不同的解释
我在数据库中有一个“posts”表，它在 user_id 上有非唯一索引(键:MUL)。 mysql> show columns from posts; +---------+------------
mysql - EXPLAIN 能否提供的不仅仅是查询计划？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
MySQL EXPLAIN - 它每次都给我不同的解释
我有一个非常大、复杂的查询，我正在尝试使用 MySQL EXPLAIN SELECT 或 EXPLAIN EXTENDED SELECT 进行优化。如果我针对查询运行它，我会看到查询中的每个表都在
mysql - EXPLAIN 中的顺序是什么意思？
8.2.2. EXPLAIN Output Format基于以下 SQL 查询的连续优化，给出了几个 EXPLAIN 示例: EXPLAIN SELECT tt.TicketNumber, tt.Ti
mysql explain 结果解释
下面的查询完全符合我的预期，它很直观并且不会生成中间表。缺点是需要很长时间才能完成。在这种情况下，我要做的是逐步分解查询并创建那些中间表和索引。这一次，我想更好地处理 explain 提供的提示，并
mysql开启慢查询(EXPLAIN SQL语句使用介绍)
今天，数据库的操作越来越成为整个应用的性能瓶颈了，这点对于Web应用尤其明显。关于数据库的性能，这并不只是DBA才需要担心的事，而这更是我们程序员需要去关注的事情。当我们去设计数据库表结构，对操作数
Mysql Explain 详细介绍
Mysql Explain 这里做一个资料的全面整理。一.语法 explain < table_name > 例如: explain select * from t3 where
简述Mysql Explain 命令
MySQL的EXPLAIN命令用于SQL语句的查询执行计划(QEP)。这条命令的输出结果能够让我们了解MySQL 优化器是如何执行SQL语句的。这条命令并没有提供任何调整建议，但它能够提供重要的信息
MYSQL explain 执行计划
使用方法，在select语句前加上explain就可以了：如：explain select * from test1 EXPLAIN列的解释： table：显示
python - shap.Explainer 构造函数错误要求未记录的位置参数
我正在使用 python shap包以更好地理解我的机器学习模型。 (来自 documentation:“SHAP(SHpley Additive exPlanations)是一种解释任何机器学习模型
optimization - 有没有办法 "EXPLAIN"Cassandra查询？
如标题。我想知道我的查询是否优化得很好。最佳答案是的，在Cassandra 1.2中，您可以打开request tracing进行查询。关于optimization - 有没有办法 "EXPLA
sql - 如何使用 DB2 Explain？
如何使用 DB2 的 Explain 功能？ -- 既可以运行它，也可以使用它来优化查询。是否有更好的工具可用于 DB2？我以前构建过查询，但我必须知道它们需要多长时间的唯一方法是运行它们并为它们计

首页

博学

6Ren·AI

商城