apache-spark - Spark中有 "Explain RDD"吗-6ren

apache-spark - Spark中有 "Explain RDD"吗

转载作者：行者123 更新时间：2023-12-03 07:24:51

25

4

特别是，如果我说

rdd3 = rdd1.join(rdd2)

然后当我调用rdd3.collect时，取决于Partitioner使用时，要么数据在节点分区之间移动，要么连接在每个分区上本地完成(或者，据我所知，完全是其他东西)。这取决于 RDD 论文所说的“窄”和“宽”依赖关系，但谁知道优化器在实践中有多好。

无论如何，我可以从跟踪输出中收集实际发生的事情，但最好调用 rdd3.explain .

这样的事情存在吗？

最佳答案

我认为toDebugString会满足你的好奇心。

scala> val data = sc.parallelize(List((1,2)))
data: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[8] at parallelize at <console>:21

scala> val joinedData = data join data
joinedData: org.apache.spark.rdd.RDD[(Int, (Int, Int))] = MapPartitionsRDD[11] at join at <console>:23

scala> joinedData.toDebugString
res4: String =
(8) MapPartitionsRDD[11] at join at <console>:23 []
 |  MapPartitionsRDD[10] at join at <console>:23 []
 |  CoGroupedRDD[9] at join at <console>:23 []
 +-(8) ParallelCollectionRDD[8] at parallelize at <console>:21 []
 +-(8) ParallelCollectionRDD[8] at parallelize at <console>:21 []

每个缩进都是一个阶段，因此应该作为两个阶段运行。

此外，优化器相当不错，但是如果您使用 1.3+ 作为优化器，我建议使用 DataFrames 在许多情况下会更好:)

关于apache-spark - Spark中有 "Explain RDD"吗，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30171129/

25

4

0

文章推荐： eclipse - Android studio，Ctrl+BackSpace 删除同eclipse

mysql - EXPLAIN 关键字，它是否也执行查询或仅执行 "explains"查询？
INSERT 或 UPDATE 语句中的 EXPLAIN 关键字是执行查询，还是只是为您显示(“解释”)查询 - MySQL 新手，无法足够快地找到问题。最佳答案 Reference说 The EX
MongoDB。 db.collection.explain().find() 与 db.collection.find().explain()
这两个命令有什么区别？ db.collection.explain().find() db.collection.find().explain() 最佳答案正在运行 db.collection.ex
27、SQLite Explain
SQLite Explain（解释）在SQLite 语句之前，可以使用 “EXPLAIN” 关键字或 “EXPLAIN QUERY PLAN” 短语，用于描述表的细节。如果省略了 EXPLAI
Postgresql EXPLAIN 命令
我有一个查询，在 WHERE 子句之后有几个 filter 条件。此外，大多数涉及的列都有索引。当我运行 EXPLAIN 命令时，我看到: -> Bitmap Index Scan on fea
MySQL EXPLAIN 自动解析
我需要实现对 MySQL EXPLAIN 命令输出的自动分析，它将查询标记为“坏”(例如，如果不使用索引)、“中等”(可以优化)和“好” ”。是否有任何现有的解决方案或任何算法来实现它？最佳答案
mysql Explain - 我如何在网页上看到结果？
我在 SQL 字符串中的查询前面添加了 EXPLAIN 我在本地服务器上运行的网站的网页但是我如何才能看到 EXPLAIN 的输出？ Echo 和 print_r 都返回:资源 id #33 我如何
MySQL EXPLAIN 语句显示所有类型
我有一个快速且非常简单的问题。我有一个包含以下 SQL 的表: CREATE TABLE `users` ( `id` int(20) NOT NULL AUTO_INCREMENT, `use
MySQL EXPLAIN 输出解释
我有一个缓慢的 MySQl 查询，大约需要 15 秒才能运行。所以我做了一些调查，发现我可以使用 EXPLAIN 语句来查看瓶颈在哪里。所以我这样做了，但真的无法破译这些结果。如果我不得不尝试一下，
MySQL: 'EXPLAIN' 对类似查询显示不同的解释
我在数据库中有一个“posts”表，它在 user_id 上有非唯一索引(键:MUL)。 mysql> show columns from posts; +---------+------------
mysql - EXPLAIN 能否提供的不仅仅是查询计划？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
MySQL EXPLAIN - 它每次都给我不同的解释
我有一个非常大、复杂的查询，我正在尝试使用 MySQL EXPLAIN SELECT 或 EXPLAIN EXTENDED SELECT 进行优化。如果我针对查询运行它，我会看到查询中的每个表都在
mysql - EXPLAIN 中的顺序是什么意思？
8.2.2. EXPLAIN Output Format基于以下 SQL 查询的连续优化，给出了几个 EXPLAIN 示例: EXPLAIN SELECT tt.TicketNumber, tt.Ti
mysql explain 结果解释
下面的查询完全符合我的预期，它很直观并且不会生成中间表。缺点是需要很长时间才能完成。在这种情况下，我要做的是逐步分解查询并创建那些中间表和索引。这一次，我想更好地处理 explain 提供的提示，并
mysql开启慢查询(EXPLAIN SQL语句使用介绍)
今天，数据库的操作越来越成为整个应用的性能瓶颈了，这点对于Web应用尤其明显。关于数据库的性能，这并不只是DBA才需要担心的事，而这更是我们程序员需要去关注的事情。当我们去设计数据库表结构，对操作数
Mysql Explain 详细介绍
Mysql Explain 这里做一个资料的全面整理。一.语法 explain < table_name > 例如: explain select * from t3 where
简述Mysql Explain 命令
MySQL的EXPLAIN命令用于SQL语句的查询执行计划(QEP)。这条命令的输出结果能够让我们了解MySQL 优化器是如何执行SQL语句的。这条命令并没有提供任何调整建议，但它能够提供重要的信息
MYSQL explain 执行计划
使用方法，在select语句前加上explain就可以了：如：explain select * from test1 EXPLAIN列的解释： table：显示
python - shap.Explainer 构造函数错误要求未记录的位置参数
我正在使用 python shap包以更好地理解我的机器学习模型。 (来自 documentation:“SHAP(SHpley Additive exPlanations)是一种解释任何机器学习模型
optimization - 有没有办法 "EXPLAIN"Cassandra查询？
如标题。我想知道我的查询是否优化得很好。最佳答案是的，在Cassandra 1.2中，您可以打开request tracing进行查询。关于optimization - 有没有办法 "EXPLA
sql - 如何使用 DB2 Explain？
如何使用 DB2 的 Explain 功能？ -- 既可以运行它，也可以使用它来优化查询。是否有更好的工具可用于 DB2？我以前构建过查询，但我必须知道它们需要多长时间的唯一方法是运行它们并为它们计

首页

博学

6Ren·AI

商城

apache-spark - Spark中有 "Explain RDD"吗