apache-spark - Spark 数据帧 : Is it more efficient to filter during a join or after?-6ren

apache-spark - Spark 数据帧 : Is it more efficient to filter during a join or after?

转载作者：行者123 更新时间：2023-12-04 02:59:09

24

4

我在寻找这个问题的答案时遇到了一些麻烦，所以我想知道是否有人可以帮助我。

这是一些上下文:

我有两个数据框 df1 和 df2 :

val df1: DataFrame = List((1, 2, 3), (2, 3, 3)).toDF("col1", "col2", "col3")
val df2: DataFrame = List((1, 5, 6), (1, 2, 5)).toDF("col1", "col2_bis", "col3_bis")

我想做的是

join those dataframes df1 and df2 on "col1", but only keeping the rows where df1("col2") < df2("col2_bis")

所以我的问题是，这样做是否更有效:

df1.join(df2, df1("col1") === df2("col1") and df1("col2") < df2("col2_bis"), "inner")

或者像这样:

df1.join(df2, Seq("col1"), "inner").filter(col("col2") < col("col2_bis"))

结果是:

Array(Row(1, 2, 3, 5, 6)) with columns ("col1", "col2", "col2_bis", "col3", "col3_bis")

这两个表达式是否解析为相同的执行计划？或者其中一个比另一个更省时？

谢谢你。

最佳答案

如果看查询计划，两者都是一样的，join没有区别。催化剂优化器在幕后进行各种优化。

scala> val df2 = List((1, 5, 6), (1, 2, 5)).toDF("col1", "col2_bis", "col3_bis")
df2: org.apache.spark.sql.DataFrame = [col1: int, col2_bis: int ... 1 more field]

scala> val df1 = List((1, 2, 3), (2, 3, 3)).toDF("col1", "col2", "col3")
df1: org.apache.spark.sql.DataFrame = [col1: int, col2: int ... 1 more field]

scala> df1.join(df2, df1("col1") === df2("col1") and df1("col2") < df2("col2_bis"), "inner")
res0: org.apache.spark.sql.DataFrame = [col1: int, col2: int ... 4 more fields]

scala> df1.join(df2, Seq("col1"), "inner").filter(col("col2") < col("col2_bis"))
res1: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [col1: int, col2: int ... 3 more fields]

scala> res0.show
+----+----+----+----+--------+--------+
|col1|col2|col3|col1|col2_bis|col3_bis|
+----+----+----+----+--------+--------+
|   1|   2|   3|   1|       5|       6|
+----+----+----+----+--------+--------+

scala> res1.show
+----+----+----+--------+--------+
|col1|col2|col3|col2_bis|col3_bis|
+----+----+----+--------+--------+
|   1|   2|   3|       5|       6|
+----+----+----+--------+--------+

scala> res0.explain
== Physical Plan ==
*BroadcastHashJoin [col1#21], [col1#7], Inner, BuildRight, (col2#22 < col2_bis#8)
:- LocalTableScan [col1#21, col2#22, col3#23]
+- BroadcastExchange HashedRelationBroadcastMode(List(cast(input[0, int, false] as bigint)))
   +- LocalTableScan [col1#7, col2_bis#8, col3_bis#9]

scala> res1.explain
== Physical Plan ==
*Project [col1#21, col2#22, col3#23, col2_bis#8, col3_bis#9]
+- *BroadcastHashJoin [col1#21], [col1#7], Inner, BuildRight, (col2#22 < col2_bis#8)
   :- LocalTableScan [col1#21, col2#22, col3#23]
   +- BroadcastExchange HashedRelationBroadcastMode(List(cast(input[0, int, false] as bigint)))
      +- LocalTableScan [col1#7, col2_bis#8, col3_bis#9]

关于apache-spark - Spark 数据帧 : Is it more efficient to filter during a join or after?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50905982/

24

4

0

文章推荐： php - 使用哪种设计模式来动态构建表单。 PHP

文章推荐： wpf - 小按钮wpf内的图标

文章推荐： https - HSTS 与仅使用安全 cookie 的 https

文章推荐： sql - CASE 语句别名上的 WHERE 子句

r - 第一列到最后一列的grepl : is this the most efficient
我在一个数据集中有一个来自不同来源的姓名列表:一组按 FirstName LastName 组织；另一个有全名。我想查看名字或姓氏是否在全名列中，并创建一个标志。两个问题: 首先，我 u sed th
sql - 不存在与不存在 : efficiency
我一直认为不存在是正确的方法，而不是使用不存在条件。但是，我对我一直使用的查询进行比较，我注意到“Not In”条件的执行实际上似乎更快。任何关于为什么会出现这种情况的见解，或者如果到目前为止我只是做
iPhone方向管理: what is the most efficient way to do?
我需要开发一个 iPad 应用程序，它应该管理两种方向模式(横向和纵向)。根据 official Apple iOS documentation , 有 2 种方法可以继续。 -第一个包括在收到旋转
Python 搜索 : how to do it efficiently
我有一个类有 2 个变量成员: class A: fullname = "" email = "" 内存中存储了一个A的列表，现在我需要针对全名或电子邮件进行搜索，搜索需要支持模糊搜索
c++ - 有点迂腐的问题: which is more efficient?
哪个更有效率？或者它们都同样有效？带星号的行中的底层架构发生了什么？ (1) for(int i = m_size; i > index; --i) { int k = normalize(
c# - 重叠的多个日期范围比较 : how to do it efficiently?
要检查两个不同日期范围的重叠，{Start1, End1} 和 {Start2, End2} 我正在检查: if ((Start1 = Start2)) { //overlap exists }
c++ - 递增迭代器 : Is++it more efficient than it++?
这个问题在这里已经有了答案: 关闭 13 年前. Possible Duplicate: Is there a performance difference between i++ and ++i i
ComfyUI插件：efficiency-nodes-comfyui节点
前言：学习ComfyUI是一场持久战， efficiency-nodes-comfyui是提高工作流创造效率的工具，包含效率节点整合工作流中的基础功能，比如Efficient Loader节点相当
java - 如何使用InputStream "efficiently"逐行读取文本文件？
我正在编写一个 Java 小程序，并且正在尝试读取一个 220K 行 (9.2 MB) 的文本文件，该文件是用 .jar 归档的。我相信我对文本文件的唯一合理访问是InputStream。为了使用 I
Java声音: which is more efficient - WAV or MIDI
我有一个 Java 应用程序，需要播放一些不同的“声音/连复段”来指示状态。我想知道是否最好将这些记录为音频文件(wav 或任何格式)并使用 Java 音频类播放它们，或者存储 MIDI 数据并使用
java - 解析文本文件: Efficiency and perfomance
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
python组合每对行: making script more efficient
很抱歉这个问题太基本了。目标:这是我的软件程序的输出: 1 590 SC 1.000 LEU2_YEAST 100% 1 590 EC 1.000 LEU2_ECOLI 10
jQuery "$(this)": is repeated use efficient?
重复使用 $(this) 是否有效，还是将其保存到变量中更好？我已经看到它在很多 jQuery 代码中重复使用，但由于它是对构造函数的调用，我认为它应该不必要地慢，我错了吗？最佳答案只是为了好玩
创建一个函数以从文件 : which approach would be more efficient? 创建数组
我正在考虑编写一个函数，该函数使用 calloc 创建一个数组来容纳文件中的数据(目前以字符形式)。据我了解，我的两个最明显的选择是读取所有字符以获得所需的总大小，使用 calloc 分配所需的空间，
C# Generics Efficiency，一种更好的方法
好的，假设我有如下类: public class KPIObject // Data { get; set; } public string Caption { get; set; } } p
ios - 生成一个由键控数组组成的数组 : More efficient way?
我想对表演者数组进行排序，以便他们按名字的第一个字符进行分组。例如，以下输出中的“A”代表名字以“A”开头的表演者的集合。 [ "A"[Performer,Performer,Performer,Pe
MySQL平均: Making Statement More Efficient
我正在使用此 MySQL 语句来查找社区的平均特性评估。问题是我必须为每个邻域添加一条 SELECT 语句——而且有很多邻域。有没有办法不必指定“RIVER FRONT”或“OLD TOWN”？有没有
sql - 连接多个表 : where to filter efficiently
我有许多表，大约有四个，我希望连接在一起。为了使我的代码更清晰和可读(对我而言)，我希望一次加入所有代码，然后在最后过滤: SELECT f1, f2, ..., fn FROM t1 INNER J
MySQL 和 PDO : about efficiency
我有以下代码: setAttribute( PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION ); # statement handle (prevents in
Java : which of these two methods is more efficient?
我有一个巨大的数据文件，我只需要这个文件中的特定数据，以后我会经常使用这些数据。那么这两种方法中哪一种更有效: 将此数据保存在全局变量(可能是 LinkedList)中，并在每次需要时使用它们将它们

首页

博学

6Ren·AI

商城

apache-spark - Spark 数据帧 : Is it more efficient to filter during a join or after?