gpt4 book ai didi

hadoop - 哪个更快?带有 Where 子句的 Spark SQL 或在 Spark SQL 之后在 Dataframe 中使用过滤器

转载 作者:可可西里 更新时间:2023-11-01 14:15:41 24 4
gpt4 key购买 nike

哪个更快? Spark SQL 与 Where 子句或在 Spark SQL 之后在 Dataframe 中使用过滤器?

喜欢从选项卡 1 中选择 col1、col2,其中 col1=val;

或者

dataframe df=sqlContext.sql(从tab 1中选择col1, col2);

df.filter("Col1=Val");

最佳答案

使用explain 方法查看物理计划是确定性能的好方法。

例如,Zeppelin 教程笔记本。

sqlContext.sql("select age, job from bank").filter("age = 30").explain

sqlContext.sql("select age, job from bank where age = 30").explain

具有完全相同的物理计划。

== Physical Plan ==
Project [age#5,job#6]
+- Filter (age#5 = 30)
+- Scan ExistingRDD[age#5,job#6,marital#7,education#8,balance#9]

所以性能应该是一样的。

虽然我认为 select age, job from bank where age = 30 在这种情况下更具可读性。

关于hadoop - 哪个更快?带有 Where 子句的 Spark SQL 或在 Spark SQL 之后在 Dataframe 中使用过滤器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40465412/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com