gpt4 book ai didi

apache-spark - Spark DataFrame 与 sqlContext

转载 作者:行者123 更新时间:2023-12-01 08:52:27 27 4
gpt4 key购买 nike

为了进行比较,假设我们有一个表“T”,其中包含两列“A”、“B”。我们还有一个在一些 HDFS 数据库中运行的 hiveContext。我们制作一个数据框:

理论上,以下哪个更快:

sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")

df.groupBy("A").sum("B")

其中“df”是指 T 的数据帧。对于这些简单类型的聚合操作,有什么理由让人们更喜欢一种方法而不是另一种?

最佳答案

不,这些应该归结为相同的执行计划。 Spark SQL 引擎下面使用相同的优化引擎,即催化剂优化器。您始终可以通过查看 spark UI 自己检查这一点,甚至在生成的 DataFrame 上调用 explain

关于apache-spark - Spark DataFrame 与 sqlContext,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38492858/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com