gpt4 book ai didi

sql - SparkSQL支持子查询吗?

转载 作者:行者123 更新时间:2023-12-03 00:49:33 27 4
gpt4 key购买 nike

我正在 Spark shell 中运行此查询,但它给了我错误,

sqlContext.sql(
"select sal from samplecsv where sal < (select MAX(sal) from samplecsv)"
).collect().foreach(println)

错误:

java.lang.RuntimeException: [1.47] failure: ``)'' expected but identifier MAX found

select sal from samplecsv where sal < (select MAX(sal) from samplecsv) ^ at scala.sys.package$.error(package.scala:27) Can anybody explan me,thanks

最佳答案

计划的功能:

  • SPARK-23945 (Column.isin() 应该接受单列 DataFrame 作为输入)。
  • SPARK-18455 (对相关子查询处理的一般支持)。

Spark 2.0+

Spark SQL 应该支持相关和不相关的子查询。请参阅SubquerySuite了解详情。一些示例包括:

select * from l where exists (select * from r where l.a = r.c)
select * from l where not exists (select * from r where l.a = r.c)

select * from l where l.a in (select c from r)
select * from l where a not in (select c from r)

不幸的是,目前(Spark 2.0)无法使用 DataFrame DSL 表达相同的逻辑。

Spark <2.0

Spark 支持 FROM 子句中的子查询(与 Hive <= 0.12 相同)。

SELECT col FROM (SELECT *  FROM t1 WHERE bar) t2

它根本不支持 WHERE 子句中的子查询。一般来说,如果不升级为笛卡尔连接,则无法使用 Spark 表达任意子查询(特别是相关子查询)。

由于子查询性能通常是典型关系系统中的一个重要问题,并且每个子查询都可以使用 JOIN 来表达,因此这里不会损失功能。

关于sql - SparkSQL支持子查询吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33933118/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com