sql - Spark SQL 的 where 子句排除空值-6ren

sql - Spark SQL 的 where 子句排除空值

转载作者：行者123 更新时间：2023-12-04 23:18:26

25

4

我正在尝试在 Apache spark sql 上运行查询。第一个查询工作正常，但第二个查询也会删除空值。

代码 :

def main(args: Array[String]) {

    val sc = new SparkContext("local[*]", "Spark")
    val sqlContext = new SQLContext(sc)

    val pageViewsDF = getDataframe(sc, sqlContext)

    println("RUNNING SQL QUERIES ")

    sqlContext.sql("select name , count(*) from pageviews_by_second group by name").show(10)

    sqlContext.sql("select name , count(*) from pageviews_by_second where name not in (\"Rose\") group by name").show(10)

  }

  def getDataframe(sc: SparkContext, sqlContext: SQLContext): DataFrame = {

    Logger.getLogger("org").setLevel(Level.OFF);
    Logger.getLogger("akka").setLevel(Level.OFF);

    val dataArray = List(List("David", null),
      List("David", null),
      List("Charlie", "23"),
      List("Rose", null),
      List("Ben", null),
      List("Harry", "43"),
      List(null, "25"),
      List(null, "21"),
      List("David", "15"),
      List("Rose", null),
      List("Alan", "26"))
    val separator = ","

    // Create an RDD
    val dataRDD = sc.parallelize(dataArray)

    // The schema is encoded in a string
    val header = "name,age"

    // Import Spark SQL data types and Row.
    import org.apache.spark.sql._

    // Generate the schema based on the string of schema
    val schema =
      StructType(
        header.split(separator).map { fieldName =>
          StructField(fieldName, StringType, true)
        })

    val rowRDD =
      dataRDD
        .map(p => Row(p(0), p(1)))

    // Apply the schema to the RDD.
    var df = sqlContext.createDataFrame(rowRDD, schema)

    df.registerTempTable("pageviews_by_second")

    df
  }

第一个查询的结果是:

+-------+---+
|   name|_c1|
+-------+---+
|   Alan|  1|
|    Ben|  1|
|  David|  3|
|Charlie|  1|
|   Rose|  2|
|  Harry|  1|
|   null|  2|
+-------+---+

第二个查询的输出:

+-------+---+
|   name|_c1|
+-------+---+
|   Alan|  1|
|    Ben|  1|
|  David|  3|
|Charlie|  1|
|  Harry|  1|
+-------+---+

在第二个查询中，我只排除“Rose”，但“null”也被排除在外。

如果我的查询有误，请帮助我进行正确的查询。

最佳答案

这是因为 NULL在 SQL 中相当于“未知”。这意味着与 NULL 的任何比较, 除了 IS NULL/IS NOT NULL未定义并返回 NULL .

case class Record(id: Integer, value: String)

val df = sc.parallelize(Seq(Record(1, "foo"), Record(2, null))).toDF
df.registerTempTable("df")

sqlContext.sql("""SELECT value = "foo" FROM df""").show
// +----+
// | _c0|
// +----+
// |true|
// |null|
// +----+

sqlContext.sql("""SELECT value != "foo" FROM df""").show
// +-----+
// |  _c0|
// +-----+
// |false|
// | null|
// +-----+

因此 IN/ NOT IN也是未定义的:

sqlContext.sql("""SELECT value IN ("foo", "bar")  FROM df""").show
// +----+
// | _c0|
// +----+
// |true|
// |null|
// +----+

这是一个标准的 SQL 行为，正确实现 SQL 标准的系统应该以相同的方式运行。如果要过滤保留 NULLs你必须明确表示:

sqlContext.sql(
  """SELECT value IN ("foo", "bar") OR value IS NULL FROM df""").show
// +----+
// | _c0|
// +----+
// |true|
// |true|
// +----+

关于sql - Spark SQL 的 where 子句排除空值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34117167/

25

4

0

文章推荐： symfony - 如何使用symfony仅呈现表单的一个字段

文章推荐： elixir - Phoenix 在哪里定义 Plug.Exception

文章推荐： primes - 如何在 Sage 中获得给定长度的素数？

文章推荐： playframework - 在什么情况下应该使用Ebean或EbeanServer？

sql-server - 非聚集索引上的 Where 子句 Vs 额外连接和聚集索引上的 where 子句
我试图从一些 sql 查询中获得一些额外的性能，这些查询在一个字段上有一个 where 子句，它是一个非唯一的非聚集索引，它也是表 A 中的一个外键。该外键是主键在表 B 上，是聚集索引。我想知道的
batch-file - 结合 For/F 与 WMIC + WHERE 子句 + AND 子句
当包含在 FOR 中时，应该如何编写此 WMIC 命令脚本中的命令？ wmic service where (name="themes" and state="running") get 下面的代码不
TSQL:over 子句
请帮我理解如何订购对over子句的影响。我已经阅读了 msdn 和一本书，但仍然误解了。假设我们有这样的查询: SELECT Count(OrderID) over(Partition By Ye
SQL:HAVING 子句
参见如下SQL语句: SELECT datediff("d", MAX(invoice.date), Now) As Date_Diff , MAX(invoice.date) AS ma
CodeigniterWhere 子句
不知何故，对我来说构建这样的查询有点困难:给我所有链接名称不为空的导航条目 $query = $this->db->get_where('navigation',array('linkname'!==
SQL ALL IN 子句
我一直在寻找这个，但没有发现任何特别的东西。是否可以有一个像 ALL IN 一样的 SQL 查询？为了更好地解释，这是一个表结构。 Orders table OrderItem table (hav
SQL:Where 子句
SELECT DISTINCT Campaign_id FROM Impressions WHERE Date BETWEEN '2015-03-01' AND '2015-03-31' ; 上述查询
MyBatis if 子句
我尝试在 MyBatis 中遵循 if 子句并得到以下异常请帮助我确定这里的问题.. public class Student{ private Integer studId; private Str
sql - & IN WHERE 子句
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
MyBatis if 子句
我尝试在 MyBatis 中遵循 if 子句并得到以下异常请帮助我确定这里的问题.. public class Student{ private Integer studId; private Str
mySQL where in 子句
是否可以用 where in 子句做这样的事情，我需要使用 where in 查询以下数据。 select * FROM instructor AS i INNER JOIN teaches AS t
mysql - IF on WHERE 子句
嗨，我怎样才能让这个查询工作。我想要一个关于 where 子句的条件，如果 @BACHNUMB = ''，那么 WHERE 是 (h.sopnumbe = @SOPNUMBE) 否则 WHERE 是
c# - WHERE IN 子句
我在 MVC3 项目中工作。我浏览了一段时间并尝试了几个示例，但无法正常工作。我需要从 OrderForm 表中获取记录列表，其 DeptID 在我已经获得的另一个列表中。我知道我需要使用 Con
Mysql where 子句
select * from staff LEFT JOIN servicereservation on servicereservation.snic = staff.snic where servi
MySQL "WITH"子句
我正在尝试使用 MySQL 创建带有“WITH”子句的 View WITH authorRating(aname, rating) AS SELECT aname, AVG(quantity)
MySQL When 子句
我正在尝试使用 MySQL 创建触发器，但遇到错误。限制是:用户不得对他或她同时销售的商品出价。 Create Trigger before_insert_bid Before Insert on B
PostgreSQL WHERE IN 子句
我正在尝试在 PostgreSql 的 WHERE IN 子句中使用 split_part，如下所示。这里 Objcode 是 small int 类型，objection 可能像 1374,824,
mysql if in where 子句
这可能很简单，只是我太厚了 - 我试图阻止保留的元素在记录中被拾取，但只有当库存大于 0 时，我不知道该怎么做除非 "....WHERE blah blah AND (reserved = 0 OR
MySQL if then 子句
我总结了两个表中两列的行，即如下所示: SUM( tableA.age ) + sum( tableB.age) as 'Total Ages' 但在某些情况下，A表的结果为空，而B表的结果则不是。在
mysql AS 子句
我写了一个查询，从出生日期字段开始计算出一个人的年龄，然后使用 AS age 创建一个年龄字段。我的问题是，是否可以再次匹配那个年龄字段？像这样， SELECT `candidates`.`can

首页

博学

6Ren·AI

商城

sql - Spark SQL 的 where 子句排除空值