gpt4 book ai didi

apache-spark - 空值和 countDistinct 与 Spark 数据帧

转载 作者:行者123 更新时间:2023-12-04 04:04:41 48 4
gpt4 key购买 nike

我有一个非常简单的数据框

  df = spark.createDataFrame([(None,1,3),(2,1,3),(2,1,3)], ['a','b','c'])

+----+---+---+
| a| b| c|
+----+---+---+
|null| 1| 3|
| 2| 1| 3|
| 2| 1| 3|
+----+---+---+

当我申请 countDistinct在这个数据帧上,我发现不同的结果取决于方法:

第一种方法
  df.distinct().count()

2



这是我的结果,最后两行是相同的,但第一行与其他两行不同(因为空值)

第二种方法
  import pyspark.sql.functions as F
df.agg(F.countDistinct("a","b","c")).show()

1



好像是这样 F.countDistinct处理 null值(value)对我来说并不直观。

对你来说它看起来是一个错误还是正常的?如果这是正常的,我如何编写一些与第一种方法的结果完全相同但与第二种方法具有相同精神的东西。

最佳答案

countDistinctHive count(DISTINCT expr[, expr]) 的工作方式相同:

count(DISTINCT expr[, expr]) - Returns the number of rows for which the supplied expression(s) are unique and non-NULL.



第一行不包括在内。这对于 SQL 函数很常见。

关于apache-spark - 空值和 countDistinct 与 Spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40345117/

48 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com