scala - Spark 多个动态聚合函数，countDistinct 不起作用-6ren

scala - Spark 多个动态聚合函数，countDistinct 不起作用

转载作者：行者123 更新时间：2023-12-01 12:07:01

25

4

使用多个动态聚合操作在 Spark 数据帧上聚合。

我想使用具有多个动态聚合操作(由用户在 JSON 中传递)的 Scala 对 Spark 数据帧进行聚合。我正在将 JSON 转换为 Map .

下面是一些示例数据:

colA    colB    colC    colD
1       2       3       4
5       6       7       8
9       10      11      12

我正在使用的 Spark 聚合代码:

var cols = ["colA","colB"]
var aggFuncMap = Map("colC"-> "sum", "colD"-> "countDistinct")
var aggregatedDF = currentDF.groupBy(cols.head, cols.tail: _*).agg(aggFuncMap)

我要通过 aggFuncMap如 Map仅，以便用户可以通过 JSON 配置传递任意数量的聚合。

上面的代码适用于一些聚合，包括 sum , min , max , avg和 count .

但是，不幸的是，此代码不适用于 countDistinct (也许是因为它是 Camel 壳？)。

运行上述代码时，我收到此错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: Undefined function: 'countdistinct'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'

任何帮助将不胜感激!

最佳答案

当前无法使用 agg与 countDistinct里面Map .来自 documentation我们看:

The available aggregate methods are avg, max, min, sum, count.

一个可能的解决方法是更改 Map到 Seq[Column] ,

val cols = Seq("colA", "colB")
val aggFuncs = Seq(sum("colC"), countDistinct("colD"))
val df2 = df.groupBy(cols.head, cols.tail: _*).agg(aggFuncs.head, aggFuncs.tail: _*)

但是如果用户要在配置文件中指定聚合，那将没有多大帮助。

另一种方法是使用 expr ，此函数将评估一个字符串并返回一列。然而， expr不接受 "countDistinct" , 而是 "count(distinct(...))"需要使用。
这可以编码如下:

val aggFuncs = Seq("sum(colC)", "count(distinct(colD))").map(e => expr(e))
val df2 = df.groupBy(cols.head, cols.tail: _*).agg(aggFuncs.head, aggFuncs.tail: _*)

关于scala - Spark 多个动态聚合函数，countDistinct 不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55640686/

25

4

0

文章推荐： java - eclipse插件: set view name by ID programatically

文章推荐： fortran - 子程序中的临时数组是否会在每次调用时重新分配？

文章推荐： aqueduct - 可选的查询参数 aqueduct

文章推荐： java - Spring MVC中无法通过ajax调用绑定(bind)ModelMap

php - Doctrine countDistinct 别名
如何使用 Doctrine queryBuilder 为 countDistinct expr 设置别名？ $qb->addSelect($qb->expr()->countDistinct('_ch
scala - Spark 多个动态聚合函数，countDistinct 不起作用
使用多个动态聚合操作在 Spark 数据帧上聚合。我想使用具有多个动态聚合操作(由用户在 JSON 中传递)的 Scala 对 Spark 数据帧进行聚合。我正在将 JSON 转换为 Map . 下
java - Jooq 如何区分或 countDistinct 多于一列
我发现Factory类中的distinct函数只接受一个参数 public static AggregateFunction countDistinct(Field field); 并且没有像dist
scala - 如何在 Spark/Scala 中使用窗口函数使用 countDistinct？
我需要使用由 2 列分隔的窗口函数，并对第 3 列和第 4 列进行不同计数。我可以在没有任何问题的情况下进行计数，但是使用不同的计数会引发异常 - rg.apache.spark.sql.Analys
vb.net - rdlc CountDistinct 其中状态 = 1
我想用 where 条件计算数据集中的不同值。这是我所做的: CountDistinct(IIF(Fields!Status.Value = 1, Count(Fields!Id.Value),no
vb.net - rdlc CountDistinct 其中状态 = 1
我想用 where 条件计算数据集中的不同值。这是我所做的: CountDistinct(IIF(Fields!Status.Value = 1, Count(Fields!Id.Value),no
scala - 我如何在 Spark/Scala 中使用 countDistinct？
我正在尝试使用 Scala 聚合 Spark 数据框中的列，如下所示: import org.apache.spark.sql._ dfNew.agg(countDistinct("filtered"
java - Hibernate 的 Projections.countDistinct 会产生意想不到的结果
我有以下代码 Criteria criteria = this.getCriteriaForClass(DeviceListItem.class); Projection rowCountProjec
grails - 在 Grails 标准中使用 groupProperty 和 countDistinct
我正在使用 Grails 1.2.4。我想知道如何按“countDistinct”(降序)和投影中的 groupProperty 进行排序。这是我的域: class Transaction {
apache-spark - 空值和 countDistinct 与 Spark 数据帧
我有一个非常简单的数据框 df = spark.createDataFrame([(None,1,3),(2,1,3),(2,1,3)], ['a','b','c']) +----+---+-
java - Projections.count() 和 Projections.countDistinct() 都产生相同的查询
编辑:我已经完全编辑了这篇文章，所以我的问题的新描述包括了所有细节，而不仅仅是我之前认为相关的内容。也许这个新描述将有助于解决我面临的问题。我有两个实体类，Customer 和 CustomerGr
scala - 如何在带有 Spark 的 Scala 中使用 countDistinct？
根据 DataBrick's blog，我尝试使用应该在 Spark 1.5 中可用的 countDistinct 函数.但是，我得到以下异常: Exception in thread "main"
java - 在 JPA Criteria API 查询中使用 countDistinct 的示例
我无法弄清楚如何表示以下 JPQL 查询: SELECT count(e) FROM Foo e 使用标准 API。我正在尝试的是: CriteriaBuilder cb = em.getCriter
python - 在 PySpark 中的 groupby 之后计算 sum 和 countDistinct
我有一个 PySpark 数据框，我想对几列进行分组，然后计算一些列的总和并计算另一列的不同值。由于 countDistinct 不是内置的聚合函数，我不能使用像我在这里尝试的那样的简单表达式: su
java - Projections.distinct(Projections.count ("objectId")) 和 Projections.countDistinct ("objectId") 有什么区别
Projections.distinct(Projections.count("objectId")) 和 Projections.countDistinct("objectId") 谁能告诉我它们之

首页

博学

6Ren·AI

商城

scala - Spark 多个动态聚合函数，countDistinct 不起作用