gpt4 book ai didi

sql - Spark 计算分组依据中的单词数

转载 作者:行者123 更新时间:2023-12-02 02:46:07 27 4
gpt4 key购买 nike

我有一个数据集

+----------+--------+------------+
| id| date| errors|
+----------+--------+------------+
|1 |20170319| error1|
|1 |20170319| error2|
|1 |20170319| error2|
|1 |20170319| error1|
|2 |20170319| err6|
|1 |20170319| error2|

需要每天的错误计数

输出

+----------+--------+------------+
| date| errors| count
+----------+--------+------------+
|20170319| error1| 2
|20170319| error2| 3
|20170319| err6| 1
    val dataset = spark.read.json(path);
val c =dataset.groupBy("date").count()

//我如何继续计算错误

我尝试在 spark scala sql 中对日期进行窗口化,但无法找到有效的方法我需要转换为 Rdd 并找到一种方法吗?

最佳答案

您只需要groupBy dateerrors

val c =dataset.groupBy("date","errors").count()

关于sql - Spark 计算分组依据中的单词数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54952384/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com