gpt4 book ai didi

apache-spark - 在 Spark 流中聚合来自不同微批处理的数据

转载 作者:行者123 更新时间:2023-12-04 04:59:21 25 4
gpt4 key购买 nike

我正在尝试每分钟使用 Spark 流(从 Kafka 读取)来汇总和查找一些指标。我能够汇总那一分钟的数据。我如何确保我可以拥有当天的存储桶并汇总当天所有分钟的所有聚合值?

我有一个数据框,我正在做类似的事情。

sampleDF = spark.sql("select userId,sum(likes) as total from likes_dataset group by userId order by userId")

最佳答案

您可以使用结构化流编程中的“Watermarking”功能

示例代码

import spark.implicits._

val words = ... // streaming DataFrame of schema { timestamp: Timestamp, word: String }

val windowedCounts = words
.withWatermark("timestamp", "10 minutes")
.groupBy(
window($"timestamp", "10 minutes", "5 minutes"),
$"word")
.count()

关于apache-spark - 在 Spark 流中聚合来自不同微批处理的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43512611/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com