gpt4 book ai didi

apache-spark - Spark 结构化流在追加模式下显示结果太迟

转载 作者:行者123 更新时间:2023-12-02 02:49:21 24 4
gpt4 key购买 nike

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#handling-late-data-and-watermarking 上的文档中,使用 10 分钟的窗口、10 分钟的水印和 5 分钟的触发器显示了一个示例。

在使用 APPEND 模式时的图中,12:00:00->12:10:00 窗口的第一个结果仅在 12:25:00 显示。原因是此时水印在12:11:00,所以12:11:00之前的所有窗口都可以发送到sink。

然而,在 12:20:00,我们已经知道水印是 12:11:00。那么为什么第一个窗口不是在 12:20:00 而不是 12:25:00 发送呢?

最佳答案

因为 Spark 为每个分区应用全局水印而不是水印:下一批水印是在当前批处理中的任务“完成”时决定的。每个分区都不知道决定水印:它只知道其分区中的事件。

所以在 12:20:00,Spark 得到 12:21:00 并处理它,在批处理结束时,Spark 收集事件的时间戳并确定最大时间戳,并决定下一批的水印 - “12 :11:00"- 这将是批处理 12:25:00 的水印。

关于apache-spark - Spark 结构化流在追加模式下显示结果太迟,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52944612/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com