apache-spark - Spark 结构化流在追加模式下显示结果太迟-6ren

apache-spark - Spark 结构化流在追加模式下显示结果太迟

转载作者：行者123 更新时间：2023-12-02 02:49:21

在 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#handling-late-data-and-watermarking 上的文档中，使用 10 分钟的窗口、10 分钟的水印和 5 分钟的触发器显示了一个示例。

在使用 APPEND 模式时的图中，12:00:00->12:10:00 窗口的第一个结果仅在 12:25:00 显示。原因是此时水印在12:11:00，所以12:11:00之前的所有窗口都可以发送到sink。

然而，在 12:20:00，我们已经知道水印是 12:11:00。那么为什么第一个窗口不是在 12:20:00 而不是 12:25:00 发送呢？

最佳答案

因为 Spark 为每个分区应用全局水印而不是水印:下一批水印是在当前批处理中的任务“完成”时决定的。每个分区都不知道决定水印:它只知道其分区中的事件。

所以在 12:20:00，Spark 得到 12:21:00 并处理它，在批处理结束时，Spark 收集事件的时间戳并确定最大时间戳，并决定下一批的水印 - “12 :11:00"- 这将是批处理 12:25:00 的水印。

关于apache-spark - Spark 结构化流在追加模式下显示结果太迟，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52944612/

javascript - AngularJs:ng-if react 太迟
我正在使用 ui.router 并在我的主 html 文件中包含这样的导航: logedin() bool 值将通过此函数中的 angular.module().run() 设置: $rootSc

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章