apache-spark - Spark Structured Streaming 如何确定事件已晚到？-6ren

apache-spark - Spark Structured Streaming 如何确定事件已晚到？

转载作者：行者123 更新时间：2023-12-04 14:00:35

24

4

我通读了 spark 结构化流媒体文档，我想知道 spark 结构化流媒体如何确定事件已晚到？它是否将事件时间与处理时间进行比较？

以上图为例，右粗箭头线“时间”代表处理时间吗？如果是这样的话

1)这个处理时间从哪里来？因为它的流媒体是否假设有人可能使用具有处理时间戳的上游源，或者 spark 添加了处理时间戳字段？例如，当从 Kafka 读取消息时，我们会做一些类似的事情

Dataset<Row> kafkadf = spark.readStream().forma("kafka").load()

默认情况下，此数据框具有时间戳列，我假设它是处理时间。正确的？如果是这样，Kafka 或 Spark 是否添加此时间戳？

2)我可以看到消息中粗体右箭头线和时间之间存在时间比较。这就是 spark 确定事件迟到的方式吗？

最佳答案

单个作业的处理时间(RDD 中的一个 DStream)通常决定了处理时间。这不是该 RDD 的实际处理发生的时间，而是 RDD作业已分配待处理。
为了清楚地理解上述语句的含义，创建一个 Spark 流应用程序，其中批处理时间 = 60 seconds并确保批次需要 2 minute .最终，您会看到一个作业被分配为一次处理，但由于前一个作业尚未完成而未被接收。

下一个:
可以用两种不同的方式处理乱序数据。

创建一个 High water mark .

它在您获得图片的同一个 spark 用户指南页面中进行了解释。

很容易理解我们在哪里有 key , value其中 key 是 timestamp 的对.设置 .withWatermark("timestamp", "10 minutes")我们基本上是说，如果我收到了 10 AM 的消息那么我将允许比那个稍早的消息 (Upto 9.50AM) .任何比这更旧的消息都会被丢弃。

另一种可以处理乱序数据的方法是在 mapGroupsWithState 中使用。或 mapWithState功能。
在这里你可以决定当你得到一堆键值时要做什么。在时间 X 之前放下任何东西，或者比那更漂亮。 (例如，如果是来自 A 的数据，则允许延迟 20 分钟，其余允许延迟 30 分钟等...)

关于apache-spark - Spark Structured Streaming 如何确定事件已晚到？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48990755/

24

4

0

文章推荐： javascript - 身份验证状态持久性未按预期工作 ReactJS

文章推荐： python - 权限错误 : [Errno 13] Permission denied in Django

node.js - 无法从控制台访问 Express，Windows 7 Express 已晚
我是 Node js 新手，我正在尝试安装全局 Express npm i -g express 一切都完成了，但是当我进入时表达--帮助它说它不是内部或外部命令，但是当我输入主管时它运行正常。我查看

首页

博学

6Ren·AI

商城

apache-spark - Spark Structured Streaming 如何确定事件已晚到？