作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我通读了 spark 结构化流媒体文档,我想知道 spark 结构化流媒体如何确定事件已晚到?它是否将事件时间与处理时间进行比较?
以上图为例,右粗箭头线“时间”代表处理时间吗?如果是这样的话
1)这个处理时间从哪里来?因为它的流媒体 是否假设有人可能使用具有处理时间戳的上游源,或者 spark 添加了处理时间戳字段?例如,当从 Kafka 读取消息时,我们会做一些类似的事情
Dataset<Row> kafkadf = spark.readStream().forma("kafka").load()
最佳答案
单个作业的处理时间(RDD
中的一个 DStream
)通常决定了处理时间。这不是该 RDD 的实际处理发生的时间,而是 RDD
作业已分配待处理。
为了清楚地理解上述语句的含义,创建一个 Spark 流应用程序,其中批处理时间 = 60 seconds
并确保批次需要 2 minute
.最终,您会看到一个作业被分配为一次处理,但由于前一个作业尚未完成而未被接收。
下一个:
可以用两种不同的方式处理乱序数据。
High water mark
. key
,
value
其中 key 是
timestamp
的对.设置
.withWatermark("timestamp", "10 minutes")
我们基本上是说,如果我收到了
10 AM
的消息那么我将允许比那个稍早的消息
(Upto 9.50AM)
.任何比这更旧的消息都会被丢弃。
mapGroupsWithState
中使用。或 mapWithState
功能。关于apache-spark - Spark Structured Streaming 如何确定事件已晚到?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48990755/
我是 Node js 新手,我正在尝试安装全局 Express npm i -g express 一切都完成了,但是当我进入时表达--帮助它说它不是内部或外部命令,但是当我输入主管时它运行正常。我查看
我是一名优秀的程序员,十分优秀!