gpt4 book ai didi

apache-spark - spark streaming是不是一定要处理完上一批数据,才能处理下一批数据,对不对?

转载 作者:行者123 更新时间:2023-12-01 09:50:48 25 4
gpt4 key购买 nike

我将 spark streaming 时间间隔设置为 5s。如果当前 5s 接收到非常非常多的数据,并且 spark streaming 无法在 5s 内完成,但下一批数据即将到来。

spark streaming会同时处理下一批数据吗?

我的意思是批处理会并行执行吗?

最佳答案

Spark Streaming 一次处理一批。此外,每个批处理中的各个数据项按其在批处理中的顺序进行处理。默认情况下,如果 spark 在下一批数据到来时没有足够的时间获取一批中的所有数据项,这些数据项将被丢弃。

但是,如果您使用更高级的流连接(例如 Kafka),Spark 可以在完成当前批处理后处理待处理的批处理。这会导致批处理在 Kafka 中累积,这种累积称为“背压”,它也可能累积到 Kafka 也必须开始丢弃数据的程度。

如果您没有使用 Kafka 等高级连接,并且您的数据流是“突发的”,这意味着存在高输入率的时期,您可能需要增加批处理时间以最大程度地减少数据丢失。

关于apache-spark - spark streaming是不是一定要处理完上一批数据,才能处理下一批数据,对不对?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38155667/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com