gpt4 book ai didi

scala - 使用 Spark Structured Streaming 时限制 kafka 批量大小

转载 作者:行者123 更新时间:2023-12-05 00:46:56 25 4
gpt4 key购买 nike

我们有一些关于我们的主题的历史数据排队,我们不想在一个批次中处理所有这些数据,因为这很难做到(如果失败,它必须重新开始!)。

此外,了解如何控制批量大小对调整作业非常有帮助。

使用时 DStreams尽可能精确地控制batch大小的方法是Limit Kafka batches size when using Spark Streaming

相同的方法,即设置 maxRatePerPartition然后调音 batchDuration非常麻烦,但适用于 DStream它根本不适用于结构化流媒体。

理想情况下,我想知道像 maxBatchSize 这样的配置和 minBatchSize ,我可以简单地设置我想要的记录数。

最佳答案

此配置选项 maxOffsetsPerTrigger :

Rate limit on maximum number of offsets processed per trigger interval. The specified total number of offsets will be proportionally split across topicPartitions of different volume.



备注 如果您有一个带有开始和结束偏移量的检查点目录,那么应用程序将处理第一批目录中的偏移量,从而忽略此配置。 (下一批将尊重它)。

关于scala - 使用 Spark Structured Streaming 时限制 kafka 批量大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52970845/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com