gpt4 book ai didi

apache-spark - 如何使用 Trigger.Once 选项在 Spark 3 Structured Streaming Kafka/File 源中配置背压

转载 作者:行者123 更新时间:2023-12-04 13:28:15 24 4
gpt4 key购买 nike

In Spark 3 Behave of backpressure option on Kafka and File Source for trigger.once scenario was changed .
但我有一个问题。
当我想使用 TriggerOnce 时,如何为我的工作配置背压?
在 spark 2.4 中,我有一个用例,回填一些数据,然后启动流。
所以我使用了一次触发器,但我的回填场景可能非常大,有时会因为洗牌和驱动程序内存而在我的磁盘上创建太大的负载,因为 FileIndex 缓存在那里。
所以我使用 max maxOffsetsPerTriggermaxFilesPerTrigger控制我的 spark 可以处理多少数据。这就是我配置背压的方式。
现在你删除了这个能力,所以假设有人可以建议一个新的方法?

最佳答案

Trigger.Once现在忽略这些选项(在 Spark 3 中),所以它总是会在第一次加载时读取所有内容。
您可以解决该问题 - 例如,您可以在触发器设置为定期的情况下启动流,使用一些值,例如 1 小时,并且不执行 .awaitTermination ,但有一个并行循环来检查第一批是否完成,并停止流。或者您可以将其设置为连续模式,然后检查是否有 0 行的批次,然后终止流。在初始加载之后,您可以将流切换回 Trigger.Once

关于apache-spark - 如何使用 Trigger.Once 选项在 Spark 3 Structured Streaming Kafka/File 源中配置背压,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66777031/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com