gpt4 book ai didi

java - Spark 结构化流状态管理

转载 作者:行者123 更新时间:2023-12-02 01:45:59 24 4
gpt4 key购买 nike

我了解到,默认情况下,结构化流支持 HDFSBackedStateStoreProvider。这意味着所有状态相关信息都存储在 HDFS 位置。

它是否确保内存中不会存储任何可能导致 GC 长时间暂停的数据?

提出这个问题的原因是,我正在运行的作业在高流量期间停止处理数据,并在延迟 15-20 分钟后 catch 。

最佳答案

Does it ensures that no data is stored In-memory which could cause long GC pauses?

Spark 在执行程序的内存中维护某些版本的状态,以避免每个批处理重新读取以前的状态。

顺便问一下,您使用的是哪个版本的 Spark? Spark 2.4.0 对 HDFS 状态存储提供程序中的内存使用进行了一些改进,这将大大减少长时间运行的结构化流应用程序的内存使用。因此,如果您没有使用 Spark 2.4.0,值得一试。

关于java - Spark 结构化流状态管理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53656856/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com