gpt4 book ai didi

scala - Spark 流中是否需要检查点

转载 作者:行者123 更新时间:2023-12-04 02:09:59 26 4
gpt4 key购买 nike

我注意到 spark streaming 示例也有用于检查点的代码。我的问题是检查点有多重要。如果它是为了容错,那么在这种流媒体应用程序中发生故障的频率是多少?

最佳答案

这完全取决于您的用例。假设你正在运行一个流作业,它只从 Kafka 读取数据并计算记录数。如果您的应用程序在一年左右后崩溃,您会怎么做?

  • 如果您没有备份/检查点,您将不得不重新计算所有前一年的值(value)数据,以便您可以继续计数。
  • 如果您有备份/检查点,您可以简单地读取检查点数据并立即恢复。

或者,如果您只是拥有一个流式应用程序,它只是Reads-Messages-From-Kafka >>> Tranform >>> Insert-to-a-Database,我不必担心关于我的应用程序崩溃。即使它崩溃了,我也可以简单地恢复我的应用程序而不会丢失数据。

注意:检查点是一个存储 spark 应用程序当前状态的进程。

谈到容错的频率,您几乎永远无法预测中断。在公司里,

  • 可能会停电
  • 定期维护/升级集群

希望这对您有所帮助。

关于scala - Spark 流中是否需要检查点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39599863/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com