gpt4 book ai didi

java - 如何在 Spark 本身内部使用 Kafka 实现 Spark 流中的偏移管理?

转载 作者:行者123 更新时间:2023-12-02 03:27:10 25 4
gpt4 key购买 nike

我必须在 Spark 中为从 Kafka 流读取的 Java 流作业实现偏移管理。然而,虽然官方文档here中已经描述了该过程,它实际上并没有给出如何实际存储和检索检查点偏移量的代码示例。相反,它神秘地表示

If you enable Spark checkpointing, offsets will be stored in the checkpoint.

这是否意味着如果我只向 Spark 上下文提供检查点目录,它会自动存储偏移量?当应用程序重新启动时,如何检索最后读取的偏移量? detail page在链接的检查点上,也将所有内容留给读者,仅提供设置检查点目的地的语法。

Thisthis提供一些有关如何使用检查点的线索,但在所有情况下,我可以发现它们已用于累积计算某些内容而不是存储偏移量。 This question很接近,但仍然没有描述它。

请帮助我实现这个目标。

最佳答案

在检查点中保存偏移量对您不起作用,因为spark会将任务保存在检查点中,因此代码的升级需要删除检查点。相反,您可以将偏移量保存在 Zookeeper、Kafka、文件系统或任何数据库中。

关于java - 如何在 Spark 本身内部使用 Kafka 实现 Spark 流中的偏移管理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56903074/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com