gpt4 book ai didi

spark-structured-streaming - 是否可以在没有 HDFS 的情况下使用 Spark Structured Streaming?

转载 作者:行者123 更新时间:2023-12-05 06:00:56 27 4
gpt4 key购买 nike

我曾多次使用 HDFS 和 Kafka,我注意到 Kafka 比 HDFS 更可靠。因此,现在使用 Spark-structured-streaming 时,我很惊讶检查点仅适用于 HDFS。使用 Kafka 进行检查会更快更可靠。那么是否可以在没有 HDFS 的情况下使用 spark 结构化流?在 Kafka 中,我们必须仅将 HDFS 用于流数据,这似乎很奇怪。或者是否可以告诉 Spark 忘记 ChekpPointing 并在程序中管理它?

星火 2.4.7

谢谢

最佳答案

您不限于使用 HDFS 路径作为检查点位置。

根据 Recovering from Failures with Checkpointing 部分在 Spark Structured Streaming Guide 中,路径必须是“HDFS 兼容文件系统”。因此,其他文件系统也可以工作。但是,所有执行程序都必须能够访问该文件系统。例如,在集群的边缘节点上选择本地文件系统可能会在本地模式下工作,但是,在集群模式下,这可能会导致问题。

另外,用Spark Structured Streaming也不可能让Kafka自己处理offset位置。我在 How to manually set group.id and commit kafka offsets in spark structured streaming? 的回答中对此进行了更深入的解释。 .

关于spark-structured-streaming - 是否可以在没有 HDFS 的情况下使用 Spark Structured Streaming?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67432490/

27 4 0