gpt4 book ai didi

scala - 如何使用 Spark Structured Streaming 逐 block 处理文件?

转载 作者:行者123 更新时间:2023-12-02 20:19:49 28 4
gpt4 key购买 nike

我正在处理大量文件,我想逐 block 处理这些文件,假设在每批处理中,我想分别处理每 50 个文件。

如何使用 Spark Structured Streaming 来实现?

我看到 Jacek Laskowski ( https://stackoverflow.com/users/1305344/jacek-laskowski ) 在类似的问题 ( Spark to process rdd chunk by chunk from json files and post to Kafka topic ) 中说可以使用 Spark Structured Streaming,但我找不到任何相关示例。

非常感谢,

最佳答案

如果使用文件源:

maxFilesPerTrigger:每个触发器中要考虑的最大新文件数(默认值:无最大值)

spark
.readStream
.format("json")
.path("/path/to/files")
.option("maxFilesPerTrigger", 50)
.load

如果使用 Kafka 源,它会类似,但带有 maxOffsetsPerTrigger 选项。

关于scala - 如何使用 Spark Structured Streaming 逐 block 处理文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51707736/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com