gpt4 book ai didi

apache-spark - Spark Structured Streaming 中未从 S3 获取新数据

转载 作者:行者123 更新时间:2023-12-02 03:08:30 25 4
gpt4 key购买 nike

我正在尝试从 Spark Structured Streaming 中的 S3 存储桶中读取数据。以下代码用于获取现有数据。但是,当新数据添加到桶中时,Spark 不会选择它。

val lines = spark.readStream.schema(schemaImp).format("com.databricks.spark.avro").load("s3n://bucket/*")
val query = lines.writeStream.outputMode("append").format("memory").queryName("memtable").start()
query.processAllAvailable()
spark.sql("select * from memtable").show()

我怎样才能让它工作以获取新数据?或者,这是一项尚不支持的功能吗?

最佳答案

首先针对本地 FS 进行测试。如果它在那里工作但不针对 S3,那么它是 s3 重命名/提交的一些怪癖。如果它对本地 FS 不起作用,那么这就是您使用流媒体的方式。也许尝试一个测试,每当调用 .map() 时记录,这样您就可以计算实际使用量。

如果您正在使用流式处理和对象存储,(a) 使用 s3a 而不是 s3n,以及 (b) 直接保存到对象存储路径,而不是保存 + 重命名 - 您只需要这样做以避免在文件系统上处理不完整的数据文件在写入时可见的位置

关于apache-spark - Spark Structured Streaming 中未从 S3 获取新数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41073779/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com