gpt4 book ai didi

apache-spark - Spark Structured Streaming - 从嵌套目录读取文件

转载 作者:行者123 更新时间:2023-12-04 14:23:08 26 4
gpt4 key购买 nike

我有一个客户端将 CSV 文件放在嵌套目录中,如下所示,我需要实时读取这些文件。我正在尝试使用 Spark Structured Streaming 来执行此操作。

Data:
/user/data/1.csv
/user/data/2.csv
/user/data/3.csv
/user/data/sub1/1_1.csv
/user/data/sub1/1_2.csv
/user/data/sub1/sub2/2_1.csv
/user/data/sub1/sub2/2_2.csv

代码:

val csvDF = spark
.readStream
.option("sep", ",")
.schema(userSchema) // Schema of the csv files
.csv("/user/data/")

要添加的任何配置以允许从结构化流中的嵌套目录中读取 Spark 。

最佳答案

我能够使用 glob 路径流式传输子目录中的文件。

为了别人的缘故在这里发帖。

inputPath = "/spark_structured_input/*?*"
inputDF = spark.readStream.option("header", "true").schema(userSchema).csv(inputPath)
query = inputDF.writeStream.format("console").start()

关于apache-spark - Spark Structured Streaming - 从嵌套目录读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51605098/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com