gpt4 book ai didi

apache-spark - 如何使用来自 S3 的数据框访问多个 json 文件

转载 作者:行者123 更新时间:2023-12-04 03:58:01 25 4
gpt4 key购买 nike

我正在使用apapche spark。我想按日期从 spark 访问多个 json 文件。我如何选择多个文件,即我想提供以 1034.json 结尾的文件到以 1434.json 结尾的文件的范围。我正在尝试这个。

DataFrame df = sql.read().json("s3://..../..../.....-.....[1034*-1434*]");

但我收到以下错误
   at java.util.regex.Pattern.error(Pattern.java:1924)
at java.util.regex.Pattern.range(Pattern.java:2594)
at java.util.regex.Pattern.clazz(Pattern.java:2507)
at java.util.regex.Pattern.sequence(Pattern.java:2030)
at java.util.regex.Pattern.expr(Pattern.java:1964)
at java.util.regex.Pattern.compile(Pattern.java:1665)
at java.util.regex.Pattern.<init>(Pattern.java:1337)
at java.util.regex.Pattern.compile(Pattern.java:1022)
at org.apache.hadoop.fs.GlobPattern.set(GlobPattern.java:156)
at org.apache.hadoop.fs.GlobPattern.<init>(GlobPattern.java:42)
at org.apache.hadoop.fs.GlobFilter.init(GlobFilter.java:67)

请指明出路。

最佳答案

你可以阅读这样的东西。

sqlContext.read().json("s3n://bucket/filepath/*.json")

此外,您可以使用 wildcards在文件路径中。

例如:
sqlContext.read().json("s3n://*/*/*-*[1034*-1434*]")

关于apache-spark - 如何使用来自 S3 的数据框访问多个 json 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40465623/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com