gpt4 book ai didi

apache-spark - 在 Spark 中同时读取几个 parquet 文件

转载 作者:行者123 更新时间:2023-12-04 13:01:10 25 4
gpt4 key购买 nike

我可以使用 * (star) 同时读取几个 json 文件:

sqlContext.jsonFile('/path/to/dir/*.json')

有没有办法对 Parquet 做同样的事情?星星不起作用。

最佳答案

this issue在 Spark 吉拉上。从 1.4 开始支持。

在不升级到 1.4 的情况下,您可以指向顶级目录:

sqlContext.parquetFile('/path/to/dir/')

这将加载目录中的所有文件。或者,您可以使用 HDFS API 查找所需的文件,并将它们传递给 parquetFile(它接受可变参数)。

关于apache-spark - 在 Spark 中同时读取几个 parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30421162/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com