gpt4 book ai didi

python - 读取 Dataframewriter Pyspark 编写的 Csv 文件

转载 作者:行者123 更新时间:2023-12-01 01:12:28 26 4
gpt4 key购买 nike

我使用以下代码将数据框写入 CSV:

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行 Spark 时,上面的代码片段创建了一个名为 avg.csv 的文件夹,并且该文件夹包含一些带有部分 -* 的文件.csv 在我的工作节点或嵌套文件夹中,然后文件部分-*.csv。

现在,当我尝试读取 avg.csv 时,我发现路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人能告诉我我哪里做错了吗?

最佳答案

Part-00** 文件是分布式计算文件(如 MR、spark)的输出。因此,当您尝试存储时,它始终是一个用部分文件创建的文件夹,因为这是一些分布式存储的输出,请记住这一点。

所以,尝试使用:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")

关于python - 读取 Dataframewriter Pyspark 编写的 Csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54723661/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com