gpt4 book ai didi

python - 如何复制 Parquet 文件并将其转换为 csv

转载 作者:可可西里 更新时间:2023-11-01 14:17:40 27 4
gpt4 key购买 nike

我可以访问 hdfs 文件系统,并且可以查看 parquet 文件

hadoop fs -ls /user/foo

如何将这些 parquet 文件复制到我的本地系统并将它们转换为 csv 以便我可以使用它们?这些文件应该是每行包含多个字段的简单文本文件。

最佳答案

尝试

df = spark.read.parquet("/path/to/infile.parquet")
df.write.csv("/path/to/outfile.csv")

相关API文档:

/path/to/infile.parquet/path/to/outfile.csv 都应该是 hdfs 文件系统上的位置。您可以显式指定 hdfs://... 也可以忽略它,因为它通常是默认方案。

您应该避免使用 file://...,因为本地文件对于集群中的每台机器来说都是不同的文件。改为输出到 HDFS,然后使用命令行将结果传输到本地磁盘:

hdfs dfs -get /path/to/outfile.csv /path/to/localfile.csv

或者直接从HDFS显示:

hdfs dfs -cat /path/to/outfile.csv

关于python - 如何复制 Parquet 文件并将其转换为 csv,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39419975/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com