gpt4 book ai didi

apache-spark - 在独立 Spark 上合并 Parquet 文件

转载 作者:行者123 更新时间:2023-12-02 21:13:13 27 4
gpt4 key购买 nike

有没有简单的方法如何保存DataFrame变成单个 parquet归档或合并包含元数据和此 parquet 部分的目录由 sqlContext.saveAsParquetFile() 生成的文件存储在 NFS 上的单个文件而不使用 HDFS 和 hadoop?

最佳答案

要仅保存一个文件,而不是多个文件,您可以在保存数据之前在 RDD/Dataframe 上调用 coalesce(1)/repartition(1)

如果您已经有一个包含小文件的目录,您可以创建一个 Compacter 进程,该进程将读取现有文件并将它们保存到一个新文件中。例如

val rows = parquetFile(...).coalesce(1)
rows.saveAsParquetFile(...)

您可以使用 saveAsParquetFile 存储到本地文件系统。例如

rows.saveAsParquetFile("/tmp/onefile/")

关于apache-spark - 在独立 Spark 上合并 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32312631/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com