gpt4 book ai didi

hadoop - 从 HDFS 收集 Parquet 数据到本地文件系统

转载 作者:可可西里 更新时间:2023-11-01 14:46:59 48 4
gpt4 key购买 nike

给定一个分布在 HDFS 上的 Parquet 数据集(元数据文件 + 可能的 .parquet 部分),如何正确合并部分并将数据收集到本地文件系统? dfs -getmerge ... 不起作用 - 它将元数据与实际的 Parquet 文件合并..

最佳答案

有一种涉及 Apache Spark API 的方法 - 它提供了一种解决方案,但可能存在不使用第三方工具的更有效的方法。

spark> val parquetData = sqlContext.parquetFile("pathToMultipartParquetHDFS")       
spark> parquet.repartition(1).saveAsParquetFile("pathToSinglePartParquetHDFS")

bash> ../bin/hadoop dfs -get pathToSinglePartParquetHDFS localPath

从 Spark 1.4 开始,最好使用 DataFrame::coalesce(1) 而不是 DataFrame::repartition(1)

关于hadoop - 从 HDFS 收集 Parquet 数据到本地文件系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31108123/

48 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com