gpt4 book ai didi

hadoop - 合并HDFS中的两个 Parquet 文件

转载 作者:行者123 更新时间:2023-12-02 20:56:34 42 4
gpt4 key购买 nike

我有一些HDFS格式的parquet文件。我想将这些文件合并为一个大文件。

我怎样才能做到这一点?

我已经做了一些类似下面的事情,但是对于文本文件。

hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file

但是无法达到 parquet格式的预期结果。

如何达到我的要求?

最佳答案

无法将parquet文件与hdfs命令合并。

有一个parquet-tools library可以帮助您实现merging文件的parquet。该命令应该是

java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>

关于hadoop - 合并HDFS中的两个 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44400331/

42 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com