gpt4 book ai didi

hadoop - 将小文件合并为hdfs中的单个文件

转载 作者:可可西里 更新时间:2023-11-01 14:25:54 32 4
gpt4 key购买 nike

在一个 hdfs 集群中,我每天收到多个文件,可以是 3 种类型:

1) product_info_timestamp

2) user_info_timestamp

3) user_activity_timestamp

收到的文件数量可以是任意数量,但它们将仅属于这 3 个类别之一。

我想将属于一个类别的所有文件(检查它们是否小于 100mb 后)合并到一个文件中。例如:3 个名为 product_info_* 的文件应合并为一个名为 product_info 的文件。

我如何实现这一目标?

最佳答案

您可以使用 getmerge 来实现这一点,但结果将存储在您的本地节点(边缘节点)中,因此您需要确保那里有足够的空间。

hadoop fs -getmerge /hdfs_path/product_info_* /local_path/product_inf

您可以使用 put 将它们移回 hdfs

hadoop fs -put  /local_path/product_inf /hdfs_path

关于hadoop - 将小文件合并为hdfs中的单个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50094165/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com