gpt4 book ai didi

hadoop - hadoop中的小文件

转载 作者:可可西里 更新时间:2023-11-01 16:38:37 25 4
gpt4 key购买 nike

我正在尝试合并 hdfs 上的小文件。这只是出于历史目的,如果需要,大文件将被分解并运行整个过程以创建 hadoop 表的数据。有没有办法简单地实现这一目标?例如,第一天收到 100 个小文件,合并成一个文件,然后第二天将更多文件添加/附加到先前创建的文件中,等等...

最佳答案

如果文件都是相同的“架构”,比如说 CSV 或 JSON。然后,欢迎您编写一个非常基本的 Pig/Spark 作业来读取整个文件夹的小文件,然后将其写回到其他地方,这很可能会根据 HDFS block 大小将所有文件合并成更大的文件。

您还提到了 Hive,因此为小文件使用一个外部表,并使用 CTAS 查询创建一个单独的表,从而创建一个 MapReduce 作业,这与 Pig 所做的非常相似。

IMO,如果可能的话,最佳解决方案是在 Hadoop 的“上游”设置一个系统,它将较小的文件批处理成较大的文件,然后将它们转储到 HDFS。 Apache NiFi 是用于此目的的有用工具。

关于hadoop - hadoop中的小文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46396255/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com