gpt4 book ai didi

hadoop - 大量小文件Hadoop

转载 作者:可可西里 更新时间:2023-11-01 16:11:36 25 4
gpt4 key购买 nike

一些机器的参数是通过网络服务测量并上传到 HDFS 的。每次测量的参数值都保存在一个文件中,其中一次测量平均有 1000 个值。

问题是 - 有大量文件。只有一定数量的文件用于 MapReduce 作业(例如,上个月的测量值)。因此我无法将它们全部合并到一个大的序列文件中,因为不同的时间需要不同的文件。

我知道拥有大量小文件是不好的,因为 NameNode 包含 HDFS 上所有这些文件的路径(并将其保存在内存中),另一方面,每个小文件都会产生一个 Mapper创作。

如何避免这个问题?

最佳答案

迟到的答案:您可以使用 SeaweedFS https://github.com/chrislusf/seaweedfs (我正在研究这个)。对大量小文件有特殊优化。

HDFS其实对将文件存储委托(delegate)给其他文件系统有很好的支持。只需添加一个 SeaweedFS hadoop jar。参见 https://github.com/chrislusf/seaweedfs/wiki/Hadoop-Compatible-File-System

关于hadoop - 大量小文件Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29825834/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com