gpt4 book ai didi

hadoop - HDFS:如何分配较小尺寸的文件?

转载 作者:行者123 更新时间:2023-12-02 20:09:10 25 4
gpt4 key购买 nike

我有大量的小文件要存储在HDFS中。基于文件名,我想将它们存储在不同的数据节点中。这样,我可以实现以某些字母开头的文件名进入特定的数据节点。如何在Hadoop中做到这一点?

最佳答案

不是一个很好的选择。原因:

  • Hadoop无法很好地处理大量小文件。
  • 在单个节点中存储一个完整的文件违反了HDFS的基本原则之一,分布式存储

  • 我想知道这种方法会带来什么好处。

    回应您的评论:

    HDFS不会像HBase那样进行任何排序。当您将文件放入HDFS时,它首先被分成小块,然后被存储(每个块在不同的节点上)。因此,没有什么比将整个文件发送到单个节点更好了。您的文件(块)位于多个节点上。

    您可以根据需要创建目录层次结构,并将文件存储在这些目录中(以防您打算根据文件的位置直接获取文件)。 例如,
    /dirA
    /dirA/A.txt
    /dirA/B.txt
    /dirB
    /dirB/P.txt
    /dirB/Q.txt
    /dirC
    /dirC/Y.txt
    /dirC/Z.txt

    但是,如果您确实想将特定文件的块发送到某些特定节点,则需要实现自己的块放置策略,这并不是一件容易的事。有关更多详细信息,请参见 this

    关于hadoop - HDFS:如何分配较小尺寸的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18828010/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com