gpt4 book ai didi

hadoop - 是否可以在hadoop中创建/使用非并行文件

转载 作者:行者123 更新时间:2023-12-02 20:47:07 25 4
gpt4 key购买 nike

我们总是谈论如果使用hadoop并行化我们的数据和程序将会有多快。
我想知道是否可以在一个特定的dataNode中保留一个小文件(未并行化)?

最佳答案

possible to keep a small file in one specific dataNode



HDFS将尝试将任何文件拆分为HDFS块。数据节点不存储整个文件,也不应该尝试存储在特定文件上。让Hadoop管理数据局部性。

无论如何,默认情况下,您的文件将在Hadoop中复制3次。

如果文件很小(取决于Hadoop版本,小于HDFS块大小,则为64或128MB),则可能是 shouldn't be using Hadoop。如果需要并行处理,请从多线程开始。如果您实际上需要分布式流程,那么今天的建议是Spark或Flink,而不是Hadoop(MapReduce)。

如果需要,似乎要 object storage,而不是块存储

关于hadoop - 是否可以在hadoop中创建/使用非并行文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47509508/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com