gpt4 book ai didi

java - 如何在hadoop2中处理多个(100个)输入文件,其中每个文件的大小小于10MB?

转载 作者:行者123 更新时间:2023-12-02 22:01:05 26 4
gpt4 key购买 nike

让我们假设我有200个输入文件,每个文件的大小为10MB。 // total_size = 2GB

如何使这些文件存储在16个HDFS块中? // default_block_size = 128MB

这样,与200个输入文件的200个映射器相比,我认为16个映射器将有效地完成我的工作。

最佳答案

您不能在HDFS的单个块中存储多个文件,这是HDFS的基本规则。在您的情况下,HDFS块使用不充分,一个块中的128MB总数中仅使用了10MB,其余的118MB不能被其他文件使用,它将保持可用状态。 (这里要注意的一件事是,HDFS块是逻辑的,尽管您将其设置为128MB,您的HDFS块将仅占用10MB的物理存储。)

简而言之,在HDFS中,文件与HDFS块的关系是一对多的,而HDFS与文件的块不能是一对多的。

关于java - 如何在hadoop2中处理多个(100个)输入文件,其中每个文件的大小小于10MB?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42551914/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com