gpt4 book ai didi

hadoop - 不同 block 大小的 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 16:31:20 26 4
gpt4 key购买 nike

我需要做什么才能在 Hadoop 中拥有更小/更大的 block ?

具体来说,我希望有更多的映射器,这样可以处理更小的数据。似乎我需要减小块大小,但我很困惑(我是 Hadoop 的新手)——我是否需要在将文件放在 HDFS 上时做一些事情,或者我是否需要指定与输入拆分大小相关的内容,或两者兼而有之?

我正在共享集群,所以我无法执行全局设置,所以如果可能的话,需要在每个作业的基础上进行设置吗?我正在通过代码(稍后可能来自 Oozie)运行该作业。

最佳答案

映射器运行的内容由输入拆分控制,完全取决于您如何指定它。 HDFS block 大小与它无关(除了大多数拆分器使用 block 大小作为基本“ block ”来创建输入拆分以实现良好的数据局部性这一事实之外)。如果您喜欢的话,您可以编写自己的拆分器,它采用 HDFS block 并拆分为 100 个拆分。也看看Change File Split size in Hadoop .

话虽这么说,但这样做的智慧(“许多映射器有小的分割”)是非常值得怀疑的。其他人都在尝试做相反(创建一些具有聚合拆分的映射器)。参见 Dealing with Hadoop's small files problem , The Small Files Problem , Amazon Elastic MapReduce Deep Dive and Best Practices等等。

关于hadoop - 不同 block 大小的 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30232476/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com