gpt4 book ai didi

hadoop - 设置所需号码的映射器

转载 作者:可可西里 更新时间:2023-11-01 16:14:27 27 4
gpt4 key购买 nike

我浏览了很多关于 stackoverflow 和 apache wiki 的博客,以了解映射器在 Hadoop 中的设置方式。我还经历了 [ hadoop - how total mappers are determined [这个帖子。有人说它基于 InputFormat,而一些帖子说它基于输入文件 ID 分成的 block 数。

一些我对默认设置感到困惑的地方。

当我运行一个 wordcount 示例时,我看到映射器低至 2。设置中到底发生了什么?还有这篇文章 [ http://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/QuasiMonteCarlo.java] [示例程序]。在这里,他们根据用户输入设置映射器。如何手动进行此设置?

如果能提供一些帮助和了解映射器的工作原理,我将不胜感激。

提前致谢

最佳答案

使用 java 系统属性 mapred.min.split.sizemapred.max.split.size 来引导 Hadoop 使用您想要的拆分大小。这并不总是有效 - 特别是当您的数据采用不可拆分的压缩格式时(例如 gz,但 bzip2 是可拆分的)。

因此,如果您想要更多映射器,请使用较小的拆分大小。很简单!

(根据要求更新)现在这对很多小文件都不起作用,特别是你最终会得到比你想要的更多的映射器。对于这种情况,请使用 CombineFileInputFormat ... 在 Scalding 这个 SO 解释:Create Scalding Source like TextLine that combines multiple files into single mappers

关于hadoop - 设置所需号码的映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24783556/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com