gpt4 book ai didi

java - AWS 使用 Hadoop API 增加映射和缩减器

转载 作者:可可西里 更新时间:2023-11-01 16:19:01 25 4
gpt4 key购买 nike

我在 AWS 服务器上运行 WordCount 示例。我想测试我的输出并分析它们。我想增加编号。映射器和没有。 reducer 也没有。 block 。

我怎样才能达到同样的效果?

我必须设置否吗?创建工作时的映射器/ reducer ?或者我必须添加一些代码?我正在使用 java。

最佳答案

您可以在使用 JobConf 的 conf.setNumMapTasks(int num)conf.setNumRedTasks(int) 启动 MapReduce 作业的 Java 程序的主要函数中设置映射器和缩减器的数量num),分别。

对于映射器,请注意 api: 中的以下内容

“这只是对框架的提示。生成的 map task 的实际数量取决于作业的 InputFormat.getSplits(JobConf, int) 生成的 InputSplits 的数量。自定义 InputFormat 通常用于准确地控制作业的 map task 数量。”

明确设置输入 block 的数量有点困难。输入的拆分方式由您使用的 InputFormat 及其使用的相应 InputSplits 决定。如果您希望操纵输入的拆分方式,则必须制作自己的自定义 InputFormat/InputSplits。

关于java - AWS 使用 Hadoop API 增加映射和缩减器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12738972/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com