gpt4 book ai didi

hadoop - 使用 Hadoop mapreduce 进行并行缩减

转载 作者:可可西里 更新时间:2023-11-01 15:03:33 24 4
gpt4 key购买 nike

我正在使用 Hadoop 的 MapReduce。我有一个文件作为 map 函数的输入,map 函数做了一些事情(与问题无关)。我希望我的 reducer 获取 map 的输出并写入两个不同的文件。在我看来(我想要一个高效的解决方案),我的想法有两种:

  1. 1 个 reducer 知道识别不同的情况并写入 2 个不同的上下文。
  2. 2 个并行化简器,每个化简器都知道识别其相关输入,忽略另一个化简器,这样每个化简器都会写入一个文件(每个化简器将写入不同的文件)。

我更喜欢第一个解决方案,因为它意味着我将只检查 map 的输出一次而不是并行两次 - 但如果第一个在某种程度上不受支持 - 我会很高兴听到第二个建议的解决方案。

*注意:这两个最终文件应该是分开的,此时不需要加入它们。

最佳答案

Hadoop API 具有创建多个输出的功能,称为 MultipleOutputs这使您的首选解决方案成为可能。

关于hadoop - 使用 Hadoop mapreduce 进行并行缩减,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6800438/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com