gpt4 book ai didi

hadoop - 将值写入文件而不移动到 reducer

转载 作者:可可西里 更新时间:2023-11-01 14:50:21 27 4
gpt4 key购买 nike

我有这样的记录输入,一|1|Y,b|0|N,c|1|N,d|2|Y,e|1|Y

现在,在映射器中,我必须检查第三列的值。如果是“Y”,则该记录必须直接写入输出文件而不将该记录移动到 reducer,否则即“N”值记录必须移动到 reducer 以进行进一步处理。

所以,一|1|Y,d|2|Y,e|1|Y不应该去 reducer 但是b|0|N,c|1|N应该去reducer然后输出文件。

我该怎么做?

最佳答案

你可能会做的是使用 MultipleOutputs - click here将 'Y' 和 'N' 类型的记录从映射器中分离到两个不同的文件中。

接下来,您为两个新生成的“Y”和“N”类型数据集运行单独的作业。对于“Y”类型,将 reducers 的数量设置为 0,这样就不会使用 Reducers。并且,对于“N”类型,使用缩减器按照您想要的方式进行。

希望这对您有所帮助。

关于hadoop - 将值写入文件而不移动到 reducer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17213040/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com