gpt4 book ai didi

java - Hadoop - 如何使用和减少多个输入?

转载 作者:可可西里 更新时间:2023-11-01 14:19:54 29 4
gpt4 key购买 nike

Mapper/Reducer 1 --> (key,value)
/ | \
/ | \
Mapper/Reducer 2 | Mapper/Reducer 4
-> (oKey,oValue) | -> (xKey, xValue)
|
|
Mapper/Reducer 3
-> (aKey, aValue)

我有一个日志文件,我将其与 MR1 汇总。 Mapper2、Mapper3、Mapper4 将 MR1 的输出作为它们的输入。作业是链式的。

MR1 输出:

User     {infos of user:[{data here},{more data},{etc}]}
..

MR2 输出:

timestamp       idCount
..

MR3 输出:

timestamp        loginCount
..

MR4 输出:

timestamp        someCount
..

我想合并 MR2-4 的输出:最终输出->

timestamp     idCount     loginCount   someCount
..
..
..

有没有办法不用 Pig 或 Hive?我正在使用 Java。

最佳答案

你可以用 MultipleInputs 做到这一点查看示例 here

关于java - Hadoop - 如何使用和减少多个输入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15947983/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com