gpt4 book ai didi

hadoop - Reducer 根据键输出到不同的文件

转载 作者:行者123 更新时间:2023-12-02 20:06:06 25 4
gpt4 key购买 nike

是否可以根据键将 reducer 的输出写入不同的文件?

例如,如果我将以下数据提供给 reducer :

(Key, Value) ==> (1, A) (1, B) (2, C) (2, D)

输出应写入 2 个不同的文件 output1 和 output2,

output1 必须包含:
(key, Value) ==> (1, [A,B])

output2 必须包含:
(key value) ==> (2, [C,D])

有人可以指导我如何做到这一点吗?

最佳答案

默认分区器为 HashPartitoner .

他们保证相同的 key 最终出现在相同的 Reducer 中。

如果您需要将具有不同键的相同值输出到一个文件 -
您可以使用 Custom Partitioners为了那个原因。

eg: 1,[A,B,G,M]
1,[A,K,I,Y]
2,[G,A,O]
2,[U]

如果您需要 A 在同一个 reducer 中包含值,您可以使用自定义分区器。

在这个特定的例子中,我们打破了 Reduce 理论(相同的键进入相同的 Reducer)。在实现自定义分区时
1,[A,B,G,M] 
1,[A,K,I,Y]
2,[G,A,O]

进入 1 个 Reducer,即使它们不是同一个键。

检查此 link

也可以通过 Custom Partitioner : N number of keys to N different files

关于hadoop - Reducer 根据键输出到不同的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23004415/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com