gpt4 book ai didi

java - 调用 MapReduce 两次

转载 作者:可可西里 更新时间:2023-11-01 16:39:57 25 4
gpt4 key购买 nike

我在这里学习字数统计教程:https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Example:_WordCount_v1.0

我可以得出一个词以这种格式出现的频率:

word frequency
1 1
2 2
3 3
4 1
5 2
6 1

但是,现在我需要像这样对频率进行分组:

frequency   count
1 3
2 2
3 1

基本上,对于每个频率,找出它出现的频率。我将如何修改代码以显示此内容?我觉得我必须修改 IntSumReducer 但我从未真正使用过 Hadoop。

最佳答案

而不是从示例中修改 SumReducer,您应该完全创建一个新的作业来处理字数统计程序的输出。

您的 Mapper 需要输出频率作为键,输出整数 1 作为值。您可以编写自己的 reducer 或只使用示例中使用的相同 reducer 。

关于java - 调用 MapReduce 两次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43190518/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com