gpt4 book ai didi

hadoop - 在hadoop的一行中减少两次

转载 作者:行者123 更新时间:2023-12-02 20:07:03 25 4
gpt4 key购买 nike

抱歉标题困惑,很难定义...

我想做的是将单词序列作为hadoop作业的输入和输出行,如下所示:

小写序列的频率小写序列的序列频率

我认为最好用一个例子来解释:

假设我的输入数据是:

the sun
the sun
the sun
The sun
The sun
The Sun

我想结束
the sun 6 the sun 3
the sun 6 The sun 2
the sun 6 The Sun 1

如何减少小写序列频率和原始序列频率?

最佳答案

在您的 map 功能中:
输出键:
序列.toLowerCase()
产值:
序列(原样)

在每个值的 reduce 函数中:

Map<String, Integer> occurrences = new HashMap<String, Integer>();
occurrences.put(key, occurrences.get(key) + 1);
if(!key.equals(value)){
occurrences.put(value, occurrences.get(key) + 1);
}

这只是伪代码。您将收到 NPE,因为occurrences.get(key/value) 将首次返回 null。只需为此添加检查。
结果,您将拥有相同序列的不同大写/小写的出现和计数的 map 。

关于hadoop - 在hadoop的一行中减少两次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21709312/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com