gpt4 book ai didi

java - Hadoop MapReduce 在 reducer 中访问 mapper 输出数

转载 作者:可可西里 更新时间:2023-11-01 16:37:32 24 4
gpt4 key购买 nike

我有一个映射器,它输出句子中的每个字母,这是键,数字 1 作为它的值。例如,我的映射器将“你好吗”输出为

H 1
o 1
w 1
a 1
r 1
e 1
y 1
o 1
u 1

我的 reducer 接受它并使用 1 来计算每个字母的出现次数。例如,它会输出字母“o”作为键,输出 2 作为它的值,因为它出现了两次。

我的问题是我想计算每个字母在句子中出现的频率。为此,我需要访问句子中字母的总数(映射器输出的数量)。我是 mapreduce 的新手,所以我不确定最好的方法。

最佳答案

假设您的映射器正在获取一个完整的句子,您试图在其中找到频率并且您正在使用 Java API,您可以通过 context.write(...) 从映射器输出两个键。功能:

映射器的 Java 语法:public void map(LongWritable key, Text value, Context context)

  1. key :<lineNo_Letter> ;值:c_m
  2. 键:<lineNo_Letter> ;值:t_n

在哪里

lineNo = same as key to the mapper (the first parameter to the above function)
letter = your desired letter
m = <total number of letters in the line (the 2nd parameter to the above function) input to the mapper>
n = <number of occurrence of letter in the line (the 2nd parameter to the above function) mapper input line>

c_a_只是标识计数类型的前缀。 c代表字母的出现;同时t代表总出现次数。

基本上,我们在这里利用的概念是,您可以从映射器/缩减器写入任意数量的键值。

现在 reducer 会得到类似的东西键:<lineNo_letter>值:ListOf[c_m, t_n]

现在,只需遍历列表,用分隔符 _ 将其拆分并借助标识符前缀( tc );您在 reducer 中有所需的值。即

Total number of letter in the sentence = m
Total number of occurrence of the letter = n

编辑:添加伪逻辑

以您的示例为例,假设映射器函数的输入行 public void map(LongWritable key, Text value, Context context)

LongWritable key = 1
Text value = howareyou

映射器的输出应该是:

-- Output length of the Text Value against each letter
context.write("1_h", "t_9");
context.write("1_o", "t_9");
context.write("1_w", "t_9");
context.write("1_a", "t_9");
context.write("1_r", "t_9");
context.write("1_e", "t_9");
context.write("1_y", "t_9");
context.write("1_u", "t_9");

请注意,上面的输出是来自映射器的句子的每个字母一次。这就是为什么信o仅输出一次(即使它在输入中出现两次)。

映射器代码的更多输出将是

-- Output individual letter count in the input text as 
context.write("1_h", "c_1");
context.write("1_o", "c_2");
context.write("1_w", "c_1");
context.write("1_a", "c_1");
context.write("1_r", "c_1");
context.write("1_e", "c_1");
context.write("1_y", "c_1");
context.write("1_u", "c_1");

同样,您可以看到字母 o的值(value)为 c_2因为它在句子中出现了两次。

现在将产生 8 个 reducer,每个都将获得以下键值对之一:

key: "1_h" value: ListOf["t_9", "c_1"]
key: "1_o" value: ListOf["t_9", "c_2"]
key: "1_w" value: ListOf["t_9", "c_1"]
key: "1_a" value: ListOf["t_9", "c_1"]
key: "1_r" value: ListOf["t_9", "c_1"]
key: "1_e" value: ListOf["t_9", "c_1"]
key: "1_y" value: ListOf["t_9", "c_1"]
key: "1_u" value: ListOf["t_9", "c_1"]

现在在每个 reducer 中,拆分键以获取行号和字母。遍历值列表以提取总数和字母出现次数。

信件出现频率h第 1 行 = Integer.parseInt("c_1".split("_")[1])/Integer.parseInt("t_9".split("_")[1])

这是你实现的伪逻辑。

关于java - Hadoop MapReduce 在 reducer 中访问 mapper 输出数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48934671/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com