gpt4 book ai didi

hadoop - NLineInputFormat 无效

转载 作者:可可西里 更新时间:2023-11-01 14:29:29 26 4
gpt4 key购买 nike

我使用的是 Hadoop 0.20.2,并且使用的是旧 API。我正在尝试将数据 block 发送到映射器,而不是一次发送一行(数据涵盖多行)。我尝试使用 NLineInputFormat 来设置一次获取多少行,但映射器仍然一次只接收 1 行。我很确定我有正确的代码。是否有任何原因导致这无法工作?

供您引用,

JobConf conf = new JobConf(WordCount.class);

conf.setInt("mapred.line.input.format.linespermap", 2);

conf.setInputFormat(NLineInputFormat.class);

基本上,我使用的示例代码来自 http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Example%3A+WordCount+v1.0 , 仅更改 TextInputFormat。

提前致谢

最佳答案

NLineInputFormat 旨在确保映射器都接收到相同数量的输入记录(每个文件拆分的最后部分除外)。

因此,通过将输入属性更改为 2,每个映射器(最多)应该一次接收 2 个输入对,而不是 2 个输入行(这正是我认为您正在寻找的)。

您应该能够通过查看每个映射任务的计数器来确认这一点,“映射输入记录”对于大多数映射器而言应该报告 2

关于hadoop - NLineInputFormat 无效,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11002000/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com