gpt4 book ai didi

Hadoop WordCount 输出

转载 作者:可可西里 更新时间:2023-11-01 16:26:15 29 4
gpt4 key购买 nike

我是 hadoop 的新手,正在运行一些示例以更加熟悉它。我运行了 wordcount,当我去检查输出时 hadoop fs -cat outt 我得到了 3 个目录,而不是通常名为 outt/part-00000 的目录。这是我的目录:

-rw-r--r--   1 hadoop supergroup          0 2014-07-11 20:13 outt/_SUCCESS 
-rw-r--r-- 1 hadoop supergroup 15 2014-07-11 20:13 outt/part-r-00000
-rw-r--r-- 1 hadoop supergroup 0 2014-07-11 20:13 outt/part-r-00001

当我执行 hadoop fs -cat outt/_SUCCESShadoop fs -cat outt/part-r-00001 时,什么也没有出现。但是,当我执行 hadoop fs -cat outt/part-r-00000 时,我得到:record_count 1。

我的文件只显示“Hello World”,所以我期待结果:Hello 1 World 1。

有谁知道如何获得正确的输出?

最佳答案

1.)_success 和 part-r-00000/1 不是目录而是文件。目录更像是一组文件和其他目录

2.) 如果提交的作业被所有节点和reducer 成功执行并且结果集完整,则hadoop 会自动创建_Success 文件。

3.)如果你得到两个部分文件,这意味着你的工作描述中有两个 reducer 。查看代码,看是否有job.setNumReduceTasks(2);这样的语句。名为 00000 的部分是第一个 reducer 的输出,00001 是第二个 reducer 的输出。 'r' 表示输出来自 reducer 。如果看到“m”而不是“r”,则表示您没有 reducer,并且该作业是仅映射作业。

关于Hadoop WordCount 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24708766/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com