gpt4 book ai didi

hadoop - 如何收集 mapreduce 作业的输出?

转载 作者:可可西里 更新时间:2023-11-01 14:34:06 26 4
gpt4 key购买 nike

我尝试用 mapreduce 编写一个简单的字数统计程序。我的 mapreduce 程序只将输出写入文件。但我不希望我的输出写入文件。我想收集该信息或输出(如 java 集合)以用于我的程序区域的其余部分。

例如,如果我在配置单元上提交任何查询,它会返回一个结果集对象,但在内部我的查询将转换为 mapreduce 程序,并在完成作业后返回结果集对象。与其他 mapreduce 程序不同,它不会将结果写入文件系统。

那么我如何收集输出或者如何在 reducer 或 mapper 中准备我自己的对象并在 java 程序的其他区域收集该对象?我不希望将输出写入文件。

最佳答案

有很多方法可以处理 Hadoop M-R 框架的输出。用户描述 M-R 作业的主要界面是 JobConf类(class)你会发现

getOutputFormat()

setOutputFormat()

您将/可以描述不同结果集合的方法,例如 DB (HBase) 存储。需要记住的是,M-R 作业处理大量数据,除非您拥有完善的分布式对象架构,否则在 Java 内存中将这些数据作为对象进行管理会很麻烦。

或者您可以提供您的实际要求。

希望对您有所帮助,帕特

关于hadoop - 如何收集 mapreduce 作业的输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22791088/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com