gpt4 book ai didi

hadoop - 如何控制 Hadoop 流作业的输出文件名和内容?

转载 作者:可可西里 更新时间:2023-11-01 14:16:36 33 4
gpt4 key购买 nike

有没有办法控制 Hadoop Streaming 作业的输出文件名?具体来说,我希望我的作业的输出文件内容和名称由 reducer 输出来组织——每个文件只包含一个键的值,它的名称将是键。

更新:刚刚找到答案 - 使用派生自 MultipleOutputFormat 的 Java 类作为作业输出格式可以控制输出文件名。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html

我还没有看到这方面的任何样本......谁能指出一个使用自定义输出格式 Java 类的 Hadoop Streaming 示例?

最佳答案

使用派生自 MultipleOutputFormat 的 Java 类作为作业输出格式可以控制输出文件名。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html

当使用 Hadoop Streaming 时,由于仅支持一个 JAR,您实际上必须 fork 流式 jar 并将新的输出格式类放入其中,以便流式作业能够引用它...

编辑:从 hadoop 的 0.20.2 版本开始,这个类已经被弃用,你现在应该使用: http://hadoop.apache.org/docs/mapreduce/current/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

关于hadoop - 如何控制 Hadoop 流作业的输出文件名和内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/887835/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com