Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat-6ren

Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat

转载作者：可可西里更新时间：2023-11-01 15:41:35

25

4

我正在使用 Hadoop 运行 ETL 作业，我需要将经过转换的有效数据输出到 HBase，并将该数据的外部索引输出到 MySQL。我最初的想法是，我可以使用 MultipleOutputFormats 通过 HFileOutputFormat(键是 Text，值是 ProtobufWritable)和 TextOutputFormat 的索引(键是 Text，值是 Text)导出转换后的数据。

平均大小的作业(我需要同时运行多个作业的能力)的输入记录数约为 7 亿。

我想知道 A) 就效率和复杂性而言，这似乎是一种合理的方法，以及 B) 如果可能的话，如何使用 CDH3 发行版的 API 来实现这一点。

最佳答案

如果您使用旧的 MapReduce API，那么您可以使用 MultipleOutputs并写入多种输出格式。

但是，如果您使用的是新的 MapReduce API，我不确定是否有办法完成您想要做的事情。您可能不得不为对相同的输入执行另一个 MapReduce 作业付出代价。但在肯定地说之前，我必须对其进行更多研究。可能有一种方法可以将旧 API 和新 API 组合在一起，以允许您将 MultipleOutputs 与新 API 结合使用。

编辑:看看这个 post .您或许可以实现自己的 OutputFormat并包装适当的 RecordWriters在OutputFormat并使用它写入多种输出格式。

关于Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9446516/

25

4

0

文章推荐： java - JAVA代码触发Hadoop命令

文章推荐： c++ - 将内联双数组作为方法参数传递

文章推荐： c++ - 如何断言特定类在其布局中没有任何 vtbl 指针？

文章推荐： java - Hadoop 字数统计的意外输出

java - classOf [TextOutputFormat]需要Scala中的参数，但在Java中无需任何参数即可正常工作(TextOutputFormat.class)
用Java编写简单的Map Reduce程序时，下面的行可以正常工作。 job.setOutputFormatClass(TextOutputFormat.class) 但是Scala中的同一件
Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat
我正在使用 Hadoop 运行 ETL 作业，我需要将经过转换的有效数据输出到 HBase，并将该数据的外部索引输出到 MySQL。我最初的想法是，我可以使用 MultipleOutputFormat
Hadoop 0.2 : How to read outputs from TextOutputFormat?
我的 reducer 类使用 TextOutputFormat(Job 给出的默认 OutputFormat)生成输出。我喜欢在 MapReduce 作业完成后使用此输出来聚合输出。除此之外，我喜欢用
java - 在 Hadoop 中是否可以为 TextOutputFormat 指定记录分隔符
我看到一种机制可以使用 mapreduce.textoutputformat.separator(使用 1.03 的 api)覆盖键和值之间的分隔符。但我希望能够控制记录之间的分隔符。仅供引用，我使用

首页

博学

6Ren·AI

商城

Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat