gpt4 book ai didi

Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat

转载 作者:可可西里 更新时间:2023-11-01 15:41:35 25 4
gpt4 key购买 nike

我正在使用 Hadoop 运行 ETL 作业,我需要将经过转换的有效数据输出到 HBase,并将该数据的外部索引输出到 MySQL。我最初的想法是,我可以使用 MultipleOutputFormats 通过 HFileOutputFormat(键是 Text,值是 ProtobufWritable)和 TextOutputFormat 的索引(键是 Text,值是 Text)导出转换后的数据。

平均大小的作业(我需要同时运行多个作业的能力)的输入记录数约为 7 亿。

我想知道 A) 就效率和复杂性而言,这似乎是一种合理的方法,以及 B) 如果可能的话,如何使用 CDH3 发行版的 API 来实现这一点。

最佳答案

如果您使用旧的 MapReduce API,那么您可以使用 MultipleOutputs并写入多种输出格式。

但是,如果您使用的是新的 MapReduce API,我不确定是否有办法完成您想要做的事情。您可能不得不为对相同的输入执行另一个 MapReduce 作业付出代价。但在肯定地说之前,我必须对其进行更多研究。可能有一种方法可以将旧 API 和新 API 组合在一起,以允许您将 MultipleOutputs 与新 API 结合使用。

编辑:看看这个 post .您或许可以实现自己的 OutputFormat并包装适当的 RecordWritersOutputFormat并使用它写入多种输出格式。

关于Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9446516/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com