- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在使用 Hadoop 运行 ETL 作业,我需要将经过转换的有效数据输出到 HBase,并将该数据的外部索引输出到 MySQL。我最初的想法是,我可以使用 MultipleOutputFormats 通过 HFileOutputFormat(键是 Text,值是 ProtobufWritable)和 TextOutputFormat 的索引(键是 Text,值是 Text)导出转换后的数据。
平均大小的作业(我需要同时运行多个作业的能力)的输入记录数约为 7 亿。
我想知道 A) 就效率和复杂性而言,这似乎是一种合理的方法,以及 B) 如果可能的话,如何使用 CDH3 发行版的 API 来实现这一点。
最佳答案
如果您使用旧的 MapReduce API,那么您可以使用 MultipleOutputs并写入多种输出格式。
但是,如果您使用的是新的 MapReduce API,我不确定是否有办法完成您想要做的事情。您可能不得不为对相同的输入执行另一个 MapReduce 作业付出代价。但在肯定地说之前,我必须对其进行更多研究。可能有一种方法可以将旧 API 和新 API 组合在一起,以允许您将 MultipleOutputs 与新 API 结合使用。
编辑:看看这个 post .您或许可以实现自己的 OutputFormat并包装适当的 RecordWriters在OutputFormat并使用它写入多种输出格式。
关于Hadoop MultipleOutputFormats 到 HFileOutputFormat 和 TextOutputFormat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9446516/
我是 map reduce 的新手,我想知道使用自定义分区器根据特定条件创建多个输出与 Map reduce 中的 MultipleOutputs 概念有什么区别。 最佳答案 使用自定义分区,您会将数
我正在处理一个 hadoop 任务,该任务之前在目录中填充了几个文件说 部分-o第1部分第二部分 我根据要求修改了此任务,并使用 MultipleOutputs 捕获更多输出。所以现在目录结构看起来像
我正在尝试将 MultipleOutputFormat 与 hadoop 0.20.1 一起使用,似乎它们只适用于已弃用的“JobConf”,而“JobConf”又使用已弃用的 Mapper 和Red
我需要根据 reducer 键控制由 MultipleOutputFormat 管理的不同文件的子路径。 我基本上是想根据给reducer的key设置文件的子路径。 我可以通过覆盖 MultipleO
我正在使用 Hadoop 运行 ETL 作业,我需要将经过转换的有效数据输出到 HBase,并将该数据的外部索引输出到 MySQL。我最初的想法是,我可以使用 MultipleOutputFormat
我正在使用 Apache Flink 的数据集 API。我想实现一个将多个结果写入不同文件的作业。 我该怎么做? 最佳答案 您可以根据需要向 DataSet 程序添加任意数量的数据接收器。 例如在这样
我是 Hadoop 的新手!现在我正在尝试将 MultipleOutputFormat 与 hadoop 2.2.0 一起使用,但它们似乎只适用于已弃用的“JobConf”,而后者又使用已弃用的 Ma
我正在尝试读取 HBase 表 TableMapReduceUtil 并将数据转储到 HDFS (不要问我为什么。这很奇怪,但没有任何其他选项)。因此,为了实现这一目标,我想通过reducer键来操作
我是一名优秀的程序员,十分优秀!