hadoop - 如何在Hadoop中两次执行OutputFormat.RecordWriter write(key，value)两次-6ren

hadoop - 如何在Hadoop中两次执行OutputFormat.RecordWriter write(key，value)两次

转载作者：行者123 更新时间：2023-12-02 21:55:54

26

4

我有一种情况，我需要两次遍历OutputFormat的键/值对。在本质上:

 OutputFormat.getRecordWriter() // returns RecordWriteType1
 ... and when all those are complete across all machines
 OutputFormat.getRecordWriter() // return RecordWriterType2

两个RecordWriterType1 / 2的类型相同。有没有办法做到这一点？

谢谢，
马可。

最佳答案

不幸的是，您不能简单地对化简器数据运行两次。

您确实有一些选择可以解决:

使用身份缩减器将排序后的数据输出到HDFS，然后使用身份映射器对数据运行两个作业-浪费但很简单，如果您没有那么多数据

如上所述，但是您可以使用仅映射作业和键比较器来模拟化简函数，因为您知道输入已被排序(您需要确保将拆分大小设置为足够大，以确保来自第一个的所有数据reducer输出文件在单个映射器中处理，并且不会拆分为2个以上的映射器实例

您可以将化简器键/值写入化简器中的本地磁盘，然后在化简器的清理方法中，按照第二个选项中的详细说明打开本地文件并进行处理(使用组比较器确定键边界) 。

如果您浏览ReduceTask的源代码，甚至可以“滥用”本地磁盘上的合并排序段，然后再次运行数据，但是此选项纯属纯朴的黑客...

关于hadoop - 如何在Hadoop中两次执行OutputFormat.RecordWriter write(key，value)两次，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14144490/

26

4

0

文章推荐： hadoop - Hadoop DistributedCache导致IOException

文章推荐： javascript - 如何使用 Promise {} Firebase 获取 PromiseValue？

文章推荐： hadoop - 应该从 Hadoop 中的哪个类继承(或扩展)Combiner？

javascript - JSF - outputFormat 尝试将参数解析为数字
尝试将 primefaces 日历与本地化一起使用。我考虑将 javascript 属性数组添加到相应的语言环境消息属性文件中。 http://code.google.com/p/primefaces
javascript - rCharts 格式化轴标签 : outputFormat
考虑从 rCharts/NVD3 示例页面中提取的图 p6 <- nPlot(uempmed ~ date, data = economics, type = 'lineChart') p6 我试图让
Hadoop API : OutputFormat for Reducer
我对 hadoop API 完全困惑。 (猜猜它一直在变化) 如果我没记错的话，JobConf 已被弃用，我们应该使用Job 和Configuration 类而不是从 java 运行 map redu
jsf - 将参数从资源包传递到除 **h :outputFormat** 之外的组件的消息
是否有一种方便的方法将参数从资源包传递到除h:outputFormat之外的组件？例如，这是合法的: 但我需要它作为一个按钮，就像这样(这不起作用): 当然，我可以使用链
java - Freemarker解析异常: "Unknown directive: #outputformat"
我使用 Freemarker 2.3.23，我想打印 XML 的字符串表示形式。所以，我找到了outputformat指示。但是当我尝试使用它时，出现以下 ParseException: Unknow
java - XMLSerializer 和 OutputFormat 已弃用
我正在尝试从 S.O. 周围的 Java 专家那里获得一些帮助。关于这个问题。我在一个长期项目中遇到了 XMLSerializer 和 OutputFormat 的旧实现...我想知道是否有人可以提供
android - 什么是 MediaRecorder.OutputFormat.DEFAULT？
根据引用。 http://developer.android.com/reference/android/media/MediaRecorder.OutputFormat.html我想知道，什么是 M
java - JSF : commandLink as a parameter for outputFormat
我正在对一些 JSF 文件进行国际化，因此我正在外部化字符串(以及使用占位符连接字符串)。我对 JSF 的经验很少(今天和昨天)，所以如果我的问题有明显的答案，请原谅! 我一直在为简单的占位符成功使用
java - 我可以使用 f :convertNumber with h:outputFormat
我有一个复合组件，这是其中的一个片段。如果我想使用格式化 value3 ，我该怎么做？最佳答案在幕后使用标准 java.text.MessageForma
Hadoop Map-Reduce OutputFormat 用于将结果分配给内存变量(不是文件)？
(来自 Hadoop 新手) 我想在玩具 Hadoop 概念验证示例中尽可能避免使用文件。我能够从非基于文件的输入中读取数据(感谢 http://codedemigod.com/blog/?p=120
JSF-2。 h :outputFormat. 复数 f:param
一个参数输出如何成为另一个参数输入(值)？或者换句话说，我如何构建一个复杂的参数。我试图建立参数。这是代码:
JSF : use array values as parameters
在我的 JSF2 页面上，我正在使用国际化错误消息。在我的支持 bean 中，我将消息放入 flash Scope: flash.put("error", exception.getType());
java - 使用 Java OutputFormat 发出 Scala 元组
我正在尝试为 ArangoDB 编写自定义OutputFormat。我使用 CassandraOutputFormat.java 作为灵感，交换了相关的驱动程序和调用等。我用 Java 编写了这个，因
java - NoClassDefFound错误: org/apache/xml/serialize/OutputFormat
即使我已将 xercesImpl-2.8.1.jar 包含在 .M2 文件夹中，我的应用程序也找不到 OutputFormat。我能够查看类文件。有人知道为什么会这样吗？我使用的版本不正确吗？最
java - 如何在 hadoop 应用程序中覆盖 InputFormat 和 OutputFormat
我有一个应用程序需要读取一个文件，该文件是 ArrayList 的序列化结果。(ArrayList，此列表中有 50000 条记录，大小:20MB)我不知道如何将数据读入 hadoop 平台。我只是觉
java - 关于如何为 Hbase 编写 Hadoop InputFormat/OutputFormat 的任何想法
有没有人有编写从 Hbase 获取日期的 Hadoop InputFormat/OutputFormat 的经验？我想要比 HbaseTableInputFormat 更具体的东西，因为我的想法是将
hadoop - Hive 中的 'InputFormat, OutputFormat' 和 'Stored as' 有什么区别？
我是大数据的新手，目前正在学习 Hive。我了解 Hive 中 InputFormat 和 OutputFormat 的概念作为 SerDe 的一部分。我还了解到“存储为”用于以特定格式存储文件，就像
android - MediaRecorder.OutputFormat.RAW_AMR 在 Sony Xperia Z3 compact 上无法识别
我正在开发一个录制音频和存储音频文件的 Android 应用程序。它似乎在除 Sony Xperia Z3 compact 之外的所有手机上都能正常工作。我发现将 MediaRecorder 的输出格
java - 运行 Apache Spark Kafka Stream 时获取 Hadoop OutputFormat RunTimeException
我正在运行一个程序，该程序使用 Apache Spark 从 Apache Kafka 集群获取数据并将数据放入 Hadoop 文件中。我的程序如下: public final class Spark
jsf - PrimeFaces 是否有类似 o :param (solution to add complex parameter for outputFormat)? 的内容
给定的问题是传递复杂参数(请参阅下面的代码示例)在 JSF 中不起作用。我不是寻找使用

首页

博学

6Ren·AI

商城

hadoop - 如何在Hadoop中两次执行OutputFormat.RecordWriter write(key，value)两次