hadoop - 如何避免在链式hadoop中不必要地重复映射步骤-6ren

hadoop - 如何避免在链式hadoop中不必要地重复映射步骤

转载作者：行者123 更新时间：2023-12-02 21:14:03

24

4

我有两个链接的mapreduce步骤(在更大的分支工作流程中)。第一个按id分组，在极少数情况下会产生一个具有不同id的新对象(可能是亿万个输入对象中的几千个)。第二个对象再次将所有对象(包括新对象)按ID分组，并生成一堆我关心的东西。

当除了新对象以外的所有其他东西都已经在同一服务器上并按ID排序时，再次读取/重新混合所有数据似乎非常浪费。有没有一种方法可以将新的东西改组到当前的 reducer 中，然后让它们重新开始列表？

我正在使用Hadoop流，因此与之匹配的任何答案都将是理想选择，但我也对常规答案感兴趣。

最佳答案

如果新对象是由reducer生成的，则您无法通过MapReduce一次性完成。考虑使用spark代替；对于迭代任务来说更好。

如果新对象是由映射器生成的，而第一阶段的简化器只是传递，则您应该能够一步一步完成:第一阶段的映射器应同时发出原始记录和新记录(没有规则可以表示映射器必须为1:1。映射器可以产生比输入更多或更少的记录)

关于hadoop - 如何避免在链式hadoop中不必要地重复映射步骤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39353925/

24

4

0

文章推荐： scala - 合并目录中的所有文件并根据第一列进行排序

文章推荐： php - 如何强制使用新的wordpress docker镜像？

文章推荐： hadoop - Hbase CopyTable错误

jQuery ^= 与 |=。不必要？
jQuery attributeContainsPrefix [name^="value"] 对比 attributeStartsWith [name|="value"] 实际区别是什么？最佳答案
api - 如果客户端与资源所有者相同，OAuth 2.0 是否多余/不必要？
在1.1部分在RFC 6749中，有四种角色:资源拥有者、资源服务器、客户端和授权服务器。如果客户端和资源所有者是同一实体，OAuth 是否变得多余或不必要？例如，我有一个封闭的 API 和一个面
ruby - Rubocop 保护子句困境 - 不必要 if else VS 行太长保护子句
我有一段代码，其中有一个带有保护子句的 raise 语句: def validate_index index # Change to SizeError raise ArgumentError
java - 在 JPA 中使用 @SequenceGenerator/@GenerateValue 时 - 数据库触发器是否多余/不必要？
我看到了这篇文章( JPA Entity Lifecycle Events vs database trigger )，但它并没有像我在这里那样明确地询问: 当我插入 PK 值为 (null) 的行时
android - 不必要; SDK_INT 总是 >= 21，而我的 minSdkVersion 是 16
所以，我有一段代码看起来像 if(Build.VERSION.SDK_INT >= Build.VERSION_CODES.JELLY_BEAN_MR2){ // Do something }

首页

博学

6Ren·AI

商城

hadoop - 如何避免在链式hadoop中不必要地重复映射步骤