- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有两个链接的mapreduce步骤(在更大的分支工作流程中)。第一个按id分组,在极少数情况下会产生一个具有不同id的新对象(可能是亿万个输入对象中的几千个)。第二个对象再次将所有对象(包括新对象)按ID分组,并生成一堆我关心的东西。
当除了新对象以外的所有其他东西都已经在同一服务器上并按ID排序时,再次读取/重新混合所有数据似乎非常浪费。有没有一种方法可以将新的东西改组到当前的 reducer 中,然后让它们重新开始列表?
我正在使用Hadoop流,因此与之匹配的任何答案都将是理想选择,但我也对常规答案感兴趣。
最佳答案
如果新对象是由reducer生成的,则您无法通过MapReduce一次性完成。考虑使用spark代替;对于迭代任务来说更好。
如果新对象是由映射器生成的,而第一阶段的简化器只是传递,则您应该能够一步一步完成:第一阶段的映射器应同时发出原始记录和新记录(没有规则可以表示映射器必须为1:1。映射器可以产生比输入更多或更少的记录)
关于hadoop - 如何避免在链式hadoop中不必要地重复映射步骤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39353925/
jQuery attributeContainsPrefix [name^="value"] 对比 attributeStartsWith [name|="value"] 实际区别是什么? 最佳答案
在1.1部分在RFC 6749中,有四种角色:资源拥有者、资源服务器、客户端和授权服务器。 如果客户端和资源所有者是同一实体,OAuth 是否变得多余或不必要? 例如,我有一个封闭的 API 和一个面
我有一段代码,其中有一个带有保护子句的 raise 语句: def validate_index index # Change to SizeError raise ArgumentError
我看到了这篇文章( JPA Entity Lifecycle Events vs database trigger ),但它并没有像我在这里那样明确地询问: 当我插入 PK 值为 (null) 的行时
所以,我有一段代码看起来像 if(Build.VERSION.SDK_INT >= Build.VERSION_CODES.JELLY_BEAN_MR2){ // Do something }
我是一名优秀的程序员,十分优秀!