hadoop - 减少之前的 MapReduce 过滤器-6ren

hadoop - 减少之前的 MapReduce 过滤器

转载作者：可可西里更新时间：2023-11-01 16:30:53

28

4

我有一个 Hadoop MapReduce 作业，可以拆分不同类型的文档(地点、人员、组织、算法等)。对于每个文档，我都有一个标记来标识文档类型和指向其他文档的链接，但是在任务中到达链接页面之前，我不知道链接的文档是哪种类型。

在 Map 阶段，我识别链接和当前页面的类型，然后将链接的信息和带有标签的当前文档作为值 Emmit 到单个 reducer，Key NullWritable Value“CurrentDoc::Type: :链接”。

在 reducer 阶段，它使用值的“CurrentDoc::Type”按类型对所有文档进行分组，然后仅在属于特定类型的文档的“Document::Link”之间发出关系。

但是我有一个内存问题，因为所有的最后一步只在一个 reducer 中执行。

这是一种方法，在 map 处理之后和 reduce 任务之前执行分组任务，以识别所有带有标签的文档，然后将它们分发到不同的 reducer。

我的意思是将所有文档/标签分组为 ArrayWritable 文本中的“CurrentDoc::Type”。然后将“CurrentDoc::Link”元组作为键发送给缩减程序，并将 ArrayWritable 作为值发送给缩减器，以并行方式在缩减阶段执行一些过滤。

感谢您的帮助!

最佳答案

很遗憾，系统无法按您预期的方式工作。

我们无法更改 Mapper、Reducer 和 Combiner 的功能。

Hadoop allows the user to specify a combiner function to be run on the map output, and the combiner function’s output forms the input to the reduce function. In other words, calling the combiner function zero,one, or many times should produce the same output from the reducer.

Combiner 无法合并来自多个 map 的数据。让我们把工作留给 Reducer。

针对您的问题，

1) 使用Customer Partitioner 并决定应使用哪个reducer 来处理特定键(CurrentDoc::Type)

2) Combiner 将数据合并到一个Mapper

3) Outfrom Mapper 将根据 Key Partition 重定向到特定的 Reducer(shuffling)

4) Reducer 将从各个映射器接收到的键数据合并

Working code of 分区器&合并器

关于hadoop - 减少之前的 MapReduce 过滤器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32878608/

28

4

0

文章推荐： c++ - 三元运算符是否以定义的方式短路

文章推荐： php - 使用 Zend 进行 HTTP 身份验证

文章推荐： c# - HttpModule中如何识别UNC Access

KitKat 之前(api 18 之前)的 Android HTML 代码打印
我正在寻找一种使此打印 HTML 代码 fragment 向后兼容旧 Android 版本的简单方法: @TargetApi(Build.VERSION_CODES.KITKAT) private v
c - 错误 : expected ‘:’ , ‘,’ 、 ‘;’ 、 ‘}’ 或 ‘__attribute__’ 在 ‘=’ token 之前 & 错误:预期 ‘)’ 在 ‘va’ 之前
我在 GCC 终端 (centos linux) 中为 ATM 项目编译以下 c 和 .h 代码时收到以下错误。请帮忙，因为我是编程新手。 validate_acc.h #ifndef _VALIDA
css - 为什么文本节点默认呈现在其父级`::之前？
在写关于 SO 的不同问题的答案时，我制作了这个片段: @import url('https://fonts.googleapis.com/css?family=Shadows+Into+Light'
javascript - 之前，不更换
试图弄清楚我应该如何在 my_div_class 之前放置一个 span 而不是替换所有它。现在它取代了 div，但我不想这样做。我假设它类似于 :before 但不知道如何使用它。 { va
CSS如何使选择选项出现在 slider 之前？
我正在使用选择库 http://github.hubspot.com/select/和 noUiSlider https://refreshless.com/nouislider/ .我面临的问题如下
xcode - 为什么不提交对版本控制的更改......之前
我是开发新手，独自工作。我正在使用 Xcode 和 git 版本控制。可能我没有适本地组织和做错事，但我通常决定做 promise 只是为了在我破坏一切之前做出安全点。在那一刻，我发现很难恰本地描述我
java - 我如何确保写入发生在同一存储桶和同一键上的不同线程同时读取 concurrenthashmap 之前？
我想确保在同一个桶和键上读取和写入时，应该更新获取的值，也就是说，应该在对其进行写入操作之后获取它。我怎样才能做到这一点？我想要的是，如果我更新一个键的值，如果我同时使用不同线程获取值，则更新同一个
Java 发生在关系 invokeAndWait 之前
我的问题与this有关问题，已经有了答案: yes, there is a happens-before relationship imposed between actionsof the thre
rspec - 在RSpec中，之前(:suite) and before(:all)?
The before and after hook documentation on Relish仅显示 before(:suite) 在 before(:all) 之前调用。我什么时候应该使用其中
javascript - 正则表达式仅获取特定字符，之前/之后没有任何内容
我有 CSV 行，我想在其中检测所有内部双引号，没有文本限定符。这几乎可以正常工作，但我的正则表达式还可以检测双引号后的字符。 CSV 部分: "7580";"Lorem ipsum";"";"Lor
video - 通过Youtube数据API识别是否可以在特定视频上/之前/旁边显示广告
是否可以通过Youtube数据API检查广告是否可以与特定视频一起显示？我了解contentDetails.licensedContent仅显示视频是否已上传至同一伙伴然后由其声明版权。由于第三者权
javascript - 在布局*之前*对窗口调整大小事件使用react
考虑一下用漂亮的彩色图表描述的“像素管道” https://developers.google.com/web/fundamentals/performance/rendering/ 我有一个元素(比
.net - 在MVC3中如何将所有脚本移动到页面底部的之前？
在 MVC3 中，我可以轻松地将 jQuery 脚本标签移动到页面底部“_Layout.vbhtml” 但是，在 ASP.NET MVC3 中，当您使用编辑器模板创建 Controller 时，脚手
jquery - 返回到使用 .text() 之前
悬停时内容被替换，但是当鼠标离开元素时我希望它变回来。我该怎么做？ $('.img-wrap').hover(function(){ $(this).find('h4').text('Go
C 期望标识符或 ‘(’ 在 ‘{’ 之前
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 预计在 elseif 之前
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c - 预期说明符限定符列表位于 'if' 之前
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。已关闭 9 年前。有关您编写的代码问题的问题必须在问题本身中描述具体问题 - 并包含有效代码以重现该问题。
c++ - 预期类型说明符位于 'QwtLog10ScaleEngine' 之前？
版本:qwt 6.0.1我尝试开发频谱的对数缩放。我使用简单的线条来启用缩放plotspectrum->setAxisScaleEngine(QwtPlot::yLeft, new QwtLog10S
c# - 插入触发器 SQL 之前
我有两个相同的表，I_Subject 和 I_Temp_Subject，我想将 Temp_Subject 表复制到 Subject 表。 I_Temp_Subject 由简单用户使用，I_Subjec
javascript - 第一次绘制如何发生在 DOMContentLoaded 之前？
我的印象是第一次绘制发生在触发 DOMContentLoaded 事件之后。特别是，因为我认为为了让第一次绘制发生，需要渲染树，它依赖于 DOM 构造。另外，我知道 DOM 构造完成时会触发 DOMC

首页

博学

6Ren·AI

商城

hadoop - 减少之前的 MapReduce 过滤器