- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个 Hadoop MapReduce 作业,可以拆分不同类型的文档(地点、人员、组织、算法等)。对于每个文档,我都有一个标记来标识文档类型和指向其他文档的链接,但是在任务中到达链接页面之前,我不知道链接的文档是哪种类型。
在 Map 阶段,我识别链接和当前页面的类型,然后将链接的信息和带有标签的当前文档作为值 Emmit 到单个 reducer,Key NullWritable Value“CurrentDoc::Type: :链接”。
在 reducer 阶段,它使用值的“CurrentDoc::Type”按类型对所有文档进行分组,然后仅在属于特定类型的文档的“Document::Link”之间发出关系。
但是我有一个内存问题,因为所有的最后一步只在一个 reducer 中执行。
这是一种方法,在 map 处理之后和 reduce 任务之前执行分组任务,以识别所有带有标签的文档,然后将它们分发到不同的 reducer。
我的意思是将所有文档/标签分组为 ArrayWritable 文本中的“CurrentDoc::Type”。然后将“CurrentDoc::Link”元组作为键发送给缩减程序,并将 ArrayWritable 作为值发送给缩减器,以并行方式在缩减阶段执行一些过滤。
感谢您的帮助!
最佳答案
很遗憾,系统无法按您预期的方式工作。
我们无法更改 Mapper、Reducer 和 Combiner 的功能。
Hadoop allows the user to specify a combiner function to be run on the map output, and the combiner function’s output forms the input to the reduce function. In other words, calling the combiner function zero,one, or many times should produce the same output from the reducer.
Combiner 无法合并来自多个 map 的数据。让我们把工作留给 Reducer。
针对您的问题,
1) 使用Customer Partitioner 并决定应使用哪个reducer 来处理特定键(CurrentDoc::Type)
2) Combiner 将数据合并到一个Mapper
3) Outfrom Mapper 将根据 Key Partition 重定向到特定的 Reducer(shuffling)
4) Reducer 将从各个映射器接收到的键数据合并
Working code of 分区器&合并器
关于hadoop - 减少之前的 MapReduce 过滤器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32878608/
我正在寻找一种使此打印 HTML 代码 fragment 向后兼容旧 Android 版本的简单方法: @TargetApi(Build.VERSION_CODES.KITKAT) private v
我在 GCC 终端 (centos linux) 中为 ATM 项目编译以下 c 和 .h 代码时收到以下错误。请帮忙,因为我是编程新手。 validate_acc.h #ifndef _VALIDA
在写关于 SO 的不同问题的答案时,我制作了这个片段: @import url('https://fonts.googleapis.com/css?family=Shadows+Into+Light'
试图弄清楚我应该如何在 my_div_class 之前放置一个 span 而不是替换所有它。现在它取代了 div,但我不想这样做。我假设它类似于 :before 但不知道如何使用它。 { va
我正在使用选择库 http://github.hubspot.com/select/和 noUiSlider https://refreshless.com/nouislider/ .我面临的问题如下
我是开发新手,独自工作。我正在使用 Xcode 和 git 版本控制。可能我没有适本地组织和做错事,但我通常决定做 promise 只是为了在我破坏一切之前做出安全点。在那一刻,我发现很难恰本地描述我
我想确保在同一个桶和键上读取和写入时,应该更新获取的值,也就是说,应该在对其进行写入操作之后获取它。我怎样才能做到这一点? 我想要的是,如果我更新一个键的值,如果我同时使用不同线程获取值,则更新同一个
我的问题与this有关问题,已经有了答案: yes, there is a happens-before relationship imposed between actionsof the thre
The before and after hook documentation on Relish仅显示 before(:suite) 在 before(:all) 之前调用。 我什么时候应该使用其中
我有 CSV 行,我想在其中检测所有内部双引号,没有文本限定符。这几乎可以正常工作,但我的正则表达式还可以检测双引号后的字符。 CSV 部分: "7580";"Lorem ipsum";"";"Lor
是否可以通过Youtube数据API检查广告是否可以与特定视频一起显示? 我了解contentDetails.licensedContent仅显示视频是否已上传至同一伙伴然后由其声明版权。由于第三者权
考虑一下用漂亮的彩色图表描述的“像素管道” https://developers.google.com/web/fundamentals/performance/rendering/ 我有一个元素(比
之前?
在 MVC3 中,我可以轻松地将 jQuery 脚本标签移动到页面底部“_Layout.vbhtml” 但是,在 ASP.NET MVC3 中,当您使用编辑器模板创建 Controller 时,脚手
悬停时内容被替换,但是当鼠标离开元素时我希望它变回来。我该怎么做? $('.img-wrap').hover(function(){ $(this).find('h4').text('Go
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 已关闭 9 年前。 有关您编写的代码问题的问题必须在问题本身中描述具体问题 - 并包含有效代码以重现该问题。
版本:qwt 6.0.1我尝试开发频谱的对数缩放。我使用简单的线条来启用缩放plotspectrum->setAxisScaleEngine(QwtPlot::yLeft, new QwtLog10S
我有两个相同的表,I_Subject 和 I_Temp_Subject,我想将 Temp_Subject 表复制到 Subject 表。 I_Temp_Subject 由简单用户使用,I_Subjec
我的印象是第一次绘制发生在触发 DOMContentLoaded 事件之后。特别是,因为我认为为了让第一次绘制发生,需要渲染树,它依赖于 DOM 构造。另外,我知道 DOM 构造完成时会触发 DOMC
我是一名优秀的程序员,十分优秀!