gpt4 book ai didi

hadoop - 减少之前的 MapReduce 过滤器

转载 作者:可可西里 更新时间:2023-11-01 16:30:53 28 4
gpt4 key购买 nike

我有一个 Hadoop MapReduce 作业,可以拆分不同类型的文档(地点、人员、组织、算法等)。对于每个文档,我都有一个标记来标识文档类型和指向其他文档的链接,但是在任务中到达链接页面之前,我不知道链接的文档是哪种类型。

在 Map 阶段,我识别链接和当前页面的类型,然后将链接的信息和带有标签的当前文档作为值 Emmit 到单个 reducer,Key NullWritable Value“CurrentDoc::Type: :链接”。

在 reducer 阶段,它使用值的“CurrentDoc::Type”按类型对所有文档进行分组,然后仅在属于特定类型的文档的“Document::Link”之间发出关系。

但是我有一个内存问题,因为所有的最后一步只在一个 reducer 中执行。

这是一种方法,在 map 处理之后和 reduce 任务之前执行分组任务,以识别所有带有标签的文档,然后将它们分发到不同的 reducer。

我的意思是将所有文档/标签分组为 ArrayWritable 文本中的“CurrentDoc::Type”。然后将“CurrentDoc::Link”元组作为键发送给缩减程序,并将 ArrayWritable 作为值发送给缩减器,以并行方式在缩减阶段执行一些过滤。

感谢您的帮助!

最佳答案

很遗憾,系统无法按您预期的方式工作。

我们无法更改 Mapper、Reducer 和 Combiner 的功能。

Hadoop allows the user to specify a combiner function to be run on the map output, and the combiner function’s output forms the input to the reduce function. In other words, calling the combiner function zero,one, or many times should produce the same output from the reducer.

Combiner 无法合并来自多个 map 的数据。让我们把工作留给 Reducer。

针对您的问题,

1) 使用Customer Partitioner 并决定应使用哪个reducer 来处理特定键(CurrentDoc::Type)

2) Combiner 将数据合并到一个Mapper

3) Outfrom Mapper 将根据 Key Partition 重定向到特定的 Reducer(shuffling)

4) Reducer 将从各个映射器接收到的键数据合并

Combiner

Working code of 分区器&合并器

关于hadoop - 减少之前的 MapReduce 过滤器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32878608/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com