gpt4 book ai didi

MapReduce - 字数统计示例有什么好处

转载 作者:行者123 更新时间:2023-12-01 01:26:35 24 4
gpt4 key购买 nike

我试图了解 MapReduce 的好处是什么,我刚刚阅读了一些关于它的介绍。

他们都使用这个在大量文档中计算单词的规范示例,但我没有看到好处。以下是我目前的理解,如有错误请指正。

我们指定输入文件(文档)的列表。 MapReduce 库获取此列表并将其分配给集群中的处理器。处理器上的每个文档都被传递给 map 函数,在这种情况下,该函数返回一个对列表。

这是我有点不确定到底发生了什么的地方。
然后库软件搜索所有不同处理器上的结果集,并将具有相同单词(键)的这些对组合在一起。这些组在不同的处理器上收集,并在该处理器的每个组上调用 reduce。

然后在主节点上收集组合结果。

这是正确的解释吗?

我不明白的是,由于有必要对所有结果进行排序以对键进行分组,为什么不只计算同时找到的键,为什么需要 reduce 呢?当查找和组合公共(public) key 似乎需要大量工作时,此过程如何节省时间?

最佳答案

这是 YouTube Video 中的一个不错的视频关于 MapReduce 算法,如果您观看完整的 5 个视频系列,它将让您更清楚地了解 MapReduce 并回答您的大部分查询。

What I don't understand is, as it's necessary to sort through all the results to group keys, why not just count the keys it finds at the same time, why is reduce needed at all? How does this process save time when it seems like there is a lot of work to find and combine common keys?



因为单词计数示例中特定单词(如“sample”)的键/值对可能由不同的 map 任务发出,并将分布在不同的节点上,因此这些键/值对需要在发送到 reduce 任务之前进行合并/排序.特定键的 reduce task 在单个节点上运行并且不分布。

仅供引用,map 任务的结果使用与 map 任务在同一节点上的组合器类(与 reducer 类相同)进行组合,以减少 mapper 和 reducer 之间的网络聊天。

关于MapReduce - 字数统计示例有什么好处,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7438152/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com