gpt4 book ai didi

hadoop - map-reduce 是如何工作的……我做对了吗?

转载 作者:行者123 更新时间:2023-12-02 19:56:45 24 4
gpt4 key购买 nike

我试图了解 map-reduce 的实际工作原理。请阅读我在下面写的内容,并告诉我这里是否有任何遗漏或不正确的东西。
谢谢你。

数据首先被拆分为所谓的输入拆分(这是一种逻辑类型的组,我们将其大小定义为记录处理的需要)。
然后,每个输入拆分都有一个 Mapper,它获取每个输入拆分并按键和值对其进行排序。
然后,有一个洗牌过程,它从映射器(键值)中获取所有数据,并将所有相同的键与其值合并(输出它是所有键及其值列表)。洗牌过程的发生是为了给 reducer 输入一个 1 的键,用于每种类型的键及其总和值。
然后,Reducer 将所有键值合并到一个地方(可能是页面?),这是 MapReduce 过程的最终结果。
我们只需要确保定义 Map(始终提供键值输出)和 Reduce(最终结果 - 获取输入键值,并且可以是 count、sum、avg 等)步骤代码。

最佳答案

您的理解有些错误,特别是映射器的工作原理。
got a very nice pictorial image简单的解释

enter image description here

它类似于 wordcount程序,其中

  • 每捆巧克力都是InputSplit ,由映射器处理。所以我们有3个捆绑包。
  • 每一 block 巧克力都是一个词。一个或多个单词(造句)是单个映射器的记录输入。所以,在一个 inputsplit ,可能有多个records每个 record输入到单个 mapper .
  • mapper计算每个 word 的出现次数(巧克力)并吐出伯爵。请注意,每个映射器只处理一个 line (记录)。完成后,它会选择下一个 record来自 inputsplit . (图中第二阶段)
  • 一次map阶段结束,sortingshuffling发生bucket相同的巧克力计数。 (图片中的第三阶段)
  • reducer 一送一bucket key 为 name of the chocolate (或 word )和 列表 的计数。因此,在整个输入文件中,reducer 的数量与不同单词的数量一样多。
  • reducer 遍历计数并将它们相加以产生最终计数并将其针对单词发出。

  • 下图显示了单个 inputsplitwordcount程序工作:

    enter image description here

    关于hadoop - map-reduce 是如何工作的……我做对了吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49133269/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com