gpt4 book ai didi

Hadoop MapReduce WordCount 示例缺陷?

转载 作者:可可西里 更新时间:2023-11-01 16:47:48 26 4
gpt4 key购买 nike

引用基本的WordCount例子:https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html我知道 HDFS 将文件分成 block ,映射任务在单个 block 上工作。因此无法保证 map 任务分析的 block 不会包含在下一个 block 中继续的单词,从而导致错误(一个单词被计算两次)。我知道这是一个示例,并且始终以小文件显示,但在现实世界场景中不会有问题吗?

最佳答案

在 Hadoop 中,您处理输入拆分而不是 block 。输入拆分是一个完整的数据集。您希望避免一个映射器进行两次拆分的情况,因为这会降低性能并创建流量。

在文本世界中,假设你在 block1 中,你有一个句子,例如“我是哈”,而 block2 继续“doop developer”,然后这会产生网络流量,因为我们总是必须在一个节点上工作具有完整的输入拆分,并且必须将一些数据传输到另一个节点。

关于Hadoop MapReduce WordCount 示例缺陷?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35424651/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com