gpt4 book ai didi

具有已排序文件的 Hadoop MapReduce

转载 作者:可可西里 更新时间:2023-11-01 14:59:57 24 4
gpt4 key购买 nike

我正在使用 Hadoop MapReduce。我在 HDFS 中有数据并且每个文件中的数据已经排序。是否可以强制 MapReduce 在 map 阶段后不对数据求助?我试图将 map.sort.class 更改为无操作,但它不起作用(即数据未按我的预期排序)。有没有人尝试过做类似的事情并成功实现了?

最佳答案

我觉得这取决于你想要什么样的结果,排序的结果还是未排序的结果?

如果你需要对结果进行排序,我认为hadoop不适合做这个工作。有两个原因:

  • INPUT DATA 将存储在不同的 block 中(如果足够大)并分成多 block 。每个拆分将映射到一个 map 任务,并且 map 任务的所有输出将收集(在分区/排序/组合/复制/合并过程之后)作为 reduce 的输入。在这些阶段中很难保持 key 的顺序。
  • 排序功能不仅存在于映射任务中的映射处理之后。在reduce任务中进行合并处理时,也有排序选项。

如果你不需要对结果进行排序,我想这个补丁可能就是你想要的:

在 map 输出中支持无排序数据流并减少合并短语:https://issues.apache.org/jira/browse/MAPREDUCE-3397

关于具有已排序文件的 Hadoop MapReduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6491810/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com