gpt4 book ai didi

hadoop - slots、map tasks、data splits、Mapper的区别和关系

转载 作者:可可西里 更新时间:2023-11-01 14:29:54 25 4
gpt4 key购买 nike

我浏览了一些 hadoop 信息书籍和论文。

Slot 是节点上的 map/reduce 计算单元。它可能是 map 或减少插槽。据我所知,split 是 HDFS 中的一组文件 block ,它们具有一定的长度和存储它们的节点位置。映射器是类,但是当代码被实例化时,它被称为映射任务。我对吗 ?map tasks、data splits和Mapper之间的区别和关系我不清楚。

关于调度我的理解是,当节点的映射槽空闲时,如果映射任务要处理的数据是节点,则从未运行的映射任务中选择并启动映射任务。谁能用上面的概念解释清楚:slots, mapper 和 map task 等。

谢谢,阿伦

最佳答案

As far as, I know split is a group of blocks of files in HDFS which have the same length and location of nodes where they are stored.

InputSplit 是特定映射器将处理的数据单元。它不必只是一组 HDFS block 。它可以是单行、数据库中的 100 行、50MB 的文件等。

I am not clear about difference and relationship between map tasks, data splits and Mapper.

InputSplit 由 map 任务处理,Mapper 的实例是 Map 任务。

关于hadoop - slots、map tasks、data splits、Mapper的区别和关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8179872/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com