gpt4 book ai didi

hadoop - Hadoop任务能否在单节点上并行运行

转载 作者:可可西里 更新时间:2023-11-01 14:25:37 25 4
gpt4 key购买 nike

我是 hadoop 的新手,我有以下问题。

这是我在hadoop中的理解。

1) 当任何文件写入 hadoop 时,它都以 block 的形式存储在所有数据节点上(默认 64MB)

2) 当我们运行 MR 作业时,将从该 block 创建一个拆分,并在每个数据节点上处理该拆分。

3) 每个拆分记录读取器将用于在映射器端生成键/值对。

问题:

1) 一个数据节点可以一次处理多个拆分吗?如果数据节点容量更大呢?

我认为这是 MR1 的局限性,而使用 MR2 YARN 我们可以更好地利用资源。

2) 拆分是在数据节点以串行方式读取还是可以并行处理以生成键/值对? [通过在数据节点 split 中随机访问磁盘位置]

3) map/reduce 架构中的“槽”术语是什么?我正在阅读其中一篇博客,它说 YARN 将在 Datanode 中提供更好的插槽利用率。

最佳答案

让我先谈谈我在hadoop 中的理解 部分。

  1. 存储在 Hadoop 文件系统上的文件存储在所有数据节点上。是的,它被分成 block (默认为 64MB),但是存储这些 block 的 DataNode 的数量取决于 a.File Size b.Data Nodes 上的当前负载 c.Replication Factord.Physical Proximity。 NameNode 在决定哪些数据节点将存储文件 block 时会考虑这些因素。

  2. 同样,每个数据节点不得处理拆分。首先,DataNodes 只负责管理数据的存储,不执行作业/任务。 TaskTracker 是负责在各个​​节点上执行任务的从节点。其次,只有那些包含特定作业所需数据的节点才会处理拆分,除非这些节点上的负载太高,在这种情况下,拆分中的数据将被复制到另一个节点并在那里进行处理。

现在开始提问,

  1. 同样,数据节点不负责处理作业/任务。我们通常将 dataNode + taskTracker 的组合称为节点,因为它们通常位于同一节点上,处理不同的职责(数据存储和运行任务)。一个给定的节点一次可以处理多个拆分。通常将单个拆分分配给单个 Map 任务。这转化为在单个节点上运行多个 Map 任务,这是可能的。

  2. 输入文件中的数据以串行方式读取。

  3. 节点的处理能力由Slots 的数量定义。如果一个节点有 10 个槽,则意味着它可以并行处理 10 个任务(这些任务可能是 Map/Reduce 任务)。集群管理员通常会根据每个节点的物理配置(例如内存、物理存储、处理器核心数等)来配置每个节点的槽数。

关于hadoop - Hadoop任务能否在单节点上并行运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22142049/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com