gpt4 book ai didi

hadoop - DataNode 和 TaskTracker 在不同的机器上?

转载 作者:可可西里 更新时间:2023-11-01 16:26:03 25 4
gpt4 key购买 nike

我是 Hadoop 的新手,我有以下关于 Hadoop 框架的问题。有人可以指导吗?

  1. DataNode 和 TaskTracker 是否物理上位于生产环境中的不同机器上?
  2. Hadoop 何时将文件拆分为 block ?当您将文件从本地文件系统复制到 HDFS 时会发生这种情况吗?

最佳答案

简答

  1. 大部分时间,但不一定

长答案

1)

在集群上安装 Hadoop 将有 2 种主要类型的节点:

  • 主节点
  • 数据节点

主节点通常至少运行:

  • CLDB
  • 动物园管理员
  • 工作追踪器

数据节点通常至少运行:

  • 任务追踪器

The DataNode service can run on a different node than the TaskTracker service .然而,Hadoop Docs对于 DataNode 服务,建议在相同节点上运行 DataNodeTaskTracker 以便 MapReduce操作靠近数据执行。

对于MapR Hadoop 的分布,这两个服务器角色通常运行:

  • MapR 控制节点
    • 动物园管理员 *
    • CLDB *
    • 工作追踪器 *
    • HBaseMaster
    • NFS 网关
    • 网络服务器
  • MapR 数据节点
    • 任务跟踪器 *
    • RegionServer(有时)
    • 动物园管理员(有时)

2)

虽然大多数文件系统以 block 的形式存储数据,HDFSDataNodes 中分发和复制 block 。当您第一次将数据存储在 HDFS 中时,它会将数据分成 block 并根据指定的复制因子将其存储在不同的节点上。但是,如果您向集群添加新的 DataNode,它会 will not automatically rebalance old blocks across them除非不满足复制因子。

(感谢@javadba 澄清了这一点!)

关于hadoop - DataNode 和 TaskTracker 在不同的机器上?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27497734/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com