gpt4 book ai didi

hadoop - 什么时候使用 block 放置策略?

转载 作者:可可西里 更新时间:2023-11-01 15:12:34 32 4
gpt4 key购买 nike

我知道 dfs.block.replicator.classname 属性可用于更改 BlockPlacementPolicy。我想知道这个策略到底是什么时候用来放置数据的?就像在执行 -copyFromLocal/-put 时使用它一样吗?我觉得一个job的输出也会按照这个policy来放置。

其次,在 conf 文件中指定的属性将影响整个 hadoop 集群。如果我使用的是共享集群,有没有办法只为在我的用户下执行的作业更改 BlockPlacement 策略,或者有没有办法为每个作业更改策略?

我在 4 节点集群上使用 hadoop streaming jar。

最佳答案

每当将新数据 block 写入 HDFS 时,都会使用 block 放置策略。它可以是当数据被摄取到 HDFS 或作业将数据写入 HDFS 等。它用于 block 的最佳放置,以便在 HDFS 集群中有一个均匀分布的 block 。

例如默认 block 放置策略类 (BlockPlacementPolicyDefault) 使用的算法是:

The replica placement strategy is that if the writer is on a datanode,
the 1st replica is placed on the local machine, otherwise a random datanode.
The 2nd replica is placed on a datanode that is on a different rack. The 3rd
replica is placed on a datanode which is on a different node of the rack as
the second replica.

block 放置策略也被以下 HDFS 实用程序使用:

  • Balancer:平衡 HDFS 上的磁盘空间使用情况。在这种情况下,BlockPlacementPolicy 可用于将 block 放置到其他节点,以重新平衡集群
  • NamenodeFsck: - 检查 HDFS 是否存在不一致的实用程序。在这种情况下,BlockPlacementPolicy 用于检查错误复制 block 的数量。

您可以拥有自己的自定义 block 放置类。为此,您需要扩展 BlockPlacementPolicy 类并将配置参数 dfs.block.replicator.classname 设置为您在 hdfs-site.xml 中的自定义类名。

默认情况下,BlockPlacementPolicyDefault 类用于 block 放置:

final Class<? extends BlockPlacementPolicy> replicatorClass = conf.getClass(
DFSConfigKeys.DFS_BLOCK_REPLICATOR_CLASSNAME_KEY,
DFSConfigKeys.DFS_BLOCK_REPLICATOR_CLASSNAME_DEFAULT,
BlockPlacementPolicy.class);

您不能更改每个作业的 block 放置策略。这样做的原因是, block 放置策略在 NameNode 出现时实例化一次。

以下是初始化 BlockPlacementPolicy 的调用顺序。这些步骤在 NameNode 启动时执行:

  1. 初始化NameNode,当NameNode启动时

    NameNode::initialize(conf);  // Initialize NameNode
    NameNode::loadNamesystem(conf); // Load name system
  2. 初始化FsNameSystemFsNameSystem 在 NameNode 上做所有簿记工作

    FSNamesystem.loadFromDisk(conf); // Loads FS Image from disk
  3. 实例化 BlockManager。这是在实例化 FsNameSystem

    时调用的
    this.blockManager = new BlockManager(this, conf);
  4. 实例化BlockPlacementPolicy。这由 BlockManager 调用。

    blockplacement = BlockPlacementPolicy.getInstance(
    conf, datanodeManager.getFSClusterStats(),
    datanodeManager.getNetworkTopology(),
    datanodeManager.getHost2DatanodeMap());

由于这是一次实例化,您不能为每个作业更改它。

关于hadoop - 什么时候使用 block 放置策略?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33978825/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com