hadoop - 什么时候使用 block 放置策略？-6ren

hadoop - 什么时候使用 block 放置策略？

转载作者：可可西里更新时间：2023-11-01 15:12:34

32

4

我知道 dfs.block.replicator.classname 属性可用于更改 BlockPlacementPolicy。我想知道这个策略到底是什么时候用来放置数据的？就像在执行 -copyFromLocal/-put 时使用它一样吗？我觉得一个job的输出也会按照这个policy来放置。

其次，在 conf 文件中指定的属性将影响整个 hadoop 集群。如果我使用的是共享集群，有没有办法只为在我的用户下执行的作业更改 BlockPlacement 策略，或者有没有办法为每个作业更改策略？

我在 4 节点集群上使用 hadoop streaming jar。

最佳答案

每当将新数据 block 写入 HDFS 时，都会使用 block 放置策略。它可以是当数据被摄取到 HDFS 或作业将数据写入 HDFS 等。它用于 block 的最佳放置，以便在 HDFS 集群中有一个均匀分布的 block 。

例如默认 block 放置策略类 (BlockPlacementPolicyDefault) 使用的算法是:

The replica placement strategy is that if the writer is on a datanode,
the 1st replica is placed on the local machine, otherwise a random datanode. 
The 2nd replica is placed on a datanode that is on a different rack. The 3rd 
replica is placed on a datanode which is on a different node of the rack as 
the second replica.

block 放置策略也被以下 HDFS 实用程序使用:

Balancer:平衡 HDFS 上的磁盘空间使用情况。在这种情况下，BlockPlacementPolicy 可用于将 block 放置到其他节点，以重新平衡集群
NamenodeFsck: - 检查 HDFS 是否存在不一致的实用程序。在这种情况下，BlockPlacementPolicy 用于检查错误复制 block 的数量。

您可以拥有自己的自定义 block 放置类。为此，您需要扩展 BlockPlacementPolicy 类并将配置参数 dfs.block.replicator.classname 设置为您在 hdfs-site.xml 中的自定义类名。

默认情况下，BlockPlacementPolicyDefault 类用于 block 放置:

final Class<? extends BlockPlacementPolicy> replicatorClass = conf.getClass(
    DFSConfigKeys.DFS_BLOCK_REPLICATOR_CLASSNAME_KEY,
    DFSConfigKeys.DFS_BLOCK_REPLICATOR_CLASSNAME_DEFAULT,
    BlockPlacementPolicy.class);

您不能更改每个作业的 block 放置策略。这样做的原因是， block 放置策略在 NameNode 出现时实例化一次。

以下是初始化 BlockPlacementPolicy 的调用顺序。这些步骤在 NameNode 启动时执行:

初始化NameNode，当NameNode启动时

NameNode::initialize(conf);  // Initialize NameNode
NameNode::loadNamesystem(conf); // Load name system

初始化FsNameSystem。 FsNameSystem 在 NameNode 上做所有簿记工作
```
FSNamesystem.loadFromDisk(conf); // Loads FS Image from disk
```
实例化 BlockManager。这是在实例化 FsNameSystem
时调用的
```
this.blockManager = new BlockManager(this, conf);
```

实例化BlockPlacementPolicy。这由 BlockManager 调用。

blockplacement = BlockPlacementPolicy.getInstance(
                 conf, datanodeManager.getFSClusterStats(),
                 datanodeManager.getNetworkTopology(),
                 datanodeManager.getHost2DatanodeMap());

由于这是一次实例化，您不能为每个作业更改它。

关于hadoop - 什么时候使用 block 放置策略？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33978825/

32

4

0

文章推荐： .net - WCF WebHttp 混合身份验证(基本和匿名)

文章推荐： hadoop - HDFS加载数据到Hive的路径

文章推荐： java - JDBC 到配置单元的连接因无效操作 isValid() 而失败

ruby - 为什么这个声明是这样的？ (放置 ("here") && 中断) vs (放置 "here"&& 中断)
语句 1: [2,4,6,7,8].each do |i| (i % 2 == 0) || (puts "Not even" && break) puts i end 声明 2: [2
flutter - SingleChildScrollView无法正常工作？放置？
我有一张正在显示的卡片，上面有一些信息。我想将其包装在SingleChildScrollView中，因为我还有更多项目要添加到卡中，但是当我这样做时，屏幕只是空白吗？我曾尝试将其作为根(脚手架主体)放
wpf - 放置/添加新实体的位置应该放在新的ViewModel中吗？
我有一个带有窗体的 View ，该窗体显示ViewModel中ObservableCollection中对象的数据。 ObservableCollection使我可以浏览数据。 ObservableC
hadoop - 放置:意外的URISyntaxException
如何将时间戳附加文件名放在HDFS中？ hadoop fs -put topic_2018-12-15%2016:31:15.csv /user/file_structure/ 最佳答案您只是在运行
Emacs——放置/删除覆盖的运行时间增加了每次运行
我正在寻求一些帮助，以找出为什么以下叠加函数的运行时间会随着每次连续运行而增加。据我所知，如果缓冲区中的文本保持不变，则运行时间应该是相同的——即，仅向左/向右移动光标应该不会增加运行时间(但它确实
swift - 放置 UIActivityIndicatorView
我有一个事件指示器，它显示在中间。如何将其放置在 View 的左上角？ var activityIndicator = UIActivityIndicatorView() func show() {
C++放置 'const'麻烦。
首先，我想提前感谢所有回答这个问题的人。非常感谢您的帮助。这是我第一次在这里发帖，所以如果我发帖不礼貌，请原谅我。我的问题是关于方法原型(prototype)的: void copySubtree(
ios - UIPopoverController 放置
我正在开发一个应该是通用的应用程序，一个适用于 iPad 和 iPhone 的应用程序。我想让他们的界面尽可能相似。在 iPhone 应用程序中，我使用的是选项卡栏 Controller ，其中一个选
javascript - 放置、修补和删除不会返回错误
我目前正在使用 JS 开发 REST API，但遇到以下问题:该代码有效，但如果我尝试删除、放置或修补不存在的条目，它不会返回错误，但会打印成功消息。这是为什么？获取路由完美运行。 app.route
HTML block 放置
.a{ width:500px; height:500px; background:yellow; border: 3px dashed black; }
CSS div 放置
首先，请引用下图: 这基本上是我对布局的想法。我想要的是: 内容 div 成为“主要焦点”，例如当浏览器调整大小，它应该留在中间；当浏览器被调整大小时，我希望这两个图像基本上位于内容 div
java - 内存映射文件是否支持并发获取/放置？
我的应用程序需要使用内存映射并发访问数据文件。我的目标是使其在共享内存系统中可扩展。研究了内存映射文件库实现的源码，想不通: 在多个线程中从 MappedByteBuffer 中读取是否合法？ get
java - JDesktopPane 放置
我有一个 JDesktopPane 并希望以网格样式显示 JInternalFrames 而无需覆盖框架。框架的尺寸会有所不同，因此应动态分配它们的位置。我可以存储最后放置的框架的坐标，但可以移动、最
c++ - 放置-新地址对齐
根据https://isocpp.org/wiki/faq/dtors#placement-new传递给placement-new的地址必须正确对齐。但它给出的例子似乎与此相矛盾。 char memo
c - 函数的 int 放置
我最近一直在查看 Illumos 源代码，发现了一些奇怪的东西。在他们的源代码中，函数类型是这样写的: static int outdec64(unsigned char *out, unsigne
html - CSS 放置，图例旁边的图像
您好，我目前正在尝试在我的一张图片旁边放置一个图例，但我在放置时遇到了问题。我想将图例放在图像的左侧或右侧。这是我当前的代码: .my-legend .legend-title { text-a
string - 打印、放置、说出和转义字符
根据文档， print 之间的唯一区别和 say 似乎是后者添加了 "\n"(并使用 .gist 进行字符串化)。然而， perl6 -e 'print "del\b\b"' 打印“d”，有效地应用转
Flutter:放置 Logo 图像后背景变为一半
所以我试图将我的图像标志放在背景上，但我的背景突然被裁剪，出现了一半的黑屏。如图: 我的 main.dart 代码: import 'package:flutter/material.dart'; i
Azure DevOps如何在发布构建管道后获取输出(放置)文件夹中的文件名
我正在使用 Azure DevOps 构建 python 轮。我想让它尽可能通用，以便团队中的每个人都可以使用相同的管道来构建自己的 python 轮并将它们部署在一些 databricks 工作区中
WordPress 中的 Javascript 放置
在构建标准(非 WordPress)网页时，我通常会在正文末尾之前加载所有 javascript 文件，然后包含页面特定 js 代码的部分。 WorPress 建议使用 wp_enqueue_scri

首页

博学

6Ren·AI

商城

hadoop - 什么时候使用 block 放置策略？