HDFS block 大小与实际文件大小-6ren

HDFS block 大小与实际文件大小

转载作者：行者123 更新时间：2023-12-03 20:21:00

31

4

我知道 HDFS 使用数据节点中的常规 linux 文件系统存储数据。我的 HDFS 块大小是 128 MB .假设我有 10 GB我的 hadoop 集群中的磁盘空间，这意味着 HDFS 最初有 80 blocks作为可用存储。

如果我创建一个小文件，比如 12.8 MB , #available HDFS 块将变为 79。如果我创建另一个小文件 12.8 MB 会发生什么情况? #availbale 块会保持在 79 还是会下降到 78？在前一种情况下，HDFS 基本上会根据可用的可用磁盘空间在每次块分配后重新计算#available 块，因此，只有在消耗超过 128 MB 的磁盘空间后，#available 块才会变为 78。请说清楚。

最佳答案

最好的了解方法是尝试一下，看看下面的结果。

但在尝试之前，我的猜测是，即使你只能分配 80 全在您的配置块中，您可以分配 80 多个非空文件。这是因为我认为每次分配非空文件时 HDFS 都不会使用完整块。换句话说，HDFS 块不是存储分配单元，而是复制单元。我认为 HDFS 的存储分配单位是底层文件系统的单位(如果您使用 ext4 的块大小为 4 KB，并且您在复制因子为 3 的集群中创建一个 1 KB 的文件，您将消耗 3 倍 4 KB = 12 KB 的硬盘空间)。

足够的猜测和思考，让我们尝试一下。我的实验室配置如下:

hadoop 版本 1.0.4

4个数据节点，每个节点的可用空间略小于5.0G，ext4块大小为4K

块大小为 64 MB，默认复制 1

启动 HDFS 后，我有以下 NameNode 摘要:

1 个文件和目录，0 个块 = 总共 1 个

使用的 DFS:112 KB

剩余 DFS:19.82 GB

然后我执行以下命令:

hadoop fs -mkdir /test

for f in $(seq 1 10); do hadoop fs -copyFromLocal ./1K_file /test/$f; done

有了这些结果:

12 个文件和目录，10 个块 = 总共 22 个

使用的 DFS:122.15 KB

剩余 DFS:19.82 GB

所以这 10 个文件没有消耗 10 倍 64 MB(没有修改“DFS Remaining”)。

关于HDFS block 大小与实际文件大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15062457/

31

4

0

文章推荐： ruby-on-rails - 避免 `save!` on Has Many Through Association

文章推荐： php - PHP 如何管理加载到内存中的函数？

文章推荐： twitter-bootstrap - 自定义 twitter bootstrap 弹出箭头

Mdx - 标志 - 实际
我有两个维度 DimFlag 和 DimPNL 以及一个事实表 FactAmount 。我正在寻找:当 pnl 是 stat(Is Stat=1) 时:sum (Actual x FlagId)对于
jira - JQL 实际 "contains"
我想对包含其部分内容的文本字段执行简单搜索，但我不知道从哪里开始。我基本上想要人们对“包含搜索”的期望。如果我在 issue 中搜索 345 ，我会想要这个结果: 123456 234567 3456
c# - 我如何获得*实际*主机应用程序实例？
我在 VBE 的 C# 插件中有这段代码(强调“VBE”:它不是 MS-Office 插件): public abstract class HostApplicationBase : IHostApp
android - 实际 View 的高度不适合适当的内容
我有一个 ImageView，它显示来自资源的图像。ImageView 的宽度是固定的 (60dp)。高度设置为 wrap_content。调整图像大小以适合此宽度(节省宽高比 - 这很完美) 问题是
html - 实际 CSS 响应背景不响应(？)
我正在建立一个网站，但遇到了一个问题:谷歌浏览器开发者工具中的背景以较低/较高的分辨率延伸。当我直接从手机打开网站时，背景不适合屏幕，只是“剪切”了背景。这是网站:https://feargames
javascript - 实际
大小比预期的大
好吧，首先，这是 HTML 模板: ... ... ... ... 如您所见，页面位于标题下方，并且通过 JS 代码可见
algorithm - 检索相似条目的最快(实际)存储实现是什么？
我读到了 BK-trees (Burkhard-Keller-Trees) 几个月前，据说这是一种保存您想通过距离度量再次读取的内容的好方法。因此，在每种情况下，您都希望通过相似性检索某些内容。然而
Python:根据*实际*长度填充字符串
在 python 中，很容易根据字符数用空格填充字符串。例如: print "aaa".ljust(10) + "end" print "www".ljust(10) + "end" 输出是: aaa
design-patterns - 您如何在设计和(实际)实现应用程序之间取得平衡
我的问题不是特定于编程语言的，而是更通用的问题，以了解人们的思维方式。通常在大型开发公司中，每项工作都有特定的角色，例如程序员和架构师。因此架构师的观点是拥有完美的架构师和解决方案设计，另一方面程序
javascript - promise 实际 self 实现
我想将数据传递给 then 方法，但是当我通过给它 this.passedResolve 来执行此操作时，它会得到 undefined function Promises(callback){
erlang - Erlang 系统中最大(实际)节点数是多少
我希望使用 Erlang/Elixir 在金融市场创建一个平台即服务。我将在金融市场提供 AWS lambda 风格的函数，但我计划向客户分发我自己的基于 ARM 的硬件终端(基于 Nvidia Je
java - 实际 Jackrabbit/Oak 指南和文档
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
c - 如何确定AUTOSAR Runnable的(实际)循环时间
我已经看到很多代码，这些代码使用Runnable的循环时间来实现某些计时器/超时。问题是，如果有人决定更改此Runnable的循环时间，则计时器将不正确。例: #define FOO_TIMER_1
c# - WPF DataGrid 实际 ColumnHeaderHeight
当我将 WPF DataGrid 的 ColumnHeaderHeight 设置为 Auto (double.NaN) 时，如何获取列标题的实际呈现高度？我似乎无法在 DataGrid 类中找到该属
javascript - 实际 IE6 Png 修复
目前最实用的png修复方法是什么？轻量级，支持背景重复和背景位置。最佳答案 IE7.JS在我看来: IE7.js is a JavaScript library to make Microsoft
Android onBackPressed，如何测试未保存的更改是否*实际*进行了？
我已经进行了长时间的搜索并尝试了常见的嫌疑人，但现在是寻求帮助的时候了。我的 Android Activity 非常愉快地从 SQLite 加载 EditText、Spinner 和 CheckBo
mysql - *实际*精确的 MySQL 全文搜索
因此，我在 MySQL 全文中创建精确搜索时遇到了一些困难。在我的数据库中，我正在尝试查找标题中包含特定关键字的职位。所以我可以尝试 WHERE MATCH(jobTitle) AGAINST (
实际 HTML 元素的 JAVASCRIPT 数组
我正在尝试将 JavaScript 包含到一个表单应用程序中，该应用程序从现场收集施工数据。我已经用谷歌搜索了这个废话，但我无法弄清楚将 html 元素保存在数组中是否合法(或者我的语法是否正确)。
php - 有什么方法可以确定*实际* session 保存路径吗？
我知道有六种方法可以获取 session.save_path 指令的值(phpinfo()、session_save_path()等)，但当值为空字符串时(默认情况下为空字符串)，实际路径可以是多个位
javascript - *实际*使用的是什么版本的 npm 库？
我知道 npm 库在安装时可以在分层树中安装同一库的多个版本，如下所示: a@0.1.0 -> b@1.0 -> c@2.0 -> b@2.0 在上面，版本0.1.0的包a被拉入

首页

博学

6Ren·AI

商城

HDFS block 大小与实际文件大小