gpt4 book ai didi

hadoop - HDFS如何计算可用 block ?

转载 作者:可可西里 更新时间:2023-11-01 14:25:43 26 4
gpt4 key购买 nike

假设 block 大小为 128MB,集群有 10GB(所以大约 80 个可用 block )。假设我创建了 10 个小文件,总共占用 128MB 的磁盘空间( block 文件、校验和、复制...)和 10 个 HDFS block 。如果我想再添加一个小文件到HDFS,那么HDFS是用什么来计算可用 block 的,是使用的 block 还是实际的磁盘使用量?

80 个 block - 10 个 block = 70 个可用 block 或 (10 GB - 128 MB)/128 MB = 79 个可用 block ?

谢谢。

最佳答案

block 大小只是指示 HDFS 如何在集群中拆分和分发文件 - HDFS 中没有物理保留的 block 数(如果需要,您可以更改每个文件的 block 大小)

对于您的示例,您还需要考虑复制因子和校验和文件,但本质上添加大量小文件(小于 block 大小)并不意味着您浪费了“可用 block ”——它们占用了他们需要多少空间(同样,您需要记住,复制会增加存储文件所需的物理数据占用空间),并且“可用 block ”的数量将更接近您的第二次计算。

最后一点——有很多小文件意味着你的名称节点将需要更多内存来跟踪它们( block 大小、位置等),并且处理 128x1MB 文件的效率通常低于单个 128MB 文件(尽管这取决于你是如何处理它的)

关于hadoop - HDFS如何计算可用 block ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15678235/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com