gpt4 book ai didi

hadoop - HDFS 复制 - 数据存储

转载 作者:可可西里 更新时间:2023-11-01 14:45:04 25 4
gpt4 key购买 nike

我是 hadoop 的新手,想更好地了解复制在 HDFS 中的工作原理。

假设我有一个 10 节点系统(每个节点 1 TB),总容量为 10 TB。如果我的复制因子是 3,那么每个文件有 1 个原始副本和 3 个副本。所以,本质上,我的存储空间中只有 25% 是原始数据。所以我的 10 TB 集群实际上只有 2.5 TB 的原始(未复制)数据。

请让我知道我的思路是否正确。

最佳答案

你的想法有点不对。复制因子 3 表示您有 3 个 数据副本。更具体地说,您的文件的每个 block 将有 3 个副本,因此如果您的文件由 10 个 block 组成,则在您的 10 个节点中总共有 30 个 block ,或者每个节点大约 3 个 block 。

您认为 10x1TB 集群的容量小于 10TB 是正确的 - 复制因子为 3,它实际上具有大约 3.3TB 的功能容量,由于进行任何处理所需的空间,实际容量略少,保存临时文件等。

关于hadoop - HDFS 复制 - 数据存储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9708298/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com