gpt4 book ai didi

hadoop - 为什么不建议将 RAID 用于 Hadoop HDFS 设置?

转载 作者:可可西里 更新时间:2023-11-01 14:15:38 28 4
gpt4 key购买 nike

各种网站(如 Hortonworks)建议不要为 HDFS 设置配置 RAID,主要有两个原因:

  1. 速度受限于较慢的磁盘(JBOD 性能更好)。
  2. 可靠性

推荐在NameNode上使用RAID。

但是如何在每个 DataNode 存储磁盘上实现 RAID 呢?

最佳答案

RAID 有两个用途。根据 RAID 配置,您可以获得:

  1. 更好的性能:读取一个文件可以分布在多个磁盘上,或者不同的磁盘可以透明地用于从同一文件系统读取多个文件。
  2. 容错:使用多个磁盘上的奇偶校验位复制或存储数据。如果磁盘出现故障,它可以从另一个副本恢复或使用奇偶校验位重新计算。

HDFS 具有类似的内置软件机制。 HDFS 将文件分成 block (所谓的文件 block ),这些 block 在多个数据节点之间复制并存储在它们的本地文件系统中。通常,数据节点有多个单独安装的磁盘(JBOD)。数据节点应将其文件 block 分布在其所有磁盘/本地文件系统中。

这确保:

  1. 容错:如果一个磁盘或节点出现故障,其他副本可在不同的数据节点和磁盘上使用。
  2. 高顺序读/写性能:通过将文件拆分为多个 block 并将它们存储在不同节点(和不同磁盘)上,可以通过并发访问多个磁盘(在不同节点上)来并行读取文件。每个磁盘都可以全带宽读取数据,并且其读取操作不会干扰其他磁盘。如果集群得到充分利用,所有磁盘都将全速旋转,从而提供最大的顺序读取性能。

由于 HDFS 负责容错和“ strip 化”读取,因此无需在 HDFS 下使用 RAID。使用 RAID 只会更昂贵,提供更少的存储空间,而且速度也更慢(取决于具体的 RAID 配置)。

由于名称节点是 HDFS 中的单点故障,因此它需要更可靠的硬件设置。因此推荐在namenodes上使用RAID。

关于hadoop - 为什么不建议将 RAID 用于 Hadoop HDFS 设置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27988955/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com