gpt4 book ai didi

hadoop - 如何决定在 HDFS 中使用的集群大小和实例类型?

转载 作者:可可西里 更新时间:2023-11-01 15:49:31 26 4
gpt4 key购买 nike

如何在 HDFS 中决定集群大小、节点数量、要使用的实例类型以及每台机器的硬件配置设置?如果可能,请解释如何处理 10 TB 的数据。例如如果我们有 10 TB 的数据,那么标准的集群大小、节点数量以及可以在 hadoop 中使用的实例类型应该是多少?

最佳答案

我已经使用 Hadoop 几年了。首先,查看此 Hortonworks 指南: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/ch_hardware-recommendations_chapter.html

一些个人笔记:

  • 最低限度,根据复制因子 3,您需要大约 50TB(10x3=30TB 80% 规则:40TB 可用,这给您 8TB 的工作空间)- 因此 5 个节点,每个 10TB 用于 HDFS
  • HDFS 最多只能使用总集群空间的 80%
  • 更多节点 = 更快的 YARN 作业
  • Hive 和 PIG 可以像读取未压缩的数据一样读取压缩数据
  • 我个人会从 5 个节点开始,3 个用于 zookeeper quorum,2 个可以分配 NameNodes
  • 都可以设置为DataNode

  • 不要忘记 Ambari 服务器,并将其设为 VM...您每天都需要备份和快照

  • 升级/更新可能会搞砸,如果工作失败,请始终制定计划
  • 有时最基本的安装不会按计划进行 ;)
  • 从小处着手,向外扩展! Hadoop 就是建立在这种思维之上的!

TLDR: https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.5.3/bk_cluster-planning/content/conclusion.html

5 个节点,每个 10TB 用于 HDFS

关于hadoop - 如何决定在 HDFS 中使用的集群大小和实例类型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51595654/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com