gpt4 book ai didi

Hadoop 多节点集群

转载 作者:可可西里 更新时间:2023-11-01 16:53:04 34 4
gpt4 key购买 nike

我是 Hadoop 的新手。如果我问的是废话,请纠正我并帮助我解决这个问题:)。

我安装并配置了一个双节点 hadoop 集群 (yarn)。

  • 主节点:2TB HDD,4GB RAM
  • 从节点:500GB HDD,4GB RAM

数据节点:仅Master节点(不在Slave节点保留复制数据)

map /减少:主节点&从节点。

在 10TB 数据中,我上传了 2TB 到主节点(数据节点)。我仅将从属节点用于 Map/Reduce(使用从属节点的 100% CPU 来运行查询)。

我的问题:

  1. 如果我向主节点添加一个新的 2TB 硬盘,并且我想向主节点上传 2TB 以上的硬盘,我该如何同时使用硬盘(旧硬盘中的数据和主节点中的新硬盘)?有没有办法在 hdfs-site.xml 中提供多个硬盘路径?

  2. 我是否需要在从属节点中添加 4TB 硬盘(所有数据都在主节点中)以使用从属节点 100% 的 CPU?或者 slave 是否可以从 master 访问数据并运行 Map/Reduce 作业?

  3. 如果我向 slave 添加 4TB 并将数据上传到 hadoop。这会在主(重复)中进行任何复制吗?我可以访问主硬盘和从硬盘的主硬盘中的所有数据吗?如果我这样做,查询是否会使用两个节点的 100% CPU?

  4. 总的来说,如果我有 10TB 的数据。配置 Hadoop 双节点集群的正确方法是什么?我应该使用什么规范(对于主节点和数据节点)来快速运行 Hive 查询?

我卡住了。我真的需要你的建议和帮助。

提前致谢。

最佳答案

请在下面找到答案:

  1. 在 hdfs-site.xml 中提供以逗号分隔的目录列表。来源https://www.safaribooksonline.com/library/view/hadoop-mapreduce-cookbook/9781849517287/ch02s05.html
  2. 没有。您无需在从机上添加 HDD 即可使用 100% CPU。在当前配置下,运行在 slave 上的节点管理器将从运行在 master 上的数据节点(通过网络)读取数据。这在数据局部性方面效率不高,但不会影响处理吞吐量。由于网络传输,它会增加额外的延迟。
  3. 没有。复制因子(要存储的副本数)与数据节点数无关。可以使用属性 dfs.replication 更改默认复制因子 hdfs-site.xml。您还可以基于每个文件进行配置。
  4. 您的集群至少需要 10GB 的存储空间(所有数据节点加起来,复制因子为 1)。对于生产系统,我建议使用复制因子 3(以处理节点故障),即至少 3 个节点上的 10*3 = 30GB 存储。由于 10GB 在 Hadoop 术语中非常小,因此有 3 个节点,每个节点具有 2 或 4 核处理器和 4 到 8 GB 内存。配置为-node1:名称节点+数据节点+节点管理器,node2:资源管理器+数据节点+节点管理器,node3:数据节点+节点管理器。

关于Hadoop 多节点集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31087184/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com