gpt4 book ai didi

hadoop - 恢复 Hadoop NameNode 故障

转载 作者:可可西里 更新时间:2023-11-01 14:20:06 25 4
gpt4 key购买 nike

场景 1:

HDFS fsimage 和 editlog 被写入多个位置,包括 NFS 挂载。

A) NameNode 守护进程崩溃:解决方案:重启Namenode进程即可

B) 运行名称节点的主机已关闭。

解决方法:

  1. 在不同的主机上用一个空的 dfs.name.dir 启动 namenode
  2. 将 dfs.name.dir 指向我们拥有元数据副本的 NFS 装载。或者
  3. 在将 fs.checkpoint.dir 指向 Secondary NameNode 的检查点目录后启动 namenode 时使用 --importCheckpoint 选项
  4. 将 fs.default.name 更改为备份主机名 URI,并使用 slaves 文件中的所有从属 IP 重新启动集群。

注意 - 我们可能会错过最后一个检查点之后可能发生的编辑。

场景 2:

HDFS fsimage 被写入单个目录。

A ) NameNode 守护进程崩溃: 解决方案:未知

B ) 运行名称节点的主机已关闭。

解决方法:

  1. 创建一个空白目录指向dfs.name.dir到(1)中的目录
  2. 在将 fs.checkpoint.dir 指向 Secondary NameNode 的检查点目录后,使用 -importCheckpoint 启动 Namenode
  3. 将 fs.default.name 更改为备份主机名 URI,并使用 slaves 文件中的所有从属 IP 重新启动集群。

这样我们会再次错过在最后一个检查点之后编辑的文件。

如果这是我们可以手动恢复集群的方式,请告诉我。

最佳答案

在生产中,您应该使用 quorum of journalling nodes 在 HA 模式下运行 NameNode。 ,或共享 HA-NFS storage用于编辑日志事务文件。如果你不想或不使用 HA,你需要运行 NN,至少有两个存储目录用于图像和编辑日志,最好有一个作为软安装的 NFS 安装点,用于名称系统的自动脱机持久性.

如果您只有一个存储目录并且没有 HA 配置,那么您能得到的最好的是一个过去的检查点——如果您丢失了所有文件。如果您没有丢失文件,您可以尝试使用 hadoop namenode -recover 选项,如 post 所示。能够恢复图像加上一些(或全部)编辑。

关于hadoop - 恢复 Hadoop NameNode 故障,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9712151/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com