gpt4 book ai didi

hadoop - hadoop 2.2.0中的数据备份与恢复

转载 作者:可可西里 更新时间:2023-11-01 14:54:09 30 4
gpt4 key购买 nike

我是 Hadoop 的新手并且对 Hadoop 管理很感兴趣,所以我尝试在 Ubuntu 12.04 中安装 Hadoop 2.2.0 作为伪分布式模式并成功安装并运行一些示例 jar 文件,现在我正在尝试进一步学习,尝试现在学习数据备份和恢复部分,谁能告诉我在hadoop 2.2.0中备份和恢复数据的方法,还请推荐任何关于Hadoop Adminstration的好书和学习Hadoop Adminstration的步骤。

提前致谢。

最佳答案

Hadoop 中没有经典的备份和恢复功能。这有几个原因:

  • HDFS 使用 block 级复制通过冗余保护数据。
  • HDFS 可大规模扩展,备份到磁盘比磁带备份更经济。
  • “大数据”的规模并不适合轻松备份。

Hadoop 使用数据复制而不是备份。在内部,它为每个数据 block 创建多个副本(默认情况下,3 个副本)。它还具有一个名为“distcp”的功能,它允许您在集群之间复制数据副本。这是大多数 Hadoop 运算符(operator)通常为“备份”所做的事情。

一些公司,如 Cloudera,正在将 distcp 工具整合到为其 Hadoop 分发创建“备份”或“复制”服务中。它针对 HDFS 中的特定目录进行操作,并将其复制到另一个集群。

如果您真的想为 Hadoop 创建一个备份服务,您可以自己手动创建一个。您将需要某种访问数据的机制(NFS 网关、webFS 等),然后可以使用磁带库、VTL 等来创建备份。

关于hadoop - hadoop 2.2.0中的数据备份与恢复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22421418/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com