gpt4 book ai didi

hadoop - 将 HDFS 复制因子降低到 2(或仅一个)对 HBase 映射/降低性能的影响

转载 作者:可可西里 更新时间:2023-11-01 15:08:30 25 4
gpt4 key购买 nike

将 HDFS 复制因子降低到 2(或仅一个)对 HBase 映射/降低性能有何影响?我有一个托管在 Azure VM 上的 HBase 集群,数据存储在 azure 托管磁盘中。 Azure 托管磁盘本身保留了 3 个数据副本用于容错,因此考虑降低 HDFS 复制因子以节省存储开销。考虑到 map reduce 作业利用数据的本地可用性来避免通过网络传输数据,想知道如果只有一个数据副本可用,是否有人知道任何关于 map reduce 性能影响的信息?

最佳答案

这是一个很难回答的问题,因为它在很大程度上取决于您运行的工作负载。

通过降低复制因子,您可以加快写入操作的性能,因为数据写入到更少的 DataNode 中。但是,正如您所指出的,您的局部性可能会降低,因为找到具有副本并具有可用空间来执行任务的节点会更加困难。

仅保留单个副本可能会对单个节点故障的影响产生重大影响。如果单个节点死亡,其所有数据将不可用,直到您使用相同的 Azure 托管磁盘重新启动新节点。如果有多个 HDFS 副本,则始终保持数据可用性。

在 Azure 托管磁盘上运行 HDFS DataNodes 听起来有点糟糕。除了打破一些核心 HDFS 假设(“我的磁盘可能随时发生故障”)之外,如果您的数据存储在三个副本中,您似乎不太可能拥有真正的数据局部性。不知您是否考虑过:

  • 使用非托管磁盘服务。 Azure 是否提供使用未复制磁盘的方法?这更接近于 HDFS 的预期使用方式。
    • 将数据存储在 Azure 存储(WASB 或 ADLS)而非 HDFS 中。这是更“云原生”的运行方式。如果你发现性能不足,你可以使用 HDFS 作为中间数据,只将最终数据存储在 Azure 中。 HDFS 还提供了一种通过使用 Provided Storage 来缓存来自外部存储系统的数据的方法。 .

关于hadoop - 将 HDFS 复制因子降低到 2(或仅一个)对 HBase 映射/降低性能的影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54618139/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com