gpt4 book ai didi

hbase - 为什么 OpenTSDB 选择 HBase 进行时序数据存储?

转载 作者:行者123 更新时间:2023-12-03 14:30:15 25 4
gpt4 key购买 nike

如果有人对选择 HBase 作为 OpenTSDB 的数据存储引擎有所了解,我真的很感激?

还考虑了哪些其他选择,例如 Whisper( Graphite 前端 + 碳持久性)?

面向列的数据库(例如 HBase)如何成为时间序列数据的更好选择?

最佳答案

我选择 HBase 是因为它 . Whisper 很像 RRD,它是一个固定大小的数据库,它必须销毁数据才能在其空间限制内工作。 HBase 提供以下特性使其非常适合大规模时间序列数据库:

  • 线性缩放。 想要存储数据?添加更多节点。在我编写 OpenTSDB 的 StumbleUpon,我们的时间序列数据位于一个 20 节点的集群上,该集群主要用于分析和批处理。集群相当快地增长到 120 个节点,与此同时,仅占集群工作负载很小一部分的 OpenTSDB 增长到了 50 万亿个数据点。
  • 自动复制。 您的数据存储在 HDFS 中,默认情况下,这意味着在 3 台不同的机器上有 3 个副本。如果机器或驱动器死机,没什么大不了的。当您构建商品服务器时,驱动器和机器总是会消失。但问题是:你真的不在乎。
  • 高效扫描。 大多数时间序列数据用于回答诸如“时间 X 和 Y 之间的数据点是什么”之类的问题。如果你正确地构造你的 key ,你可以通过简单的扫描操作使用 HBase 非常有效地实现这一点。
  • 高写入吞吐量。 Bigtable design ,HBase 遵循,使用 LSM trees而不是 B 树,以使写入更便宜(以可能更昂贵的读取为代价)。

  • HBase 是面向列的这一事实并不像它是一个真正可扩展的大排序键值系统这一事实那样重要。

    所有基于 RRD 和 RRD 派生的工具都无法满足能够以非常便宜的价格(每个数据点只有几个字节的实际磁盘空间)永远准确地存储数十亿个数据点的规模要求。

    关于hbase - 为什么 OpenTSDB 选择 HBase 进行时序数据存储?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12222469/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com