gpt4 book ai didi

hadoop - HBase - 考虑表中的列数时的任何关键影响(性能、大小调整等)

转载 作者:行者123 更新时间:2023-12-02 18:56:18 25 4
gpt4 key购买 nike

当我现在真的不需要这些数据时,是否应该避免向 HBase 表添加额外的列?我的意思是,今天我的流程中有很多细节,一些我需要保存到 HBase 的属性,一些不是必需的。我应该保存我得到的所有输入,以防我将来需要它吗?这里会有什么影响?只是为了帮助更好地理解查询,保存 400 个属性(在 400 列中)而不是 200 个属性将如何影响我的系统?
关于可用大小,当然,我需要两倍的大小(这会影响成本,无论是在 AWS 上还是在本地)。从表中读取(使用某些 API 查询它或将数据提取到某个文件)怎么样?写到 table 上怎么样?还要别的吗?
谢谢!!!

最佳答案

对您的系统的影响可能相当大,具体取决于:

  • 您的查询模式是什么
  • 您是如何设计行键的
  • 您如何将列划分为列族

  • ...除其他因素外。拥有 400 列在 HBase 的处理能力范围内,但您必须事先就表的设计方式做出明智的决定。
    例如,如果您建议只有一个列族并将所有列放入其中,那么从 200 到 400 查询时肯定会看到性能影响。
    另一方面,如果您创建两个列族(“A”和“B”)并将最常查询的列放在 A 中,将最不常查询的列放在 B 中,那么您更有可能看到您的查询高效执行。
    如果您还没有,我建议您阅读 HBase 引用指南中的这一部分:
    https://hbase.apache.org/book.html#schema
    了解您在设计表格时所做的选择如何影响性能和效率。

    关于hadoop - HBase - 考虑表中的列数时的任何关键影响(性能、大小调整等),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64648082/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com