gpt4 book ai didi

hadoop - 如何组成具有可变长度成分的 HBase 键

转载 作者:行者123 更新时间:2023-12-02 21:25:19 24 4
gpt4 key购买 nike

假设我的 HBase 表需要通过一个键访问,该键是四个不同元素(K1:DateTime、K2:Int、K3:String、K4:Double)的组合。为此构建 key 的最佳实践是什么?我特别关心可变长度数据类型(字符串)。

目前我正在将字节长度附加到字符串中,以便我可以从关键字节中解析回每个元素。我在想,当字符串长度不匹配时,开头的长度会导致快速检查。这种方法有什么缺点吗。它会以某种方式影响以后基于部分键的查询吗? (我对 HBase 还很陌生,只花了一周的时间就修改了它)

老实说,我不喜欢字符串成为键的一部分,我试图让这些人使用某种枚举而不是字符串,但不确定我能否说服他们。假设我坚持将字符串作为键的一部分,用这些元素组成键的最佳方法是什么?

最佳答案

如果您的 String 'K3' 在这里是不可避免的,它可以保持为 10 MB 大小,在每个单元的 hBase 中隐式分配。
现在应在此处捕获最多毫秒的 DateTime。
对于这种情况,您可以使用两种方法: RegexStringComparator 和 SubstringComparator 。请引用他们的使用风格。

如果字符串的长度在这里提供了大量的数据过滤,请在开始时保持相同,然后在每个元素之间使用正则表达式。
在此处使用 RegexStringComparator。
否则,在开头提供字符串并使用 RegexStringComparator 并将所需数据作为 param 传递。

N.B:如果提供真实数据,挖掘解决方案会更容易。

关于hadoop - 如何组成具有可变长度成分的 HBase 键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36258447/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com