gpt4 book ai didi

hadoop - Hbase:只有每个单元格的第一个版本

转载 作者:可可西里 更新时间:2023-11-01 14:31:25 27 4
gpt4 key购买 nike

我想知道如何以仅存储每个单元格的第一个版本的方式配置 Hbase?假设下面的 Htable:

row_key          cf1:c1           timestamp
----------------------------------------
1 x t1

("1","cf1:c2",t2) 放入 ColumnDescriptor.DEFAULT_VERSIONS = 2 的场景后,提到的 Htable 变为:

row_key          cf1:c1           timestamp
----------------------------------------
1 x t1
1 x t2

其中 t2>t1

我的问题是如何改变这种情况,使第一个版本的单元格成为唯一可以存储和检索的版本。我的意思是在提供的示例中,唯一的版本是 't1' 一个!因此,我想以一种忽略重复项插入的方式更改 hbase。

我知道将 Htable 的 VERSIONS 设置为 1 并基于 Long.MAX_VALUE - System.currentTimeMillis() 放置可以解决我的问题,但我不知道它是否是最佳解决方案?!将 tstamp 更改为 Long.MAX_VALUE - System.currentTimeMillis() 有什么问题?它有任何性能问题吗?

最佳答案

我能想到的策略有两种:

1。一个版本+倒置时间戳

将 Htable 的 VERSIONS 设置为 1 并基于 Long.MAX_VALUE - System.currentTimeMillis() 通常会工作并且没有任何重大性能问题。

写入时:

  • 当同一单元格的多个版本被写入 hbase 时,在任何时间点,所有版本都将被写入(对性能没有任何影响)。压缩后只有具有最高时间戳的单元会存活下来。
  • 在此方案中具有最高时间戳的单元格是由客户端写入的具有最低 System.currentTimeMillis() 值的单元格。应该注意的是,这实际上可能不是首先尝试写入单元格的机器,因为 hbase 客户端可能不同步。

阅读时:

  • 当发现同一单元格的多个版本时,将在那时进行修剪。这可能随时发生,因为您的写入可能随时发生,即使在压缩之后。这对性能有非常轻微的影响。

2。检查并放置

要通过原子性获得真正的排序,这意味着只有第一次写入到达区域服务器才会成功,您可以使用 checkAndPut 操作:

来自docs :

public boolean checkAndPut(byte[] row, byte[] family, byte[] qualifier, byte[] value, Put put) throws IOException

Atomically checks if a row/family/qualifier value matches the expected value. If it does, it adds the put. If the passed value is null, the check is for the lack of column (ie: non-existance)`

因此,通过将 value 设置为 null,您的 Put 只有在单元格不存在时才会成功。如果您的 Put 成功,则返回值将为真。这提供了真正的原子性,但以写入性能为代价。

写入时:

  • 设置行锁并在检查是否存在之前在内部发出 Get。一旦确认不存在,就会发出看跌期权。正如您可以想象的那样,这对每次写入都有相当大的性能影响,因为现在每次写入还涉及读取和锁定。
  • 在压缩过程中不需要发生任何事情,因为只有一个 Put 会进入 hbase。这始终是第一个到达区域服务器的 Put。
  • 需要注意的是,无法使用checkAndMutate 对这些类型的checkAndPut 操作进行批处理,因为每个Put 都需要自己进行检查。这意味着每个 put 都需要是一个单独的请求,这意味着您在批量写入时也会付出延迟成本。

阅读时:

  • 只有一个版本会进入 Hbase,因此这里没有影响。

策略选择:

如果真正的排序真的很重要,或者您可能需要在写入 hbase 之后或之前读取每一行(例如,以确定您的写入是否成功),您最好使用策略 2,否则,在所有其他情况下,我推荐策略 1,因为它的写入性能要好得多。在这种情况下,只需确保您的客户端正确时间同步即可。

关于hadoop - Hbase:只有每个单元格的第一个版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30681560/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com