HBase:数据如何以排序方式写入 HFile？-6ren

HBase:数据如何以排序方式写入 HFile？

转载作者：行者123 更新时间：2023-12-05 01:02:25

33

4

我对 HFiles 有一个相当基本的怀疑。

当发起 put/insert 请求时，值首先写入 WAL，然后写入 memstore。 memstore 中的值以与 HFile 中相同的排序方式存储。一旦 memstore 已满，它就会被刷新到一个新的 HFile 中。

现在，我已经读到 HFile 按排序顺序存储数据，即连续的行键将彼此相邻 .

这是 100% 真的吗？

例如:我首先用 rowkeys 1 到 1000 写入行，rowkey 500 除外。假设 memstore 现在已满，因此它将创建一个新的 HFile，将其命名为 HFile1。现在，这个文件是不可变的。

现在，我将写行 1001 到 2000，然后我写行键 500。假设 memstore 已满并写入 HFile，称为 HFile2。

那么，事情是这样发生的吗？

如果是，则 rowkey 500 不在 HFile1 中，因此 HFiles 中的 rowkeys 没有排序。那么，原文加粗的说法正确吗？

那么，当读取发生时，读取是如何发生的呢？

最佳答案

HFile stores the data in sorted order i.e. the sequential rowkeys will be next to each other.

Is this 100% true?

是的，这是 100% 准确的。单个 HFile 中的 RowKeys 总是被排序。

I will write rows 1001 to 2000, then I write rowkey 500. Assume that the memstore is full and it writes to a HFile, call it HFile2.

So, is this how it happens?

是的，现在 500 到达第二个 HFile 的顶部。

If yes, then rowkey 500 is not in the HFile1, so the rowkeys in the HFiles are not in sorted order. So, is the original statement in bold correct?

是的，单个 HFile 中的行键总是被排序的。 HBase 定期执行 compactions它将合并多个 HFile 并将它们重写为单个 HFile，这个作为压缩结果的新 HFile 也被排序。

So, when a read happens, how does the read happen?

在读取时，如果存储有多个 HFile，HBase 将从所有 HFile 中读取该行(检查该行是否存在，如果已读取)以及 memstore。所以它可以得到最新的数据。
HBase Definitive Guide 对 HBase 读取路径的工作原理有很好的解释。

关于HBase:数据如何以排序方式写入 HFile？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26696212/

33

4

0

文章推荐： azure - 无法为网站创建预定的网络作业

文章推荐： date - Cakephp 3.2 更改默认日期格式

hbase - HBase 什么时候真正删除一行？
发出时Delete对于 hbase，我知道它不会立即删除数据。但是什么时候删除数据，我的意思是，物理上？最佳答案当您向 HBase 写入内容时，它会存储在内存存储 (RAM) 中，然后再写入磁盘。
hbase - HBase 会在不同机器上存储同一行的列族吗？
同一行的列族属于同一个 RegionServer。那么，这里的问题是一个 RegionServer 会在不同的机器上存储不同的列族吗？最佳答案不一定，但在某些时候它会。这是基本 HBase 架构
hbase - hbase 中是否有最大版本号？
如果我想插入表格: row | fam:qualifier | timestamp | value 1 | foo:bar | 12345 | 2 1 | foo:bar | 12346 | 3 1
hbase - 如何停止在 hbase shell 中运行的命令而不退出 hbase shell
有时我想退出我在 HBase shell 中运行的命令，例如扫描操作通常需要太多时间。所以我想停止运行这个命令，但我不想退出 HBase shell。我常用的停止运行命令的方式，我使用了Ctrl+
hbase - Hbase 中的多个数据库或命名空间
有没有办法设置 Hbase 以便我们可以在同一个集群中创建多个数据库？最佳答案只是为了刷新主题:http://hbase.apache.org/book.html#namespace 5.3.1.
hbase - 我使用的是哪个版本的 hbase？
怎么看version的 hbase我在用？你能下命令吗？最佳答案 hbase version命令行界面中的命令给出了 version的 hbase正在使用中。以下是来自 Cloudera 的两个
hbase - HBase 是否对每行施加了最大大小？
高级问题: HBase 是否对所有分布(因此不是实现的工件)通用的每行施加了最大大小，无论是在方面吗？字节存储或在方面细胞数 ? 如果是这样: 限制是什么？极限存在的原因是什么？限制在哪里记
hbase - 将数据仓库星型模式映射到 HBASE
假设，假设我在数据仓库设置中有一个星型模式。有一个非常非常长的事实表(想想几十亿到几万亿行)和几个低基数维度表(想想 100 个维度表)。每个事实表外键指向一个维度表的主键是位图索引的。每个维度表
hbase - 如何确保 HBase Java 客户端正在使用 hbase-site.xml
版本:Hadoop: 2.0.0-cdh4.3.1 HBase: 0.94.6-cdh4.3.1 我正在运行 cloudera quick start vm，这是我的小型远程 HBase Java 客
ubuntu - HBase - 运行 start-hbase.sh 时出现完全分布式 HBase 错误
我正在尝试以完全分布式模式配置 HBase。 (使用 Ubuntu 12.04，Apache Hadoop 2.2(以伪模式运行，HBase 版本 0.98) 以下是我的 bashrc 设置: exp
hbase - hbase-site.xml 中的 hbase.zookeeper.quorum 是什么
我想知道如何正确配置 hbase.zookeeper.quorum 以将 zookeeper 实例指向集群模式。最佳答案 hbase.zookeeper.quorum 属性是运行 ZooKeeper
hbase - hbase-site.xml 中的 hbase.zookeeper.quorum 是什么
我想知道如何正确配置 hbase.zookeeper.quorum 以将 zookeeper 实例指向集群模式。最佳答案 hbase.zookeeper.quorum 属性是运行 ZooKeeper
hadoop - Hbase mapside join-其中一张表没有被读取？从 hbase 中读取正确的结果到 hbase
我正在尝试对位于 Hbase 中的两个表进行映射连接。我的目的是在hashmap中保留小表的记录并与大表进行比较，一旦匹配，再次将记录写入hbase中的表中。我使用 Mapper 和 Reducer
hadoop - HBase ERROR : hbase-default. xml 文件似乎是针对旧版本的 HBase (null)
我正在尝试编写一个程序来连接到 HBase。但是当我执行以下命令时HBaseConfiguration.create();我收到以下错误:. "hbase-default.xml 文件似乎是旧版本的
hbase - 为什么说 HBase 行按字典顺序存储？
基于HBase documentation ，再次遵循 Google BigTable 论文的引用，据说这些行是按行键的字典顺序存储的。很明显，当我们在 rowkey 中有一个字符串或者如果我们将一
hbase - 如何进行 hbase 范围扫描？
我有一个 hbase 表，其中的行键如 row1、row2、row3 .... 和 rowN，我想要的是获取行键从 row100 到 row200 的行，如何编写查询子句或将 hbase 表设计为让查
hbase - 在 HBASE 上创建命名空间
我正在尝试创建命名空间，但出现类似下面给出的错误 hbase(main):031:0> create namespace 'Aniruddha'
hbase - 适用的 HBase 表模型
我发现为以下要求建模 HBase 表有困难。我有一个表“商店”，它存储了商店的详细信息(必胜客)。我有一个表格“订单”，其中包含交易摘要(总交易金额等...)。我有另一个表“Order_Item
hbase - 在不禁用 HBASE 表的情况下更改表结构的含义
谁能告诉我如果在不首先禁用表的情况下使用“alter”命令可能影响表结构的可能影响？据我所知，禁用表意味着关闭与表的所有连接。如果我在不禁用表的情况下使用 alter，可能会发生什么异常情况？我正
hbase - 无法从 HBase 导出表
我无法将表从 HBase 导出到 HDFS。下面是错误跟踪。它是相当大的尺寸。还有其他方法可以导出吗？我使用以下命令导出。我增加了 rpc 超时，但工作仍然失败。 sudo -u hdfs hbas

首页

博学

6Ren·AI

商城

HBase:数据如何以排序方式写入 HFile？