1000000}. HBase 到 Hive 的映射-6ren">
gpt4 book ai didi

hadoop - HBase 到 Hive 映射表未显示完整数据

转载 作者:可可西里 更新时间:2023-11-01 15:57:04 24 4
gpt4 key购买 nike

我们有一个包含 1 个列族的 HBase 表,其中有 15 亿条记录。

使用命令检索 HBase 行数

"count '<tablename>'", {CACHE => 1000000}.

HBase 到 Hive 的映射是用下面的命令完成的。

create external table stagingdata(
rowkey String,
col1 String,
col2 String
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
'hbase.columns.mapping' = ':key,
n:col1,
n:col2,
')
TBLPROPERTIES('hbase.table.name' = 'hbase_staging_data');

但是当我们使用下面的命令检索 Hive 行计数时,

select count(*) from stagingdata;

它在 Hive 映射表中只显示了 1.4 亿行。

我们已经为具有 1 亿条记录的小型 HBase 尝试了类似的方法,并且完整的记录显示在 Hive 映射表中。

我的问题是为什么完整的 15 亿条记录没有显示在 Hive 中?

我们在这里遗漏了什么吗?

非常感谢您的即时答复。谢谢,马杜。

最佳答案

您在 hive 中看到的是每个 key 的最新版本,而不是 key 的所有版本

there is currently no way to access the HBase timestamp attribute, and queries always access data with the latest timestamp.

Hive HBase Integration

关于hadoop - HBase 到 Hive 映射表未显示完整数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42713417/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com