gpt4 book ai didi

hadoop - 确实从hdfs导入数据到hbase创建了一个副本

转载 作者:行者123 更新时间:2023-12-02 21:41:44 26 4
gpt4 key购买 nike

我对Hbase概念非常陌生。我了解HBase的基础文件系统仅是HDFS。

我只是想了解一下,如果在单个群集中,HDFS中已经有一些数据。我尝试将其导入HBase(使用Pig / Hive脚本),它将以Hbase支持(HFiles)的形式在HDFS中创建相同数据的另一个副本(因为HBase的基础文件系统为HDFS)?

还是会创建对相同HDFS数据的引用?

最佳答案

是的,因为HBase只能使用自己的文件集进行操作,它将在HDFS中存储导入数据的副本(作为StoreFiles / HFiles)。也许您会发现这个nice overview很有趣。

您可以直接使用HDFS中存储的数据进行操作,而无需使用EXTERNAL HIVE table将其导入到HBase中:

CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User',
country STRING COMMENT 'country of origination')
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
STORED AS TEXTFILE
LOCATION '<hdfs_location>';

在Hadoop世界中,具有相同数据的多个副本(尽管格式不同)应该不是问题,因为存储不被视为限制因素,它便宜且易于扩展,因为它基于商品硬件。实际上,如果您有足够的输入数据,则很常见的是Hive / Pig / MapReduce作业仅需要数百或数千GB(中间数据)来处理您的作业。

关于hadoop - 确实从hdfs导入数据到hbase创建了一个副本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28266881/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com