gpt4 book ai didi

hadoop - 对HDFS、HBase和Hive的一些疑惑

转载 作者:可可西里 更新时间:2023-11-01 16:34:19 24 4
gpt4 key购买 nike

我对 Hadoop 生态系统有几个疑问。渴望很好地理解这些概念。

  1. Hive 表在哪里存储数据?
  2. 对于 Datawarehouse,我们是否需要在 Hive 和 Hbase 表中拥有相同的数据。
  3. 我们如何从 Hbase 插入、更新和读取数据。
  4. HDFS 可以存储除 csv 之外的所有文件格式。
  5. 我们可以在 Hbase 上安装 PIG 吗?
  6. 如果我有 Hive,我可以省略 Hbase 表吗?

最佳答案

答案,按顺序:

  1. Hive 通常将数据存储在其配置的文件系统目录下的表名目录中,通常是 /user/hive/warehouse 的 HDFS 目录,可通过 hive-site.xml 进行调整 hive.metastore.warehouse.dir 的属性。
  2. Hive 和 HBase 是两个不同的表存储概念。前者没有记录或随机读/写的概念。它们之间唯一的共同点是连接器 Hive 必须读取存储在 HBase 服务器/格式下的表数据。
  3. 这包含在 HBase Reference Guide 中详细说明。最简单的方法是使用 hbase shell
  4. HDFS 是一个普通文件系统(仅分布式),类似于您的 Unix 或 Windows 文件系统,因此不关心您存储在其上的数据类型。您可以存储任何您想要的内容,前提是您还具有可用于稍后消化它的读取器/写入器逻辑。
  5. Pig 确实提供了一个 HBaseStorage内置存储访问方法作为其核心的一部分,让您可以在 Pig 脚本中访问和表示 HBase 行数据。
  6. 参见 (2)。除非您希望它们是相关的,否则两者是无关的,所以答案是肯定的。

关于hadoop - 对HDFS、HBase和Hive的一些疑惑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12928225/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com