gpt4 book ai didi

hadoop - HDFS、HBase、Pig、Hive 和 Azkaban 之间的关系?

转载 作者:可可西里 更新时间:2023-11-01 14:18:20 24 4
gpt4 key购买 nike

我对 Apache 有点陌生 Hadoop .我看过thisthis关于 Hadoop、HBase、Pig、Hive 和 HDFS 的问题。他们都描述了上述技术之间的比较。

但是,我已经看到,通常一个 Hadoop 环境包含所有这些组件(HDFSHBasePigHive 阿兹卡类)。

有人能以架构工作流的方式解释这些组件/技术与它们在 Hadoop 环境中的职责之间的关系吗?最好有一个例子?

最佳答案

总体概述:

HDFS 是 Hadoop 的分布式文件系统。直观上,您可以将其视为跨越许多服务器的文件系统。

HBASE 是一个面向列的数据存储。它以 Google 的 Big Table 为模型,但如果您对此一无所知,则可以将其视为提供实时数据读/写访问的非关系数据库。它已集成到 Hadoop 中。

Pig 和 Hive 是 Hadoop 生态系统中查询数据的方式。主要区别在于 Hive 比 Pig 更像 SQL。 Pig 使用所谓的 Pig Latin。

Azkaban 是一座 jail ,我的意思是批处理工作流作业调度程序。所以基本上它与 Oozie 相似,因为您可以将 map/reduce、pig、hive、bash 等作为单个作业运行。

在最高级别上,您可以将 HDFS 视为您的文件系统,将 HBASE 作为数据存储。 Pig 和 Hive 将是您从数据存储中查询的方式。然后 Azkaban 将成为您安排工作的方式。

拉伸(stretch)示例:

如果您熟悉用于文件系统的 Linux ext3 或 ext4、用于数据库的 MySQL/Postgresql/MariaDB 等、用于访问数据的 SQL 以及用于计划作业的 cron。 (您可以在 Windows 上将 NTFS 的 ext3/ext4 和 Task Scheduler 的 cron 互换)

HDFS 取代了 ext3 或 ext4(并且是分布式的),HBASE 扮演了数据库角色(并且是非关系型的!),Pig/Hive 是一种访问数据的方式,而 Azkaban 是一种调度作业的方式.

注意:这不是同类比较。它只是为了证明 Hadoop 组件是一种抽象,旨在为您提供您可能已经熟悉的工作流。

我强烈建议您进一步研究这些组件,因为您会从中获得很多乐趣。 Hadoop 有太多可互换的组件(Yarn、Kafka、Oozie、Ambari、ZooKeeper、Sqoop、Spark 等),您会经常问自己这个问题。

编辑:您发布的链接更详细地介绍了 HBase 和 Hive/Pig,因此我试图直观地描述它们如何组合在一起。

关于hadoop - HDFS、HBase、Pig、Hive 和 Azkaban 之间的关系?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37629836/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com