gpt4 book ai didi

Hadoop , hive , zookeeper 等

转载 作者:可可西里 更新时间:2023-11-01 16:23:49 26 4
gpt4 key购买 nike

我开始学习 hadoop。我能够对此有所了解,但是当我阅读 Hive、Pig 和 Apache 的其他工具时,我感到困惑。那么有人可以概述一下 hadoop 和 Apache 的工具(Hive、Pig、Zookeeper 等),我想知道它们在处理大数据时的使用方式和位置。

最佳答案

Apache Hadoop 或 Hadoop 是一种开源框架,用于在基 native 器集群上存储和处理大规模数据集。 Hadoop 是一个领先的 Apache 项目,由自由软件社区构建和使用。

Hadoop 框架由以下模块组成:

  • Hadoop Common - 包含 Hadoop 模块所需的库和其他服务。

  • HDFS 或 Hadoop 分布式文件系统 - 一种分布式文件系统,可将数据存储在功能较弱的机器上,为所有集群提供高带宽。 HDFS 是一个文件系统,它可以通过在主机集群上扩展来存储非常大的数据集。具有特定的设计和性能特点;特别是,它针对吞吐量而非延迟进行了优化,并通过复制而非冗余实现了高可用性。

  • Hadoop YARN - 一个负责在集群上进行资源管理计算并将其用于用户应用程序的平台。

  • Hadoop MapReduce - 一种用于处理大规模数据的编程模型。 MapReduce 是一种数据处理范例,它指定数据将如何从其两个阶段(称为 map 和 reduce)输入和输出,然后将其应用于任意大的数据集。 MapReduce 与 HDFS 紧密集成,确保 MapReduce 任务尽可能直接在保存所需数据的 HDFS 节点上运行。

这主要是 Hadoop 框架的呈现方式。但除了我上面引用的内容之外,Hadoop 平台现在还由许多相关项目组成 - Pig、Hive、HBase、Spark、Mahout。

Apache Hive 是建立在 Hadoop 之上的数据仓库基础设施,用于提供数据汇总、查询和分析。

Apache Pig 是一个高级平台,用于创建与 Hadoop 一起使用的 MapReduce 程序,其语言称为 Pig Latin

Apache ZooKeeper 是 Apache 软件基金会的一个软件项目,为大型分布式系统提供开源的分布式配置服务、同步服务和命名注册中心。

Apache Mahout 是可扩展机器学习算法的框架,主要侧重于协同过滤、聚类和分类领域。它使用 Hadoop 平台(但不是必需的)。

列表很长...

关于Hadoop , hive , zookeeper 等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23753041/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com