gpt4 book ai didi

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?

转载 作者:可可西里 更新时间:2023-11-01 14:14:00 26 4
gpt4 key购买 nike

如果我正确理解 Hadoop 生态系统,我可以运行我的 MapReduce 作业,从 HDFS 或 HBase 获取数据。假设之前的假设是正确的,我为什么要选择一个而不是另一个?使用 HBase 作为 MR 源在性能、可靠性、成本或易用性方面是否有优势?

我能找到的最好的引用是这句话,“HBase 是当您需要对非常大的数据集进行实时读/写随机访问时使用的 Hadoop 应用程序。” - Tom White (2009) Hadoop:权威指南,第 1 版

最佳答案

在 HDFS 上直接使用 Hadoop Map/Reduce,您的输入和输出通常存储为平面文本文件或 Hadoop SequenceFile,它们只是流式传输到磁盘的序列化对象。这些数据存储或多或少是不可变的。这使得 Hadoop 适合批处理任务。

HBase 是一个成熟的数据库(虽然不是关系型的),它使用 HDFS 作为存储。这意味着您可以对数据集运行交互式查询和更新。

HBase 的优点在于它可以很好地与 Hadoop 生态系统配合使用,因此如果您需要对庞大的数据集执行批处理以及交互式、细粒度、记录级的操作,HBase 都能很好地完成这两项工作。

关于implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3774259/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com