gpt4 book ai didi

java - 如何通过 Hadoop mapreduce 使用集中资源

转载 作者:可可西里 更新时间:2023-11-01 16:16:44 27 4
gpt4 key购买 nike

人们似乎非常热衷于将现有应用程序迁移到 Hadoop 基础架构,并且在许多公司或组织中似乎有一句口头禅:如果您有大量数据,请使用 Hadoop。我想了解现有解决方案对集中式(大)数据的依赖性如何影响 Hadoop 是否是一个好的解决方案的决策。

在许多情况下,典型的“大数据”应用程序想要处理数十亿个事物,例如尽可能高效快速地处理文档、消息、文件。我看到了以 map/reduce 方式在多个节点之间分配工作的优势。然而,通常情况下,为了能够处理这些东西,处理函数(映射器)必须在某处查找东西。例如,向 SQL 服务器发送查询、在图形数据库中查找内容、在巨大的键/值存储中查找数据。此外,每个函数可能需要大量内存来存储/缓存处理其事物所需的所有数据。

这是否违反了 Hadoop 的做事方式,或者事情是否通常以这种方式完成?最重要的是,除了将处理工作分散到一堆 Hadoop 节点之外,您还需要找到一种方法来并行化或升级您的“中央服务器”(SQL、图形数据库等),以便它们可以回答来自并行 Hadoop 节点的所有请求,不是吗?

当并行化处理依赖于在巨大的中央数据存储中进行快速查找时,转向使用 Hadoop 的最佳方式是什么?

最佳答案

这就是您拥有像 Cassandra 这样的解决方案的原因。自然地,您不能只是大规模并行化计算,而是将数据存储保持为单个实体。您还需要并行化相关资源。

关于java - 如何通过 Hadoop mapreduce 使用集中资源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19164064/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com