gpt4 book ai didi

Hadoop 不适合跨多站点分布式处理?

转载 作者:可可西里 更新时间:2023-11-01 14:47:34 25 4
gpt4 key购买 nike

我读过几篇文章,表明 Hadoop 仅真正设计用于在单个物理位置的集群上工作,而不是用于许多广泛分布的节点(例如,从多个站点在 Internet 上运行分布式集群)。

有没有人有尝试跨多个站点使用 Hadoop 的实际经验?我会遇到什么样的问题?或者我最好只使用不同的框架(例如 BOINC)。

最佳答案

如果在一组相对本地的节点上执行与在一组广泛分布的节点上执行有任何区别,那就是在节点之间来回移动大量数据所需的时间增加。如果您遇到涉及处理、聚合和连接大量数据的问题,那么您必然会在节点之间发送大量数据。这意味着无论您选择什么平台(hadoop、storm 等),您都必须处理这个问题。 BOINC 或其他一些基于志愿者的系统可能更便宜,但您的实现仍然会受到高数据传输成本的影响。此外,您可能会在混合中引入节点异构性,这将使您的实现更易于开发和调试。

顺便说一句,hadoop 和 BOINC 是两种截然不同的动物,解决的问题截然不同。

关于Hadoop 不适合跨多站点分布式处理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15839696/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com