gpt4 book ai didi

hadoop - 对于数据量不太大的系统,Hadoop是否会有开销?

转载 作者:行者123 更新时间:2023-12-02 19:52:00 24 4
gpt4 key购买 nike

我计划编写一个批处理分布式计算系统,它将使用大约10到20台计算机。系统某些部分的数据流量约为50GB,而其他部分的数据流量则约为1GB。

我正在考虑使用Hadoop。可伸缩性并不重要,但是我真的很喜欢Hadoop framewok提供的容错能力和推测性运行功能。像MPIgearman这样的框架似乎没有提供这样的机制,我将不得不自己实现它们。

但是,我有些怀疑,因为它似乎已针对更大的数据量和可能更多的计算机进行了优化。例如,《 Hadoop权威指南》一书明确提到:

The High Performance Computing (HPC) and Grid Computing communities have been doing large-scale data processing for years, using such APIs as Message Passing Interface (MPI). Broadly, the approach in HPC is to distribute the work across a cluster of machines, which access a shared filesystem, hosted by a SAN. This works well for predominantly compute-intensive jobs, but becomes a problem when nodes need to access larger data volumes (hundreds of gigabytes, the point at which MapReduce really starts to shine), since the network bandwidth is the bottleneck and compute nodes become idle.



我的问题是:
  • 将Hadoop与相对少量的数据和/或计算机一起使用时,Hadoop是否有相当大的开销?
  • 是否有另一个框架可以以接近Hadoop的任何方式提供容错处理?
  • 最佳答案

    Hadoop将从操作 Angular (仍在进行主要开发和变更的新系统)引入环境中的开销。具有多个服务器和磁盘的集群,必须维护;等等,还有计算开销-可以说,“唤醒大象”要花费一些时间,如果工作需要一个小时,则可以忽略不计,但是如果您希望工作在1分钟以内结束,则可以忽略不计。

    如今,特别是1GB甚至50GB的数据就可以容纳在内存中,因此多线程单服务器解决方案可以更加有效地...

    关于hadoop - 对于数据量不太大的系统,Hadoop是否会有开销?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16261414/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com