gpt4 book ai didi

docker - 评估Hadoop性能所需的数据大小

转载 作者:行者123 更新时间:2023-12-02 19:54:36 25 4
gpt4 key购买 nike

我正在使用Docker容器在一台机器上运行具有3个数据节点的Hadoop。我已经在具有200个数据点的小型模拟数据集上运行了KMeans算法。

由于Hadoop的开销,该过程需要很长时间,大约需要2到3分钟,而在R中本地运行kmeans则需要几秒钟。

我想知道,对于Hadoop,我的数据集必须有多大才能胜过非分布式方法,并且是否有可能,因为我是在一台机器上运行所有节点。

最佳答案

可用于处理数据的内核和RAM的数量比数据本身的数量更为重要,因此限制容器内的Hadoop作业实际上是在那些容器内运行很少的JVM容器。因此,可以预期的是,赋予一台完整的计算机访问权限以处理相同数量的数据将更有可能更快地处理数据,而且我敢肯定,有一种方法可以在不使用Hadoop的情况下编写相同的分布式算法

除此之外,如果数据本身不可拆分或小于hdfs块大小,则无论如何它只能由单个mapreduce任务处理。您没有提到大小,但我怀疑200个数据点最多只有几MB

关于docker - 评估Hadoop性能所需的数据大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58769846/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com