gpt4 book ai didi

Hadoop:迭代 MapReduce 性能

转载 作者:可可西里 更新时间:2023-11-01 14:55:21 26 4
gpt4 key购买 nike

对于相同逻辑的非并行计算来说,主要是当训练数据量过大时,迭代MapReduce的并行计算是否合理?

我知道启动 MapReduce 作业会产生开销。当需要大量迭代时,这对于整体执行时间可能至关重要。

我可以想象,在许多情况下,只要内存允许保存数据集,顺序计算就会比使用迭代 MapReduce 的并行计算更快。

最佳答案

如果单台机器在大多数情况下完成工作,那么任何并行处理系统都没有多大意义。与大多数并行化任务相关的复杂性非常重要,需要有充分的理由来使用它。

即使很明显如果不在可接受的时间内进行并行处理就无法解决任务,并行执行框架也有不同的风格:从更底层的、面向科学的工具,如 PVM or MPI到高级、专用(例如 map/reduce)框架,如 Hadoop。

您应该考虑的参数包括启动时间和可扩展性(系统扩展接近线性的程度)。如果您需要快速获得答案,Hadoop 将不是一个好的选择,但如果您可以将您的流程放入 map-reduce 框架中,它可能是一个不错的选择。

关于Hadoop:迭代 MapReduce 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2662313/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com