gpt4 book ai didi

hadoop - 用于非MapReduce算法的Hadoop集群并行

转载 作者:行者123 更新时间:2023-12-02 21:54:30 25 4
gpt4 key购买 nike

Apache Hadoop受Google MapReduce论文的启发。 MapReduce的流程可以视为两组SIMD(单指令多数据),一组用于Mappers,另一组用于Reducers。约简器通过预定义的“键”消耗Mappers的输出。 MapReduce框架(和Hadoop)的本质是自动对数据进行分区,确定分区和并行作业的数量以及管理分布式资源。

我有一个通用算法(不一定是MapReducable)可以并行运行。我没有在MapReduce方式中实现算法本身。相反,该算法只是单机python / java程序。我想并行运行此程序的64个副本(假设程序中没有并发问题)。也就是说,我对Hadoop集群中的计算资源比对MapReduce框架更感兴趣。无论如何,我可以以这种旧方式使用Hadoop集群吗?

最佳答案

关于MapReduce的另一种思考方式是MR进行转换,而Reduce进行某种聚合。

Hadoop还允许仅Map作业。这样,应该可以并行运行64个Map程序副本。

Hadoop具有插槽的概念。默认情况下,每个节点/机器将有2个映射和2个reduce插槽。因此,对于64个并行进程,需要32个节点。如果节点是高端配置,则每个节点的M / R插槽数也可以增加。

关于hadoop - 用于非MapReduce算法的Hadoop集群并行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15914734/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com