gpt4 book ai didi

batch-file - MapReduce 还是批处理作业?

转载 作者:行者123 更新时间:2023-12-03 18:53:28 27 4
gpt4 key购买 nike

我有一个需要在很多文件(1000 个)上调用的函数。每个都独立于另一个,并且可以并行运行。每个文件的函数输出不需要(当前)与其他文件组合。我有很多服务器可以扩展它,但我不知道该怎么做:

1) 在其上运行 MapReduce

2) 创建 1000 个作业(每个作业都有不同的文件)。

一种解决方案会比另一种更可取吗?

谢谢!

最佳答案

MapReduce 将为分发大型数据集工作负载提供重要值(value)。在您的情况下,在小型独立数据文件上进行较小的独立作业,我认为这可能是矫枉过正。

所以,我宁愿运行一堆动态创建的批处理文件。

或者,或者,使用集群管理器和作业调度程序,例如 SLURM https://computing.llnl.gov/linux/slurm/

SLURM: A Highly Scalable Resource Manager

SLURM is an open-source resource manager designed for Linux clustersof all sizes. It provides three key functions. First it allocatesexclusive and/or non-exclusive access to resources (computer nodes) tousers for some duration of time so they can perform work. Second, itprovides a framework for starting, executing, and monitoring work(typically a parallel job) on a set of allocated nodes. Finally, itarbitrates contention for resources by managing a queue of pendingwork.

关于batch-file - MapReduce 还是批处理作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6660037/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com