gpt4 book ai didi

hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程?

转载 作者:可可西里 更新时间:2023-11-01 15:41:35 25 4
gpt4 key购买 nike

我的问题是:我应该自己关心映射器中的多重处理(从标准输入读取任务,然后将它们分配给工作进程,在主进程中组合结果并输出到标准输出)还是 Hadoop 会自动处理它?

我在 Hadoop Streaming 文档和 Amazon Elastic MapReduce 常见问题解答中都没有找到答案。

最佳答案

Hadoop 有一个“槽”的概念。 Slot 是 mapper 进程运行的地方。您配置每个 tasktracker 节点的槽数。它是映射进程的理论最大值,它将在每个节点上并行运行。如果没有足够的输入数据的单独 poprtions(称为 FileSplits),它可能会更少。
Elastic MapReduce 确实有自己的估计,根据实例功能分配多少槽。
同时,我可以想象当一个数据流被多个内核处理时,您的处理会更有效的场景。如果您的映射器具有内置多核使用功能 - 您可以减少插槽数量。但在典型的 Hadoop 任务中通常不会出现这种情况。

关于hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9123433/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com