gpt4 book ai didi

Hadoop 自定义分区器

转载 作者:可可西里 更新时间:2023-11-01 14:54:41 31 4
gpt4 key购买 nike

我想知道以下方面是否可以在 Hadoop 中完成:

假设我有 3 台机器,它将运行 3 个 map 函数和 3 个 reduce 函数,在正常情况下,每台机器上运行一个 map 和一个 reduce 函数。我有一组键:A、B、C、D、E、F、G、H、I。

在映射阶段之后,是否可以强制所有具有键 A、B、C 的值将始终驻留在机器 1 上,而所有具有键 D、E、F 的值将始终驻留在机器 2 等?

目前我使用基于hash(key) 的分区器。此作业将运行不止一次,我不想在机器 1 上只在机器 3 上使用键 G、H、I 的值。

最佳答案

使用自定义分区器,您可以定义 A、B 和 C 都将发送到同一个 reducer,但您无法控制集群中的哪个节点将实际运行该 reduce 任务。

您还应该注意,即使您定义 A、B 和 C 都将被发送到同一个 reducer,D、E 和 F 也可能会被发送到同一个 reducer - 如果您只配置一个例如单个 reducer 。

关于Hadoop 自定义分区器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16495938/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com