gpt4 book ai didi

hadoop - 有什么方法可以控制在 Hadoop MapReduce 框架中启动哪个节点 reducer ?

转载 作者:可可西里 更新时间:2023-11-01 14:54:37 25 4
gpt4 key购买 nike


简而言之 我需要一种方法来向 Hadoop MapRedice API 提供提示,告诉我希望在哪个主机上运行基于其分区的特定 reducer。有什么办法吗?

有点长的故事:
我很少有映射器任务为某些 HBase 表生成(或从其他来源导入)记录。发出的记录以 ImmutableBytesWritable 作为键。此作业的 reducer 数量与表区域的数量完全匹配,自定义分区器用于分发记录,以便每个区域的记录都到达适当的 reducer。

Reducer 旨在生成 HFile 图像,每个区域一个图像,以便稍后可以在它们上使用批量加载。这里唯一严重的问题是我希望 reducer 至少在适当的区域服务器正在运行的相同主机上“尝试运行”。这是为了获得为适当的 HBase 区域服务器生成 HFiles 局部性(就 HDFS 而言)的良好概率。

知道如何获得这种行为吗?

替代方案可能是如何“请求”HDFS 文件以“获取本地”。有了这个,我可以开始另一个 MR 作业,映射器绑定(bind)到区域服务器(通过拆分)并请求相应的 HFileget local

最佳答案

目前还没有开箱即用的方法来执行此操作,除非编写自定义调度程序,否则就太过分了。

上游工单确实在 https://issues.apache.org/jira/browse/MAPREDUCE-199 跟踪此功能请求.

关于hadoop - 有什么方法可以控制在 Hadoop MapReduce 框架中启动哪个节点 reducer ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17316105/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com