gpt4 book ai didi

hadoop - 针对不同映射器的 HBase MapReduce 拆分扫描

转载 作者:可可西里 更新时间:2023-11-01 15:17:45 26 4
gpt4 key购买 nike

我正在努力以正确的方式为多个 map task 分配我的 HBase 行。我的目标是通过行键拆分我的扫描,并将一组行分别分配给 map 作业。

到目前为止,我只能定义一个扫描,其中我的映射器一次总是获取一行。但这不是我想要的 - 我需要 map-input set-wise。

那么是否有可能拆分我的 HBase 表 resp。扫描成 n 组行,然后输入 n 个映射器?

我不是在寻找一种解决方案来启动一个 MapReduce 作业来编写 n 个文件,然后另一个 MapReduce 作业将它们作为文本输入再次读回以获取这些集合。

提前致谢!

最佳答案

Mappers 每次总是获取一行——这就是 map-reduce 的工作方式如果你想在 map 端与多行相关,你可以自己做(例如使用一些静态变量等)或将逻辑编写为 combiner这是 map 端的“减少”步骤。

请注意,您仍然需要一个 reducer 来处理相关键由不同映射器处理的边缘情况——因为在 hbase 中键是在磁盘上排序的,您只能在拆分的结束/开始时得到它。您可以通过预拆分来降低发生这种情况的风险

关于hadoop - 针对不同映射器的 HBase MapReduce 拆分扫描,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16083570/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com