gpt4 book ai didi

hadoop - 将大量 reducer 输出写入 HBase

转载 作者:可可西里 更新时间:2023-11-01 14:38:35 26 4
gpt4 key购买 nike

我有一个 Hadoop MapReduce 作业,其输出是一个 row-id 以及对该 row-id 的 Put/Delete 操作。由于问题的性质,输出量相当大。我们尝试了几种方法将这些数据取回 HBase,但都失败了...

表格 reducer

这是减慢速度的方式,因为它似乎必须对每一行进行一次完整的往返。由于我们的 reducer 步骤的键排序方式,row-id 不太可能与 reducer 在同一节点上。

完成批量加载

这似乎需要很长时间(永远不会完成)并且没有真正说明原因。 IO 和 CPU 使用率都非常低。

我是否漏掉了一些明显的东西?

最佳答案

我从你对自己的回答中看到你解决了你的问题,但为了完整起见,我会提到还有另一种选择——直接写入 hbase。我们有一个设置,我们将数据流式传输到 HBase 中,并通过适当的键和区域拆分,每个节点每秒获得超过 15,000 条 1K 记录

关于hadoop - 将大量 reducer 输出写入 HBase,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21742870/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com