gpt4 book ai didi

使用 HBase 作为数据接收器的 Hadoop 流式传输

转载 作者:可可西里 更新时间:2023-11-01 14:49:06 24 4
gpt4 key购买 nike

我们的研究小组设置并运行了 Hadoop 和 HBase。

最近在用Hadoop streaming(只有mappers)处理数据,想用HBase做data sink。我觉得我可以将-outputformat设置为TableOutFormat。但是在网上搜索了一段时间后,我发现具体操作可能需要很长时间才能弄清楚。

下面是我的试用版:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-outputformat HBaseLibDir/TableOutFormat \
-mapper myMapperScript \
-numReduceTasks 0

有经验的人可以教我怎么做吗?包括要在 myMapperScript 中更改的内容,以及传入的用于初始化流作业的参数。

最佳答案

来自 HBase 邮件列表的回答:

Cannot do Hadoop streaming output (directly) to HBase. Use REST/Thrift API instead.

关于使用 HBase 作为数据接收器的 Hadoop 流式传输,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32899527/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com