gpt4 book ai didi

python - 如何使用 hbase 作为 hadoop 流作业的源

转载 作者:可可西里 更新时间:2023-11-01 16:15:18 25 4
gpt4 key购买 nike

有什么方法可以使用 Hbase 表作为 Hadoop 流作业的源吗?具体来说,我想运行一个用 Python 编写的 Hadoop 流作业。当输入被指定为 HDFS 上的文件夹时,这很有效。但是我找不到任何关于从 Hbase 表中读取数据的文档。

这是否受支持?或者我将不得不经历编写 Java 代码以首先将数据从 Hbase 获取到 HDFS 然后运行流式处理作业的考验?

我使用的是 Cloudera 的 Hbase 0.94。

(有一个类似的问题 already present here。但它指向第三方解决方案,没有积极贡献。我希望 Hbase 会支持它)。

最佳答案

我会使用 Pig 加载数据,然后将其提供给流式 Python 应用程序。

看这里: http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream

关于python - 如何使用 hbase 作为 hadoop 流作业的源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22704828/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com