gpt4 book ai didi

hadoop - 我可以在 Hadoop 中将 HCatInputFormat 与 MultipleInputs 一起使用吗?

转载 作者:可可西里 更新时间:2023-11-01 14:38:28 29 4
gpt4 key购买 nike

我正在尝试连接两个数据集,一个存储在 Hive 表中,另一个不存储。根据人们的做法,我看到这不是很正常,因为他们要么将所有内容定义为 Hive 表,要么不定义。

现在有 MultipleInputs 类,但是 addInputPath 方法采用 Configuration、Path、InputFormat、Mapper

我可以在那里使用输入格式并尝试将表名伪装成路径,但这充其量听起来像是一个疯狂的猜测。

有一个更新版本的 Hive 的补丁(我在 CDH4 上,所以很遗憾,这意味着 hive 0.10 和 hcat 0.5)。我发现这个补丁不能直接翻译成我当前的版本,而且似乎只适用于多个表,而不是它们的混合。

https://issues.apache.org/jira/browse/HIVE-4997

这可能吗?您有什么建议吗?

我唯一能想到的是在不使用表格的情况下读取原始数据,但这意味着我宁愿避免使用 Hive 特定格式的逻辑。

最佳答案

HCatMultipleInputs 可用于读取多个配置单元表。

这是一个补丁(适用于 0.13),我们可以安装它以支持多表。它有 HCatMultipleInputs 来支持多个配置单元表。

https://issues.apache.org/jira/i#browse/HIVE-4997

 Example useage:HCatMultipleInputs.addInput(job,Table1, db1, properites1, Mapper1.class);

您可以使用以下链接中的工作代码: https://github.com/abhirj87/training/tree/master/multipleinputs

关于hadoop - 我可以在 Hadoop 中将 HCatInputFormat 与 MultipleInputs 一起使用吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23695592/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com