gpt4 book ai didi

hadoop - 在 MRJob 中连接 HIVE

转载 作者:行者123 更新时间:2023-12-02 21:09:13 25 4
gpt4 key购买 nike

场景是我需要处理一个文件(输入),对于每条记录,我需要检查输入文件中的某些字段是否与存储在 Hadoop 集群中的字段匹配。

我们正在考虑使用 MRJob 处理输入文件并使用 HIVE 从 hadoop 集群中获取数据。我想知道我是否可以在 MRJob 模块内连接 HIVE。如果是这样怎么做?

如果不是,那将是满足我要求的理想方法。

我是 Hadoop、MRJob 和 Hive 的新手。

请提供一些建议。

最佳答案

“匹配存储在 Hadoop 集群中的字段。” --> 你的意思是你需要搜索这个文件中是否也存在这些字段?

您总共需要扫描多少个文件?

一种解决方案是加载 HBase 表中的每一项以及输入文件中的每条记录,从表中“获取”记录。如果 GET 成功,则记录存在于 HDFS 的其他位置,否则不存在。每个 HBase 记录都需要一个唯一标识符,并且输入文件中也应该存在相同的标识符。

您也可以连接到 Hive,但架构需要是刚性的,以便您的所有 HDFS 文件能够加载到单个 Hive 表中。 HBase 并不真正关心列(仅需要 ColumnFamilies)。 MapReduce 和 Hive 的另一个缺点是速度将低于 HBase(接近实时)。

希望这可以帮助。

关于hadoop - 在 MRJob 中连接 HIVE,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40855118/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com