gpt4 book ai didi

hadoop - 使用 Impala 访问 Hbase 表时,所有 SQL 操作是否都有效?

转载 作者:可可西里 更新时间:2023-11-01 14:32:59 31 4
gpt4 key购买 nike

HBase 不允许对其表进行连接操作。为了克服这个问题,我计划创建 HBase 表并通过 Impala 访问它。

Impala 允许所有连接以及分组依据和其他 SQL 操作。我对此几乎没有疑问-

  1. 有人测试过这种方法吗?

  2. 所有可用的 SQL 操作是否同样有效impala 与 Hive 一起工作?

我试图在cloudera的文档中找到答案,但没有明确的答案。

最佳答案

“明确答案”一词取决于您要查找的参数...

Q1 : Has anyone tested this approach?

  • 是的,Impala 的这种方法 - hbase 外部表是可行的,因为我们已经为即席查询做了同样的事情。然而,我们的系统还没有被产物电离。一件事是我们正在使用 Impala(Hbase 外部表)在我们的数据摄取步骤通过 spark steaming 之后查询(如您提到的那样使用连接和分组)原始数据(即临时查询,在进行任何处理之前......)。由于我们使用的是 cloudera,我们的选择是显而易见的,即 impala 以实现更快的响应。早些时候我们曾经对 Hive(Hbase 外部表)做同样的事情。

注意(外部表上下文中的附加信息):

  • Impala 不会取代 Hive,它适用于非常不同的用例。与 Hive 相比,Impala 不提供容错功能,因此如果在您的查询过程中出现问题,那么它就消失了。用户必须重新发出查询。对于 FT 至关重要的 ETL 工作,Hive 非常适合。

  • Impala 比 Apache Hive 更快,但这并不意味着它是解决所有大数据问题的一站式 SQL 解决方案。 Impala 是内存密集型的,不能有效地运行连接等繁重的数据操作,因为不可能将所有内容都推送到内存中。这是 Hive 来救援的时候。如果应用程序对大数据有批处理需求,那么组织必须选择 Hive。如果他们需要实时处理对数据子集的临时查询,那么 Impala 是更好的选择。

Q2 : Will all SQL operation available work equally well as impala works with Hive?

有关此 article 的更多信息,请参见下图由于我不应该在 SO 中使用纯链接,因此我使用已发布文章中的图表来更好地理解。 additional information about impala & hive for decision support

关于hadoop - 使用 Impala 访问 Hbase 表时,所有 SQL 操作是否都有效?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38126278/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com