gpt4 book ai didi

apache-spark - SparkSQL 与 Hive on Spark - 区别和优缺点?

转载 作者:可可西里 更新时间:2023-11-01 14:07:21 28 4
gpt4 key购买 nike

SparkSQL CLI 在内部使用 HiveQL,如果 Hive on spark(HIVE-7292),hive 使用 spark 作为后端引擎。有人可以更清楚地说明这两种情况到底有何不同以及两种方法的优缺点吗?

最佳答案

  1. 当SparkSQL使用hive时

    SparkSQL 可以使用HiveMetastore 获取存储在HDFS 中的数据的元数据。此元数据使 SparkSQL 能够更好地优化它执行的查询。这里的 Spark 是查询处理器。

  2. 当 Hive 使用 Spark 时 See the JIRA entry: HIVE-7292

    这里的数据是通过 spark 访问的。 Hive 是查询处理器。所以我们可以利用 Spark Core 的所有设计特性。但这是 Hive 的一项重大改进,截至 2016 年 2 月 2 日仍在“进行中”。

  3. 还有第三种选择是使用 SparkSQL 处理数据

    在不使用 Hive 的情况下使用 SparkSQL。此处 SparkSQL 无权访问 Hive Metastore 中的元数据。而且查询运行得更慢。我做了一些比较选项 1 和 3 的性能测试。结果是 here .

关于apache-spark - SparkSQL 与 Hive on Spark - 区别和优缺点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31611744/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com