gpt4 book ai didi

apache-spark - SparkSQL到底是什么?

转载 作者:行者123 更新时间:2023-12-04 04:06:24 24 4
gpt4 key购买 nike

我对整个“大数据”技术世界还很陌生,最近开始阅读有关 Spark 的内容。不断出现的一件事是 SparkSQL,但我一直无法理解它究竟是什么。

是否应该将 SQL 查询转换为 MapReduce 以对您提供的数据进行操作?但是,就功能而言,数据框本质上不就是 SQL 表吗?

或者是某种允许您连接到 SQL 数据库并使用 Spark 查询它的技术?在这种情况下,这里的 Spark 有什么意义——为什么不直接使用 SQL?还是您可以将结构化 SQL 数据与平面数据结合使用?

再次强调,我对所有这一切都很陌生,可能会也可能不会说出我的屁股:)。所以请务必纠正我,如果您发现我明显误解了某些内容,请多多包涵。

最佳答案

您的第一个答案基本上是正确的,它是 Spark 中的一个 API,您可以在其中用 SQL 编写查询并将它们转换为并行化的 Spark 作业(Spark 可以执行比映射和归约更复杂的操作类型)。 Spark 数据帧实际上只是此 API 的包装器,它只是访问 API 的另一种方式,具体取决于您更习惯使用 SQL 还是使用 Python/Scala 进行编码。

关于apache-spark - SparkSQL到底是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34846900/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com