gpt4 book ai didi

apache-spark - 如何使用 Apache spark 作为查询引擎?

转载 作者:行者123 更新时间:2023-12-04 05:28:02 25 4
gpt4 key购买 nike

我正在使用 Apache Spark 进行大数据处理。数据从平面文件源或 JDBC 源加载到数据帧。作业是使用 spark sql 从数据框中搜索特定记录。

所以我必须一次又一次地运行作业以获取新的搜索词。每次我必须使用 spark submit 提交 Jar 文件以获得结果。 由于数据大小为 40.5 GB,因此每次都将相同的数据重新加载到数据框以获取不同查询的结果变得乏味

所以我需要的是,

  • a way if i can load the data in data frame once and query it multiple time with out submitting the jar multiple times ?
  • if we could use spark as a search engine/ query engine?
  • if we can load the data into data frame once and query the data frame remotely using RestAP

> The current configuration of My Spark Deployment is

  • 5 node cluster.
  • runs on yarn rm.

我曾尝试使用 spark-job 服务器,但它每次都会运行该作业。

最佳答案

您可能对 HiveThriftServer 感兴趣和 Spark 集成。

基本上,您启动一​​个 Hive Thrift 服务器并从 SparkContext 注入(inject)您的 HiveContext 构建:

...
val sql = new HiveContext(sc)
sql.setConf("hive.server2.thrift.port", "10001")
...
dataFrame.registerTempTable("myTable")
HiveThriftServer2.startWithContext(sql)
...

有几个客户端库和工具可以查询服务器: https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients

包括 CLI 工具 - beeline

引用: https://medium.com/@anicolaspp/apache-spark-as-a-distributed-sql-engine-4373e254e0f9#.3ntbhdxvr

关于apache-spark - 如何使用 Apache spark 作为查询引擎?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39490415/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com