gpt4 book ai didi

scala - 在 Scala Spark 和 PySpark 之间传递 sparkSession

转载 作者:行者123 更新时间:2023-12-04 13:40:19 30 4
gpt4 key购买 nike

我的要求是从现有的 PySpark 程序调用“Spark Scala”函数。
将 PySpark 程序中创建的 sparkSession 传递给 Scala 函数的最佳方法是什么。
我将我的 Scala jar 传递给 Pyspark,如下所示。

spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data

斯卡拉码
def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = {

import spark.implicits._

val df = spark.sql(query)

df

}

代码
if __name__ == '__main__':

query = sys.argv[1]

spark = SparkSession \
.builder \
.appName("PySpark using Scala example") \
.getOrCreate()

log4jLogger = sc._jvm.org.apache.log4j

log = log4jLogger.LogManager.getLogger(__name__)

query_df = DataFrame(sc._jvm.com.crowdstrike.dsci.sparkjobs.PythonHelper.getDf(???, query, ???), sqlContext)



如何将 sparksession 和记录器传递给 getDf ?

https://www.crowdstrike.com/blog/spark-hot-potato-passing-dataframes-between-scala-spark-and-pyspark/

最佳答案

要将 SparkSession 从 Python 传递到 Scala,请使用 spark._jsparkSession .

关于scala - 在 Scala Spark 和 PySpark 之间传递 sparkSession,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58185042/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com