gpt4 book ai didi

json - 什么是 SparkSession 配置选项

转载 作者:行者123 更新时间:2023-12-04 01:31:42 29 4
gpt4 key购买 nike

我正在尝试使用 SparkSession 将文件的 JSON 数据转换为带有 Spark Notebook 的 RDD。我已经有了 JSON 文件。

 val spark = SparkSession
.builder()
.appName("jsonReaderApp")
.config("config.key.here", configValueHere)
.enableHiveSupport()
.getOrCreate()
val jread = spark.read.json("search-results1.json")

我对 spark 很陌生,不知道该用什么 config.key.hereconfigValueHere .

最佳答案

Spark session
要获取 SparkSession 的所有“作为键值对的各种 Spark 参数”,“使用 Dataset 和 DataFrame API 编程 Spark 的入口点”,运行以下命令(这是使用 Spark Python API,Scala 将非常相似) .

import pyspark
from pyspark import SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
SparkConf().getAll()
或不导入 SparkConf :
spark.sparkContext.getConf().getAll()
根据您使用的 API,请参阅以下内容之一:
  • https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/SparkSession.html
  • https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.SparkSession.html
  • https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/SparkSession.html

  • 您可以通过运行以下代码获得更深层次的 SparkSession 配置选项列表。大多数是相同的,但还有一些额外的。我不确定你是否可以改变这些。
    spark.sparkContext._conf.getAll()  
    Spark 上下文
    要获取 SparkContext 的所有“作为键值对的各种 Spark 参数”,“Spark 功能的主要入口点”……“连接到 Spark 集群”……以及“创建 RDD、累加器和在该集群上广播变量,”运行以下命令。
    import pyspark
    from pyspark import SparkConf, SparkContext
    spark_conf = SparkConf().setAppName("test")
    spark = SparkContext(conf = spark_conf)
    SparkConf().getAll()
    根据您使用的 API,请参阅以下内容之一:
  • https://spark.apache.org/docs/latest/api/scala/org/apache/spark/SparkContext.html
  • https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.html
  • https://spark.apache.org/docs/latest/api/java/org/apache/spark/SparkContext.html

  • Spark 参数
    您应该得到一个包含“作为键值对的各种 Spark 参数”的元组列表,类似于以下内容:
    [(u'spark.eventLog.enabled', u'true'),
    (u'spark.yarn.appMasterEnv.PYSPARK_PYTHON', u'/<yourpath>/parcels/Anaconda-4.2.0/bin/python'),
    ...
    ...
    (u'spark.yarn.jars', u'local:/<yourpath>/lib/spark2/jars/*')]
    根据您使用的 API,请参阅以下内容之一:
  • https://spark.apache.org/docs/latest/api/scala/org/apache/spark/SparkConf.html
  • https://spark.apache.org/docs/latest//api/python/reference/api/pyspark.SparkConf.html
  • https://spark.apache.org/docs/latest/api/java/org/apache/spark/SparkConf.html

  • 有关 Spark 属性的完整列表,请参阅:
    http://spark.apache.org/docs/latest/configuration.html#viewing-spark-properties
    设置 Spark 参数
    每个元组是 ("spark.some.config.option", "some-value")您可以在您的应用程序中设置:
    Spark session
    spark = (
    SparkSession
    .builder
    .appName("Your App Name")
    .config("spark.some.config.option1", "some-value")
    .config("spark.some.config.option2", "some-value")
    .getOrCreate())

    sc = spark.sparkContext
    Spark 上下文
    spark_conf = (
    SparkConf()
    .setAppName("Your App Name")
    .set("spark.some.config.option1", "some-value")
    .set("spark.some.config.option2", "some-value"))

    sc = SparkContext(conf = spark_conf)
    Spark 默认值
    您还可以在 spark-defaults.conf 中设置 Spark 参数。文件:
    spark.some.config.option1 some-value
    spark.some.config.option2 "some-value"
    然后使用 spark-submit 运行您的 Spark 应用程序(pyspark):
    spark-submit \
    --properties-file path/to/your/spark-defaults.conf \
    --name "Your App Name" \
    --py-files path/to/your/supporting/pyspark_files.zip \
    --class Main path/to/your/pyspark_main.py

    关于json - 什么是 SparkSession 配置选项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43024766/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com