json - 什么是 SparkSession 配置选项-6ren

json - 什么是 SparkSession 配置选项

转载作者：行者123 更新时间：2023-12-04 01:31:42

29

4

我正在尝试使用 SparkSession 将文件的 JSON 数据转换为带有 Spark Notebook 的 RDD。我已经有了 JSON 文件。

 val spark = SparkSession
   .builder()
   .appName("jsonReaderApp")
   .config("config.key.here", configValueHere)
   .enableHiveSupport()
   .getOrCreate()
val jread = spark.read.json("search-results1.json")

我对 spark 很陌生，不知道该用什么 config.key.here和 configValueHere .

最佳答案

Spark session
要获取 SparkSession 的所有“作为键值对的各种 Spark 参数”，“使用 Dataset 和 DataFrame API 编程 Spark 的入口点”，运行以下命令(这是使用 Spark Python API，Scala 将非常相似) .

import pyspark
from pyspark import SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
SparkConf().getAll()

或不导入 SparkConf :

spark.sparkContext.getConf().getAll()

根据您使用的 API，请参阅以下内容之一:

https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/SparkSession.html

https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.SparkSession.html

https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/SparkSession.html

您可以通过运行以下代码获得更深层次的 SparkSession 配置选项列表。大多数是相同的，但还有一些额外的。我不确定你是否可以改变这些。

spark.sparkContext._conf.getAll()

Spark 上下文
要获取 SparkContext 的所有“作为键值对的各种 Spark 参数”，“Spark 功能的主要入口点”……“连接到 Spark 集群”……以及“创建 RDD、累加器和在该集群上广播变量，”运行以下命令。

import pyspark
from pyspark import SparkConf, SparkContext 
spark_conf = SparkConf().setAppName("test")
spark = SparkContext(conf = spark_conf)
SparkConf().getAll()

根据您使用的 API，请参阅以下内容之一:

https://spark.apache.org/docs/latest/api/scala/org/apache/spark/SparkContext.html

https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.html

https://spark.apache.org/docs/latest/api/java/org/apache/spark/SparkContext.html

Spark 参数
您应该得到一个包含“作为键值对的各种 Spark 参数”的元组列表，类似于以下内容:

[(u'spark.eventLog.enabled', u'true'),
 (u'spark.yarn.appMasterEnv.PYSPARK_PYTHON', u'/<yourpath>/parcels/Anaconda-4.2.0/bin/python'),
 ...
 ...
 (u'spark.yarn.jars', u'local:/<yourpath>/lib/spark2/jars/*')]

根据您使用的 API，请参阅以下内容之一:

https://spark.apache.org/docs/latest/api/scala/org/apache/spark/SparkConf.html

https://spark.apache.org/docs/latest//api/python/reference/api/pyspark.SparkConf.html

https://spark.apache.org/docs/latest/api/java/org/apache/spark/SparkConf.html

有关 Spark 属性的完整列表，请参阅:
http://spark.apache.org/docs/latest/configuration.html#viewing-spark-properties
设置 Spark 参数
每个元组是 ("spark.some.config.option", "some-value")您可以在您的应用程序中设置:
Spark session

spark = (
    SparkSession
    .builder
    .appName("Your App Name")
    .config("spark.some.config.option1", "some-value")
    .config("spark.some.config.option2", "some-value")
    .getOrCreate())

sc = spark.sparkContext

Spark 上下文

spark_conf = (
    SparkConf()
    .setAppName("Your App Name")
    .set("spark.some.config.option1", "some-value")
    .set("spark.some.config.option2", "some-value"))

sc = SparkContext(conf = spark_conf)

Spark 默认值
您还可以在 spark-defaults.conf 中设置 Spark 参数。文件:

spark.some.config.option1 some-value
spark.some.config.option2 "some-value"

然后使用 spark-submit 运行您的 Spark 应用程序(pyspark):

spark-submit \
--properties-file path/to/your/spark-defaults.conf \
--name "Your App Name" \
--py-files path/to/your/supporting/pyspark_files.zip \
--class Main path/to/your/pyspark_main.py

关于json - 什么是 SparkSession 配置选项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43024766/

29

4

0

文章推荐： hibernate - 如何在 spring data jpa 中使用预测和规范？

文章推荐： sql-server - SQL 无法选择带有特殊字符的行

文章推荐： visual-studio - Visual Studio 2017 安装程序在解压后无法运行

apache-spark - SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别？
我正在学习 Spark，对 Spark 的目录感到困惑。我在SparkSession中找到了一个catalog，它是CatalogImpl的一个实例，如下 /** * Interface
scala - 如何在代码的任何位置获取当前 SparkSession？
我在 main() 中创建了一个 session 函数，像这样: val sparkSession = SparkSession.builder.master("local[*]").appName(
scala - sparkSession.sparkContext对于本地Spark集群为null
我创建了一个本地Spark集群和一个Spark session ，如下所示 val sparkConf = new SparkConf(true).setAppName("test").setMast
scala - SparkSession 不接受运行时配置
在我的应用程序中，我正在创建一个 SparkSession对象，然后尝试读取我的属性文件并在运行时设置属性。但它没有选择我在运行时传递的属性。我正在以 YARN 集群模式提交我的应用程序这是我在
java - 使用生成器创建 SparkSession？
如何在Java中使用builder创建sparkSession？我已经尝试过这个: sparkSession = SparkSession.builder() .master("local[*
python - SparkSession 与上下文混淆
我有一个 pyspark 2.0.0 脚本，其中定义了以下 session : spark = SparkSession \ .builder \ .appName("Python S
hadoop - Sparksession 错误是关于配置单元的
我的操作系统是 windows 10 from pyspark.conf import SparkConf sc = SparkContext.getOrCreate() spark = SparkS
java - SparkSession 初始化抛出 ExceptionInInitializerError
我正在尝试运行一个简单的 Spark Structured Streaming 作业，但是在 SparkSession 上调用 getOrCreate() 时出现错误... 我这样创建 SparkSe
scala - 导入没有 SparkSession 实例的隐式转换
我的 Spark 代码充斥着这样的代码 object Transformations { def selectI(df:DataFrame) : DataFrame = { //
apache-spark - 如何导入 sparksession
如何创建 sparksession？ scala> import org.apache.spark.SparkConf import org.apache.spark.SparkConf scala>
json - 什么是 SparkSession 配置选项
我正在尝试使用 SparkSession 将文件的 JSON 数据转换为带有 Spark Notebook 的 RDD。我已经有了 JSON 文件。 val spark = SparkSession
scala - 如果 SparkSession 没有关闭会发生什么？
下面2个有什么区别？ object Example1 { def main(args: Array[String]): Unit = { try { v
scala - 模拟 SparkSession 进行单元测试
我的 spark 应用程序中有一个从 MySQL 数据库加载数据的方法。该方法看起来像这样。 trait DataManager { val session: SparkSession def loa
scala - NoClassDefFoundError:SparkSession-即使构建正常
我将https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/ml/R
python - 打印 SparkSession 配置选项
当我启动 pyspark 时，会自动生成一个 SparkSession 并作为“spark”提供。我想打印/查看 spark session 的详细信息，但在访问这些参数时遇到很多困难。 Pyspar
apache-spark - SparkSession 在单元测试之间没有正确关闭
我有一些单元测试需要有自己的 sparkSession。我扩展了 SQLTestUtils，并覆盖了在许多其他 Spark 单元测试中使用的 beforeAll 和 afterAll 函数(来自源代码
python - 如何使用 SparkSession 从列表创建数据框？
我想创建一个 pyspark 数据框，其中一列指定名称包含一系列整数(这是为了输入 ALS 模型的 suggestForUserSubset 方法)。所以我使用范围创建了一个整数列表，并发现 thi
python - "cannot import name SparkSession"
I cannot import SparkSession from pyspark.sql,but i can import Row 我的spark-1.6.0-bin-hadoop2.6安装在doc
hadoop - sparkSession/sparkContext 获取不到hadoop配置
我在本地机器上运行 spark 2、hive、hadoop，我想使用 spark sql 从 hive 表中读取数据。当我在默认 hdfs://localhost:9000 下运行 hadoop 时
python - 我怎样才能拆除一个 SparkSession 并在一个应用程序中创建一个新的？
我有一个pyspark程序，有多个独立的模块，每个模块都可以独立处理数据，以满足我的各种需求。但它们也可以链接在一起以在管道中处理数据。这些模块中的每一个都构建一个 SparkSession 并自行完

首页

博学

6Ren·AI

商城

json - 什么是 SparkSession 配置选项