- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 SparkSession 将文件的 JSON 数据转换为带有 Spark Notebook 的 RDD。我已经有了 JSON 文件。
val spark = SparkSession
.builder()
.appName("jsonReaderApp")
.config("config.key.here", configValueHere)
.enableHiveSupport()
.getOrCreate()
val jread = spark.read.json("search-results1.json")
config.key.here
和
configValueHere
.
最佳答案
Spark session
要获取 SparkSession 的所有“作为键值对的各种 Spark 参数”,“使用 Dataset 和 DataFrame API 编程 Spark 的入口点”,运行以下命令(这是使用 Spark Python API,Scala 将非常相似) .
import pyspark
from pyspark import SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
SparkConf().getAll()
或不导入
SparkConf
:
spark.sparkContext.getConf().getAll()
根据您使用的 API,请参阅以下内容之一:
spark.sparkContext._conf.getAll()
Spark 上下文
import pyspark
from pyspark import SparkConf, SparkContext
spark_conf = SparkConf().setAppName("test")
spark = SparkContext(conf = spark_conf)
SparkConf().getAll()
根据您使用的 API,请参阅以下内容之一:
[(u'spark.eventLog.enabled', u'true'),
(u'spark.yarn.appMasterEnv.PYSPARK_PYTHON', u'/<yourpath>/parcels/Anaconda-4.2.0/bin/python'),
...
...
(u'spark.yarn.jars', u'local:/<yourpath>/lib/spark2/jars/*')]
根据您使用的 API,请参阅以下内容之一:
("spark.some.config.option", "some-value")
您可以在您的应用程序中设置:
spark = (
SparkSession
.builder
.appName("Your App Name")
.config("spark.some.config.option1", "some-value")
.config("spark.some.config.option2", "some-value")
.getOrCreate())
sc = spark.sparkContext
Spark 上下文
spark_conf = (
SparkConf()
.setAppName("Your App Name")
.set("spark.some.config.option1", "some-value")
.set("spark.some.config.option2", "some-value"))
sc = SparkContext(conf = spark_conf)
Spark 默认值
spark-defaults.conf
中设置 Spark 参数。文件:
spark.some.config.option1 some-value
spark.some.config.option2 "some-value"
然后使用
spark-submit
运行您的 Spark 应用程序(pyspark):
spark-submit \
--properties-file path/to/your/spark-defaults.conf \
--name "Your App Name" \
--py-files path/to/your/supporting/pyspark_files.zip \
--class Main path/to/your/pyspark_main.py
关于json - 什么是 SparkSession 配置选项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43024766/
我正在学习 Spark,对 Spark 的目录感到困惑。 我在SparkSession中找到了一个catalog,它是CatalogImpl的一个实例,如下 /** * Interface
我在 main() 中创建了一个 session 函数,像这样: val sparkSession = SparkSession.builder.master("local[*]").appName(
我创建了一个本地Spark集群和一个Spark session ,如下所示 val sparkConf = new SparkConf(true).setAppName("test").setMast
在我的应用程序中,我正在创建一个 SparkSession对象,然后尝试读取我的属性文件并在运行时设置属性。但它没有选择我在运行时传递的属性。 我正在以 YARN 集群模式提交我的应用程序 这是我在
如何在Java中使用builder创建sparkSession?我已经尝试过这个: sparkSession = SparkSession.builder() .master("local[*
我有一个 pyspark 2.0.0 脚本,其中定义了以下 session : spark = SparkSession \ .builder \ .appName("Python S
我的操作系统是 windows 10 from pyspark.conf import SparkConf sc = SparkContext.getOrCreate() spark = SparkS
我正在尝试运行一个简单的 Spark Structured Streaming 作业,但是在 SparkSession 上调用 getOrCreate() 时出现错误... 我这样创建 SparkSe
我的 Spark 代码充斥着这样的代码 object Transformations { def selectI(df:DataFrame) : DataFrame = { //
如何创建 sparksession? scala> import org.apache.spark.SparkConf import org.apache.spark.SparkConf scala>
我正在尝试使用 SparkSession 将文件的 JSON 数据转换为带有 Spark Notebook 的 RDD。我已经有了 JSON 文件。 val spark = SparkSession
下面2个有什么区别? object Example1 { def main(args: Array[String]): Unit = { try { v
我的 spark 应用程序中有一个从 MySQL 数据库加载数据的方法。该方法看起来像这样。 trait DataManager { val session: SparkSession def loa
我将https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/ml/R
当我启动 pyspark 时,会自动生成一个 SparkSession 并作为“spark”提供。我想打印/查看 spark session 的详细信息,但在访问这些参数时遇到很多困难。 Pyspar
我有一些单元测试需要有自己的 sparkSession。我扩展了 SQLTestUtils,并覆盖了在许多其他 Spark 单元测试中使用的 beforeAll 和 afterAll 函数(来自源代码
我想创建一个 pyspark 数据框,其中一列指定名称包含一系列整数(这是为了输入 ALS 模型的 suggestForUserSubset 方法)。 所以我使用范围创建了一个整数列表,并发现 thi
I cannot import SparkSession from pyspark.sql,but i can import Row 我的spark-1.6.0-bin-hadoop2.6安装在doc
我在本地机器上运行 spark 2、hive、hadoop,我想使用 spark sql 从 hive 表中读取数据。 当我在默认 hdfs://localhost:9000 下运行 hadoop 时
我有一个pyspark程序,有多个独立的模块,每个模块都可以独立处理数据,以满足我的各种需求。但它们也可以链接在一起以在管道中处理数据。这些模块中的每一个都构建一个 SparkSession 并自行完
我是一名优秀的程序员,十分优秀!