scala - 如何同时使用 SparkSession 和 StreamingContext？-6ren

scala - 如何同时使用 SparkSession 和 StreamingContext？

转载作者：行者123 更新时间：2023-12-01 01:46:35

27

4

我正在尝试从本地计算机 (OSX) 上的文件夹中流式传输 CSV 文件。我将 SparkSession 和 StreamingContext 一起使用，如下所示:

val sc: SparkContext = createSparkContext(sparkContextName)
val sparkSess = SparkSession.builder().config(sc.getConf).getOrCreate()
val ssc = new StreamingContext(sparkSess.sparkContext, Seconds(time))

val csvSchema = new StructType().add("field_name",StringType)
val inputDF = sparkSess.readStream.format("org.apache.spark.csv").schema(csvSchema).csv("file:///Users/userName/Documents/Notes/MoreNotes/tmpFolder/")

如果我运行 ssc.start()在此之后，我收到此错误:

java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute

相反，如果我尝试启动 SparkSession像这样:

inputDF.writeStream.format("console").start()

我得到:

java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext.

显然我不明白如何 SparkSession和 StreamingContext应该一起工作。如果我摆脱 SparkSession , StreamingContext只有 textFileStream我需要在其上施加 CSV 模式。希望得到有关如何使其工作的任何澄清。

最佳答案

您不能同时进行 spark session 和 spark 上下文。随着 Spark 2.0.0 的发布，开发人员可以使用一个新的抽象——Spark Session——它可以像以前可用的 Spark Context 一样被实例化和调用。

您仍然可以从 spark session 构建器访问 spark 上下文:

 val sparkSess = SparkSession.builder().appName("My App").getOrCreate()
 val sc = sparkSess.sparkContext
 val ssc = new StreamingContext(sc, Seconds(time))

导致您的工作失败的另一件事是您正在执行转换并且没有调用任何操作。最后应该调用一些 Action ，例如 inputDF.show()

关于scala - 如何同时使用 SparkSession 和 StreamingContext？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49307317/

27

4

0

文章推荐： javascript - 循环遍历对象中的段落。如何？

scala - Spark 中的多个 StreamingContext
当两个进程启动时，我得到了类似的错误 java.lang.IllegalStateException: Only one StreamingContext may be started in this
scala - SparkContext 和 StreamingContext 可以共存于同一个程序中吗？
我正在尝试设置一个 Sparkstreaming 代码，它从 Kafka 服务器读取行，但使用另一个本地文件中编写的规则处理它。我正在为流数据创建streamingContext，为其他应用所有其他s
apache-spark - Spark StreamingContext awaitTerminationOrTimeout
我打电话 streamingContext.awaitTerminationOrTimeout(timeout) ，但我想制作 timeout环境依赖。这意味着如果我的环境是 UAT，我想停止我的工
.net - 如何为 DataContractSerializer 设置 StreamingContext？
我有一些类似这样的代码: [DataContract] class Foo { [OnSerializing] private void BeforeSerialize(Streami
apache-spark - 创建 StreamingContext 时出错
我打开 Spark shell spark-shell --packages org.apache.spark:spark-streaming-kafka_2.10:1.6.0 然后我想创建一个流上下
scala - 如何同时使用 SparkSession 和 StreamingContext？
我正在尝试从本地计算机 (OSX) 上的文件夹中流式传输 CSV 文件。我将 SparkSession 和 StreamingContext 一起使用，如下所示: val sc: SparkConte
c# - 如何将 StreamingContext 传递给 DataContractSerializer？
我正在尝试将一些数据传递到 DataContractSerializer 的 StreamingContext，但我不知道如何传递。这是我的代码的一小部分示例: MemoryStream stream
java - Spark Streaming StreamingContext 错误
我是一名 Java 老手，正在尝试学习 Scala + Spark Streaming。我下载了基于 Eclipse 的 Scala IDE + Spark 核心 jar + Spark Stream
hadoop - Spark Streaming StreamingContext 事件计数
spark docs状态: Only one StreamingContext can be active in a JVM at the same time. 想象一下我计划从两个 Kafka 主题
scala - Spark 流 : StreamingContext doesn't read data files
我是 Spark Streaming 的新手，我正在尝试使用 Spark-shell 开始使用它。假设我在spark-1.2.0-bin-hadoop2.4的根目录下放置了一个名为“dataTest
c# - Json.NET Serialization Callbacks 中的 StreamingContext 参数有什么用？
我试图了解 Json.NET 序列化回调中应该包含的 StreamingContext 参数是什么，首先我以为你会允许我访问正在读取的当前 json 树，但它似乎并没有，我尝试了 JSON 对象的可能
apache-spark - 如何在 Zeppelin 上的 Apache Spark 中停止 StreamingContext
import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.even
java - 在 Spark Streaming 中将 StreamingContext 与 Receiver 分开
我想概括一下我的 Main 中的接待情况。设置 SparkConf 和 JavaContextStreaming 后，我想接收任意对象，然后将其传递给分析器。在下面的情况下，我遇到异常:任务不可序列
scala - 为什么启动 StreamingContext 失败并显示 "IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute"？
这个问题在这里已经有了答案: Why does starting StreamingContext fail with “IllegalArgumentException: requirement
scala - 线程 "main"java.lang.NoClassDefFoundError : org/apache/spark/streaming/StreamingContext 中的异常
大家好，下面的代码中似乎找不到 StreamingContext 类。 import org.apache.spark.streaming.{Seconds, StreamingContext} im
java - 为什么启动 StreamingContext 失败并显示 “IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute” ？
我正在尝试使用 Twitter 作为源执行 Spark Streaming 示例，如下所示: public static void main (String.. args) { SparkCo
c# - 错误 CS0246 : The type or namespace name 'StreamingContext' could not be found (are you missing a using directive or an assembly reference?)
我在尝试编写此脚本以在我的游戏中保存和加载时遇到这些错误。 Assets\Scripts\Save System\SaveData.cs(62,40): error CS0246: The typeo
apache-spark - "java.io.NotSerializableException: org.apache.spark.streaming.StreamingContext"执行 Spark 流时
当我在 yarn 上执行 Spark 流应用程序时，我继续收到以下错误为什么会发生错误以及如何解决？任何建议都会有所帮助，谢谢~ 15/05/07 11:11:50 INFO dstream.Sta
scala - 传递给 Spark 的 StreamingContext.fileStream[K, V, F] ("directory"的 Key、Value 和 InputFormat 类型的性质是什么
据我了解，从目录流式传输文本文件需要 LongWritable 类型的 key , 值为 Text , 格式为 TextInputFormat .这些在 textFileStream() 中自动传递。

首页

博学

6Ren·AI

商城

scala - 如何同时使用 SparkSession 和 StreamingContext？