apache-spark - MapWithState 给出 java.lang.ClassCastException : org. apache.spark.util.SerializableConfiguration cannot be cast while recovering from checkpoint-6ren

apache-spark - MapWithState 给出 java.lang.ClassCastException : org. apache.spark.util.SerializableConfiguration cannot be cast while recovering from checkpoint

转载作者：行者123 更新时间：2023-12-03 11:09:34

我在尝试在 spark 中同时使用 broadcast、mapWithState 和 checkpointing 时遇到 spark streaming 作业的问题。

用法如下:

因为我必须将一些连接对象(不可序列化)传递给执行程序，所以我使用 org.apache.spark.broadcast.Broadcast
因为我们必须维护一些缓存信息，所以我使用带有 mapWithState 的有状态流
我还在使用我的流上下文检查点

我还需要将广播的连接对象传递到 mapWithState 以从外部源获取一些数据。

当新创建上下文时，流程工作正常。但是，当我使应用程序崩溃并尝试从检查点恢复时，我得到了 ClassCastException。

我放了一个基于 example from asyncified.io 的小代码片段在 github 中重现问题:

我的广播逻辑是yuvalitzchakov.utils.KafkaWriter.scala
应用程序的虚拟逻辑是yuvalitzchakov.stateful.SparkStatefulRunnerWithBroadcast.scala

代码的虚拟片段:

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark-stateful-example")

...
val prop = new Properties()
...

val config: Config = ConfigFactory.parseString(prop.toString)
val sc = new SparkContext(sparkConf)
val ssc = StreamingContext.getOrCreate(checkpointDir, () =>  {

    println("creating context newly")

    clearCheckpoint(checkpointDir)

    val streamingContext = new StreamingContext(sc, Milliseconds(batchDuration))
    streamingContext.checkpoint(checkpointDir)

    ...
    val kafkaWriter = SparkContext.getOrCreate().broadcast(kafkaErrorWriter)
    ...
    val stateSpec = StateSpec.function((key: Int, value: Option[UserEvent], state: State[UserSession]) =>
        updateUserEvents(key, value, state, kafkaWriter)).timeout(Minutes(jobConfig.getLong("timeoutInMinutes")))

    kafkaTextStream
    .transform(rdd => {
        offsetsQueue.enqueue(rdd.asInstanceOf[HasOffsetRanges].offsetRanges)
        rdd
    })
    .map(deserializeUserEvent)
    .filter(_ != UserEvent.empty)
    .mapWithState(stateSpec)
    .foreachRDD { rdd =>
        ...
        some logic
        ...

    streamingContext
    })
}

ssc.start()
ssc.awaitTermination()


def updateUserEvents(key: Int,
                     value: Option[UserEvent],
                     state: State[UserSession],
                     kafkaWriter: Broadcast[KafkaWriter]): Option[UserSession] = {

    ...
    kafkaWriter.value.someMethodCall()
    ...
}

当

时出现以下错误

kafkaWriter.value.someMethodCall()

执行:

17/08/01 21:20:38 ERROR Executor: Exception in task 2.0 in stage 3.0 (TID 4)
java.lang.ClassCastException: org.apache.spark.util.SerializableConfiguration cannot be cast to yuvalitzchakov.utils.KafkaWriter
    at yuvalitzchakov.stateful.SparkStatefulRunnerWithBroadcast$.updateUserSessions$1(SparkStatefulRunnerWithBroadcast.scala:144)
    at yuvalitzchakov.stateful.SparkStatefulRunnerWithBroadcast$.updateUserEvents(SparkStatefulRunnerWithBroadcast.scala:150)
    at yuvalitzchakov.stateful.SparkStatefulRunnerWithBroadcast$$anonfun$2.apply(SparkStatefulRunnerWithBroadcast.scala:78)
    at yuvalitzchakov.stateful.SparkStatefulRunnerWithBroadcast$$anonfun$2.apply(SparkStatefulRunnerWithBroadcast.scala:77)
    at org.apache.spark.streaming.StateSpec$$anonfun$1.apply(StateSpec.scala:181)
    at org.apache.spark.streaming.StateSpec$$anonfun$1.apply(StateSpec.scala:180)
    at org.apache.spark.streaming.rdd.MapWithStateRDDRecord$$anonfun$updateRecordWithData$1.apply(MapWithStateRDD.scala:57)
    at org.apache.spark.streaming.rdd.MapWithStateRDDRecord$$anonfun$updateRecordWithData$1.apply(MapWithStateRDD.scala:55)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at org.apache.spark.InterruptibleIterator.foreach(InterruptibleIterator.scala:28)
    at org.apache.spark.streaming.rdd.MapWithStateRDDRecord$.updateRecordWithData(MapWithStateRDD.scala:55)
    at org.apache.spark.streaming.rdd.MapWithStateRDD.compute(MapWithStateRDD.scala:159)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:336)
    at org.apache.spark.rdd.RDD$$anonfun$8.apply(RDD.scala:334)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:1005)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:996)
    at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:936)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:996)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:700)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:334)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:285)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:99)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)

基本上 kafkaWriter 是广播变量，kafkaWriter.value 应该返回广播变量，但它返回的是 SerializableCongiguration，它没有被转换到想要的对象

在此先感谢您的帮助!

最佳答案

如果我们需要从 Spark 流中的检查点目录中恢复，则广播变量不能与 MapwithState(一般的转换操作)一起使用。在这种情况下，它只能在输出操作内部使用，因为它需要 Spark 上下文来延迟初始化广播

class JavaWordBlacklist {

private static volatile Broadcast<List<String>> instance = null;

public static Broadcast<List<String>> getInstance(JavaSparkContext jsc) {
if (instance == null) {
synchronized (JavaWordBlacklist.class) {
if (instance == null)

{ List<String> wordBlacklist = Arrays.asList("a", "b", "c"); instance = jsc.broadcast(wordBlacklist); }

}
}
return instance;
}
}

class JavaDroppedWordsCounter {

private static volatile LongAccumulator instance = null;

public static LongAccumulator getInstance(JavaSparkContext jsc) {
if (instance == null) {
synchronized (JavaDroppedWordsCounter.class) {
if (instance == null)

{ instance = jsc.sc().longAccumulator("WordsInBlacklistCounter"); }

}
}
return instance;
}
}

wordCounts.foreachRDD((rdd, time) -> {
// Get or register the blacklist Broadcast
Broadcast<List<String>> blacklist = JavaWordBlacklist.getInstance(new JavaSparkContext(rdd.context()));
// Get or register the droppedWordsCounter Accumulator
LongAccumulator droppedWordsCounter = JavaDroppedWordsCounter.getInstance(new JavaSparkContext(rdd.context()));
// Use blacklist to drop words and use droppedWordsCounter to count them
String counts = rdd.filter(wordCount -> {
if (blacklist.value().contains(wordCount._1()))

{ droppedWordsCounter.add(wordCount._2()); return false; }

else

{ return true; }

}).collect().toString();
String output = "Counts at time " + time + " " + counts;
}

关于apache-spark - MapWithState 给出 java.lang.ClassCastException : org. apache.spark.util.SerializableConfiguration cannot be cast while recovering from checkpoint，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45443610/

文章推荐： Windows 服务用户帐户无法访问证书存储

文章推荐： react-native - 无法更改标签栏标签颜色

Grails 启动错误 : groovy. lang.Closure.rehydrate(Ljava/lang/Object;Ljava/lang/Object;Ljava/lang/Object;)Lgroovy/lang/Closure;
在 Tomcat 6/Ubuntu 12.04 上启动 Grails 2.1.0 应用程序时出现以下错误。 Error 500 - Internal Server Error. groovy.lang
java.lang.RuntimeException : java. lang.ClassCastException : java. lang.Long 无法转换为 java.lang.String
在运行 Storm 拓扑时，我收到此错误。拓扑完美运行 5 分钟，没有任何错误，然后失败。我正在使用 Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS as 300 sec i
java.lang.NoSuchMethodException : java. lang.String.substring(java.lang.Long，java.lang.Long)
我有一个 jsp 代码在其中一台机器上运行良好。但是当我复制到另一台机器时，我得到了这个 no such method found 异常。我是 Spring 的新手。有人可以解释我错过了什么吗？以下
java - java.util.Map 中的 put(java.lang.String,java.lang.Inte ger) 不能应用于 (java.lang.String,java.lang.String )
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
java.lang.NoSuchMethodError - Ljava/lang/String;)Ljava/lang/String;
我的代码在下面给出了一个错误； Exception in thread "main" java.lang.NoSuchMethodError: com/myApp/Client.cypherCBC(L
java - Restful Web 服务 - java.lang.NoSuchMethodError concat(Ljava/lang/Iterable;Ljava/lang/Iterable;)Ljava/lang/Iterable
我正在尝试一个 Restful web 服务示例，所以当我要访问 url 时，我遇到了异常 java.lang.NoSuchMethodError: jersey.repackaged.com.goo
java.lang.NoSuchMethodError : org. jboss.logging.Logger.getMessageLogger(Ljava/lang/Class;Ljava/lang/String;)Ljava/lang/Object;
我正在将一个 Spring web 项目转换为一个 Maven 项目，但我收到了这个错误: java.lang.NoSuchMethodError: org.jboss.logging.Logger.
java.lang.ClassCastException : java. lang.Short 无法转换为 java.lang.Integer
在我的项目中，我有一个像这样的枚举: public enum MyEnum { FIRST(1), SECOND(2); private int value; private MyEnum(int v
java.lang.ClassCastException : java. lang.String 无法转换为 java.lang.Long
我创建了这个简单的示例，用于读取 Linux 正常运行时间: public String getMachineUptime() throws IOException { String[] di
java.lang.ClassCastException : [Ljava. lang.Object;无法转换为 [Ljava.lang.Comparable;
我正在使用 Eclipse，并且正在使用 Java。我的目标是使用 bogoSort 方法对 vector 进行排序在一个 vector (vectorExample)中适应我的 vector 类型，
java.lang.ClassCastException : java. lang.String 无法转换为 [Ljava.lang.Object
我正在运行以下查询。它显示一条错误消息。如何解决这个错误？ ListrouteList=null; List companyList = session.createS
java.lang.ClassCastException : [Ljava. lang.Long;无法转换为 java.lang.Long
我有以下模型类: @Entity @Table(name="user_content") @org.hibernate.annotations.NamedQueries({ @org.
java.lang.ClassCastException : [Ljava. lang.String;无法转换为 java.lang.String
我有那个错误。这是我的代码: GmailSettingsService service = new GmailSettingsService(APPLICATION_NAME, DOMAIN_NAME
java.lang.ClassCastException : java. lang.StackOverflowError 无法转换为 java.lang.Exception
实际上我在执行我的java程序时遇到了下面提到的错误 Exception in thread "pool-1-thread-1" java.lang.ClassCastException: jav
java.lang.ClassCastException : java. lang.Float 无法转换为 java.lang.String
java.lang.ClassCastException: java.lang.Float cannot be cast to java.lang.String 我在以下代码中遇到此异常: Strin
java.lang.ClassCastException : [Ljava. lang.Object;不兼容 [Ljava.lang.String;
我正在尝试从 linkedhashset 中检索随机元素。下面是我的代码，但它每次都给我异常。 private static void generateRandomUserId(Set userIds
java.lang.ClassCastException : java. lang.Double 无法转换为 java.lang.String
我已经完成了 Android 中的代码: List spinnerArray = new ArrayList(); for (int i = 0; i item = (LinkedTreeMap)
java.lang.ClasscastException : java. lang.Long 无法转换为 java.lang.Double
这个问题已经有答案了: Explanation of ClassCastException in Java (12 个回答) 已关闭 6 年前。我已经编写了 java 到 Json 的代码，同时从页
java.lang.ClassCastException : java. lang.Long 无法转换为 clojure.lang.IFn
这个问题在这里已经有了答案: ClassCastException java.lang.Long cannot be cast to clojure.lang.IFn (4 个答案) 关闭 6 年前
java.lang.ClassCastException : java. lang.Integer 无法转换为 java.lang.Double
我在运行时遇到问题来编译这段代码，这给我一个错误，java.lang.Integer 无法转换为 Java.lang.Double。如果有人帮助我更正此代码，我将非常高兴 double x; pu

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - MapWithState 给出 java.lang.ClassCastException : org. apache.spark.util.SerializableConfiguration cannot be cast while recovering from checkpoint