java - Spark本地读取文本文件在线程 "main"org.apache.spark.SparkException : Task not serializable中引发异常-6ren

java - Spark本地读取文本文件在线程 "main"org.apache.spark.SparkException : Task not serializable中引发异常

转载作者：行者123 更新时间：2023-11-30 05:21:33

我正在用 java 编写我的第一个 Spark 程序，但无法找出以下错误。我已经解决了很多有关堆栈溢出的问题，但他们认为与我的问题无关。我正在尝试使用最新版本的spark 2.4.4。我正在本地运行我的应用程序

这是我的程序

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

public class SparkTextFile {

    public static void main(String args[]) {

        SparkConf conf = new SparkConf().setAppName("textfilereading").setMaster("local[*]");
        JavaSparkContext context = new JavaSparkContext(conf);
        JavaRDD<String> textRDD = context.textFile("/Users/user/Downloads/AccountHistory.csv");
        textRDD.foreach(System.out::println);
        context.close();

    }

}

这是pom文件中的依赖项

<dependency> <!-- Spark dependency -->
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>2.4.4</version>
            <scope>provided</scope>
            <exclusions>
                <exclusion>
                    <groupId>org.codehaus.janino</groupId>
                    <artifactId>commons-compiler</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.codehaus.janino</groupId>
                    <artifactId>janino</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

        <dependency>
            <groupId>org.codehaus.janino</groupId>
            <artifactId>commons-compiler</artifactId>
            <version>3.0.8</version>
        </dependency>
        <dependency>
            <groupId>org.codehaus.janino</groupId>
            <artifactId>janino</artifactId>
            <version>3.0.8</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>3.2.1</version>
        </dependency>

这是我收到的错误。

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:403)
    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:393)
    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:162)
    at org.apache.spark.SparkContext.clean(SparkContext.scala:2326)
    at org.apache.spark.rdd.RDD.$anonfun$foreach$1(RDD.scala:926)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
    at org.apache.spark.rdd.RDD.foreach(RDD.scala:925)
    at org.apache.spark.api.java.JavaRDDLike.foreach(JavaRDDLike.scala:351)
    at org.apache.spark.api.java.JavaRDDLike.foreach$(JavaRDDLike.scala:350)
    at org.apache.spark.api.java.AbstractJavaRDDLike.foreach(JavaRDDLike.scala:45)

Caused by: java.io.NotSerializableException: java.io.PrintStream
Serialization stack:
    - object not serializable (class: java.io.PrintStream, value: java.io.PrintStream@4df39a88)
    - element of array (index: 0)
    - array (class [Ljava.lang.Object;, size 1)
    - field (class: java.lang.invoke.SerializedLambda, name: capturedArgs, type: class [Ljava.lang.Object;)
    - object (class java.lang.invoke.SerializedLambda, SerializedLambda[capturingClass=class com.SparkTextFile, functionalInterfaceMethod=org/apache/spark/api/java/function/VoidFunction.call:(Ljava/lang/Object;)V, implementation=invokeVirtual java/io/PrintStream.println:(Ljava/lang/String;)V, instantiatedMethodType=(Ljava/lang/String;)V, numCaptured=1])
    - writeReplace data (class: java.lang.invoke.SerializedLambda)
    - object (class com.SparkTextFile$$Lambda$622/1779219567, com.SparkTextFile$$Lambda$622/1779219567@a137d7a)
    - element of array (index: 0)
    - array (class [Ljava.lang.Object;, size 1)
    - field (class: java.lang.invoke.SerializedLambda, name: capturedArgs, type: class [Ljava.lang.Object;)
    - object (class java.lang.invoke.SerializedLambda, SerializedLambda[capturingClass=interface org.apache.spark.api.java.JavaRDDLike, functionalInterfaceMethod=scala/Function1.apply:(Ljava/lang/Object;)Ljava/lang/Object;, implementation=invokeStatic org/apache/spark/api/java/JavaRDDLike.$anonfun$foreach$1$adapted:(Lorg/apache/spark/api/java/function/VoidFunction;Ljava/lang/Object;)Ljava/lang/Object;, instantiatedMethodType=(Ljava/lang/Object;)Ljava/lang/Object;, numCaptured=1])
    - writeReplace data (class: java.lang.invoke.SerializedLambda)
    - object (class org.apache.spark.api.java.JavaRDDLike$$Lambda$623/1871259950, org.apache.spark.api.java.JavaRDDLike$$Lambda$623/1871259950@4ab550d5)
    at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:41)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:46)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100)
    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:400)
    ... 12 more

我不确定为什么会出现这个错误，因为除了从文件中读取之外，我没有使用任何对象进行序列化。

我改变了下面的行

textRDD.foreach(System.out::println);

至

textRDD.collect().forEach(System.out::println);

添加了收集以查看会输出什么，现在我看到不同的错误消息。

Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapred.FileInputFormat
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:312)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:204)
    at org.apache.spark.rdd.RDD.$anonfun$partitions$2(RDD.scala:253)
    at scala.Option.getOrElse(Option.scala:138)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:49)
    at org.apache.spark.rdd.RDD.$anonfun$partitions$2(RDD.scala:253)
    at scala.Option.getOrElse(Option.scala:138)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2126)
    at org.apache.spark.rdd.RDD.$anonfun$collect$1(RDD.scala:945)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
    at org.apache.spark.rdd.RDD.collect(RDD.scala:944)
    at org.apache.spark.api.java.JavaRDDLike.collect(JavaRDDLike.scala:361)
    at org.apache.spark.api.java.JavaRDDLike.collect$(JavaRDDLike.scala:360)
    at org.apache.spark.api.java.AbstractJavaRDDLike.collect(JavaRDDLike.scala:45)

我也不明白上面的错误是什么。有人可以提供有关如何理解该错误以及如何修复它的信息吗？

最佳答案

(免责声明:不是 Java 开发人员。因此，将尝试根据 Scala 的经验来回答。)

您在这里使用了更高阶的函数 - foreach。高阶函数将“序列化”提供给它们的参数并将它们发送到 RDD 的分区(通常分布在网络上的计算机上)。我不确定 System.out.println 是否是“可序列化的” Java 中的对象”。因此，其中一种方法可能是在 Java 中使用 Lambda 表示法，并将上面的代码更改如下:

textRDD.foreach( (s) -> System.out.println(s) )

希望对您有帮助! :)

关于java - Spark本地读取文本文件在线程 "main"org.apache.spark.SparkException : Task not serializable中引发异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59495465/

文章推荐： java - 如何检查增强 for 循环中没有匹配项？

文章推荐： c++ - C++ 中运行时定义的全局常量变量

文章推荐： c++ - valgrind 检测到内存泄漏，但找不到我忘记释放的行

文章推荐： java - JUnit getMethodName 返回 null

c# - "async Task then await Task"与 "Task then return task"
这个问题在这里已经有了答案: Why use async and return await, when you can return Task directly? (8 个答案) 关闭 6 年前。
c++ - inline void addTask(Task task) vs inline void addTask(const Task &task)
这个问题在这里已经有了答案: Are the days of passing const std::string & as a parameter over? (13 个答案) 关闭 8 年前。我
c# - Task.WaitAny 接受 Task 而不是 Task [ ]
我有一组标记为执行的通用任务。当任务完成时(使用 Task.WaitAny )，我将其添加到 ObservableCollection 中. 但是，问题出在 Task.WaitAny(...)行，上面
c# - Task.WhenAll() 和 foreach(var task in tasks) 有什么区别
经过几个小时的努力，我在我的应用程序中发现了一个错误。我认为下面的 2 个函数具有相同的行为，但事实证明它们没有。谁能告诉我引擎盖下到底发生了什么，以及为什么它们的行为方式不同？ public as
python - 织物导入错误 : "fab task" vs. "from fabfile import task; task()"
这也与 Python 的导入机制有关，特别是与在函数内使用 import 有关。使用 Python 2.7.9 和 Fabric 1.10.0，创建以下三个文件: fabfile.py: from a
c# - 如果方法是同步的，则保留 Task 和 Task.FromResult 还是完全删除 Task-stuff？
我有一个 Web API Controller (ASP.NET Core 5)。我的一些 API 是异步的，而其中一些不是。我接下来的问题是:使用 public **Task** WebApiMet
c# - 使用 Task.Start 触发任务时卡在 Task.WaitAll(tasks.ToArray()) 处
我们有类似下面的内容 List uncheckItems = new List(); for (int i = 0; i new Task(async () => await Process
c# - 有效返回 "Task>"吗？或者最好返回 "Task.FromResult(MyObject)"
我的代码没问题，但我想知道哪种风格更好，你会怎么看，我正在玩异步方法。让我建立上下文: Parallel.ForEach(xmlAnimalList, async xml => {
c# - await Task.Factory.StartNew(() => vs Task.Start; await Task;
这两种使用 await 的形式在功能上有什么区别吗？ string x = await Task.Factory.StartNew(() => GetAnimal("feline")); Task m
c# - 关于 Task.Start() 、 Task.Run() 和 Task.Factory.StartNew() 的用法
我刚刚看到 3 个关于 TPL 使用的例程，它们做同样的工作；这是代码: public static void Main() { Thread.CurrentThread.Name = "Ma
c# - 为什么调用不明确？ 'Task.Run(Action)' 和 'Task.Run(Func)'
考虑以下代码: public void CacheData() { Task.Run((Action)CacheExternalData); Task.Run(() => CacheE
c# - 使用 Task.FromResult 将 Task 隐式转换为 Task 其中 T : X?
Task> GetTaskDict() { return Task.FromResult(new Dictionary () ); } 此代码无法编译，因为我们无法在 Task> 到 Tas
asp.net-core - RenderPartialAsync 返回 System.Threading.Tasks.Task`1[System.Threading.Tasks.VoidTaskResult]
我正在使用 ASP.NET 5 RC1 _MyPartial @model MyViewModel @using (Html.BeginForm())
C/C++ VS Code 扩展抛出构建错误 : "The task provider for "C/C+ +"tasks unexpectedly provided a task of type "shell"."
当我尝试在 VS Code 中构建 C 任务时，它显示以下消息: 输出仅显示:The task provider for "C/C++" tasks unexpectedly provided a t
multithreading - 全线程 : Create a task wrapper/modify a task that adds some extra pre- and post processing to an alredy existing task
一些背景: 基本上归结为我希望能够在当前线程中“执行”任务。为什么？ -我有一个任务创建程序例程，有一次我希望任务在后台任务中立即执行，而其他时候我希望使用 IOmniThreadPool 安排任务。
task - Scrum 燃尽图 : Tasks or Stories?
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Gulp和运行顺序错误: Task is not configured as a task on gulp
我试图将run-sequence添加到我的gulp工作流程中，但是每次尝试执行使用run-sequence的任务时，都会出现此错误: 任务未配置为gulp上的任务。根据运行序列的来源，这是由以下te
c# - Task 在C#中是非法的？
此代码在VS2015中给出了编译时错误 Error CS0266 Cannot implicitly convert type 'System.Threading.Tasks.Task' to 'Sy
android - Tasks.await(task)显示不适当的阻塞方法调用警告
我正在尝试通过我的代码通过Google登出: suspend fun signOut(context: Context): Boolean = with(Dispatchers.IO) { t
c# - 如何生成 Task 以展开
谁能解释一下这两种说法的区别: Task bTask = backup.BackupCurrentDatabaseAsync() .ContinueWith(_ => CompressArch

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Spark本地读取文本文件在线程 "main"org.apache.spark.SparkException : Task not serializable中引发异常