scala - 仅在类而非对象上调用闭包外部的函数时，任务不可序列化 : java. io.NotSerializedException-6ren

scala - 仅在类而非对象上调用闭包外部的函数时，任务不可序列化 : java. io.NotSerializedException

转载作者：行者123 更新时间：2023-12-03 04:09:27

27

4

在闭包之外调用函数时出现奇怪的行为:

当函数位于对象中时，一切正常
当函数在类中时获取:

Task not serializable: java.io.NotSerializableException: testing

问题是我需要类中的代码而不是对象中的代码。知道为什么会发生这种情况吗？ Scala 对象是否已序列化(默认？)？

这是一个有效的代码示例:

object working extends App {
    val list = List(1,2,3)

    val rddList = Spark.ctx.parallelize(list)
    //calling function outside closure 
    val after = rddList.map(someFunc(_))

    def someFunc(a:Int)  = a+1

    after.collect().map(println(_))
}

这是非工作示例:

object NOTworking extends App {
  new testing().doIT
}

//adding extends Serializable wont help
class testing {  
  val list = List(1,2,3)  
  val rddList = Spark.ctx.parallelize(list)

  def doIT =  {
    //again calling the fucntion someFunc 
    val after = rddList.map(someFunc(_))
    //this will crash (spark lazy)
    after.collect().map(println(_))
  }

  def someFunc(a:Int) = a+1
}

最佳答案

RDDs extend the Serialisable interface ，所以这不是导致您的任务失败的原因。现在这并不意味着您可以序列化 RDD使用 Spark 并避免 NotSerializableException

Spark是一个分布式计算引擎，其主要抽象是弹性分布式数据集(RDD)，可以将其视为分布式集合。基本上，RDD 的元素跨集群的节点进行分区，但 Spark 将其从用户中抽象出来，让用户与 RDD(集合)进行交互，就好像它是本地 RDD 一样。

不要涉及太多细节，但是当您在 RDD 上运行不同的转换( map 、 flatMap 、 filter 等)时，您的转换代码(闭包)是:

在驱动程序节点上序列化，
发送到集群中的适当节点，
反序列化，
最终在节点上执行

您当然可以在本地运行它(如您的示例中所示)，但所有这些阶段(除了通过网络运输之外)仍然会发生。 [这可以让您在部署到生产之前捕获任何错误]

在第二种情况下，您正在调用类 testing 中定义的方法。从 map 函数内部。 Spark 发现了这一点，并且由于方法无法自行序列化，Spark 尝试序列化整个 testing类，以便代码在另一个 JVM 中执行时仍然可以工作。您有两种可能性:

要么使类测试可序列化，以便 Spark 可以序列化整个类:

import org.apache.spark.{SparkContext,SparkConf}

object Spark {
  val ctx = new SparkContext(new SparkConf().setAppName("test").setMaster("local[*]"))
}

object NOTworking extends App {
  new Test().doIT
}

class Test extends java.io.Serializable {
  val rddList = Spark.ctx.parallelize(List(1,2,3))

  def doIT() =  {
    val after = rddList.map(someFunc)
    after.collect().foreach(println)
  }

  def someFunc(a: Int) = a + 1
}

或者你做someFunc函数而不是方法(函数是 Scala 中的对象)，以便 Spark 能够序列化它:

import org.apache.spark.{SparkContext,SparkConf}

object Spark {
  val ctx = new SparkContext(new SparkConf().setAppName("test").setMaster("local[*]"))
}

object NOTworking extends App {
  new Test().doIT
}

class Test {
  val rddList = Spark.ctx.parallelize(List(1,2,3))

  def doIT() =  {
    val after = rddList.map(someFunc)
    after.collect().foreach(println)
  }

  val someFunc = (a: Int) => a + 1
}

您可能会对类序列化的类似但不相同的问题感兴趣，您可以阅读它 in this Spark Summit 2013 presentation .

作为旁注，您可以重写 rddList.map(someFunc(_))至rddList.map(someFunc) ，它们是完全相同的。通常，第二个是首选，因为它更简洁，读起来更清晰。

编辑(2015-03-15):SPARK-5307引入了SerializationDebugger，Spark 1.3.0是第一个使用它的版本。它将序列化路径添加到NotSerializedException。当遇到NotSerializedException时，调试器会访问对象图来查找无法序列化的对象的路径，并构造信息来帮助用户找到该对象。

在OP的例子中，这是打印到标准输出的内容:

Serialization stack:
    - object not serializable (class: testing, value: testing@2dfe2f00)
    - field (class: testing$$anonfun$1, name: $outer, type: class testing)
    - object (class testing$$anonfun$1, <function1>)

关于scala - 仅在类而非对象上调用闭包外部的函数时，任务不可序列化 : java. io.NotSerializedException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22592811/

27

4

0

文章推荐： xcode - 您经常使用哪些 Xcode 键盘快捷键？

文章推荐： maven-2 - 排除单个依赖项的所有传递依赖项

文章推荐： vim - 在 Vim 中，如何将宏应用于一组行？

java - 对象 a = 对象 b；对象 a 会发生什么？
我的一位教授给了我们一些考试练习题，其中一个问题类似于下面(伪代码): a.setColor(blue); b.setColor(red); a = b; b.setColor(purple); b
JavaScript 测试(对象 && 对象 !== "null"&& 对象 !== "undefined")
我似乎经常使用这个测试 if( object && object !== "null" && object !== "undefined" ){ doSomething(); } 在对象上，我
C#对象/对象
C# Object/object 是值类型还是引用类型？我检查过它们可以保留引用，但是这个引用不能用于更改对象。 using System; class MyClass { public s
javascript - 通过ajax发送json - 对象 - 对象
我在通过 AJAX 发送 json 时遇到问题。 var data = [{"name": "Will", "surname": "Smith", "age": "40"},{"name": "Wil
javascript - 如何获取值[对象][对象]
当我尝试访问我的 View 中的对象 {{result}} 时(我从 Express js 服务器发送该对象)，它只显示 [object][object]有谁知道如何获取 JSON 格式的值吗？这是
java - 对象...对象[] 和格式
我有不同类型的数据(可能是字符串、整数......)。这是一个简单的例子: public static void main(String[] args) { before("one"); }
javascript - 如何修复[对象，对象]
嗨，我是 json 和 javascript 的新手。我在这个网站找到了使用json数据作为表格的方法。我很好奇为什么当我尝试使用 json 数据作为表时，我得到 [Object,Object]
JavaScript [对象][对象] 调试
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
java - 对象==空或空==对象？
我听别人说 null == object 比 object == null check 例如: void m1(Object obj ) { if(null == obj) // Is thi
VBS教程：对象-Match 对象
Match 对象提供了对正则表达式匹配的只读属性的访问。说明 Match 对象只能通过 RegExp 对象的 Execute 方法来创建，该方法实际上返回了 Match 对象的集合。所有的
VBS教程：对象-Class 对象
Class 对象使用 Class 语句创建的对象。提供了对类的各种事件的访问。说明不允许显式地将一个变量声明为 Class 类型。在 VBScript 的上下文中，“类对象”一词指的是用
VBS教程：对象-Folder 对象
Folder 对象提供对文件夹所有属性的访问。说明以下代码举例说明如何获得 Folder 对象并查看它的属性： Function ShowDateCreated(f
VBS教程：对象-File 对象
File 对象提供对文件的所有属性的访问。说明以下代码举例说明如何获得一个 File 对象并查看它的属性： Function ShowDateCreated(fil
VBS教程：对象-Drive 对象
Drive 对象提供对磁盘驱动器或网络共享的属性的访问。说明以下代码举例说明如何使用 Drive 对象访问驱动器的属性： Function ShowFreeSpac
VBS教程：对象-FileSystemObject 对象
FileSystemObject 对象提供对计算机文件系统的访问。说明以下代码举例说明如何使用 FileSystemObject 对象返回一个 TextStream 对象，此对象可以被读
对象
我是 javascript OOP 的新手，我认为这是一个相对基本的问题，但我无法通过搜索网络找到任何帮助。我是否遗漏了什么，或者我只是以错误的方式解决了这个问题？这是我的示例代码: functio
对象
我可以很容易地创造出很多不同的对象。例如像这样: var myObject = { myFunction: function () { return ""; } };
对象
function Person(fname, lname) { this.fname = fname, this.lname = lname, this.getName = function()
javascript - JSON 返回(对象，对象)
任何人都可以向我解释为什么下面的代码给出 (object, Object) 吗？ (console.log(dope) 给出了它应该的内容，但在 JSON.stringify 和 JSON.parse
javascript - 返回 [对象，对象] 的工具提示
我正在尝试完成散点图 exercise来自免费代码营。然而，我现在只自己学习了 d3 几个小时，在遵循 lynda.com 的教程后，我一直在尝试确定如何在工具提示中显示特定数据。 This code

首页

博学

6Ren·AI

商城

scala - 仅在类而非对象上调用闭包外部的函数时，任务不可序列化 : java. io.NotSerializedException