java - Spark - 使用不可序列化的成员序列化对象-6ren

java - Spark - 使用不可序列化的成员序列化对象

转载作者：塔克拉玛干更新时间：2023-11-03 03:54:11

30

4

我将在 Spark 的上下文中提出这个问题，因为这就是我面临的问题，但这可能是一个普通的 Java 问题。

在我们的 spark 作业中，我们有一个 Resolver 需要在我们所有的 worker 中使用(它在 udf 中使用)。问题是它不可序列化，我们无法将其更改为可序列化。解决方案是将其作为另一个可序列化的类的成员。

所以我们最终得到:

public class Analyzer implements Serializable {
    transient Resolver resolver;

    public Analyzer() {
        System.out.println("Initializing a Resolver...");
        resolver = new Resolver();
    }

    public int resolve(String key) {
         return resolver.find(key);
    }
}

然后我们使用 Spark API 广播这个类:

 val analyzer = sparkContext.broadcast(new Analyzer())

(更多关于Spark广播的信息可以查看here)

然后我们继续在 UDF 中使用 analyzer，作为我们的 spark 代码的一部分，例如:

val resolve = udf((key: String) => analyzer.value.resolve(key))
val result = myDataFrame.select("key", resolve("key")).count()

这一切都按预期工作，但让我们感到疑惑。

Resolver 没有实现 Serializable，因此被标记为 transient - 这意味着它不会与其所有者对象一起被序列化 分析器。

但是从上面的代码可以清楚的看到，resolve()方法使用了resolver，所以一定不能为null。事实上它不是。代码有效。

那么如果字段不通过序列化传递，resolver成员是如何实例化的呢？

我最初的想法是，也许 Analyzer 构造函数在接收方(即 spark worker)被调用，但后来我希望看到行 "Initializing a Resolver.. ” 打印了几次。但它只打印一次，这可能表明它只被调用一次，就在它传递给广播 API 之前。那么为什么 resolver 不为空？

我是否遗漏了有关 JVM 序列化或 Spark 序列化的内容？

这段代码是如何工作的？

Spark 在 YARN 上以 cluster 模式运行。spark.serializer 设置为 org.apache.spark.serializer.KryoSerializer。

最佳答案

So if the field is not passed through serialization, how is the resolver member instantiated?

它是通过构造函数调用(new Resolver)实例化的，当调用kryo.readObject时:

kryo.readClassAndObject(input).asInstanceOf[T]

My initial thought was that maybe the Analyzer constructor is called on the receiving side (i.e. the spark worker), but then I would expect to see the line "Initializing a Resolver..." printed several times. But it's only printed once, which is probably an indication to the fact that it's only called once

这不是广播变量的工作方式。发生的情况是，当每个 Executor 需要范围内的广播变量时，它首先检查它是否在其 BlockManager 内存中有该对象，如果没有，它会询问驱动程序或邻居执行程序(如果同一个 Worker 节点上有多个执行器)为他们缓存的实例，他们将它序列化并发送给他，然后他接收实例并将其缓存在他自己的 BlockManager 中。

这记录在 TorrentBroadcast 的行为中(这是默认的广播实现):

* The driver divides the serialized object into small chunks and
* stores those chunks in the BlockManager of the driver.
*
* On each executor, the executor first attempts to fetch the object from its BlockManager. If
* it does not exist, it then uses remote fetches to fetch the small chunks from the driver and/or
* other executors if available. Once it gets the chunks, it puts the chunks in its own
* BlockManager, ready for other executors to fetch from.
*
* This prevents the driver from being the bottleneck in sending out multiple copies of the
* broadcast data (one per executor).

if we remove the transient it fails, and the stack-trace leads to Kryo

那是因为您的 Resolver 类中可能有一个字段，即使 Kryo 也无法序列化，无论 Serializable 属性如何。

关于java - Spark - 使用不可序列化的成员序列化对象，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48371045/

30

4

0

文章推荐： Java 声音 : Getting default microphone port

文章推荐： java - 使用通过 Flow API 实现的处理器转换数据流

文章推荐： algorithm - 在递归/缩进树数据结构之间转换

Javascript:私有(private)成员(使用闭包)，为什么初始化后添加的函数不能访问私有(private)成员？
test = (function(){var key = 200; return {getKey : function(){return key} }; })(); test.
java - 如果公共(public)成员访问私有(private)成员，则不继承私有(private)成员
如果这个问题可能一直被问到，我很抱歉，但我进行了搜索，但找不到足够的答案。如果公共(public)成员/方法正在访问私有(private)成员/字段，如何禁用它们的继承？所以考虑一下: publi
c++ - memcpy/memmove 到 union 成员，这是否设置了 'active' 成员？
重要的澄清:一些评论者似乎认为我是从 union 复制的。仔细查看 memcpy，它从一个普通的旧 uint32_t 地址复制而来，该地址不包含在 union 中。另外，我正在(通过 memcpy)复
android - Spinner Android Value 成员(member)和 Display 成员(member)
spinner 通常只显示一个字符串，在我想分配 IDpersonne 和 Name 的情况下，旋转器必须告诉我名字。当我得到选定的项目时，我必须得到 ID。我该怎么做？最佳答案我假设您已将项目排
java - A 类的实例是 B 类的公共(public)成员，B 的实例也是 A 的公共(public)成员。我们什么时候需要这个实现？
A 类的实例是 B 类的公共(public)成员。B 类的实例也是 A 的公共(public)成员。在什么情况下可能需要这种实现？我的意思是是否有一个或多个标准场景需要这种实现方式？更具体的细节:我有
成员(member)提供者
我如何设置我的 web.config 以使用表单例份验证，将成员身份提供程序设置为 ActiveDirectoryMembershipProvider 并使用内置登录控件。这样我就可以使用有效的事件目
Java接口(interface)成员
这个问题已经有答案了: Should methods in a Java interface be declared with or without a public access modifier?
php反序列化与私有(private)成员
因此根据定义，类中的私有(private)数字在序列化时以类名作为前缀。这对我来说是一个问题，我希望能够序列化/保存/反序列化一个确切的对象，但是 php 所做的是给我另一个 classname+va
recursion - 成员？在无限列表上运行
我实现了一个成员？ clojure 中的函数如下: (defn member? [item seq] (cond (empty? seq) false (= item (first
C - 按值传递结构+成员
我在这里的问题似乎总是与使用函数有关。它仍然让我困惑!在本教科书练习中，我被要求按值传递结构，然后调整它并按引用传递。最初我设计的代码是在 main 中完成所有工作。现在我正在传递值。所以我添加了新函
无法使用实例引用访问 C# 成员
所以我有这些变量 List files, images = new List(); string rootStr; 还有这个线程函数 private static int[] thread_searc
c++ - 为什么我需要重新声明部分模板特化的方法/成员？
我对 C++ 模板和尝试弄清楚部分模板特化还比较陌生。我正在使用模板实现几个相关的数据结构:用于概率存在/不存在查询的布隆过滤器(基于位数组)，以及用于丰度查询的计数布隆过滤器(带有整数数组)。我从以
java - 在内部类安全实践中访问外部类变量/成员？
例如在 java 中，我在外部类和内部类中声明并初始化了一个 JButton，我决定在某些情况下将其隐藏，这是一种安全的编程实践吗？最佳答案内部类的全部目的是它们可以访问到环绕内部类的外部类。所
c++ - 我应该如何构造相互依赖的C++成员？
我有一个使用库进行通信的类: class Topic { Topic( Type T, String name ); }; class Reader { Reader (Topic, Stri
Java使用父类型的对象引用访问不同包中子类中的 protected 成员
我在两个单独的文件中有以下代码。 package animal; public class Frog { protected void ribbit() { Syste
redis - 从具有非连续分数的排序集中检索值/成员
我有一个分数列表。使用这些，我需要从 redis 排序集中提取值。我知道我可以使用 zrangebyscore - 但如果我提供的列表中的分数不连续怎么办？在这种情况下，我不能依赖 zrangeby
c++ - 尝试使用静态方法/成员
过去几年我一直被 C# 编码宠坏了，现在我又回到了 C++ 并发现我在处理本应很简单的东西时遇到了麻烦。我正在为 gamedev 使用名为 DarkGDK 的第三方库(任何以 db 为前缀的命令)，但
scheme - 成员？ Racket 中的功能
我正在关注 Brian Harvey 从 2011 年开始在 UC Berkeley site 上的 SICP 讲座。 .他正在使用 STk interpreter教这门课，我正在使用带有 DrRac
c++ - 无法访问模板化重载运算符中的私有(private)成员
在这段代码中，为什么在运算符重载中无法访问我的类的私有(private)字段？ (请注意，这只是一个 MRE，不是完整代码) template class Frac template Frac o
c++ - 全局命名空间好友类无法访问命名命名空间类的私有(private)成员
在命名命名空间类中，我将一个类(位于全局命名空间中)声明为友元。但是，后一个类不能访问前一个类的私有(private)成员。为什么是这样？有什么办法可以解决吗？ Bob.h namespace AB

首页

博学

6Ren·AI

商城

java - Spark - 使用不可序列化的成员序列化对象