apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD-6ren

apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD

转载作者：行者123 更新时间：2023-12-02 16:57:59

24

4

让我详细说明我的问题:

我正在使用一个集群，其中包含一个主节点和 3 个工作节点，我的主节点

节点有可用的 spark 上下文。

我已经使用存储级别“DISK_ONLY”将我的 RDD 保存到磁盘中。

当我运行我的 spark 脚本时，它会将一些 RDD 保存到任何工作人员的硬盘上

节点，现在当我的主机出现故障时，它有 spark 上下文并作为

result它也会down掉，从而所有DAG信息都丢失了。

现在我必须重新启动我的主节点，以便启动 spark 上下文

再次运行。

现在的问题是——我能不能用这个保留所有保存的 RDD

弹跳(重启主节点和 spark 上下文守护进程)？因为一切都是

重新启动。

最佳答案

我认为目前没有办法在关闭 Spark Context 后恢复缓存的 RDD。放置和获取RDD block 的组件是Spark的BlockManager组件。这反过来又使用另一个名为 BlockInfoManager 的组件来跟踪 RDD block 信息。当 BlockManager 在工作节点中关闭时，它会清除它正在使用的资源。其中包括 BlockInfoManager，它具有包含 RDD block 信息的 HashMap。由于这个Map在清理的过程中也被清空了，所以下次实例化的时候，那个worker里面就没有保存任何RDD block 的信息了。因此它将将该 block 视为未计算的。

关于apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55545896/

24

4

0

文章推荐： azure - ValidationTechnicalProfile 何时执行？

文章推荐： windows - CommandLineToArgvW 怪癖

文章推荐： gcc - 为什么生成的程序集将 edi 移动到堆栈上的变量？

文章推荐： python - 该对象在 Django 中没有属性 'is_hidden'

java - 能够 "tick"的时钟
我正在使用 Java 编写一个时钟程序，该程序能够“滴答作响”，但它存在问题。我认为它与 getter 和 setter 或 toString() 方法有关。计数器类 package clock;
javascript - React onwheel 不执行现有的scrollintoview 但 onclick 能够
const Index = () => { // Ref Links const frefLinks = { 1: useRef(1), 2: useRef(2), 3: useRef(3
python - 为什么 multiprocessing.Process 能够 pickle 修饰函数？
所以我读了here不能 pickle 装饰函数。确实: import multiprocessing as mp def deco(f): def wrapper(*args, **kwarg
go install 不创建包的二进制文件，而 go get 能够
我在go1.11.2 linux/amd64 版本。当包godog使用 go get github.com/DATA-DOG/godog/ 安装，godog 可执行文件在 $GOPATH/bin/中创
php - 在 Android 中编码字符串以便 PHP 能够 gzdecompress 它？
如何正确压缩字符串，以便 PHP 能够解压缩？我试过这个: public static byte[] compress(String string) throws IOException {
Z3 无法通过测试证明两个使用 Kleene 代数的简单程序之间的等价性，但 Mathematica 和 Reduce 能够
我们这里的问题是表明在测试中使用 Kleene 代数。在 b 的值由 p 保留的情况下，我们有交换条件 bp = pb;两个程序之间的等价性简化为等式在 b 的值不被 p 保留的情况下，我们有交
linux - openstack Quantum VM 能够 ping br-ex 但不能 ping 外部网络
我有一个与我的网络相关的非常奇怪的问题，我在具有多个接口(interface)的 VirtualBox 上安装了 RDO Grizzly OpenStack。虚拟盒子: eth0 - managem
javascript - Node.js 上的 TokenError : Bad Request; Google OAuth2; Passport. js；能够 console.log 数据，但是会出现错误
我正在尝试使用 Passport.js授权谷歌OAuth2在 Node.js .我整个星期都在尝试让它工作，但不知道为什么它不工作，所以现在我求助于 stack 寻求一些潜在的帮助。我已经尝试了所有在

首页

博学

6Ren·AI

商城

apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD