apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD-6ren

apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD

转载作者：行者123 更新时间：2023-12-02 00:20:26

25

4

让我详细说明我的问题:

我正在使用一个集群，其中包含一个主节点和 3 个工作节点，我的主节点

节点有可用的 spark 上下文。

我已经使用存储级别“DISK_ONLY”将我的 RDD 保存到磁盘中。

当我运行我的 spark 脚本时，它会将一些 RDD 保存到任何工作人员的硬盘上

节点，现在当我的主机出现故障时，它有 spark 上下文并作为

result它也会down掉，从而所有DAG信息都丢失了。

现在我必须重新启动我的主节点，以便启动 spark 上下文

再次运行。

现在的问题是——我能不能用这个保留所有保存的 RDD

弹跳(重启主节点和 spark 上下文守护进程)？因为一切都是

重新启动。

最佳答案

我认为目前没有办法在关闭 Spark Context 后恢复缓存的 RDD。放置和获取RDD block 的组件是Spark的BlockManager组件。这反过来又使用另一个名为 BlockInfoManager 的组件来跟踪 RDD block 信息。当 BlockManager 在工作节点中关闭时，它会清除它正在使用的资源。其中包括 BlockInfoManager，它具有包含 RDD block 信息的 HashMap。由于这个Map在清理的过程中也被清空了，所以下次实例化的时候，那个worker里面就没有保存任何RDD block 的信息了。因此它将将该 block 视为未计算的。

关于apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55545896/

25

4

0

文章推荐： azure - ValidationTechnicalProfile 何时执行？

文章推荐： windows - CommandLineToArgvW 怪癖

文章推荐： gcc - 为什么生成的程序集将 edi 移动到堆栈上的变量？

文章推荐： python - 该对象在 Django 中没有属性 'is_hidden'

持久/保存实体时，HIbernate覆盖数据
我是Hibernate的新手。当我保存特定实体时，它将从现有实体中重写数据。我将ID用作自动生成，如下所示: @Id @GeneratedValue(strategy=GenerationType.
dart - 持久/连续连接的HttpClient行为
我正在尝试以连续模式使用CouchDB更改通知API，所以我想发送此消息 _changes？feed = continuous？include_docs = true作为GET请求到达我的CouchD
XMPP 持久 session 室状态
我有 XMPP 服务器(openfire)和一堆客户端(spark)，分为几个组(部门)。我正在寻找能够将它们留在 session 室中的能力。我的意思是 Skype 具有的类似功能；当用户关闭带有群
Azure(持久)函数 - 管理并行性
我发布这个问题是为了看看我是否正确理解 Azure Functions 中的并行性，特别是 Durable Functions。最近使用 az cli 在 Azure Functions 中添加了设
azure - 持久 AKS 容器的日志
我在 Dev Env 上有一个 AKS 集群，上面运行着一些容器。我还启用了 Azure Log Analytics。但我可以看到正在运行的当前容器的日志，而不是已被终止或停止的旧容器的日志。我想知
queue - 持久 Akka 邮箱和无损
在 Akka 中，当一个 actor 在处理消息时死亡(在 onReceive(...) { ... } 内)，该消息就会丢失。有没有办法保证无损？有一种配置 Akka 在将消息发送到 onRecei
haskell - selectOneMany Yesod 持久
我试图让 selectOneMany 取得有限的成功。我有以下数据库模型 User email Text verkey Text Maybe verified Bool password T
haskell - 使用按键列表进行选择持久 (Yesod)
我需要使用持久性(Yesod)从键列表中获取实体列表假设我有一个 Model 及其相应的 ModelId。我身边有: keys :: [ModelId] 我需要得到 models :: [Model
java - GWT 持久 URL
我有一个使用 GWT、请求工厂和地点/Activity 构建的网络应用程序。我很好奇我使用的历史 token 是否持久。该任务基本上就是让 URL 定义我的网络应用程序的确切位置(读作“文件/文件夹结
jquery - 如何刷新页面并保持元素不刷新(持久)直到用户单击提交？
我正在寻找一种 jQuery 方法来在刷新页面时使页面元素持久保留在用户屏幕上。当我刷新页面并且丢失 jQuery 页面中的内容时，它会发生变化。我需要页面持久。如何刷新页面并保持元素不刷新(持久)
c - OpenMP 无效控制谓词 - 持久
当我尝试使用 gcc 编译带有 -fopenmp 标志的 C 代码时，我已经持续收到此错误超过 6 小时了。错误:控制谓词无效 for ( int i = 0; i #include #ifde
java - 如何隔离实体验证以防止整个批量(持久)事务的事务回滚？
我有带有验证注释的实体，例如@NotNull。我不知道如何防止容器管理的事务在批量持久操作中出现 ConstraintViolationException 的情况下回滚，例如: public void
javascript - 持久 header 导致网站高度崩溃
这是我的代码: http://jsfiddle.net/KCb5z/8/embedded/result/ http://jsfiddle.net/KCb5z/8/ $(function () {
java - 持久 I/O 流连接
我正在与服务器通信，理想情况下，我希望输入流和输出流始终处于运行状态。我收到未经请求的响应，因此我必须始终准备好接收输入流上的数据。在我进一步深入之前，我应该说我建立的任何连接都必须能够支持 SSL
Azure Functions - TCP 持久
我正在寻找一种正确扩展 Azure Functions 的方法，但遇到了问题。我有一组 IoT 设备，通过 HTTP 向 Azure 发送数据(为此，有一组自动扩展的 Azure Functions
浅谈Hibernate中的三种数据状态(临时、持久、游离)
1.临时态（瞬时态）不存在于session中，也不存在于数据库中的数据，被称为临时态。比如：刚刚使用new关键字创建出的对象。 2.持久态存在于session中，事务还未提交，提交之后
php - Kohana 持久 session 和子域
我在 Kohana v2 中使用数据库 session 驱动程序。为了使 session 持久化，Kohana 创建了一个 token cookie。这个 cookie 使用了我想的 cookie 配
python - PyWinrm 持久 PowerShell session
有谁知道是否有办法使用 PyWinrm 打开一个持久的 PowerShell session ，该 session 保持状态并且可以多次调用？我正在尝试执行以下操作: #!/bin/python im
elasticsearch - 如何在不重启集群的情况下(持久)更新Elasticsearch中的index.number_of_replicas设置？
在运行的Elasticsearch集群中，配置文件中的index.number_of_replicas设置为1。我可以通过运行以下命令在运行的集群上将其更新为2 # curl -XPUT "http
java - Spring + Hibernate - 持久/提交数据不起作用
我在“这么长的帖子必须意味着大量的代码和配置”部分下一对一地使用指南代码。 http://blog.springsource.com/2006/08/07/using-jpa-in-spring-wi

首页

博学

6Ren·AI

商城

apache-spark - 如果失去 spark 上下文，我们是否能够保留所有持久化的 RDD