- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Spark 围绕弹性分布式数据集 (RDD) 的概念,它是可以并行操作的容错元素集合。但是,我并没有找到RDD完成容错的内部机制。有人能描述一下这个机制吗?谢谢。
最佳答案
让我用我理解的非常简单的术语解释一下。
当处理数据的节点之一崩溃时,集群中可能会发生故障。用 Spark 术语来说,RDD 被分成多个分区,每个节点(称为执行器)在任何时间点都在分区上运行。 (理论上,每个执行器都可以分配多个任务,具体取决于分配给作业的核心数量与 RDD 中存在的分区数量)。
通过操作,真正发生的是在 RDD 的分区上执行的一系列 Scala 函数(在 Spark 术语中称为转换和操作,具体取决于函数是纯函数还是副作用函数)。这些操作组合在一起,Spark 执行引擎将它们视为操作的有向无环图。
现在,如果某个特定节点在操作 Z 的过程中崩溃,该操作依赖于操作 Y,而操作 Y 又依赖于操作 X。集群管理器 (YARN/Mesos) 发现该节点已死亡并尝试分配另一个节点继续处理。该节点将被告知对 RDD 的特定分区进行操作,并通过传入创建的 Scala 闭包来执行它必须执行的一系列操作 X->Y->Z(称为 lineage
)来自应用程序代码。现在新节点可以愉快地继续处理并且实际上没有数据丢失。
Spark 还使用此机制来保证exactly-once
处理,但需要注意的是,您执行的任何副作用操作(例如在 Spark Action
block 中调用数据库)可以被多次调用。但是,如果您将转换视为从一个 RDD 到另一个 RDD 的纯函数映射,那么您可以放心,生成的 RDD 将仅处理一次来自源 RDD 的元素。
Spark 中的容错领域非常广阔,需要更多的解释。我希望看到其他人提出有关如何实现这一点的技术细节等。不过还是感谢这个很棒的主题。
关于apache-spark - Spark的RDD通过什么方式完成容错?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39189483/
从 Redis 获取消息时,onDone:(){print('done')} 从未起作用。 import 'package:dartis/dartis.dart' as redis show PubS
昨天我玩了一些vim脚本,并设法通过循环来对当前输入的内容进行状态栏预测(请参见屏幕截图(灰色+黄色栏))。 问题是,我不记得我是怎么得到的,也找不到我用于该vim魔术的代码片段(我记得它很简单):它
我尝试加载 bash_completion在我的 bash (3.2.25) 中,它不起作用。没有消息等。我在我的 .bashrc 中使用了以下内容 if [ -f ~/.bash_completio
我正在尝试构建一个 bash 完成例程,它将建议命令行标志和合适的标志值。例如在下面 fstcompose 命令我想比赛套路先建议 compose_filter= 标志,然后建议来自 [alt_seq
当我尝试在重定向符号后完成路径时,bash 完成的行为就好像它仍在尝试在重定向之前完成命令的参数一样。 例如: dpkg -l > /med标签 通过在 /med 之后点击 Tab我希望它完成通往 /
我的类中有几个 CAKeyframeAnimation 对象。 他们都以 self 为代表。 在我的animationDidStop函数中,我如何知道调用来自哪里? 是否有任何变量可以传递给 CAKe
我有一个带有 NSDateFormatter 的 NSTextField。格式化程序接受“mm/dd/yy”。 可以自动补全日期吗?因此,用户可以输入“mm”,格式化程序将完成当前月份和年份。 最佳答
有一个解决方案可以使用以下方法完成 NSTextField : - (NSArray *)control:(NSControl *)control textView:(NSTextView *)tex
我正在阅读 Passport 的文档,我注意到 serialize()和 deserialize() done()被调用而不被返回。 但是,当使用 passport.use() 设置新策略时在回调函数
在 ubuntu 11.10 上的 Firefox 8.0 中,尽管 img.complete 为 false,但仍会调用 onload 函数 draw。我设法用 setTimeout hack 解决
假设我有两个与两个并行执行的计算相对应的 future 。我如何等到第一个 future 准备好?理想情况下,我正在寻找类似于Python asyncio's wait且参数为return_when=
我正在寻找一种 Java 7 数据结构,其行为类似于 java.util.Queue,并且还具有“最终项目已被删除”的概念。 例如,应可以表达如下概念: while(!endingQueue.isFi
这是一个简单的问题。 if ($('.dataTablePageList')) { 我想做的是执行一个 if 语句,该语句表示如果具有 dataTablesPageList 类的对象也具有 menu
我用replaceWith批量替换了许多div中的html。替换后,我使用 jTruncate 来截断文本。然而它不起作用,因为在执行时,replaceWith 还没有完成。 我尝试了回调技巧 ( H
有没有办法调用 javascript 表单 submit() 函数或 JQuery $.submit() 函数并确保它完成提交过程?具体来说,在一个表单中,我试图在一个 IFrame 中提交一个表单。
我有以下方法: function animatePortfolio(fadeElement) { fadeElement.children('article').each(function(i
我刚刚开始使用 AndEngine, 我正在像这样移动 Sprite : if(pValueY < 0 && !jumping) { jumping =
我正在使用 asynctask 来执行冗长的操作,例如数据库读取。我想开始一个新 Activity 并在所有异步任务完成后呈现其内容。实现这一目标的最佳方法是什么? 我知道 onPostExecute
我有一个脚本需要命令名称和该命令的参数作为参数。 所以我想编写一个完成函数来完成命令的名称并完成该命令的参数。 所以我可以这样完成命令的名称 if [[ "$COMP_CWORD" == 1 ]];
我的应用程序有一个相当奇怪的行为。我在 BOOT_COMPLETE 之后启动我的应用程序,因此在我启动设备后它是可见的。 GUI 响应迅速,一切正常,直到我调用 finish(),按下按钮时,什么都没
我是一名优秀的程序员,十分优秀!