apache-spark - 为什么 RDD 不适合流式任务？-6ren

apache-spark - 为什么 RDD 不适合流式任务？

转载作者：行者123 更新时间：2023-12-04 04:22:41

26

4

我广泛使用 Spark，Spark 的核心是 RDD，正如 RDD 论文中所示，在流式应用程序方面存在局限性。这是 RDD 论文中的确切引用。

As discussed in the Introduction, RDDs are best suited for batch applications that apply the same operation to all elements of a dataset. In these cases, RDDs can ef- ficiently remember each transformation as one step in a lineage graph and can recover lost partitions without having to log large amounts of data. RDDs would be less suitable for applications that make asynchronous finegrained updates to shared state, such as a storage system for a web application or an incremental web crawler

我不太明白为什么RDD不能有效地管理状态。 Spark Streaming 如何克服这些限制？

最佳答案

I don't quite understand why the RDD can't effectively manage state.

这不是真的能不能，而是更多的是成本。我们已经建立了处理细粒度更改的机制 Write-ahead logging但是管理日志非常昂贵。这些必须写入持久存储，定期合并，并且在发生故障时需要昂贵的重放。

相比之下，RDD 是极其轻量级的解决方案。它只是一个小的本地数据结构，只需要记住它的沿袭(祖先和应用的转换)。

这是否意味着不可能在 Spark 之上创建至少部分有状态的系统。看看 Caffe-on-Spark architecture .

How does Spark Streaming overcome these limitations?

它没有，或者更准确地说，它在外部独立于 RDD 抽象来处理这个问题。它包括使用具有源特定保证的输入和输出操作以及用于处理接收到的数据的容错存储。

关于apache-spark - 为什么 RDD 不适合流式任务？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35822365/

26

4

0

文章推荐： tfs - 无法嵌套TFS分支，所以分支共享代码不起作用？

文章推荐： audio - ffmpeg 流偏移命令(-itsoffset)不起作用

文章推荐： command-line - 从命令行关闭 acrobat reader 实例

css - compass 式( ruby )编码错误
我刚刚更新了 Ruby，现在我在尝试启动 compass 时遇到以下错误: Encoding::CompatibilityError on line ["28"] of /usr/local/Cell
c++ - 有哪些小型、快速和轻量级的开源应用程序(µTorrent 式)？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 6 年前。
java - 如何修复 session 式 Java 程序
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
Android 相当于 iOS MobileSubstrate 式 Hook ？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
ios - iOS 中的可折叠/ Accordion 式 View
我正在尝试在我的 iOS 应用程序中开发可折叠/ Accordion 式的功能。这将是您可以在网站上找到的典型 FAQ 类型功能。我想点击标题，然后显示详细信息。因为这是帮助部分，只有几个项目，我认
web-services - 多个依赖资源的 REST 式 URI 设计
我正在尝试设计一个基于 REST 的 Web 服务来与我正在开发的农场动物管理系统进行交互。为了详细说明问题，我收藏了动物属于一个农场。每只动物都有自己的信息——例如姓名、身份证号、品种年龄等。因
javascript - Accordion 式 list 计数器 document.form[]
我有 3 种不同的表单，其中复选框数量不同，每个部分基本上代表一个表单，因此当用户选择该部分中的复选框时，它会显示他们在该部分的总金额中 checkout 了多少 HTML
python - 如何将多个 PDF 页面拼接成一个大 Canvas 式 PDF？
我有一份 32 页的 PDF 版家谱。与其将家谱全部放在一个非常大的 PDF 页面上(这是我想要的)，不如将其格式化为一组 8 个单独的美国信纸大小的页面应该在整个宽度上缝合； 4 行这样就完成了树。
maven - 通过 Maven 自动编译 compass 式 SASS 的最佳方法
指SASS implementation for Java? : 在 Maven 目标编译包中自动编译 compass-style.org 样式表的最佳方法是什么？我不想发送太多的自编译库，也不想通
wpf - 组合框、按钮和 ICommand 绑定(bind)(MVVM 式)
鉴于以下 XAML... 我正在寻找一种绑定(bind) ComboBox、Button 和 Command 的方法，以便当 ComboBox 的值更改时，在 Command 上调用 CanExe
javascript - 在 Ember.js 中实现 Accordion 式 View
在玩具应用程序中，我有一个显示所有帖子标题的“帖子”模板。当您单击每个标题时，我不想直接进入“显示” View ，而是直接内联展开该帖子的其余内容。我考虑过让 postRoute 重用 postsR
twitter-bootstrap - 他们是否提供了任何自定义的 Twitter Bootstrap 式 swagger-ui 实现？
我需要一些使用 Twitter Bootstrap 或其他响应式框架的自定义 Swagger-UI 实现。需要在我的移动设备上使用这样的 UI 测试我的 API，但 swagger-ui 不能很好地扩
javascript - JavaScript 中的 Java 式 OOP 和 jQuery 失败
我正在做一个项目，我真的在尝试编写面向对象的 JavaScript 代码。我刚刚开始阅读Douglas Crockford's JavaScript: The Good Parts我很快开始意识到用
java - 在 java 中使用 Bouncy CaSTLe 进行 block 式 RSA 加密
在 C# 中，我通过执行以下操作来加密文本数据(请注意我正在以 block ( block )的形式加密数据): public string EncryptData(string pu
wcf - 使用 Azure ACS 和 OAuth 2.0 的 Facebook 式 API 访问场景 : how to implement app authorization?
我正在构建一个社交网站，该网站将向全世界公开 REST API (WCF WebAPI)，以便任何开发人员都能够为该网站创建客户端应用程序、将其与其他服务集成等。我想为 API 实现 Faceboo

首页

博学

6Ren·AI

商城

apache-spark - 为什么 RDD 不适合流式任务？