hadoop - 当中间输出不适合 Spark 中的 RAM 时会发生什么-6ren

hadoop - 当中间输出不适合 Spark 中的 RAM 时会发生什么

转载作者：可可西里更新时间：2023-11-01 14:18:33

25

4

我刚开始学习 Spark。据我了解，Spark 将中间输出存储在 RAM 中，因此与 Hadoop 相比速度非常快。如果我错了，请纠正我。

我的问题是，如果我的中间输出是 2 GB 而我的空闲 RAM 是 1 GB，那么在这种情况下会发生什么？这可能是一个愚蠢的问题，但我还没有理解 Spark 的内存概念。谁能给我解释一下 Spark 的内存概念？

谢谢

最佳答案

这个问题问的是RDD persistence在 Spark 中。

You can mark an RDD to be persisted using the persist() or cache() methods on it. The first time it is computed in an action, it will be kept in memory on the nodes. Spark’s cache is fault-tolerant – if any partition of an RDD is lost, it will automatically be recomputed using the transformations that originally created it.

根据您为 RDD 设置存储级别的方式，可以配置不同的结果。例如，如果您将存储级别设置为 MEMORY_ONLY(这是默认存储级别)，您的输出将尽可能多地存储在内存中，并即时重新计算 RDD 的其余部分。您可以像下面这样保留您的 RDD 并应用您的存储级别:rdd.persist(MEMORY_ONLY)。

在您的示例中，将计算 1GB 的输出并将其存储在内存中，而另外 1GB 将在需要时计算以用于 future 的步骤。根据您的用例，还可以设置其他存储级别:

MEMORY_AND_DISK -- 计算整个 RDD，但在必要时将一些内容溢出到磁盘
MEMORY_ONLY_SER, MEMORY_AND_DISK_SER -- 与上面相同，但所有元素都是序列化的
DISK_ONLY -- 将所有分区直接存储到磁盘
MEMORY_ONLY_2, MEMORY_AND_DISK_2 -- 与上面相同，但分区被复制两次以获得更大的容忍度

同样，您必须查看您的用例以确定最佳存储级别。在某些情况下，RDD 的重新计算实际上可能比从磁盘加载所有内容更快。在其他情况下，快速序列化程序可以减少从磁盘中获取的数据，从而快速响应有问题的数据。

关于hadoop - 当中间输出不适合 Spark 中的 RAM 时会发生什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33194626/

25

4

0

文章推荐： hadoop - `find` 中是否有 `hadoop` 命令的等价物？

文章推荐： windows - Git 无法在 Windows 网络环境中暂存或提交 SourceTree

c# - 适合/填充图像？
我正在制作一个简单的程序来更改我的计算机背景。我在网上发现了一个stackoverflow问题，或多或少涵盖了我想做的事情。我现在可以成功地将我的墙纸更改为平铺、居中和从在线图像 URL 拉伸(str
mysql - 适合 where 子句的组中的最大值
是的，这是另一个每组最大的问题之一!我已经尝试了几天，试图解决这个问题，但无济于事。我也一直在寻找，但我什至不知道我是否在正确的地方寻找。问题的最简化版本如下。我有 2 个表，一个是多对多表，另一个
适合 JavaME 语法的编译器推荐？
我想解析一些数据，我有一个 BNF 语法来解析它。谁能推荐任何能够生成可在移动设备上使用的代码的语法编译器？由于这是针对 JavaME 的，因此生成的代码必须是: 希望很小对外来 Java 库的依
r - 适合 ARIMA 模型
我有一个动物园时间序列对象，vels : 2011-05-01 00:00:00 7.52 2011-05-01 00:10:00 7.69 2011-05-01 00:20:00 7.67 2011
osgi - 适合 ERP 等应用程序的框架
我想创建一个供小型制造公司使用的生产管理系统。该系统将允许记录设备制造的不同阶段。要求如下: 1.非基于浏览器的界面。需要基于 Swing 或 AWT 的东西。虽然我了解实现基于浏览器的解决方案的便利
clojure - Lamson 适合 clojure？
是否有任何 java 或 clojure 邮件库可以实现 lamson 的功能？特别是lamson的邮件路由功能非常酷http://verpa.wordpress.com/2010/11/13/mak
python - Sklearn - 适合、缩放和变换
sklearn 中的 fit() 方法似乎在同一界面中服务于不同的目的。应用于训练集时，像这样: model.fit(X_train, y_train) fit() 用于学习稍后将在测试集上使用 p
javascript - 适合 map 内的边界
我使用 OSM 显示县的边界。它在大多数情况下工作得很好，但在某些情况下，县更大并且不适合 map 。如何在开始渲染之前调整缩放级别？ var map = L.map("mapCnty").setV
javascript - 适合 JavaScript 的大小
我正在致力于缩小和丑化我的 javascript 文件。我想知道合适的尺寸是多大。如果我将所有js文件合并成一个文件(经过缩小和丑化)，它会大于1mb。我想，最好将它们分成 2-3 个文件(每个文件
java - TextArea 适合 GridPane
我是 Java 新手。我想在 GridPane 中放置一个 TextArea。我在过去几个小时内尝试了此操作，结果如下: 如您所见，TextArea 比我的 Gridpane 大得多。这是我的代码:
python - Sklearn - 适合、缩放和变换
sklearn 中的 fit() 方法似乎在同一界面中服务于不同的目的。应用于训练集时，像这样: model.fit(X_train, y_train) fit() 用于学习稍后将在测试集上使用 p
r - 适合 ARIMA 模型的时间序列的方差
我认为这是一个基本问题，但也许我混淆了这些概念。假设我使用 R forecast 包中的函数 auto.arima() 将 ARIMA 模型拟合到时间序列。该模型假设方差不变。我如何获得该方差？是残
javascript - 适合 map 内的边界
我使用 OSM 显示县的边界。它在大多数情况下工作得很好，但在某些情况下，县更大并且不适合 map 。如何在开始渲染之前调整缩放级别？ var map = L.map("mapCnty").setV
ios - 适合 UItableView 单元格中的文本
我有一个很长的标签，这是我的第一个标签，我想把它放在我的单元格中。这就是我所拥有的，但它不起作用。我有一个自定义的 UITabelviewCell ，里面有几个标签。 -(CGFloat)table
python - 适合 WCS 来治愈
假设我有一个包含 WCS header 的 FITS 文件，这样我就可以执行以下操作: #import healpy as hp #import astropy.io.fits as pyfits #
适合 Web 设计师初学者的 jQuery
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭10 年前。 Improve
c# - 适合 Unity 的抽象工厂
我们正在构建一个与其他系统有多个集成接触点的应用程序。我们有效地使用 Unity 来满足我们所有的依赖注入(inject)需求。整个业务层是用接口(interface)驱动的方法构建的，实际实现在应用
ios - 适合 MKMapView 部分的注释
我得到了 MKMapView 和一些注释。我使用下一个代码来显示所有注释: NSArray *coordinates = [self.mapView valueForKeyPath:@"annotat
php - 适合 MySQL 查询最新状态
我在一家托管公司工作，我们经常收到安装、新域、滞后修复等方面的请求。为了大致了解仍然开放的内容，我决定制作一个非常简单的票务系统。我有一点 php 知识和一点 MySQL 知识。目前，我们将根据客户的
ios - 适合 UITableView 整个背景的图像大小
我想向我的 UITableView 添加背景图像，它适合 UI，还具有导航 Controller 和工具栏。在那种情况下，我没有找到适合 iPhone 和 iPad 不同屏幕的 tableview 的

首页

博学

6Ren·AI

商城

hadoop - 当中间输出不适合 Spark 中的 RAM 时会发生什么