scala - 为什么 spark 不断重新计算 RDD？-6ren

scala - 为什么 spark 不断重新计算 RDD？

转载作者：行者123 更新时间：2023-12-04 22:19:18

24

4

我使用 flatMap 制作了一个 RDD。稍后我对其进行范围分区。如果我坚持原来的 RDD，一切正常。但是，如果我不缓存它，范围分区器部分会以某种方式重新计算原始 RDD 的部分。我知道如果我没有足够的内存，但在这种情况下，我的系统中的内存比 RDD 占用的内存多得多。其次，该 RDD 的计算时间很长，因此这种重新启动/重新计算确实会损害性能。这种奇怪行为的原因是什么？

P.S 我只使用 RDD 一次。所以，这不应该发生。

最佳答案

这就是 Spark 的工作原理:

When you persist an RDD, each node stores any partitions of it that it computes in memory and reuses them in other actions on that dataset (or datasets derived from it).

所以当你不这样做时，它不会。如果你多次使用一个 RDD，并且有足够的内存，你通常想要持久化它。

这不能自动完成，因为 Spark 无法知道您是否要重用 RDD:例如您可以计算一个RDD，然后对其进行 sample，并根据结果决定是否要对RDD做其他事情，因此RDD是否使用两次取决于随机数生成器。

关于scala - 为什么 spark 不断重新计算 RDD？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40248865/

24

4

0

文章推荐： ag-grid 单列，将列扩展到网格宽度

文章推荐： ansible - 从角色中的 Ansible 事实中获取 MAC 地址

文章推荐： vim - 在 Gvim 8 中光标不会转到窗口的顶部或底部

文章推荐： FullCalendar - 图像作为事件

iphone - 如何准备应用程序以提交到应用程序商店？我*不断*收到代码签名错误？
如果这不是一个错误，那就是另一个错误。如果不是那样的话，那就是别的东西了。我觉得我的项目已经改变了很多，现在只是试图解决代码签名问题，结果一切都搞砸了。我严格按照说明进行操作，但出现错误，例如当前的“
c++ - 我的 makefile 不断 self 编译；我究竟做错了什么？
我不确定是否有一些我不知道的内置变量或规则，或者 make 是否有问题，或者我只是疯了。对于我的一个项目，我有一个如下的 makefile: CC=g++ CFLAGS=-O3 `libpng-co
jQuery/CSS3 - 不断 3d 翻转 5 div？
我有大约 10 个 div，它们必须不断翻转，每个 div 延迟 3 秒这个 codrops 链接的最后一个效果是我正在寻找的，但无需单击 div http://tympanus.net/Devel
php - jQuery 不断 ping 以获取 Ajax 响应
我如何使用 jQuery 持续运行 PHP 脚本并每秒获取响应，以及将鼠标上的少量数据发送到同一脚本？我真的必须添加一些随机扩展才能让这么简单的计时器工作吗？最佳答案 To iterate is
java - REQUIRES_NEW 内的 REQUIRES_NEW 内的 REQUIRES_NEW ... 不断
JBoss 4.x EJB 3.0 我见过如下代码(大大简化): @Stateless @TransactionAttribute(TransactionAttributeType.NOT_SUPPO
git - 不能忽略 .idea/workspace.xml - 不断 pop
使用 PHPStorm，我试图忽略每次尝试进行 git 提交时 pop 的 workspace.xml。我的 .gitignore 看起来像: /.idea/ .idea/workspace.xml

首页

博学

6Ren·AI

商城

scala - 为什么 spark 不断重新计算 RDD？