apache-spark - RDD 和 Dataset 的不同默认值持续存在-6ren

apache-spark - RDD 和 Dataset 的不同默认值持续存在

转载作者：行者123 更新时间：2023-12-04 03:59:45

24

4

我试图找到一个很好的答案，说明为什么 RDD 的默认持久化是 MEMORY_ONLY 而 Dataset 是 MEMORY_AND_DISK。但是我找不到它。

有谁知道为什么默认持久性级别不同？

最佳答案

仅仅是因为 MEMORY_ONLY 很少有用 - 在实践中有足够的内存来存储所有需要的数据并不常见，所以你经常不得不驱逐一些 block 或缓存数据部分。

相比于 DISK_AND_MEMORY 将数据逐出到磁盘，因此没有缓存 block 丢失。

选择 MEMORY_AND_DISK 作为默认缓存模式的确切原因由 SPARK-3824 解释。 (默认情况下，Spark SQL 应缓存在 MEMORY_AND_DISK 中):

Spark SQL currently uses MEMORY_ONLY as the default format. Due to the use of column buffers however, there is a huge cost to having to recompute blocks, much more so than Spark core. Especially since now we are more conservative about caching blocks and sometimes won't cache blocks we think might exceed memory, it seems good to keep persisted blocks on disk by default.

关于apache-spark - RDD 和 Dataset 的不同默认值持续存在，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52130014/

24

4

0

文章推荐： if-statement - Google 文档表单中的 If/Else

文章推荐： internet-explorer - Bootstrap 中的 IE 中没有圆边

文章推荐： maven - 使用 native 库进行Surefire JUnit测试

firebase - 持续 session ？
如果我错了，但身份验证 session 有 30 天的最大限制，请纠正我？如果是这种情况，有没有办法让我的服务器节点应用程序永远监听经过身份验证的 dataRef？干杯，旅行。最佳答案自 on
build-automation - 持续/自动部署对桌面应用程序有意义吗？
我目前正在阅读 book Continuos Delivery由 Humble/Farley 撰写，虽然里面的很多东西都是有道理的，但有一件事让我烦恼: 似乎作者只针对基于服务器的(单客户端？)应用程
c++ - 密码管理器 - 持续/长期的事情
好吧，我非常了解每个人对自制密码管理器的看法，但我希望得到帮助。不用于实际使用，仅供学习。我想知道，在 C++ 中如何拥有长期变量。或者真的，有什么长期的。长期是什么意思？在下次运行 .exe
bash - 替换文本文件中的行(持续)bash
我在文本文件中有以下三行(最后 3 行): } } } 我想做的是做这样的事情: } } blablabla blablabla blabla
ios - 每日同时推送通知，持续 10 天
在 iOS 中，有没有一种简单的方法可以在每天的同一时间发送 10 天的推送通知？我不想向所有用户发送推送通知。我的应用程序的工作方式是，用户可以选择连续十天推送通知的时间。您有推荐的 API 吗？或
android - 持续、频繁更新通知的最先进方法 ("notification widget")
我正在努力寻找一种当前最先进的方法来处理频繁更新的通知(例如每 3 分钟一次)。似乎在较新的 Android 版本中内置了如此多的电源效率调整(幸运的是!)，我之前成功使用的方法(使用 Broadca
css - 从我的笔记本电脑将自定义 CSS(持续)应用到我经常查看的网站？
我不得不在一些糟糕的房地产网站上花费大量时间。我比较精通 CSS，并且可以(在 FireFox 中)“检查元素”并更改 CSS 以隐藏或缩小特定页面的华而不实的元素。但我想将此自定义 CSS 应用于特
c# - signalR 在 POST 后使用/持续
目前正在研究如何使用 signalR 在处理文件时向用户呈现文件的进度报告。我正在使用 asp.net MVC 4。通过 Ajax 进行发布/获取时，我可以轻松获取状态更改。因为我需要上传一个文件(
c# - 持续 15 分钟的 DotNet 舍入日期时间
这个问题在这里已经有了答案: How can I round up the time to the nearest X minutes? (15 个答案) Is there a simple fun
php - 仅运行脚本一次，持续 5 分钟 (Linux)
我有一个 php 脚本，我想运行特定的时间(例如 5 分钟)，但只能运行一次。对于 cron 作业，这将无限期地运行。还有别的办法吗？最佳答案处理这个问题的方法是: 当某些事件触发需要 cron
php - 如何使用户 session 持续 24 小时？
我弄乱了我的 apache 和 php.ini 文件，我网站的用户仍然提示该网站在很短的时间后或每次他们关闭并打开同一个浏览器时将他们注销。我正在运行 Apache 和 PHP。我应该进行哪些设置
mysql - (以今天计算)减去(以前一天计算)持续 1 个月
如何查询今天的总和需要减去前一天的总和，每天持续一个月。 SELECT COUNT(DISTINCT member_profile.memberProfileNumber) FROM member_p
Javascript 重复函数 x 次，持续 y 秒
这个问题在这里已经有了答案: How do I add a delay in a JavaScript loop? (32 个答案) 关闭 8 年前。我认为这个问题之前一定有人问过，但我找不到其他
php - 每 24 小时重新发送一次电子邮件，持续 3 天
用户在我的网站上注册后，我们会向他发送一封确认电子邮件。我想要的是 - 三天内每 24 小时为用户重新发送一次电子邮件。例如: user_table id , name, date_registere
php - Laravel Session Flash 持续 2 个请求
最近我从 Codeigniter 换到了 Laravel，一切都很顺利，除了我遇到了 Session::flash 的问题。当我创建新用户时，我收到成功消息，但它会持续 2 个请求，即使我没有通过验
Azure 监视器针对 CPU 使用率 > 80% 持续 30 分钟或更长时间发出警报
如果有人能帮助我解决这个问题，我将非常感激。我正在尝试针对 CPU 使用率 >= 80% 持续 30 分钟或更长时间创建 Azure 监视器警报我已附上警报规则条件的屏幕截图。在“评估依据”下，聚
Azure 监视器针对 CPU 使用率 > 80% 持续 30 分钟或更长时间发出警报
如果有人能帮助我解决这个问题，我将非常感激。我正在尝试针对 CPU 使用率 >= 80% 持续 30 分钟或更长时间创建 Azure 监视器警报我已附上警报规则条件的屏幕截图。在“评估依据”下，聚
java - 每天运行模型 8 小时，持续 3 天 (AnyLogic)
希望大家平安 1。我的目标我正在尝试模拟 3 天的真实情况。系统每天只能工作 8 小时。我的目标是模型运行 8 小时，持续 3 天，以获得足够的数据进行分析。 2。我的问题我有一个代理预约时间表
JavaScript/jQuery 每 5 分钟调用一次函数，持续 8 小时
我需要在 8 小时内每 5 分钟调用一次函数。问题是它必须是同一天。例如，如果用户在 3/29 晚上 11:59 登录系统，而现在是 3/30 凌晨 12:01，则不应再调用该函数。我知道如何每
javascript - 使用 Firebase 的 Firestore 高效(持续)更新聊天消息
我正在开发一个 React Native 应用程序，该应用程序使用 Firebase 的 Firestore 作为后端。现在，每次收到新消息时，我都会从 Firestore 获取所有消息并更新我的状态

首页

博学

6Ren·AI

商城

apache-spark - RDD 和 Dataset 的不同默认值持续存在