apache-spark - 为什么 pyspark 中的 "serialized results of n tasks (XXXX MB)"可能大于 `spark.driver.memory`？-6ren

apache-spark - 为什么 pyspark 中的 "serialized results of n tasks (XXXX MB)"可能大于 `spark.driver.memory`？

转载作者：行者123 更新时间：2023-12-04 08:51:25

24

4

我使用这些设置(以及其他设置)启动了一个 spark 作业:

spark.driver.maxResultSize  11GB
spark.driver.memory         12GB

我正在调试我的 pyspark工作，它一直给我错误:

serialized results of 16 tasks (17.4 GB) is bigger than spark.driver.maxResultSize (11 GB)

所以，我增加了 spark.driver.maxResultSize至 18 G在配置设置中。而且，它奏效了!!

现在，这很有趣，因为在这两种情况下 spark.driver.memory比返回的序列化结果小。

为什么这是允许的？我认为这是不可能的，因为序列化的结果是 17.4 GB我调试的时候，比驱动的大小，也就是 12 GB ，如上图？

这怎么可能？

最佳答案

这是可能的，因为 spark.driver.memory配置 JVM 驱动程序进程而不是 Python 解释器，它们之间的数据通过套接字传输，驱动程序进程不必将所有数据保存在内存中(不要转换为本地结构)。

关于apache-spark - 为什么 pyspark 中的 "serialized results of n tasks (XXXX MB)"可能大于 `spark.driver.memory`？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38417168/

24

4

0

文章推荐： Jenkins:在 shell 中访问 bitbucket 有效负载

文章推荐： elixir - 如何理解编译好的 Elixir Erlang 函数名

Github-文件XYZ为126.80 MB;这超出了GitHub的文件大小限制100.00 MB
我有一个本地存储库，有一个大文件被意外添加到其中。现在，即时通讯几乎落后了100次提交。当我尝试推送到GitHub时，它给了我一个错误。我需要做任何我需要做的事情，以便能够推送此存储库的其余部分。
cocoa - 我想为 700 MB 到 800 MB 图像大小分配内存
我正在尝试分配内存NSImage*originalLocationImage; NSURL *fileURL = [NSURL fileURLWithPath:originalLocation];//
hadoop - 我该如何在CDH4.7中编辑InputSplit大小？默认情况下，它是64 MB，但是我想提到它为1 MB
我如何以及在何处可以编辑CDH4.7中的输入拆分大小，默认情况下为64 MB，但我想将其称为1MB，因为我的MR作业运行缓慢并且我想提高MR作业的速度。我想需要编辑cor-site属性IO.file.
java - JVM 总内存通常为 64 MB 但有时只有 2 MB
我创建了一个 DLL，其中包含一个从 C# 代码调用的 JNI 函数。作为长时间运行的 GUI 应用程序的 C# 应用程序多次调用该函数。我的 JNI 函数调用 JNI_GetCreatedJava
hadoop - 以 MB 或 Mb 为单位的 mapreduce 指标中的吞吐量
运行 TestDFSIO 后，我得到了以下指标: 2019-04-30 09:50:35,790 INFO fs.TestDFSIO: Date & time: Tue Apr
ios - 为什么会出现 4 MB 使用率和 320 MB 可用内存警告？
我正在测试连接到 Xcode 5.1.1 的运行 iOS 7.1 的 iPhone 4。我不明白为什么当仪器显示我的应用程序仅使用几兆字节并且有大量可用内存时我会收到内存警告甚至崩溃(见附件)。有什么
sql - 我想将 n MB 的数据添加到我的数据库中，并且我希望数据库大小仅增长 n MB
我有一个假设的值数据库，每个值的大小为 4 个字节(即 4,000,000,000)。所有值都存在于数据库中，因此它以 0 开头，以最大的 4 字节数字结尾。只有一次，我想通过将 1 到 10000
python - 磁盘上有 70 MB 但内存中有 500 MB 的列表
我有一个字符串元组的 python 列表，格式如下:lst = [('xxx', 'yyy'), ...etc]。该列表包含大约 8154741 个元组。我使用了一个分析器，它说该列表占用大约 500
azure - 如何将 azure 事件中心的消息限制大小从 1 MB 增加到发送 4 MB？
我需要每秒发送 1,00,000 批记录。我在实验后得到的是 azure event hub 的事件限制为 10,00,000 个字节。我的每条记录有 145 字节，我必须发送的总记录是 1,00,0
hadoop - HDFS的默认 block 大小为128 MB，而Hive的默认 strip 大小为250 MB
HDFS块大小默认为128 MB(来源:https://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/hdfs-defau
azure - 如何将 azure 事件中心的消息限制大小从 1 MB 增加到发送 4 MB？
我需要每秒发送 1,00,000 批记录。我在实验后得到的是 azure event hub 的事件限制为 10,00,000 个字节。我的每条记录有 145 字节，我必须发送的总记录是 1,00,0
java - GC 分配的堆空间为 2048 mb 后，堆内存未释放小于 1200 mb
我正在 Linux 机器上运行 Jboss EAP 服务器 6.1。分配的堆内存如下。 JAVA_OPTS="-Xms2048m -Xmx2048m -XX:MaxPermSize=256m -Dja
php - BLOB 下载截断为 1 MB 脚本适用于小于 1 MB 的文件
我最近提出并解决了一个关于将大于 2 MB 的 .PDF 文件作为 BLOBS 上传到 MySQL 数据库的问题。我不得不更改我的 php.ini 文件中的一些设置和 MySQL 的最大数据包设置。然
c# - 在 C# 中生成 1 MB(或 n MB)文本文件
我需要创建一个文本文件(字母数字)，其大小(精确或接近)以 MB 为单位等于我输入的数字，例如 1 MB。我试图生成一个字符串，认为一个字符是 16 位或 2 字节，所以:1KB = 1024 字节
hadoop - 这不正常吧？所需的 AM 内存 (471859200+47185920 MB) 高于最大阈值 (2048 MB)
我已经阅读了很多有关通过设置 yarn.scheduler.maximum-allocation-mb 来解决此类问题的内容，我已将其设置为 2gb，因为我当前正在运行 select count(*)
java - 文件核心为 131.63 MB；这超出了 GitHub 的文件大小限制 100.00 MB
这个问题在这里已经有了答案: this exceeds GitHub's file size limit [duplicate] (3 个回答) 1年前关闭。核心程序崩溃数据。我不知道核心文件是从
visual-studio-code - Electron 应用程序的大小(对于Linux为450 mb，对于Windows为238 mb)，如何针对Visual Studio代码减小它
我已经建立了一个 Electron 应用程序，并使用 Electron 打包程序对其进行了打包。我制作了238MB的Windows bundle 包，而Linux版本是450 MB。我将其与也是 El
java - 使用 4 mb 查找不在 40 亿列表中的整数。但是 4 MB 还不够
这个问题在这里已经有了答案: Generate an integer that is not among four billion given ones (38 个答案) 关闭 9 年前。 Give
mongodb - 为什么 24 MB 的 CSV 数据在 MongoDB 集合中变成了 230 MB？
我的 Meteor 应用程序获取一个 CSV 文件，使用 Baby Parse(Papa Parse for server)对其进行解析，并将数据插入到 MongoDB 集合中。每个 CSV 行都作
amazon-web-services - Amazon SES 的文件限制为 10 MB .. 有没有其他方法可以发送超过 10 MB 的文件？
Amazon SES 有 10 MB 的文件限制我的问题是有没有其他方法可以发送超过 10 MB 的文件？最佳答案这是一个硬限制。您需要做的是包含您当前包含在电子邮件中的 Assets 的

首页

博学

6Ren·AI

商城

apache-spark - 为什么 pyspark 中的 "serialized results of n tasks (XXXX MB)"可能大于 `spark.driver.memory`？