gpt4 book ai didi

apache-spark - 为什么 pyspark 中的 "serialized results of n tasks (XXXX MB)"可能大于 `spark.driver.memory`?

转载 作者:行者123 更新时间:2023-12-04 08:51:25 24 4
gpt4 key购买 nike

我使用这些设置(以及其他设置)启动了一个 spark 作业:

spark.driver.maxResultSize  11GB
spark.driver.memory 12GB

我正在调试我的 pyspark工作,它一直给我错误:
serialized results of 16 tasks (17.4 GB) is bigger than spark.driver.maxResultSize (11 GB)

所以,我增加了 spark.driver.maxResultSize18 G在配置设置中。而且,它奏效了!!

现在,这很有趣,因为在这两种情况下 spark.driver.memory比返回的序列化结果小。

为什么这是允许的?我认为这是不可能的,因为序列化的结果是 17.4 GB我调试的时候,比驱动的大小,也就是 12 GB ,如上图?

这怎么可能?

最佳答案

这是可能的,因为 spark.driver.memory配置 JVM 驱动程序进程而不是 Python 解释器,它们之间的数据通过套接字传输,驱动程序进程不必将所有数据保存在内存中(不要转换为本地结构)。

关于apache-spark - 为什么 pyspark 中的 "serialized results of n tasks (XXXX MB)"可能大于 `spark.driver.memory`?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38417168/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com