dataframe - Pyspark:序列化任务超过允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量-6ren

dataframe - Pyspark:序列化任务超过允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量

转载作者：行者123 更新时间：2023-12-03 14:36:43

30

4

我正在集群上进行计算，最后当我使用 df.describe().show() 询问我的 Spark 数据帧的摘要统计信息时，我收到一个错误:
序列化任务 15:0 为 137500581 字节，超过了最大允许值:spark.rpc.message.maxSize(134217728 字节)。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量
在我的 Spark 配置中，我已经尝试增加上述参数:

spark = (SparkSession
         .builder
         .appName("TV segmentation - dataprep for scoring")
         .config("spark.executor.memory", "25G")
         .config("spark.driver.memory", "40G")
         .config("spark.dynamicAllocation.enabled", "true")
         .config("spark.dynamicAllocation.maxExecutors", "12")
         .config("spark.driver.maxResultSize", "3g")
         .config("spark.kryoserializer.buffer.max.mb", "2047mb")
         .config("spark.rpc.message.maxSize", "1000mb")
         .getOrCreate())

我还尝试使用以下方法重新分区我的数据框:

dfscoring=dfscoring.repartition(100)

但我仍然不断收到同样的错误。
我的环境:Python 3.5、Anaconda 5.0、Spark 2
我怎样才能避免这个错误？

最佳答案

我遇到了同样的问题，然后我解决了它。
原因是 spark.rpc.message.maxSize如果默认设置 128M ，您可以在启动 spark 客户端时更改它，我在 pyspark 中工作并将值设置为 1024，所以我这样写:

pyspark --master yarn --conf spark.rpc.message.maxSize=1024

解决它。

关于dataframe - Pyspark:序列化任务超过允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54458815/

30

4

0

文章推荐： delphi - 使用 Indy 的代理服务器

文章推荐： string - 如何在 Delphi EXE 中加密或隐藏字符串？

文章推荐： python - 在当前进程完成其引导阶段之前尝试启动一个新进程

oracle - 如何确定现有表空间的 MAXSIZE
我需要确定MAXSIZE在创建表空间时为其设置(Oracle 10g) 我确定我遗漏了一些明显的信息，但该信息在 DBA_TABLESPACES 中的信息中并未立即显现出来。 . 最佳答案在 11g
java - 如何在运行时获取struts.multipart.maxSize
可以在运行时获取struts.xml中定义的struts.multipart.maxSize值吗？使用Struts2 org.apache.struts struts2-c
c++ - vector<>::maxsize() 的最大大小是多少？
请指定 vector 列表的范围.... 我想在 vector<> 中存储数百万条记录。我必须将数百万条记录从一个 vector <>复制到另一个 vector <>，然后对 vector 进行排序
python - sys.maxsize 当前可能的值是多少？
在the latest Python 2 documentation : sys.maxsize The largest positive integer supported by the platf
java - Eclipse - gwtupload - maxSize
我尝试使用 gwtupload 将上传文件的大小限制为大约 30 KB。所以我在web.xml中将参数maxSize的值设置为30360。但是，控制台记录器仍然显示: 0 [qtp3494205
CentOS 中的 Logrotate，maxsize 选项
我在 Centos 6.4 中使用 logrotate，希望每天或在日志达到 50MB 时轮换日志。我面临的唯一问题是 CentOS 的 logrotate 版本是 3.7.8，它没有我需要使用的
Oracle 表空间 maxsize "unlimited"并不是真正无限
我最近需要将 .dmp 导入到我创建的新用户中。我还使用以下命令为用户创建了一个新表空间: create tablespace my_tablespace datafile 'C:\My\Oracl
java - 使用 maxsize=1g 的飞行记录器仍然会返回缺少时间窗口的轨迹
我有一个资源密集型、基于 java-8 的命令行应用程序，我经常使用飞行记录器对其进行分析。我经常注意到的是，当我在任务控制中打开飞行记录器文件 (jfr) 时，我看到了该过程运行的完整时间跨度，但我
java - JMC maxage/maxsize 不起作用
根据 JAVA cmd Reference我可以设置 JFR 记录的 maxage 和/或 maxsize，但它不起作用。我分享了 Intellij IDEA 使用 ant 录制和编译 scala:
hadoop - HBase KeyValue.maxSize 不能被禁用
我已经添加了 hbase.client.keyvalue.maxsize 0 在 hbase-site.xml 中。我从 hbase-0.94.27/docs/hba
python - 线程池执行器 : how to limit the queue maxsize?
我正在使用 concurrent.futures 包中的 ThreadPoolExecutor 类 def some_func(arg): # does some heavy lifting
javascript - winston 超过 maxsize 后我的日志文件不旋转
我有以下 winston 配置: 'use strict' import winston from 'winston' import config from '../../config/environ
node.js - Winston - 使用 maxsize 时记录轮换顺序
我使用 Winston 和 maxsize 作为轮换策略，在文件(application.log)大小达到 maxsize 后，轮换按预期工作并开始写入第二个文件(application2.log)
Python lru_cache : how can currsize < misses < maxsize?
我有一个类，其方法用 lru_cache annotation 注释: CACHE_SIZE=16384 class MyClass: [...] @lru_cache(maxsize
java - 配置 log4j 的 maxsize 和循环
我在 Java 应用程序中使用 log4j。我想配置 maxsize(最大为 1Mb)和 15 天后自动删除。 # Root logger option log4j.rootLogger=INFO,
c++ - 使用错误的 maxsize 参数调用 strftime 会做什么？
我问自己，如果我用错误的 maxsize 参数调用 strftime 函数，它会做什么。这是示例: char t[19]; struct stat b; stat(path.c_str(), &b);
c - 在 C 中读取没有 maxsize 的用户输入
在 C 中，我可以使用 char *fgets(char *s, int size, FILE *stream) 函数从标准输入读取用户输入。但是用户输入的大小限制为size。如何读取可变大小的用户输
c# - 防止 MaxSized C# WinForm 在最大化时移动
我有一个具有受限 MaxSize 的 WinForm 窗体。如果我按下最大化按钮，此窗口会弹出到位置 0,0(左上角)，并具有正确的 MaxSize。有没有办法防止表格移动？我可以在表单移动(通过操
opencv - CascadeClassifier::detectMultiScale 的 maxSize 参数效率不高
我正在使用 haar 级联分类器对视频流执行行人检测，并且我正在尝试通过参数 minSize 缩小检测范围来优化代码和 maxSize在detectMutliScale功能: fullbodyCasc
c# - 使用 SMO 更改 DataFile MaxSize
我正在尝试修改 sql 2008 数据文件的最大大小，但没有发生更改。我正在使用这段代码: FileGroupCollection fcoll = database.FileGroups; fore

首页

博学

6Ren·AI

商城

dataframe - Pyspark:序列化任务超过允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量