java - Spark v3.0.0 - 警告 DAGScheduler : broadcasting large task binary with size xx-6ren

java - Spark v3.0.0 - 警告 DAGScheduler : broadcasting large task binary with size xx

转载作者：行者123 更新时间：2023-12-04 08:58:11

40

4

我是新来的 Spark 。我正在使用以下配置集在 Spark Standalone (v3.0.0) 中编写机器学习算法:

SparkConf conf = new SparkConf();
conf.setMaster("local[*]");
conf.set("spark.driver.memory", "8g");
conf.set("spark.driver.maxResultSize", "8g");
conf.set("spark.memory.fraction", "0.6");
conf.set("spark.memory.storageFraction", "0.5");
conf.set("spark.sql.shuffle.partitions", "5");
conf.set("spark.memory.offHeap.enabled", "false");
conf.set("spark.reducer.maxSizeInFlight", "96m");
conf.set("spark.shuffle.file.buffer", "256k");
conf.set("spark.sql.debug.maxToStringFields", "100");

这就是我创建 CrossValidator 的方式

ParamMap[] paramGrid = new ParamGridBuilder()
            .addGrid(gbt.maxBins(), new int[]{50})
            .addGrid(gbt.maxDepth(), new int[]{2, 5, 10})
            .addGrid(gbt.maxIter(), new int[]{5, 20, 40})
            .addGrid(gbt.minInfoGain(), new double[]{0.0d, .1d, .5d})
            .build();

    CrossValidator gbcv = new CrossValidator()
            .setEstimator(gbt)
            .setEstimatorParamMaps(paramGrid)
            .setEvaluator(gbevaluator)
            .setNumFolds(5)
            .setParallelism(8)
            .setSeed(session.getArguments().getTrainingRandom());

问题是当(在 paramGrid 中)maxDepth 只是 {2, 5} 和 maxIter {5, 20} 时一切正常，但是当它像上面的代码一样时，它会继续记录: WARN DAGScheduler: broadcasting large task binary with size xx ,
xx 从 1000 KiB 到 2.9 MiB，通常会导致超时异常
我应该更改哪些 Spark 参数以避免这种情况？

最佳答案

对于超时问题，请考虑更改以下配置:
spark.sql.autoBroadcastJoinThreshold 为 -1。
这将取消广播大小的限制，即 10MB。

关于java - Spark v3.0.0 - 警告 DAGScheduler : broadcasting large task binary with size xx，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63703994/

40

4

0

文章推荐： apache-spark - 如何在 Databricks 中抛出异常？

文章推荐： nim-lang - 如何从 Nim 中的异常获取堆栈跟踪？

文章推荐： javascript - 每次递归调用函数之间的延迟

python - matplotlib:(xx-small、x-small、small、medium、large、x-large、xx-large、large、smaller)特殊尺寸的值
matplotlibrc 示例文件指出: ## The font.size property is the default font size for text, given in pts. ## 1
html - 字体大小范围 {1, 2, 3, 4, 5, 6, 7} 和 {xx-small, x-small, small, medium, large, x-large, xx-large 之间是否存在事实上的关系}?
在 HTML/CSS 中，可以通过以下方式指定字体大小(已弃用，但所有浏览器都支持): text n 是 {1, 2, 3, 4, 5, 6, 7} 的一个元素。另一种可能性是: text s 是
c++ - 将 large double 除以 large int
我正在编写物理模拟代码，最近我遇到了异常结果。我设法调试了我的程序，错误出在用大整数除以大 double ，形式如下: cout << my_large_double/my_large_int <<
mysql - "large"或 Blob 中的 "binary large object"是什么意思
由于“大”是一个相对术语，我想知道“大”的确切含义是什么。更具体地说，我想在数据库中存储从几个字节到 50 个字节的二进制数据，并且想知道是否应该使用 Blob 或其他数据类型。最佳答案所有 DB
python - Spark : Warning that task size is too large despite no large, 非分布式文件
这是我的代码的想法: 我有一个很大的电子邮件数据 RDD，称为 email。大约 7 亿封电子邮件。它看起来像这样: [['value1','value2','value3','value4'],['
hadoop - pig : Splitting large large file into multiple smaller files
我需要拆分由另一个 Pig 脚本生成的输出部分文件，并生成每个包含 1000 行的组。这些组将发布到网络服务以供进一步处理。数据之间没有关系，所以我无法将数据分组到特定字段。我如何在 Pig 中执行
amazon-web-services - 为什么 t2.large 的定价与 m4.large 相似？
它们都有 2vcpu 和 8G 内存。但对于 t2.large，您只能使用单个 vcpu 的 60%，两个 vcpu 平均各使用 30%。即使考虑到“CPU积分”，t2.large似乎也比m4.lar
windows - Windows下的git svn clone large repo : out of memory - not a large file issue
我正在尝试使用 git svn 克隆一个大型 svn 存储库。 repo 有 100000 次修订。大小约为 9GB(原始文件夹)。 repo 协议(protocol)中的最大文件是 300 MB。
android - 我想在 android studio 中使用 qulifier ，但我无法添加目录 layout-large
我刚接触 android。在我的教程书中(有点过时)在Eclipse中教学，只是在layout-large目录下编写另一个layout xml文件以适配大屏。我使用的是android studio，
mongodb - 将安装了 mongodb 的 amazon EC2 m1.large 实例升级到 m3.large
如果我要升级亚马逊实例，我会创建镜像的快照并从该镜像创建新实例，然后升级该实例。我的问题与 mongodb 以及从 m1.large 升级到 m3.large 实例的最佳方式有关 - 基本上 m3
java - Java 中的 int[large][small] 或 int[small][large] 之间是否存在低级差异？
这个问题可能需要一些编译器知识才能回答。我目前正在做一个项目，我将在其中创建一个数组，可能是 int[2][veryLargeNumber] 或 int [veryLargeNumber][2] 逻辑
amazon-rds - 哪种RDS实例类型IO更好 : Extra Large DB Instance or High-Memory Extra Large Instance
我在使用 mysql 5.5.12 时遇到了 Amazon RDS 的 IO 性能问题。有 2 种实例类型相似且价格接近: 超大数据库实例:15 GB 内存、8 个 ECU(4 个虚拟核心，每个 2
HTML 表格设计。哪个更好 :A large number of rows in a single table or large number of table with few rows each
我需要设计一个包含大量字段的网页，每个字段都显示在一行表格中。有几个类别。我希望为每个类别制作一个单独的表格并进行不同的设计。网页上存在大量表格是否会使速度变慢？哪个更好.. 有 10 个表，每个表
java - com.mysql.jdbc.PacketTooBigException : Packet for query is too large even with Packet for query is too large even with max_allowed_packet
我在my.cnf中添加了如下内容 [mysqld] max_allowed_packet=32M [mysql] max_allowed_packet=32M 而且我还在 JDBC 查询中添加了以下内
android - 冲突 layout-large-hdpi (Nexus 7) 与 layout-large-hdpi-1280x800 (Samsung 7.7) Android
我正在为 Nexus 4、Samsung 7.7、Nexus 7、S3 和 Note-2 开发应用程序。我正在为所有这些布局制作一个 apk。除 Nexus 7 和 Samsung 7.7 外，其他一
large-files - 如何处理大文本文件？
我有一个包含大约 1000 万行且大小约为 400mb 的文件，我的系统无法处理它。当我尝试使用 gedit 打开文件时，它卡住了。有没有办法处理这么大的数据文件。最佳答案使用 gnu(Windo
Java编译器显示错误 “integer is too large”
这个问题已经有答案了: "Integer too large" for a small compile time constant (4 个回答) 已关闭 6 年前。当我添加整数时，即使我将其加倍，
Java编译器显示错误 "integer is too large"
这个问题已经有答案了: "Integer number too large" error message for 600851475143 (8 个回答) Java long number too l
Java编译错误: code too large
我们正在开发一个注册系统，但现在由于编译期间出现内存错误而陷入困境。我们上网查了一下，发现错误信息的原因是.java文件的大小。我们的 EnrollmentSystem 类现在有 10171 行代码
PHPMyAdmin上传错误 'file that is too large'
这个问题已经有答案了: How to import large sql file in phpmyadmin (23 个回答) 已关闭 4 年前。我刚刚在 Digital Ocean 上设置了一个

首页

博学

6Ren·AI

商城

java - Spark v3.0.0 - 警告 DAGScheduler : broadcasting large task binary with size xx