scala - 'spark.driver.maxResultSize' 的范围-6ren

scala - 'spark.driver.maxResultSize' 的范围

转载作者：行者123 更新时间：2023-12-04 08:48:15

30

4

我正在运行 Spark 作业来聚合数据。我有一个名为 Profile 的自定义数据结构，它基本上包含一个 mutable.HashMap[Zone, Double] .我想使用以下代码合并共享给定 key (UUID)的所有配置文件:

def merge = (up1: Profile, up2: Profile) => { up1.addWeights(up2); up1}
val aggregated = dailyProfiles
  .aggregateByKey(new Profile(), 3200)(merge, merge).cache()

奇怪的是，Spark 失败并出现以下错误:

org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 116318 tasks (1024.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

显而易见的解决方案是增加“spark.driver.maxResultSize”，但有两件事让我感到困惑。

太巧了，我得到的 1024.0 大于 1024.0

我在谷歌上搜索此特定错误和配置参数时发现的所有文档和帮助都表明它会影响将值返回给驱动程序的函数。 (比如 take() 或 collect() )，但我没有给驱动程序带来任何东西，只是从 HDFS 读取，聚合，保存回 HDFS。

有谁知道我为什么会收到这个错误？

最佳答案

Yes, It's failing because The values we see in exception message arerounded off by one precision and comparison happening in bytes.

That serialized output must be more than 1024.0 MB and less than 1024.1 MB.

检查添加的 Apache Spark 代码片段，这个错误非常有趣并且非常罕见。 :)
这里 totalResultSize > maxResultSize两者都是 Long 类型并且 in 以字节为单位保存值。但是 msg保存来自 Utils.bytesToString() 的舍入值.

//TaskSetManager.scala
  def canFetchMoreResults(size: Long): Boolean = sched.synchronized {
    totalResultSize += size
    calculatedTasks += 1
    if (maxResultSize > 0 && totalResultSize > maxResultSize) {
      val msg = s"Total size of serialized results of ${calculatedTasks} tasks " +
        s"(${Utils.bytesToString(totalResultSize)}) is bigger than spark.driver.maxResultSize " +
        s"(${Utils.bytesToString(maxResultSize)})"
      logError(msg)
      abort(msg)
      false
    } else {
      true
    }
  }

Apache Spark 1.3 - source

//Utils.scala
  def bytesToString(size: Long): String = {
    val TB = 1L << 40
    val GB = 1L << 30
    val MB = 1L << 20
    val KB = 1L << 10

    val (value, unit) = {
      if (size >= 2*TB) {
        (size.asInstanceOf[Double] / TB, "TB")
      } else if (size >= 2*GB) {
        (size.asInstanceOf[Double] / GB, "GB")
      } else if (size >= 2*MB) {
        (size.asInstanceOf[Double] / MB, "MB")
      } else if (size >= 2*KB) {
        (size.asInstanceOf[Double] / KB, "KB")
      } else {
        (size.asInstanceOf[Double], "B")
      }
    }
    "%.1f %s".formatLocal(Locale.US, value, unit)
  }

Apache Spark 1.3 - source

关于scala - 'spark.driver.maxResultSize' 的范围，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32530239/

30

4

0

文章推荐： xaml - ListView 中多种项目类型的 UWP DataTemplates

文章推荐： Graphviz 用于人体解剖结构及其功能关系

文章推荐： ruby-on-rails - LinkedIn OAuth 返回不明确的错误

scala - `maxResultSize` 包含什么以及所有驱动程序内存在哪里
我们正在使用 Apache Spark 2.1.1 生成一些每日报告。这些报告是根据一些日常数据生成的，我们在分别运行每个单元的报告并将它们合并在一起之前坚持这些数据。这是我们正在做的事情的简化版本:
scala - `maxResultSize` 包含什么以及所有驱动程序内存在哪里
我们正在使用 Apache Spark 2.1.1 生成一些每日报告。这些报告是根据一些日常数据生成的，我们在分别运行每个单元的报告并将它们合并在一起之前坚持这些数据。这是我们正在做的事情的简化版本:
scala - 'spark.driver.maxResultSize' 的范围
我正在运行 Spark 作业来聚合数据。我有一个名为 Profile 的自定义数据结构，它基本上包含一个 mutable.HashMap[Zone, Double] .我想使用以下代码合并共享给定 k
apache-spark - 任务的序列化结果的总大小大于spark.driver.maxResultSize
美好的一天。我正在运行用于解析某些日志文件的开发代码。如果我尝试解析更少的文件，我的代码将流畅运行。但是随着我需要解析的日志文件数量的增加，它将返回不同的错误，例如too many open fil
apache-spark - 什么是spark.driver.maxResultSize？
ref说: Limit of total size of serialized results of all partitions for each Spark action (e.g. collec
scala - 超过 `spark.driver.maxResultSize` 而不给驱动程序带来任何数据
我有一个执行大型连接的 Spark 应用程序 val joined = uniqueDates.join(df, $"start_date" <= $"date" && $"date" <= $"en
python - 如何在 pyspark 的客户端模式下设置 spark 驱动程序 maxResultSize？
我知道当您在 pyspark 中处于客户端模式时，您无法在脚本中设置配置，因为 JVM 会在加载库后立即启动。因此，设置配置的方法是实际去编辑启动它的 shell 脚本:spark-env.sh..
python - Spark 1.4 增加 maxResultSize 内存
我正在使用 Spark 1.4 进行研究，并在内存设置方面遇到了困难。我的机器有 16GB 的内存，所以没有问题，因为我的文件大小只有 300MB。虽然，当我尝试使用 toPandas() 函数将 S
java - Dynamo Db 查询使用 maxPageSize 和 maxResultSize ，减慢查询速度
我正在使用 dynamo db 分页，基于 AWS 文档: --> maxResultSize为本次查询最多检索的资源数，包括检索的所有页面的所有资源。 --> maxPageSize是单个页面最多检
apache-spark - 在 EMR 笔记本 jupyter 中设置 spark.driver.maxResultSize
我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时，我看到了这个错误: An error occurred while calling z:org.apache.sp
apache-spark - spark.conf.set ("spark.driver.maxResultSize", '6g' ) 没有更新默认值 - PySpark
我正在尝试将 spark.driver.maxResultSize 值更新为 6g，但该值未得到更新。 spark.conf.set("spark.driver.maxResultSize", '6g
apache-spark - spark.conf.set ("spark.driver.maxResultSize", '6g' ) 没有更新默认值 - PySpark
我正在尝试将 spark.driver.maxResultSize 值更新为 6g，但该值未得到更新。 spark.conf.set("spark.driver.maxResultSize", '6g
python - 16 个任务的序列化结果总大小 (1048.5 MB) 大于 spark.driver.maxResultSize (1024.0 MB)
当我将 --conf spark.driver.maxResultSize=2050 添加到我的 spark-submit 命令时，出现以下错误。 17/12/27 18:33:19 ERROR Tr
java - 在 Spark 1.6.0 上，获取与 spark.driver.maxResultSize 相关的 org.apache.spark.SparkException
错误: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized resu
scala - SparkError : Total size of serialized results of XXXX tasks (2. 0 GB)大于spark.driver.maxResultSize(2.0 GB)
错误: ERROR TaskSetManager: Total size of serialized results of XXXX tasks (2.0 GB) is bigger than spa

首页

博学

6Ren·AI

商城

scala - 'spark.driver.maxResultSize' 的范围