- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在运行 Spark 作业来聚合数据。我有一个名为 Profile 的自定义数据结构,它基本上包含一个 mutable.HashMap[Zone, Double]
.我想使用以下代码合并共享给定 key (UUID)的所有配置文件:
def merge = (up1: Profile, up2: Profile) => { up1.addWeights(up2); up1}
val aggregated = dailyProfiles
.aggregateByKey(new Profile(), 3200)(merge, merge).cache()
org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 116318 tasks (1024.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
take()
或 collect()
),但我没有给驱动程序带来任何东西,只是从 HDFS 读取,聚合,保存回 HDFS。 最佳答案
Yes, It's failing because The values we see in exception message arerounded off by one precision and comparison happening in bytes.
That serialized output must be more than 1024.0 MB and less than 1024.1 MB.
totalResultSize > maxResultSize
两者都是 Long 类型并且 in 以字节为单位保存值。但是
msg
保存来自
Utils.bytesToString()
的舍入值.
//TaskSetManager.scala
def canFetchMoreResults(size: Long): Boolean = sched.synchronized {
totalResultSize += size
calculatedTasks += 1
if (maxResultSize > 0 && totalResultSize > maxResultSize) {
val msg = s"Total size of serialized results of ${calculatedTasks} tasks " +
s"(${Utils.bytesToString(totalResultSize)}) is bigger than spark.driver.maxResultSize " +
s"(${Utils.bytesToString(maxResultSize)})"
logError(msg)
abort(msg)
false
} else {
true
}
}
Apache Spark 1.3 - source
//Utils.scala
def bytesToString(size: Long): String = {
val TB = 1L << 40
val GB = 1L << 30
val MB = 1L << 20
val KB = 1L << 10
val (value, unit) = {
if (size >= 2*TB) {
(size.asInstanceOf[Double] / TB, "TB")
} else if (size >= 2*GB) {
(size.asInstanceOf[Double] / GB, "GB")
} else if (size >= 2*MB) {
(size.asInstanceOf[Double] / MB, "MB")
} else if (size >= 2*KB) {
(size.asInstanceOf[Double] / KB, "KB")
} else {
(size.asInstanceOf[Double], "B")
}
}
"%.1f %s".formatLocal(Locale.US, value, unit)
}
Apache Spark 1.3 - source
关于scala - 'spark.driver.maxResultSize' 的范围,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32530239/
我们正在使用 Apache Spark 2.1.1 生成一些每日报告。这些报告是根据一些日常数据生成的,我们在分别运行每个单元的报告并将它们合并在一起之前坚持这些数据。这是我们正在做的事情的简化版本:
我们正在使用 Apache Spark 2.1.1 生成一些每日报告。这些报告是根据一些日常数据生成的,我们在分别运行每个单元的报告并将它们合并在一起之前坚持这些数据。这是我们正在做的事情的简化版本:
我正在运行 Spark 作业来聚合数据。我有一个名为 Profile 的自定义数据结构,它基本上包含一个 mutable.HashMap[Zone, Double] .我想使用以下代码合并共享给定 k
美好的一天。 我正在运行用于解析某些日志文件的开发代码。如果我尝试解析更少的文件,我的代码将流畅运行。但是随着我需要解析的日志文件数量的增加,它将返回不同的错误,例如too many open fil
ref说: Limit of total size of serialized results of all partitions for each Spark action (e.g. collec
我有一个执行大型连接的 Spark 应用程序 val joined = uniqueDates.join(df, $"start_date" <= $"date" && $"date" <= $"en
我知道当您在 pyspark 中处于客户端模式时,您无法在脚本中设置配置,因为 JVM 会在加载库后立即启动。 因此,设置配置的方法是实际去编辑启动它的 shell 脚本:spark-env.sh..
我正在使用 Spark 1.4 进行研究,并在内存设置方面遇到了困难。我的机器有 16GB 的内存,所以没有问题,因为我的文件大小只有 300MB。虽然,当我尝试使用 toPandas() 函数将 S
我正在使用 dynamo db 分页,基于 AWS 文档: --> maxResultSize为本次查询最多检索的资源数,包括检索的所有页面的所有资源。 --> maxPageSize是单个页面最多检
我在 emr 中使用 Jupyter notebook 来处理大量数据。在处理数据时,我看到了这个错误: An error occurred while calling z:org.apache.sp
我正在尝试将 spark.driver.maxResultSize 值更新为 6g,但该值未得到更新。 spark.conf.set("spark.driver.maxResultSize", '6g
我正在尝试将 spark.driver.maxResultSize 值更新为 6g,但该值未得到更新。 spark.conf.set("spark.driver.maxResultSize", '6g
当我将 --conf spark.driver.maxResultSize=2050 添加到我的 spark-submit 命令时,出现以下错误。 17/12/27 18:33:19 ERROR Tr
错误: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized resu
错误: ERROR TaskSetManager: Total size of serialized results of XXXX tasks (2.0 GB) is bigger than spa
我是一名优秀的程序员,十分优秀!