- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
错误:
ERROR TaskSetManager: Total size of serialized results of XXXX tasks (2.0 GB) is bigger than spark.driver.maxResultSize (2.0 GB)
目标:获得所有使用该模型的用户的推荐,并与每个用户的测试数据重叠并生成重叠率。
我使用 Spark mllib 构建了一个推荐模型。我评估每个用户的测试数据和每个用户的推荐项目的重叠率,并生成平均重叠率。
def overlapRatio(model: MatrixFactorizationModel, test_data: org.apache.spark.rdd.RDD[Rating]): Double = {
val testData: RDD[(Int, Iterable[Int])] = test_data.map(r => (r.user, r.product)).groupByKey
val n = testData.count
val recommendations: RDD[(Int, Array[Int])] = model.recommendProductsForUsers(20)
.mapValues(_.map(r => r.product))
val overlaps = testData.join(recommendations).map(x => {
val moviesPerUserInRecs = x._2._2.toSet
val moviesPerUserInTest = x._2._1.toSet
val localHitRatio = moviesPerUserInRecs.intersect(moviesPerUserInTest)
if(localHitRatio.size > 0)
1
else
0
}).filter(x => x != 0).count
var r = 0.0
if (overlaps != 0)
r = overlaps / n
return r
}
但这里的问题是它最终会抛出以上 maxResultSize
错误。在我的 Spark 配置中,我执行了以下操作来增加 maxResultSize
。
val conf = new SparkConf()
conf.set("spark.driver.maxResultSize", "6g")
但这并没有解决问题,我几乎接近分配驱动程序内存的数量,但问题没有得到解决。当代码执行时,我一直关注着我的 Spark 作业,我所看到的有点令人费解。
[Stage 281:==> (47807 + 100) / 1000000]15/12/01 12:27:03 ERROR TaskSetManager: Total size of serialized results of 47809 tasks (6.0 GB) is bigger than spark.driver.maxResultSize (6.0 GB)
在上述阶段,代码正在 Spark-mllib recommendForAll
中的 line 277
处执行 MatrixFactorization 代码(不确定行号)。
private def recommendForAll(
rank: Int,
srcFeatures: RDD[(Int, Array[Double])],
dstFeatures: RDD[(Int, Array[Double])],
num: Int): RDD[(Int, Array[(Int, Double)])] = {
val srcBlocks = blockify(rank, srcFeatures)
val dstBlocks = blockify(rank, dstFeatures)
val ratings = srcBlocks.cartesian(dstBlocks).flatMap {
case ((srcIds, srcFactors), (dstIds, dstFactors)) =>
val m = srcIds.length
val n = dstIds.length
val ratings = srcFactors.transpose.multiply(dstFactors)
val output = new Array[(Int, (Int, Double))](m * n)
var k = 0
ratings.foreachActive { (i, j, r) =>
output(k) = (srcIds(i), (dstIds(j), r))
k += 1
}
output.toSeq
}
ratings.topByKey(num)(Ordering.by(_._2))
}
recommendForAll
方法从 recommendProductsForUsers
方法调用。
但看起来该方法正在分拆 100 万个任务。收到的数据来自 2000 个零件文件,所以我很困惑它是如何开始吐出 1M 任务的,我认为这可能是问题所在。
我的问题是如何才能真正解决这个问题。如果不使用这种方法,就很难计算重叠率
或recall@K
。这是 Spark 1.5 (cloudera 5.5)
最佳答案
2GB 问题对于 Spark 社区来说并不新鲜:https://issues.apache.org/jira/browse/SPARK-6235
重新/分区大小大于2GB,尝试将您的RDD重新分区(myRdd.repartition(parallelism)
)到更多数量的分区(w/r/t/您当前的并行度级别) ),从而减少每个分区的大小。
关于旋转的任务数量(因此创建分区),我的假设是它可能来自 srcBlocks.cartesian(dstBlocks)
API 调用,该调用生成由 ( z = srcBlocks 的分区数 * dstBlocks 的分区数)分区数。
在这种情况下,您可以考虑利用 myRdd.coalesce(parallelism)
API 而不是 repartition
API 来避免随机播放(以及与分区序列化相关的问题)。
关于scala - SparkError : Total size of serialized results of XXXX tasks (2. 0 GB)大于spark.driver.maxResultSize(2.0 GB),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34035523/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎是题外话,因为它缺乏足够的信息来诊断问题。 更详细地描述您的问题或include a min
我想格式化 UITextField用于输入信用卡号,使其只允许输入数字并自动插入空格,以便数字格式如下: XXXX XXXX XXXX XXXX 我该怎么做? 最佳答案 如果您使用 Swift,请阅读
我正在尝试使用以下代码创建信用卡类型文本,但无法做到这一点,有什么办法吗? func textField(textField: UITextField, shouldChangeCharactersI
我有一个 16 个字符的字符串,它是这样的: 1234567891234567 我需要能够格式化字符串,因为它会出现在系统中,即 XXXX-XXXX-XXXX-4567 注意上面显示的 4567 位数
List list = fromStudentTable(); Map map = new HashMap(); for (Student i : list) { map.put(i.getD
我需要将这六个字段保存在同一列中,但不在同一行和同一单元格中。每个字段都有默认的 GUID。所以我决定将默认的 GUID 放在一个列表中,将字段放在一个列表中,并在我们想要的地方调用该特定列表的对象。
我刚刚开始使用 stackify 的 Retrace 来监控我的应用程序,并且看到了数千个错误,这些错误是: System.FormatException: Guid should contain 3
我使用的是演练:第 1 部分 - 创建基本项目系统,完全按照网站 http://msdn.microsoft.com/en-us/library/cc512961.aspx 上的说明使用以及与从 ht
我正在使用 antd 表单项,我尝试了以下模式,但它不起作用。 rules: [{ pattern: new RegExp("^d{4}-d{2}-d{4}$"), messag
当我的数据库离线时,我没有遇到这个错误。我刚刚使用 db4free.net 使我的数据库联机。 每次登录都会出现此错误。有人能指出哪里出了问题吗? private void btnLogIn_Clic
当我的数据库离线时,我没有遇到这个错误。我刚刚使用 db4free.net 使我的数据库联机。 每次登录都会出现此错误。有人能指出哪里出了问题吗? private void btnLogIn_Clic
我有以下代码(如果我保留警告,它可以编译并正常工作,我还没有使用 global::hack 对其进行测试): namespace NotifierService.Models {} namespace
我迷路了:我正在尝试让 MySQL 在我的一个小型控制台程序中工作;我有一个在本地主机上运行的 MySQL 服务器,我可以通过 MySQL Workbench 8.0 CE 访问它。那里没问题。我的程
当我尝试构建我的应用程序时,链接器给出大量错误,如下所示: modlauch.obj : error LNK2005: "public: virtual __thiscall lolbutton::~
我对 Excel VBA 还很陌生。到目前为止,我已经在这个网站上阅读并学到了很多东西,但还没有找到解决我的问题的方法。 作为宏的一部分,我有以下代码: With Worksheets("Oracle
如上所述。我举一个例子,假设所有的测试值都小于1但大于0。 0.12(精度:3,小数位数:2) 0.345(精度:4,小数位数:3) 0.6789(精度:5,小数位数:4) 如何在不对比例和精度值进行
我收到四个“在 com.rusapp.batch.trans.OLFMWriter 类中找不到属性“xxxx”的 setter ”。该类中的第五个 bean,inputQueue,没有错误。其余的在下
我在 javascript 中有 2 个字符串,其中包含代表文件版本的数字。 即 var str1 = "11.11.1111.1111" var str2 = "11.22.3333.5555" 如
package com.test.nativeapp; import android.support.v7.app.ActionBarActivity; import android.os.Bundl
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: A comprehensive regex for phone number validation 什么是正
我是一名优秀的程序员,十分优秀!