gpt4 book ai didi

scala - Spark 执行器丢失故障

转载 作者:行者123 更新时间:2023-12-02 02:18:09 24 4
gpt4 key购买 nike

我正在使用 databricks Spark 集群 (AWS),并在我的 Scala 实验中进行测试。我在使用 LogisticRegressionWithLBFGS 算法训练 10 GB 数据时遇到一些问题。我遇到问题的代码块如下:

import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
val algorithm = new LogisticRegressionWithLBFGS()
algorithm.run(training_set)

首先,我遇到了很多执行程序丢失故障和java内存不足问题,然后我用更多分区重新分区了我的training_set,内存不足问题消失了,但仍然出现执行程序丢失故障。

我的集群共有 72 个核心和 500GB 内存。任何人都可以对此提出一些想法吗?

最佳答案

LBFGS 使用密集向量在内部存储 beta(特征权重),所有内容都在内存中。因此,无论训练集中特征的稀疏程度如何,特征的总数都是需要注意的。

因此,要解决此问题,用户应该增加执行器内存或限制训练集中的特征总数。

关于scala - Spark 执行器丢失故障,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29566522/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com