- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当我在大数据集上运行 Spark Kmeans 时,我总是遇到 OutOfMemory 错误。训练集大约250GB,我有10个节点的spark集群,每台机器有16个cpu和150G内存。我在每个节点上为作业分配了 100GB 内存,总共 50 个 cpu。我设置聚类中心为100,迭代次数为5。但是当代码在以下行运行时,我得到了OutOfMemory:
val model = KMeans.train(parsedData, numClusters, numIterations)
是否有任何我可以调整的参数来解决问题。
如果我设置较小的聚类中心数或迭代数就可以了。
我的代码如下:
val originalData = sc.textFile("hdfs://host/input.txt").cache()
val tupleData = originalData.map { x => (x.split(":")(0),x.split(":")(1)) }
val parsedData = tupleData.map { x => x._1 }.map(s => Vectors.dense(s.split(',').map(_.toDouble)))
val model = KMeans.train(parsedData, numClusters, numIterations, 1, initializationMode = KMeans.RANDOM)
val resultRdd = tupleData.map { p => (model.predict(Vectors.dense(p._1.split(',').map(_.toDouble))),p._2)}
resultRdd.sortByKey(true, 1).saveAsTextFile("hdfs://host/output.txt")
我的输入格式如下:
0.0,0.0,91.8,21.67,0.0 ... (the element number is 100K)
1.1,1.08,19.8,0.0,0.0 ...
0.0,0.08,19.8,0.0,0.0 ...
...
The rows number is 600K.
我得到的异常如下:
scheduler.DAGScheduler: Submitting ShuffleMapStage 42 (MapPartitionsRDD[49] at map at KmeansTest.scala:47), which has no missing parents
Exception in thread "dag-scheduler-event-loop" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:2271)
at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:113)
at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:140)
at java.io.ObjectOutputStream$BlockDataOutputStream.drain(ObjectOutputStream.java:1876)
at java.io.ObjectOutputStream$BlockDataOutputStream.setBlockDataMode(ObjectOutputStream.java:1785)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1188)
at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:347)
最佳答案
默认情况下,Spark 的 Kmeans 实现使用 K_MEANS_PARALLEL
初始化模式。此模式的一部分在驱动程序计算机上运行,并且可能非常慢/导致驱动程序上出现 OOM,具体取决于您的数据。
尝试切换到RANDOM
初始化模式。
val model = KMeans.train(parsedData, numClusters, numIterations, 1, initializationMode = KMeans.RANDOM)
您可以尝试的另一件事是在提交申请时增加您的驱动程序内存。例如使用以下命令将驱动内存设置为4G
spark-submit --conf "spark.driver.memory=4g" ...
关于apache-spark - 运行 Spark MLlib kmeans 时出现 OutOfMemory,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38536468/
使用 Spark1.6.0 MLLib,我将构建一个模型(如 RandomForest)并保存到 hdfs,然后可以从 hdfs 加载随机森林模型以在没有 SparkContext 的情况下进行预测。
我在某处读到 MLlib 本地向量/矩阵目前正在包装 Breeze 实现,但是将 MLlib 转换为 Breeze 向量/矩阵的方法是 org.apache.spark.mllib 范围内的私有(pr
我正在尝试在 Web 项目中使用 spark mllib.jar。我下载了 spark-1.1.0-bin-hadoop2.4 并解压。找到如下jar: datanucleus-api-jdi-3.2
在尝试使用 Python 使用 Spark mllib 的 LinearRegressionWithSGD 进行线性回归时,我一直得到非常糟糕的结果。 我调查了类似的问题,如下所示: Spark -
我使用 mllib 创建了 Apache Spark 机器学习管道。评估器结果是一个带有“概率”列的 DataFrame,它是概率的 mllib 向量(类似于 scikit-learn 中的 pred
我正在尝试使用 Spark 的 MLlib 在 Java 上实现 KMeans,我偶然发现了一个问题,那就是,尽管我导入了正确的 jar,但我的编译器无法识别这一行 // Cluster the da
我正在使用 Scala 对其进行编程,但语言在这里并不重要。 在这种情况下,隐式反馈协作过滤器 (ALS.trainImplicit) 的输入是产品的 View : Rating("user1", "
假设我有一个Array[RDD]类型的对象data。我想学习此对象中每个 RDD 上的独立机器学习模型。例如,对于随机森林: data.map{ d => RandomForest.trainRegr
我想运行 SVM 回归,但输入格式有问题。现在,我为一位客户设置的训练和测试集如下所示: 1 '12262064 |f offer_quantity:1 has_bought_brand_compan
我在 Spark 控制台中尝试了以下代码 import org.apache.spark.mllib.linalg.{Matrix, Matrices, DenseMatrix} val dm: De
Spark 2.0.0 中是否有任何预构建的异常值检测算法/四分位距识别方法?我在这里找到了一些代码,但我认为这在spark2.0.0中尚不可用 谢谢 最佳答案 如果您没有找到预构建的方法,您可以执行
我正在使用 pySpark MLlib 和开箱即用的 ALS 方法进行协同过滤。只是想知道,Spark 是否提供了其他一些进行过滤(用于计算距离)的方法,例如 Pearson 或 Cosine 的?可
您好,我是 spark mllib 的新手。我已经有一个 r 模型。我正在尝试使用 spark mllib 的相同模型。这里是 R 模型代码。 R 代码。 delhi data = sc.textF
我正在学习如何将机器学习与 Spark MLLib 结合使用,目的是对推文进行情感分析。我从这里得到了一个情绪分析数据集: http://thinknook.com/wp-content/upload
我有一个具有这种结构的小文件“naivebayetest.txt” 10 1:1 20 1:2 20 1:2 根据这些数据,我试图对 vector (1) 进行分类。如果我正确理解贝叶斯 (1) 的标
“spark mllib”提供的机器学习算法,如 naive byes、random forest 能否在 spark 集群中以并行模式运行?或者我们需要更改代码?请提供一个并行运行的例子?不确定 M
我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率进行下采样。 是否可以在 Spark 随机森林训
我正在使用 Spark MLlib 1.4.1 创建决策树模型。现在我想从决策树中提取规则。 如何提取规则? 最佳答案 您可以通过调用 model.toDebugString() 以字符串形式获取完整
我正在尝试使用 MlLib 进行协作过滤。 我在 Apache Spark 1.0.0 中运行 Scala 程序时遇到以下错误。 14/07/15 16:16:31 WARN NativeCod
我正在尝试在 Spark 中实现的协作过滤算法,并遇到以下问题: 假设我用以下数据训练模型: u1|p1|3 u1|p2|3 u2|p1|2 u2|p2|3 现在,如果我用以下数据测试它: u1|p1
我是一名优秀的程序员,十分优秀!