apache-spark - 在 Spark 的 MLlib 中使用的 TFIDF 生成期间出现内存不足异常-6ren

apache-spark - 在 Spark 的 MLlib 中使用的 TFIDF 生成期间出现内存不足异常

转载作者：行者123 更新时间：2023-11-30 08:32:22

24

4

我在使用 MLlib 的 Naive Baye 分类实现创建用于文档分类的 TFIDF 向量时遇到了内存溢出问题。

http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/

收集所有术语的 idf 时会发生内存溢出和 GC 问题。为了了解规模，我从 HBase 读取了大约 615,000 个(大约 4GB 文本数据)小型文档，并使用 8 个内核和 6GB 执行器内存运行 Spark 程序。我尝试过增加并行级别和随机播放内存比例，但没有成功。

如何解决这个 OOM 问题？

谢谢

最佳答案

如何将 Spark RDD 连接到 HBase？您的 HBase 区域有多大？如果您同时加载多个 HBase 区域，并且它们的大小总和大于可用 RAM，则可能会在加载阶段耗尽内存。

避免这种情况的一种方法是编写自己的 HBase 加载器，专门只扫描您感兴趣加载的列，而不是扫描整个区域文件，这可能会大大减少内存消耗。然后，您还可以根据对 HBase 键空间的语义理解来调整正在加载的分区数量，从而进一步调整加载期间的内存消耗。

关于apache-spark - 在 Spark 的 MLlib 中使用的 TFIDF 生成期间出现内存不足异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25910642/

24

4

0

文章推荐： machine-learning - 朴素贝叶斯模型

文章推荐： machine-learning - 使用 scikit-learn 的自定义功能

文章推荐： r - 从数据帧创建稀疏矩阵

文章推荐： machine-learning - 如何动态查找卷积神经网络中的网络深度

apache-spark-mllib - 如何在没有 SparkContext 的情况下加载 spark.mllib 模型进行预测？
使用 Spark1.6.0 MLLib，我将构建一个模型(如 RandomForest)并保存到 hdfs，然后可以从 hdfs 加载随机森林模型以在没有 SparkContext 的情况下进行预测。
apache-spark - MLlib 到 Breeze 向量/矩阵对于 org.apache.spark.mllib 范围是私有(private)的吗？
我在某处读到 MLlib 本地向量/矩阵目前正在包装 Breeze 实现，但是将 MLlib 转换为 Breeze 向量/矩阵的方法是 org.apache.spark.mllib 范围内的私有(pr
java - web项目中如何使用spark mllib
我正在尝试在 Web 项目中使用 spark mllib.jar。我下载了 spark-1.1.0-bin-hadoop2.4 并解压。找到如下jar: datanucleus-api-jdi-3.2
python - Spark mllib 线性回归给出非常糟糕的结果
在尝试使用 Python 使用 Spark mllib 的 LinearRegressionWithSGD 进行线性回归时，我一直得到非常糟糕的结果。我调查了类似的问题，如下所示: Spark -
scala - mllib Vector 的最大值？
我使用 mllib 创建了 Apache Spark 机器学习管道。评估器结果是一个带有“概率”列的 DataFrame，它是概率的 mllib 向量(类似于 scikit-learn 中的 pred
java - Apache 星火 Mllib
我正在尝试使用 Spark 的 MLlib 在 Java 上实现 KMeans，我偶然发现了一个问题，那就是，尽管我导入了正确的 jar，但我的编译器无法识别这一行 // Cluster the da
scala - Spark MLlib - 如何验证隐式反馈协作过滤器
我正在使用 Scala 对其进行编程，但语言在这里并不重要。在这种情况下，隐式反馈协作过滤器 (ALS.trainImplicit) 的输入是产品的 View : Rating("user1", "
scala - Spark.mllib 中的并行性
假设我有一个Array[RDD]类型的对象data。我想学习此对象中每个 RDD 上的独立机器学习模型。例如，对于随机森林: data.map{ d => RandomForest.trainRegr
apache-spark - MLlib 的输入格式问题
我想运行 SVM 回归，但输入格式有问题。现在，我为一位客户设置的训练和测试集如下所示: 1 '12262064 |f offer_quantity:1 has_bought_brand_compan
scala - Spark MLlib 矩阵乘法
我在 Spark 控制台中尝试了以下代码 import org.apache.spark.mllib.linalg.{Matrix, Matrices, DenseMatrix} val dm: De
apache-spark - 异常值检测算法spark mllib
Spark 2.0.0 中是否有任何预构建的异常值检测算法/四分位距识别方法？我在这里找到了一些代码，但我认为这在spark2.0.0中尚不可用谢谢最佳答案如果您没有找到预构建的方法，您可以执行
python - Spark MLlib 推荐引擎的方法
我正在使用 pySpark MLlib 和开箱即用的 ALS 方法进行协同过滤。只是想知道，Spark 是否提供了其他一些进行过滤(用于计算距离)的方法，例如 Pearson 或 Cosine 的？可
r - 如何预测 mllib 中的值
您好，我是 spark mllib 的新手。我已经有一个 r 模型。我正在尝试使用 spark mllib 的相同模型。这里是 R 模型代码。 R 代码。 delhi data = sc.textF
python - Spark MLLib 的问题导致所有事物的概率和预测都相同
我正在学习如何将机器学习与 Spark MLLib 结合使用，目的是对推文进行情感分析。我从这里得到了一个情绪分析数据集: http://thinknook.com/wp-content/upload
java - Spark MLlib 中的朴素贝叶斯
我有一个具有这种结构的小文件“naivebayetest.txt” 10 1:1 20 1:2 20 1:2 根据这些数据，我试图对 vector (1) 进行分类。如果我正确理解贝叶斯 (1) 的标
apache-spark - Spark MLLIB 并行多节点
“spark mllib”提供的机器学习算法，如 naive byes、random forest 能否在 spark 集群中以并行模式运行？或者我们需要更改代码？请提供一个并行运行的例子？不确定 M
scala - 可以在 Spark MLlib 随机森林训练中使用样本权重吗？
我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二分类。由于我使用的数据集高度不平衡，因此多数类以 10% 的采样率进行下采样。是否可以在 Spark 随机森林训
apache-spark - 如何从决策树中提取规则 spark MLlib
我正在使用 Spark MLlib 1.4.1 创建决策树模型。现在我想从决策树中提取规则。如何提取规则？最佳答案您可以通过调用 model.toDebugString() 以字符串形式获取完整
scala - Apache Spark -- MlLib -- 协同过滤
我正在尝试使用 MlLib 进行协作过滤。我在 Apache Spark 1.0.0 中运行 Scala 程序时遇到以下错误。 14/07/15 16:16:31 WARN NativeCod
apache-spark - Spark MLLib 与新用户的协同过滤
我正在尝试在 Spark 中实现的协作过滤算法，并遇到以下问题: 假设我用以下数据训练模型: u1|p1|3 u1|p2|3 u2|p1|2 u2|p2|3 现在，如果我用以下数据测试它: u1|p1

首页

博学

6Ren·AI

商城

apache-spark - 在 Spark 的 MLlib 中使用的 TFIDF 生成期间出现内存不足异常