scala - 无法在简单示例上从 spark ML 运行 RandomForestClassifier-6ren

scala - 无法在简单示例上从 spark ML 运行 RandomForestClassifier

转载作者：行者123 更新时间：2023-12-04 23:18:31

我试图运行实验 RandomForestClassifier来自 spark.ml包(版本 1.5.2)。我使用的数据集来自 LogisticRegression Spark ML guide 中的示例.

这是代码:

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.param.ParamMap
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.sql.Row

// Prepare training data from a list of (label, features) tuples.
val training = sqlContext.createDataFrame(Seq(
  (1.0, Vectors.dense(0.0, 1.1, 0.1)),
  (0.0, Vectors.dense(2.0, 1.0, -1.0)),
  (0.0, Vectors.dense(2.0, 1.3, 1.0)),
  (1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")

val rf = new RandomForestClassifier()

val model = rf.fit(training)

这是错误，我得到:

java.lang.IllegalArgumentException: RandomForestClassifier was given input with invalid label column label, without the number of classes specified. See StringIndexer.
    at org.apache.spark.ml.classification.RandomForestClassifier.train(RandomForestClassifier.scala:87)
    at org.apache.spark.ml.classification.RandomForestClassifier.train(RandomForestClassifier.scala:42)
    at org.apache.spark.ml.Predictor.fit(Predictor.scala:90)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:48)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:53)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:55)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:57)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:59)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:61)
    at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:63)
    at $iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:65)
    at $iwC$$iwC$$iwC$$iwC.<init>(<console>:67)
    at $iwC$$iwC$$iwC.<init>(<console>:69)
    at $iwC$$iwC.<init>(<console>:71)
    at $iwC.<init>(<console>:73)
    at <init>(<console>:75)
    at .<init>(<console>:79)
    at .<clinit>(<console>)
    at .<init>(<console>:7)
    at .<clinit>(<console>)
    at $print(<console>)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:497)
    at org.apache.spark.repl.SparkIMain$ReadEvalPrint.call(SparkIMain.scala:1065)
    at org.apache.spark.repl.SparkIMain$Request.loadAndRun(SparkIMain.scala:1340)
    at org.apache.spark.repl.SparkIMain.loadAndRunReq$1(SparkIMain.scala:840)
    at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:871)
    at org.apache.spark.repl.SparkIMain.interpret(SparkIMain.scala:819)
    at org.apache.spark.repl.SparkILoop.reallyInterpret$1(SparkILoop.scala:857)
    at org.apache.spark.repl.SparkILoop.interpretStartingWith(SparkILoop.scala:902)
    at org.apache.spark.repl.SparkILoop.command(SparkILoop.scala:814)
    at org.apache.spark.repl.SparkILoop.processLine$1(SparkILoop.scala:657)
    at org.apache.spark.repl.SparkILoop.innerLoop$1(SparkILoop.scala:665)
    at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$loop(SparkILoop.scala:670)
    at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply$mcZ$sp(SparkILoop.scala:997)
    at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:945)
    at org.apache.spark.repl.SparkILoop$$anonfun$org$apache$spark$repl$SparkILoop$$process$1.apply(SparkILoop.scala:945)
    at scala.tools.nsc.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:135)
    at org.apache.spark.repl.SparkILoop.org$apache$spark$repl$SparkILoop$$process(SparkILoop.scala:945)
    at org.apache.spark.repl.SparkILoop.process(SparkILoop.scala:1059)
    at org.apache.spark.repl.Main$.main(Main.scala:31)
    at org.apache.spark.repl.Main.main(Main.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:497)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:674)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:120)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

当函数尝试计算列 "label" 中的类数时会出现问题。 .

正如您在 source code of RandomForestClassifier 中的第 84 行所见, 函数调用 DataFrame.schema带参数的函数 "label" .此调用正常并返回 org.apache.spark.sql.types.StructField目的。
然后，函数 org.apache.spark.ml.util.MetadataUtils.getNumClasses叫做。由于它没有返回预期的输出，因此在第 87 行引发异常。

快速浏览 getNumClasses source code 后，我想这个错误是由于 colmun "label" 中的数据造成的。两者都不是 BinaryAttribute都不是 NominalAttribute . 但是，我不知道如何解决这个问题。

我的问题:

我该如何解决这个问题？

非常感谢您阅读我的问题并提供帮助!

最佳答案

让我们首先修复导入以消除歧义

import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.feature.{StringIndexer, VectorIndexer}
import org.apache.spark.ml.{Pipeline, PipelineStage}
import org.apache.spark.ml.linalg.Vectors

我将使用您使用的相同数据:

val training = sqlContext.createDataFrame(Seq(
  (1.0, Vectors.dense(0.0, 1.1, 0.1)),
  (0.0, Vectors.dense(2.0, 1.0, -1.0)),
  (0.0, Vectors.dense(2.0, 1.3, 1.0)),
  (1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")

然后创建管道阶段:

val stages = new scala.collection.mutable.ArrayBuffer[PipelineStage]()

对于分类，重新索引类:

val labelIndexer = new StringIndexer().setInputCol("label").setOutputCol("indexedLabel").fit(training)

使用 VectorIndexer 识别分类特征

val featuresIndexer = new VectorIndexer().setInputCol("features").setOutputCol("indexedFeatures").setMaxCategories(10).fit(training)
stages += featuresIndexer

val tmp = featuresIndexer.transform(labelIndexer.transform(training))

学习随机森林

val rf = new RandomForestClassifier().setFeaturesCol(featuresIndexer.getOutputCol).setLabelCol(labelIndexer.getOutputCol)

stages += rf
val pipeline = new Pipeline().setStages(stages.toArray)

// Fit the Pipeline
val pipelineModel = pipeline.fit(tmp)

val results = pipelineModel.transform(training)

results.show

//+-----+--------------+---------------+-------------+-----------+----------+
//|label|      features|indexedFeatures|rawPrediction|probability|prediction|
//+-----+--------------+---------------+-------------+-----------+----------+
//|  1.0| [0.0,1.1,0.1]|  [0.0,1.0,2.0]|   [1.0,19.0]|[0.05,0.95]|       1.0|
//|  0.0|[2.0,1.0,-1.0]|  [1.0,0.0,0.0]|   [17.0,3.0]|[0.85,0.15]|       0.0|
//|  0.0| [2.0,1.3,1.0]|  [1.0,3.0,3.0]|   [14.0,6.0]|  [0.7,0.3]|       0.0|
//|  1.0|[0.0,1.2,-0.5]|  [0.0,2.0,1.0]|   [1.0,19.0]|[0.05,0.95]|       1.0|
//+-----+--------------+---------------+-------------+-----------+----------+

引用文献:关于第 1 步和第 2 步，如果您想了解更多关于 Feature Transformer 的详细信息，我建议您阅读官方文档 here .

关于scala - 无法在简单示例上从 spark ML 运行 RandomForestClassifier，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33942519/

文章推荐： list - 如何在类图中指示类型列表

python - RandomForestClassifier 为多标签类提供转置输出
由于某种原因，每当我运行 ensemble.RandomForestClassifier() 并使用 .predict_proba() 方法时，它都会返回一个形状为 [n_classes, n_sam
python - 尝试将分类数据转换为数字并运行 RandomForestClassifier
我正在测试这段代码。 df1 = df[['Group', 'Sector', 'Cat2', 'Cat3', 'Cat4', 'Cat5', 'Cat6', 'Industry', 'Market'
python - 增量拟合sklearn RandomForestClassifier
我正在使用一个在每次迭代时生成数据的环境。我想保留先前迭代中的模型并将新数据添加到现有模型中。我想了解模型拟合的工作原理。它将使新数据与现有模型相匹配，还是会使用新数据创建新模型。调用新数据的拟合
python - RandomForestClassifier 性能不佳
我编写了以下 Python 代码，用于在 UCI ML 存储库的 Forest CoverType 数据集上运行 RandomForestClassifier(使用默认参数设置)。然而，结果很差，准确
python - 'RandomForestClassifier' 对象没有属性 'tree_'
from sklearn.ensemble import RandomForestClassifier from sklearn import tree rf = RandomForestClassi
python - “RandomForestClassifier”对象没有属性 'layers'
我正在尝试攻击我的随机森林分类器。 clf = RandomForestClassifier(max_features="sqrt", n_estimators=500, n_jobs=-1, ver
scikit-learn RandomForestClassifier 概率预测与多数投票
在 section 1.9.2.1 中的 scikit-learn 文档中(摘录如下)，为什么随机森林的实现与 Breiman 的原始论文不同？据我所知，在聚合分类器的集合时，Breiman 选择了多
python - RandomForestClassifier 可视化 - 重叠颜色
我使用以下代码可视化 RandomForestClassifier 的结果: X, y = make_blobs(n_samples=300, centers=4,
python - scikit RandomForestClassifier - 真实结果与预测分数不匹配
我是机器学习新手，我正在尝试使用 scikit RandomForestClassifier 对文本进行分类。我遇到的问题是我的测试数据结果与 sklearn 分类报告不匹配。训练集大约有 25k 个
Python sklearn RandomForestClassifier 不可重现的结果
我一直在使用 sklearn 的随机森林，并且尝试比较几个模型。然后我注意到即使使用相同的种子，随机森林也会给出不同的结果。我尝试了两种方法:random.seed(1234) 以及使用随机森林内置的
python - 让 RandomForestClassifier 在训练期间确定选择一个变量
这是一个新手问题。我想使用 sklearn 中的 RandomForestClassifier 训练一个 Random Forest。我有几个变量，但在这些变量中，我希望算法在它训练的每一棵树中确定
python - 解释来自 RandomForestClassifier 的特征重要性值
在机器学习方面，我是初学者，我无法解释我从第一个程序中获得的一些结果。这是设置: 我有一个书评数据集。这些书可以用大约 1600 本书中的任意数量的限定符来标记。评论这些书的人也可以用这些限定符来标记
python - 拟合 RandomForestClassifier 时内存使用量激增
我正在尝试用中等大小的 numpy float 组来填充森林 In [3]: data.shape Out[3]: (401125, 5) [...] forest = forest.fit(data
scikit-learn RandomForestClassifier，停止工作，有关如何调试的建议
我正在 RandomForestClassifier 上进行网格搜索，我的代码一直在工作，直到我更改了功能，然后代码突然生成以下错误(在 classifier.fit 行) 我没有更改任何代码，只是将
scikit-learn RandomForestClassifier，停止工作，有关如何调试的建议
我正在 RandomForestClassifier 上进行网格搜索，我的代码一直在工作，直到我更改了功能，然后代码突然生成以下错误(在 classifier.fit 行) 我没有更改任何代码，只是将
scala - 在 Spark RandomForestClassifier 中预测类别概率
我使用 ml.classification.RandomForestClassifier 构建了随机森林模型。我试图从模型中提取预测概率，但我只看到了预测类而不是概率。根据这个issue link ，
python - 使用 sklearn RandomForestClassifier 进行分类
我正在使用 Scikit RandomForestClassifier 对不平衡数据进行分类。目标类数据为“1”或“0”(99% 的值为 0)。我想分配一个权重。我怎样才能做到这一点。我在文档中发
Python scikit-learn RandomForestClassifier 访问单个树以及如何保存它们
如何访问单个树并保存/加载 RandomForestClassifier 对象？我只想查看每棵树的结构以确定哪个特征是重要的。我想将经过训练的分类器对象保存在文件或数据库中。怎么做？最佳答案您基
python - RandomForestClassifier 实例尚未安装。在使用此方法之前使用适当的参数调用 'fit'
我正在尝试训练一个决策树模型，保存它，然后在我以后需要时重新加载它。但是，我不断收到以下错误: This DecisionTreeClassifier instance is not fitted y
python - 使用 scikit RandomForestClassifier 的平均降低精度使用哪个精度分数
我一直在运行此 website 上显示的“平均降低精度”度量的实现: 在示例中，作者使用的是随机森林回归器 RandomForestRegressor，但我使用的是随机森林分类器 RandomFore

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - 无法在简单示例上从 spark ML 运行 RandomForestClassifier