gpt4 book ai didi

apache-spark - Spark MLLib 如何在训练分类器时忽略特征

转载 作者:行者123 更新时间:2023-11-30 08:38:04 24 4
gpt4 key购买 nike

我想在 RDD[LabeledPoint] 上仅使用每个 LabeledPoint 中的特征子集来训练分类器(既可以快速调整模型,又可以在每个 LabeledPoint 中包含项目,例如 ID 或评估指标)特征)。我搜索了文档,但找不到指定应包含或忽略哪些列的方法。代码如下,我使用 Spark 和 MLLib 1.3.1、Scala 2.10.4。

如果无法排除特定特征,则在训练期间忽略的每个数据点中包含 ID 仍然会有所帮助。如有任何帮助,我们将不胜感激!

val numClasses = 2
val categoricalFeaturesInfo = Map[Int, Int](5 -> 2)
val numTrees = 100
val featureSubsetStrategy = "auto"
val impurity = "gini"
val maxDepth = 6
val maxBins = 20
val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)

最佳答案

您想在构建模型之前选择特征子集,还是想为随机森林分类器在迭代之间使用一些自定义策略?

如果是第一种情况 - 您可以在构建模型之前使用 map 转换来转换trainingData。

请参阅 MLlib - Feature Extraction and Transformation 中的特征选择部分有关特征选择的示例。

关于apache-spark - Spark MLLib 如何在训练分类器时忽略特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30739283/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com