gpt4 book ai didi

scala - 什么是 Spark 中的 DecisionTree.trainClassifier 参数

转载 作者:行者123 更新时间:2023-12-04 04:22:24 26 4
gpt4 key购买 nike

我正在研究 Spark MLlib。在研究 DecisionTree 时,我看到了以下 DecisionTree.trainClassifier 用法示例。

import org.apache.spark.mllib.tree._
val model = DecisionTree.trainClassifier(trainData, 7, Map[int, int](), "gini", 4, 100)

这里有6个参数,第3(Map)、第5(4)、第6(100)个参数我没看懂。

Google 说它们是分类特征、lambda 和 alpha。谁能更好地解释一下?

需要你的帮助

最佳答案

第三:
categoricalFeaturesInfo:不在此 map 中的任何特征都被视为连续的。

例如,Map(0 -> 2, 4 -> 10) 指定特征 0 是二进制的(取值 0 或 1),特征 4 有 10 个类别(值 {0, 1, ..., 9 }).请注意,特征索引是从 0 开始的:特征 0 和 4 是实例特征向量的第 1 个和第 5 个元素。

Map[Int,Int]表示所有特征都是数值类型。

第五:
很容易理解,就是树的(最大)深度。

第六名:
maxBins:离散化连续特征时使用的箱数。

增加 maxBins 允许算法考虑更多拆分候选并做出细粒度的拆分决策。但是,它也增加了计算和通信。

请注意,maxBins 参数必须至少为最大类别数。

您可以引用《Adcaned Analytics with Spark》一书(第 4.8-4.10 章)了解更多详细信息。

关于scala - 什么是 Spark 中的 DecisionTree.trainClassifier 参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36216064/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com