- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在spark中使用标准(字符串索引器+一个热编码器+随机森林)管道,如下图
labelIndexer = StringIndexer(inputCol = class_label_name, outputCol="indexedLabel").fit(data)
string_feature_indexers = [
StringIndexer(inputCol=x, outputCol="int_{0}".format(x)).fit(data)
for x in char_col_toUse_names
]
onehot_encoder = [
OneHotEncoder(inputCol="int_"+x, outputCol="onehot_{0}".format(x))
for x in char_col_toUse_names
]
all_columns = num_col_toUse_names + bool_col_toUse_names + ["onehot_"+x for x in char_col_toUse_names]
assembler = VectorAssembler(inputCols=[col for col in all_columns], outputCol="features")
rf = RandomForestClassifier(labelCol="indexedLabel", featuresCol="features", numTrees=100)
labelConverter = IndexToString(inputCol="prediction", outputCol="predictedLabel", labels=labelIndexer.labels)
pipeline = Pipeline(stages=[labelIndexer] + string_feature_indexers + onehot_encoder + [assembler, rf, labelConverter])
crossval = CrossValidator(estimator=pipeline,
estimatorParamMaps=paramGrid,
evaluator=evaluator,
numFolds=3)
cvModel = crossval.fit(trainingData)
cvModel.bestModel.stages[-2].featureImportances
获得随机森林和特征重要性,但这并没有给我特征/列名,而只是特征编号。
print(cvModel.bestModel.stages[-2].featureImportances)
(1446,[3,4,9,18,20,103,766,981,983,1098,1121,1134,1148,1227,1288,1345,1436,1444],[0.109898803421,0.0967396441648,4.24568235244e-05,0.0369705839109,0.0163489685127,3.2286694534e-06,0.0208192703688,0.0815822887175,0.0466903663708,0.0227619959989,0.0850922269211,0.000113388896956,0.0924779490403,0.163835022713,0.118987129392,0.107373548367,3.35577640585e-05,0.000229569946193])
最佳答案
转换后的数据集元数据具有所需的属性。这是一个简单的方法 -
pandasDF = pd.DataFrame(dataset.schema["features"].metadata["ml_attr"]
["attrs"]["binary"]+dataset.schema["features"].metadata["ml_attr"]["attrs"]["numeric"]).sort_values("idx")
feature_dict = dict(zip(pandasDF["idx"],pandasDF["name"]))
feature_dict_broad = sc.broadcast(feature_dict)
关于pyspark randomForest 特征重要性 : how to get column names from the column numbers,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45024192/
setwd("D:/Santander") ## import train dataset train0.9999] train2<-train[,! colnames(train) %in% c(e
当我运行这样的代码时,我对获得的不同结果感到困惑: set.seed(100) test1<-randomForest(BinaryY~., data=Xvars, trees=51, mtry=5,
当我通过拆分单个数据帧创建训练集和测试集并使用 randomForest 包构建随机森林时,对于训练数据中不存在的某些因子级别, predict() 函数仍然会抛出一个输出。虽然这没有给出错误(这是我
当尝试在因子水平低于我的训练数据的新测试数据上测试我的训练模型时,predict()返回以下内容: Type of predictors in new data do not match that o
我正在尝试使用 randomForest 进行分类,但我反复收到一条错误消息,似乎没有明显的解决方案(randomForest 在过去对我进行回归时效果很好)。我在下面粘贴了我的代码。 “成功”是一个
我想训练我的模型并选择最佳的树数量。代码在这里 from sklearn.ensemble import RandomForestClassifier tree_dep = [3,5,6] tree_
有谁知道 R randomForest 包用来解决分类关系的机制是什么 - 即当树最终在两个或多个类别中获得相同的投票时? 文档说领带是随机断开的。但是,当您在一组数据上训练模型,然后使用一组验证数据
我在使用 RandomForest 拟合函数时遇到问题 这是我的训练集 P1 Tp1 IrrPOA Gz Drz2 0
在 randomForest 包中实现的 R 随机森林算法对数字类和整数类的变量的行为是否相同? 最佳答案 是的,randomForest 实现确实对待整数和数字( double )类似。在 RF 模
重要性图: 我想将 y 轴文本向右对齐,并且还想根据不同的变量组为变量着色。例如 Limonene 和 Valencane,a-Selinene 和 g-Selinen 分别属于同一组。 但我在 "r
R 3.0.0 的新特性之一是引入了长向量。但是, .C() 和 .Fortran() 不接受长向量输入。在 R-bloggers我发现: This is a precaution as it is
我一直在用 R 对 700 万行数据(41 个特征)训练 randomForest 模型。这是一个示例调用: myModel <- randomForest(RESPONSE~., data=myda
我一直在尝试安装 R 包“randomForest”,为此我运行了通常的安装命令 install.packages("randomForest", dependencies = T) 这给了我以下错误
我正在尝试构建一个在线随机森林分类器。在 for 循环中,我遇到了一个错误,但找不到原因。 clf = RandomForestClassifier(n_estimators=1, warm_star
如果我运行 randomForest(y ~ x, data = df) 模型,x 会得到超过 53 个级别的因子变量 Error in randomForest.default(m, y, ...)
我在 R 中使用 randomForest 包来构建几个物种分布模型。我的响应变量是二元的(0 - 缺席或 1 存在),并且非常不平衡 - 对于某些物种,缺席:存在的比率是 37:1。这种不平衡(或零
我刚刚开始使用 Weka,当我的决策树太深时我无法理解。我有一组 423 个特征,据我所知,这些特征是为每个目标随机选择的。因此,这些特征子集生成带有决策叶的分支或流程,这些决策叶似乎不通用,实际上它
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
我的数据高度不平衡,想要对少数类进行上采样以提高准确性(少数类是感兴趣的对象)。 我尝试在“randomForest”函数中使用“sampsize”选项 - 但它只允许下采样。我在某个地方读到,可以使
我有一个包含 10,000 行和两列的数据框、段(具有 32 个值的因子)和目标(具有两个值"is"和“否”的因子,每个值 5,000 个)。我正在尝试使用随机森林来使用分段作为特征对目标进行分类。
我是一名优秀的程序员,十分优秀!