- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我遇到了一个奇怪的问题。我已在笔记本电脑上成功运行此代码,但是当我尝试首先在另一台计算机上运行它时,我收到此警告未指定分布,假设伯努利...,这是我所期望的,但随后出现此错误:object$var.levels[[i]] 中出现错误:下标超出范围
library(gbm)
gbm.tmp <- gbm(subxy$presence ~ btyme + stsmi + styma + bathy,
data=subxy,
var.monotone=rep(0, length= 4), n.trees=2000, interaction.depth=3,
n.minobsinnode=10, shrinkage=0.01, bag.fraction=0.5, train.fraction=1,
verbose=F, cv.folds=10)
有人可以帮忙吗?数据结构完全相同,代码相同,R 相同。我在这里甚至没有使用下标。
编辑:traceback()
6: predict.gbm(model, newdata = my.data, n.trees = best.iter.cv)
5: predict(model, newdata = my.data, n.trees = best.iter.cv)
4: predict(model, newdata = my.data, n.trees = best.iter.cv)
3: gbmCrossValPredictions(cv.models, cv.folds, cv.group, best.iter.cv,
distribution, data[i.train, ], y)
2: gbmCrossVal(cv.folds, nTrain, n.cores, class.stratify.cv, data,
x, y, offset, distribution, w, var.monotone, n.trees, interaction.depth,
n.minobsinnode, shrinkage, bag.fraction, var.names, response.name,
group)
1: gbm(subxy$presence ~ btyme + stsmi + styma + bathy, data = subxy,var.monotone = rep(0, length = 4), n.trees = 2000, interaction.depth = 3, n.minobsinnode = 10, shrinkage = 0.01, bag.fraction = 0.5, train.fraction = 1, verbose = F, cv.folds = 10)
是否因为我将保存的 R 工作区移动到另一台计算机而有什么关系?
编辑2:好的,所以我已经更新了代码运行的机器上的gbm包,现在我得到了同样的错误。因此,此时我认为较旧的 gbm 软件包可能没有进行此检查,或者较新的版本存在一些问题。我不太了解gbm,无法说。
最佳答案
只是一种预感,因为我看不到您的数据,但我相信当测试集中存在但训练集中不存在的变量级别时,就会发生错误。
当您的因子变量具有大量级别,或者一个级别的实例数较少时,很容易发生这种情况。
由于您使用的是 CV 折叠,因此其中一个循环上的保留集可能对训练数据具有外部级别。
我建议:
A) 使用 model.matrix() 对因子变量进行 one-hot 编码
B) 继续设置不同的种子,直到获得不发生此错误的 CV 分割。
编辑:是的,通过该回溯,您的第三个 CV 保留在其测试集中有一个在训练中不存在的因子水平。因此预测函数看到一个外部值并且不知道该怎么做。
编辑2:这是一个简单的例子来展示我所说的“不在测试集中的因子水平”的含义
#Example data with low occurrences of a factor level:
set.seed(222)
data = data.frame(cbind( y = sample(0:1, 10, replace = TRUE), x1 = rnorm(10), x2 = as.factor(sample(0:10, 10, replace = TRUE))))
data$x2 = as.factor(data$x2)
data
y x1 x2
[1,] 1 -0.2468959 2
[2,] 0 -1.2155609 6
[3,] 0 1.5614051 1
[4,] 0 0.4273102 5
[5,] 1 -1.2010235 5
[6,] 1 1.0524585 8
[7,] 0 -1.3050636 6
[8,] 0 -0.6926076 4
[9,] 1 0.6026489 3
[10,] 0 -0.1977531 7
#CV fold. This splits a model to be trained on 80% of the data, then tests against the remaining 20%. This is a simpler version of what happens when you call gbm's CV fold.
CV_train_rows = sample(1:10, 8, replace = FALSE) ; CV_test_rows = setdiff(1:10, CV_train_rows)
CV_train = data[CV_train_rows,] ; CV_test = data[CV_test_rows,]
#build a model on the training...
CV_model = lm(y ~ ., data = CV_train)
summary(CV_model)
#note here: as the model has been built, it was only fed factor levels (3, 4, 5, 6, 7, 8) for variable x2
CV_test$x2
#in the test set, there are only levels 1 and 2.
#attempt to predict on the test set
predict(CV_model, CV_test)
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) :
factor x2 has new levels 1, 2
关于r - gbm 函数下标越界,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18640169/
背景 gbm 包 的引用手册指出,interact.gbm 函数计算 Friedman 的 H 统计量以评估变量相互作用的强度。 H 统计量的范围为 [0-1]。 dismo 包的引用手册没有引用任何
修改梯度提升,我注意到 R 的 gbm 包在一个最小的示例中产生与 h2o 不同的结果。为什么? 数据 library(gbm) library(h2o) h2o.init() train <- da
有没有办法将 gbm 模型导出到 C++。具体来说,我如何调用 predict.gbm 函数在 R 之外运行以便对新数据集进行评分。 我已将模型导出为 PMML 文件,但我不确定新数据集将如何基于 P
我正在尝试运行 GradientBoostingClassifier()在 gridsearchcv 的帮助下。 对于每个参数组合,我还需要表格格式的“精确度”、“召回率”和准确性。 这是代码: sc
我希望使用 GBM包进行逻辑回归,但它给出的答案略超出 0-1 范围。我已经尝试了 0-1 预测的建议分布参数( bernoulli 和 adaboost ),但这实际上比使用 gaussian 更糟
我遇到了一个奇怪的问题。我已在笔记本电脑上成功运行此代码,但是当我尝试首先在另一台计算机上运行它时,我收到此警告未指定分布,假设伯努利...,这是我所期望的,但随后出现此错误:object$var.l
我正在尝试使用 R 中的 gbm.more 函数。为了清楚起见,我使用了规范的虹膜数据。当我指定 distribution="multinomial"时,下面的代码不起作用,但是当我指定 distri
我使用了gbm函数来实现梯度提升。我想进行分类。之后,我使用 varImp() 函数在梯度提升建模中打印变量重要性。但是......只有 4 个变量具有非零重要性。我的大数据里有371个变量....对
类似的问题是 asked但是答案中的链接指向随机森林示例,在我的情况下似乎不起作用。 这是我正在尝试做的一个例子: gbmGrid <- expand.grid(interaction.depth
为分类问题运行 gbm 函数时。我收到以下错误: Error in res[flag, ] 0.5,1,0) table(pred,df$Group) pred 0 1 0 98
我使用 R 包 GBM 作为预测建模的首选。这个算法有很多很棒的东西,但一个“坏”是我不能轻易地使用模型代码来对 R 之外的新数据进行评分。我想编写可以在 SAS 或其他系统中使用的代码(我将从SAS
我正在解决一个多类分类问题并尝试使用广义提升模型(R 中的 gbm 包)。我面临的问题:插入符号 train功能与 method="gbm"似乎不能正确处理多类数据。下面给出一个简单的例子。 libr
我正在尝试使用 Friedman 和 Popescu 2008 https://projecteuclid.org/euclid.aoas/1223908046 中描述的方法确定 gbm 模型中的哪些
我有一个相当小的数据集(162,000 个观察值,13 个属性)我正在尝试使用 h2o.GBM 进行建模。响应变量是具有大量级别的分类变量(~ 20,000 个级别)该模型没有耗尽内存或给出任何错误,
是否可以绘制部分依赖图来显示类概率并估计预测变量对 GBM 的影响?模型?类似于 randomForest 包中的 partialPlot。 根据 this article ,部分情节可以用 gbm
我使用提前停止和设置 ntrees=10000 在水中训练了 GBM。我想检索模型中实际存在的树木数量。但是,如果我调用 model.params['ntrees'] (其中 model 是网格搜索中
我正在尝试使用 caret在 R 中打包用于具有用户定义的性能指标的多个嵌套交叉验证过程。我遇到了各种各样的问题,所以我回过头来看看是否有更多开箱即用的 caret 的问题。看来我遇到了一个。 如果我
在传统的GBM中,我们可以使用 Predict.gbm(模型, newsdata=..., n.tree=...) 这样我就可以将测试数据的结果与不同数量的树进行比较。 在h2o.gbm中,虽然有n.
我对 light gbm 使用了自定义指标,但提前停止了对数损失的工作,这是目标函数,我如何解决这个问题或更改提前停止以适用于评估指标。 def evaluate_macroF1_lgb(truth,
R gbm 中的 weights 参数是什么?功能?它是否实现了成本敏感随机梯度提升? 最佳答案 您可能已经阅读过本文,但文档说 weights 参数是这样定义的: an optional vecto
我是一名优秀的程序员,十分优秀!