- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想尝试 R 中包 caret 的 sbf 函数,以使用方法“ranger”执行特征选择和分类,因为使用方法“rf”的训练时间非常长。
当我使用 sbf 进行模型训练时,我总是遇到错误信息:
Error in { : task 1 failed - "undefined columns selected"
对于背景:我的原始数据集包含大约。 6200 次观察和大约。 15200 个具有二进制特征表示的特征,应该减少到大约。 1700 个特征。分类问题是二元的。
我制作了一个与我的原始数据集相似的可重现样本,但它以相同的错误消息结尾。我还添加了输出和 session 信息。
谁能帮我弄清楚如何规避这个问题?
源代码
library(doSNOW)
library(caret)
library(entropy)
library(ranger)
# setup elements for sbf functions
igfit <- caretSBF
# score function
multiigScore <- function(x, y) {
uniigScore <- function (x, y) {
library(entropy)
# make x binary
xbinary <- as.numeric(x>0)
ybinary <- as.numeric(y==levels(y)[1])
# make a joint frequency table
disc <- discretize2d(xbinary, ybinary, 2, 2, r1=c(0,1), r2=c(0,1))
# calculate ig score
ig_score<-mi.empirical(disc)
as.numeric(ig_score)
}
apply(x, 2, uniigScore, y=y)
}
igfit$score <- multiigScore
# filter function
igfit$filter <- function (score, x, y) rank(score, ties.method = "first") <= 5
# data
x <- 0:1
y <- c("a", "b")
train_y <- as.factor(sample(y, 100, replace = T))
train_x <- data.frame(sample(x, 100, replace = T),
sample(x, 100, replace = T),
sample(x, 100, replace = T),
sample(x, 100, replace = T),
sample(x, 100, replace = T),
sample(x, 100, replace = T))
names(train_x) <-c("c", "d", "e", "f", "g", "h")
# control objects
custom_ctrl <- trainControl(method = "none")
sbf_ctrl <- sbfControl(functions = igfit,
method = "cv", number = 10,
multivariate = T, allowParallel = T,
saveDetails = T, returnResamp = "final", verbose = T)
sbf_fit <- sbf(train_x, train_y,
trControl = custom_ctrl,
sbfControl = sbf_ctrl,
method = "ranger",
tuneGrid = expand.grid(mtry=c(2)))
输出
Error in { : task 1 failed - "undefined columns selected"
session 信息
R version 3.2.5 (2016-04-14)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
locale:
[1] LC_COLLATE=German_Germany.1252
[2] LC_CTYPE=German_Germany.1252
[3] LC_MONETARY=German_Germany.1252
[4] LC_NUMERIC=C
[5] LC_TIME=German_Germany.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] randomForest_4.6-12 e1071_1.6-7 ranger_0.5.0
[4] entropy_1.2.1 caret_6.0-71 ggplot2_2.1.0
[7] lattice_0.20-33 doSNOW_1.0.14 snow_0.4-1
[10] iterators_1.0.8 foreach_1.4.3
loaded via a namespace (and not attached):
[1] Rcpp_0.12.7 magrittr_1.5 splines_3.2.5
[4] MASS_7.3-45 munsell_0.4.3 colorspace_1.2-6
[7] minqa_1.2.4 stringr_1.1.0 car_2.1-3
[10] plyr_1.8.4 tools_3.2.5 parallel_3.2.5
[13] nnet_7.3-12 pbkrtest_0.4-6 grid_3.2.5
[16] gtable_0.2.0 nlme_3.1-125 mgcv_1.8-12
[19] quantreg_5.29 class_7.3-14 MatrixModels_0.4-1
[22] lme4_1.1-12 Matrix_1.2-4 nloptr_1.0.4
[25] reshape2_1.4.1 codetools_0.2-14 stringi_1.1.1
[28] compiler_3.2.5 scales_0.4.0 stats4_3.2.5
[31] SparseM_1.72
最佳答案
我想我自己找到了解决方案:
要使 sbf 与“游侠”一起工作,必须更改 custom_ctrl <- trainControl(method = "none")
至 custom_ctrl <- trainControl(method = "none", classProbs = TRUE)
. classProbs
的默认值是FALSE
这在使用“游侠”时会导致问题。
关于R 插入符 : What causes error "undefined columns selected" using sbf and method "ranger"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39574404/
这正确地呈现了标题,因为我可以看到一个列带有“Product ID”标题的表:。我正试图重构它,这样我就可以重用它,因为它们在整个应用程序中几乎是相同的:。在这种情况下,头不会呈现...检查页面元素中
我什至不知道如何表达这一点,但在 Python 中有没有一种方法可以引用等号之前的文本,而无需实际再次编写? ** 编辑 - 我在 Jupyter 中使用 python3 我似乎用了半辈子的时间来写作
假设我有一个包含以下列的字典 dict_ = [ {'key1': 'value1', 'key2': 'value2', 'key3': 'value3', '
假设我有一个包含以下列的字典 dict_ = [ {'key1': 'value1', 'key2': 'value2', 'key3': 'value3', '
假设我的数据库中有一张地铁 map ,其中每条线路的每个站点都是一行。如果我想知道我的线路在哪里互连: mysql> SELECT LineA.stop_id FROM LineA, LineB WH
代码 select c1,c2,c3,c4,c5,c6 from table where c5 in ('a', 'b') 从这里开始,我想将 c5 列拆分为两列,然后根据它们对 c
我正在尝试搜索表格中的两列,即标题和描述。但我想先搜索标题,然后再搜索描述。所以匹配标题的所有行排在第一位,所有匹配描述的行排在第二位 我可以使用单个 SQL 查询来实现吗? 最佳答案 您还可以使用
下面有以下 Python 数据框。 “标志”字段是我想要用代码创建的所需列。 我想要执行以下操作: 如果“分配类型”是预测的并且“Activities_Counter”大于 10,我想创建一个名为“F
我有两列,area 和 block,其中 area 是一个 int 类型,block 是一个 varchar。 现在我正在写两个查询: select * from table where area a
使用 Slick 2,我试图生成一个带有元组 IN 子句的查询: select * from my_table where (a, b) IN ((1, 87)); 给定: val seq: Seq[
我正在尝试从数据透视表中获取一组值,其中 A 列等于值数组,例如 ID 12 的 attribute_value_id 等于 3 和 9。这可以做到吗?我已经走了这么远... ID | post_id
我找不到这样做的有效方法。我在 Python 中有以下 DataFrame,列从 A 到 Z A B C ... Z 0 2.0 8.0 1.0 ... 5.0 1
我的数据框中有以下格式的数据: >>> df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) >>> df
我有多个与我公司销售的产品相关的表被新产品取代,随着时间的推移,这导致了多个表的出现。 我一遍又一遍地使用以下查询,直到最终表中只剩下 2 个产品... CREATE TABLE mar15a
我有如下 2 个表:- 表A ------------------------------- | product_id | price | --------------------
我有一个名为 tbl_mainsheet7 的表,创建方式如下: pk_mainsheet client_id project_id mainsheet_id project_cat EA_
我得到了以下 HTML 结构: ... ... 我的 CSS: #main-container { width:80%; margin:20px auto;
对于我的以下要求,我无法获得解决方案。 如果 data.table(如下)在 Col1 和 Col3 中有匹配的值。替换 Col2 值(旧的 New-Val)。 Col1 Col2 Col3
我正在通过连接几个表来构建一个 View ,以通过 Entity Framework 提取数据。由于此 View 没有唯一列,EntityFramework 无法检索正确的结果集(即第一列重复)。 为
好的,我已经尝试了太久了,是时候寻求帮助了。我有一个看起来有点像这样的数据框: person fruit quantity all_fruits 0 p1 grapes 2
我是一名优秀的程序员,十分优秀!