- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试从一篇论文中重新创建一个随机森林模型,但代码似乎不起作用,我只是刚刚学习 R,这超出了我的理解范围,但我会尽力解释。
论文的源代码可以在这里找到:[( https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0181347.s002&type=supplementary)]
本文提供了两个数据集:训练和测试,然后为每个数据集创建两个子集(请参阅文本底部的数据 head()。Data can be found in supplementary paper here
(应该能够直接复制到.csv)代码如下:
sink("test.txt", split=TRUE)
print("#data process")
data_bin_train<-read.csv("training.csv", head=TRUE)
names(data_bin_train)
data_bin_test<-read.csv("test.csv", head=TRUE)
names(data_bin_test)
dspt_bin_train<-subset(data_bin_train,select=c(-Deamidation))
dspt_bin_test<-subset(data_bin_test,select=c(-Deamidation))
class_bin_train<-subset(data_bin_train, select=c(Deamidation))
class_bin_test<-subset(data_bin_test, select=c(Deamidation))
library("caret")
library("ROCR")
library("pROC")
fitControl <- trainControl(method = "CV",number = 10,returnResamp = "all", verboseIter = FALSE, classProbs = TRUE)
set.seed(2)
这个位工作正常。然后下一段代码是我收到错误的地方:
library("randomForest")
print("#Random Forest binary class via caret (randomForest)")
caret_rf_bin_randomf_cv10 <- train(Deamidation~., data=data_bin_train, method = "rf", preProcess = c("center", "scale"), tuneLength = 10, trControl = fitControl)
caret_rf_bin_randomf_cv10
varImp(caret_rf_bin_randomf_cv10)
rf_bin_Preds <- extractPrediction(list(caret_rf_bin_randomf_cv10),testX=dspt_bin_test[,1:13], testY=class_bin_test[,1])
[.data.frame
(newdata, , object$method$center, drop = FALSE) 中出现错误:选择了未定义的列`任何帮助都会很棒!该论文使用了 R v 3.1.1 caret_6.0-35,而我正在运行两者的更新版本,这就是我相信错误来自的地方,但我不确定如何修复它,或者说实话错误甚至是。
谢谢
蒂诺马斯
下面是两个数据集的`sessionInfo()和Head()
R version 3.5.3 (2019-03-11)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 18362)
Matrix products: default
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] randomForest_4.6-14 pROC_1.15.3 ROCR_1.0-7 gplots_3.0.1.1 caret_6.0-84
[6] ggplot2_3.2.1 lattice_0.20-38
loaded via a namespace (and not attached):
[1] Rcpp_1.0.3 pillar_1.4.3 compiler_3.5.3 gower_0.2.1 plyr_1.8.5 bitops_1.0-6
[7] iterators_1.0.12 class_7.3-15 tools_3.5.3 rpart_4.1-13 ipred_0.9-9 lubridate_1.7.4
[13] lifecycle_0.1.0 tibble_2.1.3 nlme_3.1-137 gtable_0.3.0 pkgconfig_2.0.3 rlang_0.4.2
[19] Matrix_1.2-15 foreach_1.4.7 rstudioapi_0.10 prodlim_2019.11.13 e1071_1.7-3 withr_2.1.2
[25] stringr_1.4.0 dplyr_0.8.3 caTools_1.17.1.3 gtools_3.8.1 generics_0.0.2 recipes_0.1.8
[31] stats4_3.5.3 grid_3.5.3 nnet_7.3-12 tidyselect_0.2.5 data.table_1.12.8 glue_1.3.1
[37] R6_2.4.1 survival_2.43-3 gdata_2.18.0 lava_1.6.6 reshape2_1.4.3 purrr_0.3.3
[43] magrittr_1.5 ModelMetrics_1.2.2 scales_1.1.0 codetools_0.2-16 MASS_7.3-51.1 splines_3.5.3
[49] assertthat_0.2.1 timeDate_3043.102 colorspace_1.4-1 KernSmooth_2.23-15 stringi_1.4.3 lazyeval_0.2.2
[55] munsell_0.5.0 crayon_1.3.4
训练.txt
PDB `Residue #` `AA following A… attack_distance Half_life norm_B_factor_C norm_B_factor_CA norm_B_factor_CB norm_B_factor_CG
<chr> <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 11BG 67 GLY 3.84 1.02 1.46 1.46 1.36 1.38
2 11BG 17 SER 4.81 11.8 0.692 0.706 1.18 1.62
3 11BG 71 CYS 4.11 55.5 0.174 0.481 0.574 0.782
4 11BG 44 THR 3.33 49.9 -1.24 -1.30 -1.35 -1.52
5 11BG 94 CYS 4.97 60 1.41 1.64 1.92 2.15
6 11BG 27 LEU 4.52 119 -0.898 -0.905 -0.820 -0.604
test.txt
PDB `Residue #` `AA following A… attack_distance Half_life norm_B_factor_C norm_B_factor_CA norm_B_factor_CB norm_B_factor_CG
<chr> <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1ACC 713 GLY 3.69 1.45 3.17 3.35 3.63 4.06
2 1ACC 719 GLY 4.64 1.04 0.688 0.865 1.42 1.83
3 1ACC 28 PHE 4.81 72.4 1.03 1.06 1.58 1.95
4 1ACC 52 ILE 4.73 279 0.944 1.13 1.29 1.46
5 1ACC 85 HIS 3.60 9.7 0.780 0.800 1.16 1.57
6 1ACC 104 LYS 4.51 55.5 2.22 2.47 2.69 2.91
最佳答案
问题出在两个功能上:
“PDB” - 根本不应该使用,因为它只是序列加入。
“AA.following.Asn” - 测试集不包含训练集的所有级别。
levels(data_bin_train[,3])
#output
[1] "ALA" "ARG" "ASP" "CYS" "GLU" "GLY" "HIS" "ILE" "LEU" "LYS" "MET" "PHE" "PRO" "SER" "THR" "TRP" "TYR" "VAL"
levels(data_bin_test[,3])
#output
[1] "ALA" "ARG" "ASP" "GLU" "GLY" "HIS" "ILE" "LEU" "LYS" "PHE" "PRO" "SER" "THR" "TRP" "TYR" "VAL"
如果从集合中省略这两个功能,代码将运行并产生合理的结果
library(caret)
fitControl <- trainControl(method = "CV",
number = 10,
returnResamp = "all",
verboseIter = FALSE,
classProbs = TRUE)
set.seed(2)
caret_rf_bin_randomf_cv10 <- train(Deamidation~.,
data = data_bin_train[,-c(1,3)],
method = "rf",
preProcess = c("center", "scale"),
tuneLength = 10,
trControl = fitControl)
rf_bin_Preds <- extractPrediction(list(caret_rf_bin_randomf_cv10),
testX = data_bin_test[,-c(1,3)],
testY = class_bin_test$Deamidation)
head(rf_bin_Preds)
#output
obs pred model dataType object
1 Yes Yes rf Training Object1
2 No No rf Training Object1
3 No No rf Training Object1
4 No No rf Training Object1
5 No No rf Training Object1
6 No No rf Training Object1
关于r - 如何修复 R : [. data.frame(newdata, , object$method$center, drop = FALSE) 中的此错误:选择了未定义的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59681559/
最近,我在 XCode 上的调试器停止正常工作,并给出了以下错误: 此帧内的前一帧(gdb 无法展开超过此帧) 我已经浏览过 SO 的另一个线程,谈论丢失的符号。我通过删除符号目录并让它从 iPod
当我在设备上遇到断点时,出现以下调试器错误: 来自调试器的错误:此帧内的上一帧(gdb 无法展开超过此帧) 当应用程序遇到断点时,就会发生这种情况。如果我点击调试器中的继续按钮,它会愉快地继续,直到下
如何在 WinRT XAML 应用程序中操作框架的历史记录? 用户将从我的中心页面开始,他们可以在其中选择一个现有项目以转到其编辑屏幕,或者他们可以选择“新项目”。 “新项目”将引导他们完成一个简短的
2 帧,我希望第 2 帧“覆盖”/更新第 1 帧。基本上,其中 Table1-colB-value = Table2-oldB-value,用 Table2-newB-value 覆盖 Table1-
我正在尝试逐帧动画,但它给了我一个强制关闭,我不确定为什么它给我一个强制关闭。在我看来一切都很好。 这是我的代码,我希望有人能帮忙吗?提前致谢。 动画测试.java import android.ap
这是我的主课。 package pomsystem; public class POMSystem { public static void main(String[] args) {
如果为TRUE,我想从函数返回一个data.frame,否则使用return(ifelse(condition, mydf, NA)) 返回NA 但是, ifelse 会从 data.frame 中删
我正在处理两个 csv 文件并导入为数据框 df1 和 df2 df1 有 50000 行,df2 有 150000 行。 我想比较(遍历每一行)df2 的“时间”df1,求时间差,返回所有列的值对应
我将许多文件夹中的小文本文件读取到一个列表中。因此,我有一个长度为 n 的列表,其中包含 2 个 data.frames。 这是列表元素 3 的示例(在问题末尾输入) ip_list[[3]] $`d
为了找出数据框 df.a 是否是数据框 df.b 的子集,我做了以下操作: df.a semi_join(df.b, df.a) Joining by: c("x", "y") x y 1 1
在某些情况下,出于实现原因,我有一个只包含一个列的 data.frame df=as.data.frame(alpha=1:15) 如果我现在使用 df[-1, ] 它返回一个向量,但我想将它保留为一
Windows 8.1 商店应用中的 Frame.Navigate() 和 this.Frame.Navigate() 有什么区别? 这有什么区别 Frame.Navigate(typeof(Logi
我有两个 data.frames (df1, df2),我想用 df1$V2 的值替换 P1-P10 列中的字母值,但保留前两列df2. df1 = data.frame(V1=LETTERS, V2
有没有更好的方法来制作与现有 data.frame 具有相同维度、列名和行名的空白 data.frame? BAM<-read.table(~/myfile) # 10 rows and 10 co
我有一个列表 data.frame s。例如 set.seed(1) my_list result.df id var_p var_m var_d var_a
假设我有两个数据框 df1 和 df2 如下 Df1 Id Price Profit Month 10 5 2 1 10 5 3 2 10 5 2
我将创建一个网站,除了它自己的内容之外,它还将链接(在 iframe 中)到世界最大的报纸网站,如纽约时报、金融时报和其他一些网站。 但是我遇到了框架许可的问题。例如,纽约时报向我展示了一个错误 Lo
假设我有一个 data.frame: df x x A 1 10 2 20 3 30 从文档中(参见 ?"[" )您可以找到: If drop=TRUE the result is coer
我有一个想要克隆的现有 data.frame,但没有其中的值。 IE。我希望新框架具有与现有框架相同的列名称和类型。原始帧的大小可能为 GB 量级,因此复制和删除数据似乎不是正确的方法,并且迭代现有列
给定两个在列名称/数据类型方面相同的数据帧,其中某些列唯一标识行,是否有一种有效的函数/方法可以让一个数据帧“更新”另一个数据帧? 例如,在下面的例子中,原始和替换由'Name'和'Id'标识>。 g
我是一名优秀的程序员,十分优秀!