r - enet() 有效，但通过 caret::train() 运行时无效-6ren

r - enet() 有效，但通过 caret::train() 运行时无效

转载作者：行者123 更新时间：2023-11-30 08:25:57

24

4

我正在尝试运行弹性网。从 LASSO 开始，然后从那里开始。我可以让它直接运行，但当我尝试使用 caret 包中的 train 运行相同的参数时，它会失败。我想让 train 正常工作，以便我可以用它来评估模型参数。

# Works
test <- enet( x=x, y=y, lambda=0, trace=TRUE, normalize=FALSE, intercept=FALSE )
# Doesn't
enetGrid <- data.frame(.lambda=0,.fraction=c(.01,.001,.0005,.0001))
ctrl <- trainControl( method="repeatedcv", repeats=5 )
> test2 <- train( x, y, method="enet", tuneGrid=enetGrid, trControl=ctrl, preProc=NULL )
  fraction lambda RMSE Rsquared RMSESD RsquaredSD
1    1e-04      0  NaN      NaN     NA         NA
2    5e-04      0  NaN      NaN     NA         NA
3    1e-03      0  NaN      NaN     NA         NA
4    1e-02      0  NaN      NaN     NA         NA
Error in train.default(x, y, method = "enet", tuneGrid = enetGrid, trControl = ctrl,  : 
  final tuning parameters could not be determined
In addition: There were 50 or more warnings (use warnings() to see the first 50)
> warnings()
...
50: In eval(expr, envir, enclos) :
  model fit failed for Fold10.Rep5: lambda=0, fraction=0.01 Error in enet(as.matrix(trainX), trainY, lambda = lmbda) : 
  Some of the columns of x have zero variance

请注意，上述示例中的任何共线性都只是对可重现示例进行子集化的结果(1,000 行与真实数据集中的 208,000 行)。

我已经通过各种方式检查了完整的数据集，包括 findLinearCombos。请注意，数百个变量是从临床诊断中虚拟出来的，因此是二元变量，其中 1 的比例较低。

如何使用与 enet()` 完全相同的设置来运行 train(...,method="enet")？



再现性、 session 信息等数据


示例数据x和y为available here .


sessionInfo()的结果:


 R version 3.0.1 (2013-05-16)
Platform: x86_64-pc-linux-gnu (64-bit)

locale:
 [1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C         LC_TIME=C            LC_COLLATE=C         LC_MONETARY=C        LC_MESSAGES=C        LC_PAPER=C          
 [8] LC_NAME=C            LC_ADDRESS=C         LC_TELEPHONE=C       LC_MEASUREMENT=C     LC_IDENTIFICATION=C 

attached base packages:
 [1] parallel  splines   grid      stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] scales_0.2.3        elasticnet_1.1      fscaret_0.8.5.3     gsubfn_0.6-5        proto_0.3-10        lars_1.2            caret_5.17-7       
 [8] foreach_1.4.1       cluster_1.14.4      lubridate_1.3.0     HH_2.3-37           reshape_0.8.4       latticeExtra_0.6-24 leaps_2.9          
[15] multcomp_1.2-18     perturb_2.05        Zelig_4.2-0         sandwich_2.2-10     zoo_1.7-10          survey_3.29-5       Hmisc_3.12-2       
[22] survival_2.37-4     lme4_0.999999-2     bayesm_2.2-5        stargazer_4.0       pscl_1.04.4         vcd_1.2-13          colorspace_1.2-2   
[29] mvtnorm_0.9-9995    car_2.0-18          nnet_7.3-7          gdata_2.13.2        gtools_3.0.0        spBayes_0.3-7       Formula_1.1-1      
[36] magic_1.5-4         abind_1.4-0         MapGAM_0.6-2        gam_1.08            fields_6.7.6        maps_2.3-2          spam_0.29-3        
[43] FNN_1.0             spatstat_1.31-3     mgcv_1.7-24         rgeos_0.2-19        RArcInfo_0.4-12     automap_1.0-12      gstat_1.0-16       
[50] SDMTools_1.1-13     rgdal_0.8-10        spdep_0.5-60        coda_0.16-1         deldir_0.0-22       maptools_0.8-25     nlme_3.1-110       
[57] MASS_7.3-27         Matrix_1.0-12       lattice_0.20-15     boot_1.3-9          data.table_1.8.8    xtable_1.7-1        RCurl_1.95-4.1     
[64] bitops_1.0-5        RColorBrewer_1.0-5  testthat_0.7.1      codetools_0.2-8     devtools_1.3        stringr_0.6.2       foreign_0.8-54     
[71] ggplot2_0.9.3.1     sp_1.0-11           taRifx_1.0.5        reshape2_1.2.2      plyr_1.8            functional_0.4      R.utils_1.25.2     
[78] R.oo_1.13.9         R.methodsS3_1.4.4  

loaded via a namespace (and not attached):
 [1] LearnBayes_2.12  compiler_3.0.1   dichromat_2.0-0  digest_0.6.3     evaluate_0.4.4   gtable_0.1.2     httr_0.2         intervals_0.14.0 iterators_1.0.6 
[10] labeling_0.2     memoise_0.1      munsell_0.4.2    rpart_4.1-1      spacetime_1.0-5  stats4_3.0.1     tcltk_3.0.1      tools_3.0.1      whisker_0.3-2   
[19] xts_0.9-5       
更新
在数据集的 15% 样本上运行:
 Warning in eval(expr, envir, enclos) :
  model fit failed for Fold10.Rep1: lambda=0, fraction=0.005
... (more of the same warning messages) ...
Warning in nominalTrainWorkflow(dat = trainData, info = trainInfo, method = met\
hod,  :
  There were missing values in resampled performance measures.
Error in if (lambda > 0) { : argument is of length zero
Calls: train ... train.default -> system.time -> createModel -> enet
X 矩阵有 806 列，其中 801 列为虚拟列。其中许多虚拟变量都极其稀疏(大约 25k 行中有 1-3 个观察值)，其他变量的值为 TRUE 的 0.1-5%。总共有 108867 个 TRUE 和 21mm FALSE。

 
  
   最佳答案  
  
  
  
  只是为了解决这个问题，我现在已经可以使用了。我删除了所有少于 20 个 TRUE 的列(请记住，这是从近 200k 观察中得出的)，因为没有足够的信息可供贡献。这大约是其中的一半。
  当我前进时，我必须小心这些稀疏列不会产生太多偏差等，但我希望通过使用一种进行变量选择的方法(套索、RF 等)问题就会减少。
  感谢@O_Devinyak 的帮助。
   
  
  
  关于r - enet() 有效，但通过 caret::train() 运行时无效，我们在Stack Overflow上找到一个类似的问题：  https://stackoverflow.com/questions/19122617/

24

4

0

文章推荐： java - 在 pom.xml 中自动增加版本号并在应用程序中显示

文章推荐： java - 将 AWS S3 配置为图像服务器

文章推荐： r - 如何加速 R 中的主题模型？

文章推荐： machine-learning - TDD 在机器学习中的好处

python - 什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 将数据存储在 tf.train.Feature 中？
TensorFlow 提供了 3 种不同的数据存储格式 tf.train.Feature .它们是: tf.train.BytesList tf.train.FloatList tf.train.In
trains - 使用 Trains 跟踪单独的训练/测试过程
在我的设置中，我运行了一个脚本火车一个模型并开始生成检查点。另一个脚本监视新的检查点和评估他们。脚本并行运行，因此评估只是训练之后的一步。支持这种情况的正确 Tracks 配置是什么？最佳答
trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用？
什么是合理的设置？我可以在同一次执行中多次调用 Task.init() 吗？最佳答案免责声明:我是 allegro.ai Trains 团队的一员一种解决方案是从 trains.automati
trains - ClearML(以前称为 Trains)可以在本地服务器上工作吗？
我想开始我的方式 ClearML (以前称为火车)。我在documentation上看到的我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。我真的很想绕过这个限制并在我的
machine-learning - WEKA的多层感知器: training then training again
我正在尝试使用 weka 的 MultilayerPerceptron 执行以下操作: 使用一小部分训练实例来训练一部分历元输入，在剩余的周期中使用整组实例进行训练。但是，当我在代码中执行以下操作
c++ - 对象检测 : Training Requried or No Training Required?
这个问题与对象检测有关，基本上是检测任何“已知”对象。例如，假设我有以下对象。表格瓶子。相机汽车我将从所有这些单独的对象中拍摄 4 张照片。左边一个，右边一个，上下两个。我本来以为用这4张照
"RuntimeError: You must train on the training inputs! " When I'm trying to use mini batch in training Guassian Process Regression Model(“RuntimeError：你必须在训练输入上训练！which is the most important part of the Process Regression Model.“)
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码，并且运行良好：。但我注意到，每个纪元都输入了相同的数据，我认为这可能会导致过度拟合，所以我想使用Mini Bat
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
(一)、tf.train.Saver() (1). tf.train.Saver() 是用来保存tensorflow训练模型的，默认保存全部参数 (2). 用来加载参数，注：只加载存储在data
python - Pytorch model.train() 和教程中编写的单独的 train() 函数
我是 PyTorch 的新手，我想知道您是否可以向我解释 PyTorch 中的默认 model.train() 与此处的 train() 函数之间的一些关键区别。另一个 train() 函数位于关于
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以在maskrcnn的预训练模型的基础上训练吗？如果预训练模型的类别与我自己的数据集不同，预训练模型仍然有效吗？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以按照Maskrcnn预先训练的模式进行训练吗？如果预先训练的模型的类别与我自己的数据集的类别不同，那么预先训练的模型是否仍然有效？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
tensorflow - tf.train.MonitoredTrainingSession 和 tf.train.Supervisor 有什么区别
我想知道这两个 tensorflow 对象在用于训练神经网络时有什么区别？最佳答案 Supervisor 即将被弃用，鼓励新用户使用 tf.train.FooSession 类 (来自 commen
python - tf.train.ExponentialMovingAverage 和 tf.train.MomentumOptimizer 有什么区别？
我已经看到文档 tf.train.ExponentialMovingAverage 实现了这个公式: shadow_variable = decay * shadow_variable + (1 -
python - tf.train.Checkpoint 和 tf.train.Saver 之间的区别
我发现在 Tensorflow 中有不同的方法来保存/恢复模型和变量。这些方式包括: tf.saved_model.simple_save tf.train.Checkpoint tf.train.S
python - tf.train.shuffle_batch_join 和 tf.train.shuffle_batch 之间的区别
查看两个带有参数的函数签名 tf.train.shuffle_batch_join( tensors_list, batch_size, capacity, min_after_dequeue, se
python - tf.train.shuffle_batch 和 `tf.train.batch 发生了什么？
我使用 Binary data训练 DNN。但是 tf.train.shuffle_batch 和 tf.train.batch 让我很困惑。这是我的代码，我将对其进行一些测试。首先Using_
machine-learning - SageMaker Estimator.fit() 未将 'train' 输入传递给 Training 实例
正如文档/教程中提到的，我们可以调用 Estimator.fit()开始训练工作。该方法所需的参数为 inputs这是对训练文件的 s3/file 引用。示例: estimator.fit({'tr
python - key 错误 : "Invalid split train[:80%]. Available splits are: [' train']"
这个问题在这里已经有了答案: Split train data to train and validation by using tensorflow_datasets.load (TF 2.1) (
multithreading - tf.train.Coordinator 类和 tf.train.QueueRunner 类在 tensorflow 中做什么？
我知道这两个类都处理线程。根据文档，tf.train.Coordinator 协调一组线程的终止，而 tf.train.QueueRunner 保存队列的入队操作列表，每个操作都在一个线程中运行。但
tensorflow - 对于可变长度特征，使用 tf.train.SequenceExample 相对于 tf.train.Example 有何优点？
最近我读了this TensorFlow 中未记录特征的指南，因为我需要传递可变长度序列作为输入。但是，我发现 tf.train.SequenceExample 的协议(protocol)相对困惑(特

首页

博学

6Ren·AI

商城

r - enet() 有效，但通过 caret::train() 运行时无效