r - 套索 : Cross-validation for glmnet-6ren

r - 套索 : Cross-validation for glmnet

转载作者：行者123 更新时间：2023-11-30 09:29:32

28

4

我使用cv.glmnet()来执行交叉验证，默认情况下10倍

library(Matrix)
library(tm)
library(glmnet)
library(e1071)
library(SparseM)
library(ggplot2)

trainingData <- read.csv("train.csv", stringsAsFactors=FALSE,sep=",", header = FALSE)
testingData  <- read.csv("test.csv",sep=",", stringsAsFactors=FALSE, header = FALSE)

x = model.matrix(as.factor(V42)~.-1, data = trainingData)
crossVal <- cv.glmnet(x=x, y=trainingData$V42, family="multinomial", alpha=1)
plot(crossVal)

我收到以下错误消息

Error in lognet(x, is.sparse, ix, jx, y, weights, offset, alpha, nobs,  : 
  one multinomial or binomial class has 1 or 0 observations; not allowed

但如下所示，我似乎没有计数为 0 或 1 的观察级别。

>table(trainingData$V42)

       back buffer_overflow       ftp_write    guess_passwd            imap         ipsweep            land      loadmodule        multihop 
        956              30               8              53              11            3599              18               9               7 
    neptune            nmap          normal            perl             phf             pod       portsweep         rootkit           satan 
      41214            1493           67343               3               4             201            2931              10            3633 
      smurf             spy        teardrop     warezclient     warezmaster 
       2646               2             892             890              20

有什么指点吗？

最佳答案

cv.glmnet默认情况下，进行 N 倍交叉验证，N=10。这意味着它将您的数据分为 10 个子集，然后在 10 个子集中的 9 个子集上训练模型，并在剩余 1 个子集上进行测试。它会重复此操作，依次忽略每个子集。

您的数据足够稀疏，有时训练子集会遇到此处(以及 your previous question )中遇到的问题。最好的解决方案是通过组合较稀有的类别来减少响应中的类别数量(例如，您真的需要获得 spy 或 perl 的预测概率)。

此外，如果您正在进行 glmnet 交叉验证并构建模型矩阵，您可以使用 glmnetUtils package我写信是为了简化流程。

关于r - 套索 : Cross-validation for glmnet，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36009672/

28

4

0

文章推荐： MATLAB LIBSVM 安装

文章推荐： javascript - 如何从 HTML 中显示的 json 对象中删除逗号？

文章推荐： javascript - 根据兄弟 div 可用性调整 div 的宽度

r - glmnet:相同的 lambda 但 glmnet() 和 cv.glmnet() 的系数不同
即使我使用相同的 lambda，cv.glmnet() 生成的系数似乎与 glmnet() 生成的系数不同。为什么是这样？它们不应该相同吗？ library(glmnet) # Data dimens
glmnet - glmnet 中用于交叉验证的默认 lambda 序列
有人知道 cv.glmnet (在 R 的 glmnet 中)或 LassoCV (scikit-learn)如何选择在交叉验证中使用的正则化常量(lambda)序列吗？非常感谢! 最佳答案根据 F
r - cv.glmnet 与 glmnet 结果；衡量解释力
当通过 glmnet 包估计套索模型时，我想知道是否更好:(a)直接从从 cv.glmnet 采购的 cv.fit 对象拉系数/预测/偏差，或 (b) 使用来自 cv.glmnet 的最小 lambd
r - R 中 glmnet() 和 cv.glmnet() 之间的区别？
我正在开展一个项目，该项目将显示一组事件对结果的潜在影响。我正在使用 glmnet() 包，特别是使用泊松功能。这是我的代码: # de <- data imported from sql conne
r - glmnet 未从 cv.glmnet 收敛 lambda.min
我运行了 20 倍 cv.glmnet 套索模型以获得 lambda 的“最佳”值。但是，当我尝试重现 glmnet() 的结果时，我收到一条错误消息: Warning messages: 1: fr
r - 为什么需要使用 caret::train(..., method = "glmnet") 和 cv.glmnet() 调整 lambda？
正如我们所见，caret::train(..., method = "glmnet") 与交叉验证或 cv.glmnet() 实现都可以找到最小化交叉验证错误的 lambda.min。最终的最佳拟合模
r - glmnet 错误 (nulldev == 0) 停止 ("y is constant; gaussian glmnet fails at standardization step")
我在 R 中使用 glmnet 运行以下(截断的)代码 # do a lot of things to create the design matrix called x.design > glmne
r - glmnet R 包中 cv.glmnet 的 "Error in drop(y %*% rep(1, nc))"错误
我有一个函数可以返回 cv.glmnet 模型的 auc 值，虽然不是大多数时候，但它经常在执行 cv.glmnet 函数时返回以下错误: 丢弃错误(y %% rep(1, nc)): 在为函数“dr
岭回归模型 : glmnet
在我的训练数据集上使用最小二乘法拟合线性回归模型效果很好。 library(Matrix) library(tm) library(glmnet) library(e1071) library(Spa
r - glmnet 包中的类型测量差异？
在 glmnet 包中使用“mse”和“class”有什么区别？ log_x <- model.matrix(response~.,train) log_y <- ifelse(train$respo
glm - 如何在没有正则化的情况下使用 glmnet
我读过 glmnet 可以在没有正则化的情况下使用，即它可以用作常规 glm。我正在写一篇论文并试图避免使用许多不同的包，因此使用 glmnet 进行常规的 glm 逻辑回归拟合会很方便。谁能帮我？
R:glmnet:强制系数为某个符号
我有一个非常大的矩阵，所以我使用 glmnet 进行回归。我有一个条件，带有 p 的名称必须具有正系数，带有 n 的名称必须具有负系数。我怎样才能在 glmnet 中强制这种情况？下面是一个小例
r - glmnet 拒绝预测
我有一个有效的 glm 模型。因为我想添加(脊)正则化我想我会切换到 glmnet。出于某种原因，我无法让 glmnet 工作。它似乎总是预测第一类，而不是第二类，这导致精度低且 kappa = 0。
r - glmnet-可变的重要性？
我正在使用glmnet软件包执行LASSO回归。有没有办法让所选的各个变量变得重要？我考虑过对通过coef(...)命令获得的系数进行排名(即距零的距离越大，变量将越重要)。那是一个有效的方法吗？谢
r - glmnet 预测方法抛出神秘错误
我尝试使用 glmnet 进行预测，并收到一条非常神秘的错误消息。我之前在使用glmnet时没有遇到过这种情况，并且通过谷歌搜索该错误并没有取得成果。当最后一行未注释时会发生错误。 library(I
r - glmnet 中的汇总统计数据
我一直在研究一个数据集并使用 glmnet用于线性 LASSO/Ridge 回归。为了简单起见，我们假设我使用的模型如下: cv.glmnet(train.features, train.respo
r - glmnet 的标准化参数如何处理虚拟变量？
在我的数据集中，我有许多连续变量和虚拟变量。对于使用 glmnet 进行分析，我希望对连续变量进行标准化，而不是虚拟变量。我目前手动执行此操作，方法是首先定义仅具有 [0,1] 值的列的虚拟向量，然
r - 如何获得 glmnet 多项逻辑回归的混淆矩阵？
我拟合多项逻辑回归模型，我想获得混淆矩阵以获得准确度 library("glmnet") x=data.matrix(train[-1]) y= data.matrix(train[1]) x_tes
r - 如何在 glmnet 和交叉验证中自动选择变量
我正在学习使用glmnet和 brnn包。考虑以下代码: library(RODBC) library(brnn) library(glmnet) memory.limit(size = 4000)
r - 估计 glmnet 中的许多交互项
我的理解是 glmnet 采用矩阵，其中每一列都是一个解释变量。我有一个包含约 10 个解释变量的数据框(其中一些是因子) 我怎样才能使用诸如 y~(x1*x2*x3)+(x4*x5)+x6 之类的

首页

博学

6Ren·AI

商城

r - 套索 : Cross-validation for glmnet