- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在使用广泛的数据集运行glmnet套索时遇到问题。我的数据的N = 50,但所有因素均p> 49000。因此,要运行glmnet,我必须创建一个model.matrix,但是当我调用model.matrix(formula,data)时,内存就耗尽了,其中公式= Class〜。
作为一个工作示例,我将生成一个数据集:
data <- matrix(rep(0,50*49000), nrow=50)
for(i in 1:50) {
x = rep(letters[2:8], 7000)
y = sample(x=1:49000, size=49000)
data[i,] <- x[y]
}
data <- as.data.frame(data)
x = c(rep('A', 20), rep('B', 15), rep('C', 15))
y = sample(x=1:50, size=50)
class = x[y]
data <- cbind(data, class)
formula <- as.formula(class ~ .)
X = model.matrix(formula, data)
model <- cv.glmnet(X, class, standardize=FALSE, family='multinomial', alpha=1, nfolds=10)
最佳答案
我问特雷弗·哈斯提教授,并收到以下建议:
“你好弗拉维奥
model.matrix杀死了你。
您将有49K因子,并且模型矩阵正尝试将它们表示为对比度,这将是6列矩阵,因此49 * 6约300K列。
为什么不制作二进制伪变量(每个因子7个),而直接简单地构造它而不使用model.matrix。您可以通过存储来节省空间的1/7
通过sparseMatrix(glmnet接受稀疏矩阵格式)来实现”
我确实做到了,并且工作得很好。我认为这可能对其他人有用。
出现此问题的有代码的文章:http://www.rmining.net/2014/02/25/genetic-data-large-matrices-glmnet/
为了避免链接断开,我将在此处发布部分帖子:
公式方法的问题在于,通常来说,基因组数据的列要多于观察值。我在那种情况下处理的数据有40,000列,只有73个观测值。为了创建少量测试数据,请运行以下代码:
for(i in 1:50) {
x = rep(letters[2:8], 7000)
y = sample(x=1:49000, size=49000)
data[i,] <- x[y]
}
data <- as.data.frame(data)
x <- c(rep('A', 20), rep('B', 15), rep('C', 15))
y <- sample(x=1:50, size=50)
class = x[y]
data <- cbind(data, class)
formula <- as.formula(class ~ .)
X <- model.matrix(formula, data)
model <- cv.glmnet(X, class, standardize=FALSE, family='multinomial', alpha=1, nfolds=10)
## Creates a matrix using the first column
X <- sparse.model.matrix(~data[,1]-1)
## Check if the column have more then one level
for (i in 2:ncol(data)) {
## In the case of more then one level apply dummy coding
if (nlevels(data[,i])>1) {
coluna <- sparse.model.matrix(~data[,i]-1)
X <- cBind(X, coluna)
}
## Transform fator to numeric
else {
coluna <- as.numeric(as.factor(data[,i]))
X <- cBind(X, coluna)
}
mod.lasso <- cv.glmnet(X, class, standardize=FALSE, family='multinomial', alpha=1, nfolds=10)
关于r - 大矩阵运行glmnet(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17032264/
即使我使用相同的 lambda,cv.glmnet() 生成的系数似乎与 glmnet() 生成的系数不同。为什么是这样?它们不应该相同吗? library(glmnet) # Data dimens
有人知道 cv.glmnet (在 R 的 glmnet 中)或 LassoCV (scikit-learn)如何选择在交叉验证中使用的正则化常量(lambda)序列吗?非常感谢! 最佳答案 根据 F
当通过 glmnet 包估计套索模型时,我想知道是否更好:(a)直接从从 cv.glmnet 采购的 cv.fit 对象拉系数/预测/偏差,或 (b) 使用来自 cv.glmnet 的最小 lambd
我正在开展一个项目,该项目将显示一组事件对结果的潜在影响。我正在使用 glmnet() 包,特别是使用泊松功能。这是我的代码: # de <- data imported from sql conne
我运行了 20 倍 cv.glmnet 套索模型以获得 lambda 的“最佳”值。但是,当我尝试重现 glmnet() 的结果时,我收到一条错误消息: Warning messages: 1: fr
正如我们所见,caret::train(..., method = "glmnet") 与交叉验证或 cv.glmnet() 实现都可以找到最小化交叉验证错误的 lambda.min。最终的最佳拟合模
我在 R 中使用 glmnet 运行以下(截断的)代码 # do a lot of things to create the design matrix called x.design > glmne
我有一个函数可以返回 cv.glmnet 模型的 auc 值,虽然不是大多数时候,但它经常在执行 cv.glmnet 函数时返回以下错误: 丢弃错误(y %% rep(1, nc)): 在为函数“dr
在我的训练数据集上使用最小二乘法拟合线性回归模型效果很好。 library(Matrix) library(tm) library(glmnet) library(e1071) library(Spa
在 glmnet 包中使用“mse”和“class”有什么区别? log_x <- model.matrix(response~.,train) log_y <- ifelse(train$respo
我读过 glmnet 可以在没有正则化的情况下使用,即它可以用作常规 glm。我正在写一篇论文并试图避免使用许多不同的包,因此使用 glmnet 进行常规的 glm 逻辑回归拟合会很方便。谁能帮我?
我有一个非常大的矩阵,所以我使用 glmnet 进行回归。 我有一个条件,带有 p 的名称必须具有正系数,带有 n 的名称必须具有负系数。 我怎样才能在 glmnet 中强制这种情况? 下面是一个小例
我有一个有效的 glm 模型。因为我想添加(脊)正则化我想我会切换到 glmnet。出于某种原因,我无法让 glmnet 工作。它似乎总是预测第一类,而不是第二类,这导致精度低且 kappa = 0。
我正在使用glmnet软件包执行LASSO回归。有没有办法让所选的各个变量变得重要?我考虑过对通过coef(...)命令获得的系数进行排名(即距零的距离越大,变量将越重要)。那是一个有效的方法吗? 谢
我尝试使用 glmnet 进行预测,并收到一条非常神秘的错误消息。我之前在使用glmnet时没有遇到过这种情况,并且通过谷歌搜索该错误并没有取得成果。当最后一行未注释时会发生错误。 library(I
我一直在研究一个数据集并使用 glmnet用于线性 LASSO/Ridge 回归。 为了简单起见,我们假设我使用的模型如下: cv.glmnet(train.features, train.respo
在我的数据集中,我有许多连续变量和虚拟变量。对于使用 glmnet 进行分析,我希望对连续变量进行标准化,而不是虚拟变量。 我目前手动执行此操作,方法是首先定义仅具有 [0,1] 值的列的虚拟向量,然
我拟合多项逻辑回归模型,我想获得混淆矩阵以获得准确度 library("glmnet") x=data.matrix(train[-1]) y= data.matrix(train[1]) x_tes
我正在学习使用glmnet和 brnn包。考虑以下代码: library(RODBC) library(brnn) library(glmnet) memory.limit(size = 4000)
我的理解是 glmnet 采用矩阵,其中每一列都是一个解释变量。 我有一个包含约 10 个解释变量的数据框(其中一些是因子) 我怎样才能使用诸如 y~(x1*x2*x3)+(x4*x5)+x6 之类的
我是一名优秀的程序员,十分优秀!