- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在机器学习环境中处理相当小的数据集的普通 8GB 服务器上内存不足:
> dim(basetrainf) # 这是一个数据框
[1] 58168 118
我采取的唯一显着增加内存消耗的预建模步骤是将数据帧转换为模型矩阵。这是因为 caret
, cor
等仅适用于(模型)矩阵。即使去除了多层次的因素,矩阵(下面的 mergem
)还是相当大的。 ( sparse.model.matrix
/Matrix
总体上支持很差,所以我不能使用它。)
> lsos()
类型大小 PrettySize Rows Columns
合并矩阵 879205616 838.5 Mb 115562 943
trainf 数据框 80613120 76.9 Mb 106944 119
内部训练矩阵 76642176 73.1 Mb 907 10387
合并数据帧 58264784 55.6 Mb 115562 75
dfbase 数据框架 48031936 45.8 Mb 54555 115
basetrainf 数据框架 40369328 38.5 Mb 58168 118
df2 数据框 34276128 32.7 Mb 54555 103
tf 数据框 33182272 31.6 Mb 54555 98
m.gbm 火车 20417696 19.5 Mb 16 NA
res.glmnet 列表 14263256 13.6 Mb 4 NA
此外,由于许多 R 模型不支持示例权重,我必须首先对少数类进行过采样,将数据集的大小加倍(为什么 trainf、mergef、mergem 的行数是 basetrainf 的两倍)。
R 此时使用 1.7GB 内存,使我的总内存使用量达到 7.7GB 中的 4.3GB。
我接下来要做的是:
> m = train(mergem[mergef$istrain,],mergef[mergef$istrain,response],method='rf')
Bam - 几秒钟后,Linux 内存不足杀手会杀死 rsession。
我可以对我的数据进行采样、欠采样而不是过采样等,但这些都不理想。除了重写插入符号和我打算使用的各种模型包之外,我还应该做什么(其他)?
FWIW,我从未在其他 ML 软件(Weka、Orange 等)上遇到过这个问题,即使没有删除我的任何因素,也许是因为所有模型中的示例权重和“数据框架”支持。
完整脚本如下:
图书馆(插入符号)
图书馆(矩阵)
图书馆(doMC)
注册DoMC(2)
响应 = '类'
repr = '虚拟'
do.impute = F
xmode = 函数(xs) 名称(which.max(table(xs)))
read.orng = 函数(路径){
# 读取标题
hdr = strsplit(readLines(path, n=1), '\t')
对 = sapply(hdr, function(field) strsplit(field, '#'))
名称 = sapply(pairs, function(pair) pair[2])
类 = sapply(对,函数(对)
if (grepl('C', pair[1])) '数字' else '因子')
# 读取数据
dfbase = read.table(path, header=T, sep='\t', quote='', col.names=names, na.strings='?', colClasses=classes, comment.char='')
# 切换响应,删除元列
df = dfbase[sapply(pairs, function(pair) !grepl('m', pair[1]) && pair[2] != 'class' || pair[2] == response)]
df
}
train.and.test = function(x, y, trains, method) {
m = train(x[trains,], y[trains,], method=method)
ps =extractPrediction(list(m), testX=x[!trains,], testY=y[!trains,])
perf = postResample(ps$pred, ps$obs)
列表(m=m,ps=ps,perf=perf)
}
# 从
sparse.cor = 函数(x){
内存限制(大小= 10000)
n 200 级')
badfactors = sapply(mergef, function(x)
is.factor(x) && (nlevels(x) 200))
mergef = mergef[, -which(badfactors)]
print('删除接近零的方差预测变量')
mergef = mergef[, -nearZeroVar(mergef)]
打印('创建模型矩阵,使一切都成为数字')
if (repr == 'dummy') {
傻瓜 = dummyVars(as.formula(paste(response, '~ .')), mergef)
合并=预测(傻瓜,新数据=合并)
} 别的 {
mat = if (repr == 'sparse') model.matrix else sparse.model.matrix
mergem = mat(as.formula(paste(response, '~ .')), data=mergef)
# 删除拦截列
合并=合并[,-1]
}
print('删除高相关预测变量')
merge.cor = (if (repr == 'sparse') sparse.cor else cor)(mergem)
合并 = 合并 [, -findCorrelation(merge.cor, cutoff=.75)]
print('尝试几种不同的方法')
do.method = 函数(方法){
train.and.test(mergem,mergef[response],mergef$istrain,method)
}
res.gbm = do.method('gbm')
res.glmnet = do.method('glmnet')
res.rf = do.method('parRF')
最佳答案
有了这么多数据,重采样误差估计和随机森林 OOB 误差估计应该非常接近。尝试使用 trainControl(method = "OOB")
和 train()
将不适合重新采样的数据集上的额外模型。
另外,避免像瘟疫一样的公式界面。
您也可以尝试装袋。由于在每次吐出时没有随机选择预测变量,因此您可以通过 50-100 次重新采样获得良好的结果(而不是随机森林需要更多才能有效)。
其他人可能不同意,但我也认为对您拥有的所有数据进行建模并不总是最好的方法。除非预测器空间很大,否则许多数据点将与其他数据点非常相似,并且对模型拟合的贡献不大(除了额外的计算复杂性和结果对象的足迹)。 caret
有一个名为 maxDissim
的函数这可能有助于细化数据(尽管它也不是非常有效)
关于R 内存管理建议(插入符号、模型矩阵、数据框),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6449588/
可不可以命名为MVVM模型?因为View通过查看模型数据。 View 是否应该只与 ViewModelData 交互?我确实在某处读到正确的 MVVM 模型应该在 ViewModel 而不是 Mode
我正在阅读有关设计模式的文章,虽然作者们都认为观察者模式很酷,但在设计方面,每个人都在谈论 MVC。 我有点困惑,MVC 图不是循环的,代码流具有闭合拓扑不是很自然吗?为什么没有人谈论这种模式: mo
我正在开发一个 Sticky Notes 项目并在 WPF 中做 UI,显然将 MVVM 作为我的架构设计选择。我正在重新考虑我的模型、 View 和 View 模型应该是什么。 我有一个名为 Not
不要混淆:How can I convert List to Hashtable in C#? 我有一个模型列表,我想将它们组织成一个哈希表,以枚举作为键,模型列表(具有枚举的值)作为值。 publi
我只是花了一些时间阅读这些术语(我不经常使用它们,因为我们没有任何 MVC 应用程序,我通常只说“模型”),但我觉得根据上下文,这些意味着不同的东西: 实体 这很简单,它是数据库中的一行: 2) In
我想知道你们中是否有人知道一些很好的教程来解释大型应用程序的 MVVM。我发现关于 MVVM 的每个教程都只是基础知识解释(如何实现模型、 View 模型和 View ),但我对在应用程序页面之间传递
我想realm.delete() 我的 Realm 中除了一个模型之外的所有模型。有什么办法可以不列出所有这些吗? 也许是一种遍历 Realm 中当前存在的所有类型的方法? 最佳答案 您可以从您的 R
我正在尝试使用 alias 指令模拟一个 Eloquent 模型,如下所示: $transporter = \Mockery::mock('alias:' . Transporter::class)
我正在使用 stargazer 创建我的 plm 汇总表。 library(plm) library(pglm) data("Unions", package = "pglm") anb1 <- pl
我读了几篇与 ASP.NET 分层架构相关的文章和问题,但是读得太多后我有点困惑。 UI 层是在 ASP.NET MVC 中开发的,对于数据访问,我在项目中使用 EF。 我想通过一个例子来描述我的问题
我收到此消息错误: Inceptionv3.mlmodel: unable to read document 我下载了最新版本的 xcode。 9.4 版测试版 (9Q1004a) 最佳答案 您没有
(同样,一个 MVC 验证问题。我知道,我知道......) 我想使用 AutoMapper ( http://automapper.codeplex.com/ ) 来验证我的创建 View 中不在我
需要澄清一件事,现在我正在处理一个流程,其中我有两个 View 模型,一个依赖于另一个 View 模型,为了处理这件事,我尝试在我的基本 Activity 中注入(inject)两个 View 模型,
如果 WPF MVVM 应该没有代码,为什么在使用 ICommand 时,是否需要在 Window.xaml.cs 代码中实例化 DataContext 属性?我已经并排观看并关注了 YouTube
当我第一次听说 ASP.NET MVC 时,我认为这意味着应用程序由三个部分组成:模型、 View 和 Controller 。 然后我读到 NerdDinner并学习了存储库和 View 模型的方法
Platform : ubuntu 16.04 Python version: 3.5.2 mmdnn version : 0.2.5 Source framework with version :
我正在学习本教程:https://www.raywenderlich.com/160728/object-oriented-programming-swift ...并尝试对代码进行一些个人调整,看看
我正试图围绕 AngularJS。我很喜欢它,但一个核心概念似乎在逃避我——模型在哪里? 例如,如果我有一个显示多个交易列表的应用程序。一个列表向服务器查询匹配某些条件的分页事务集,另一个列表使用不同
我在为某个应用程序找出最佳方法时遇到了麻烦。我不太习惯取代旧 TLA(三层架构)的新架构,所以这就是我的来源。 在为我的应用程序(POCO 类,对吧??)设计模型和 DAL 时,我有以下疑问: 我的模
我有两个模型:Person 和 Department。每个人可以在一个部门工作。部门可以由多人管理。我不确定如何在 Django 模型中构建这种关系。 这是我不成功的尝试之一 [models.py]:
我是一名优秀的程序员,十分优秀!