gpt4 book ai didi

amazon-ec2 - 机器学习任务: what tool to use?

转载 作者:行者123 更新时间:2023-11-30 08:26:46 24 4
gpt4 key购买 nike

我目前正在尝试一项机器学习任务,其中涉及分类模型的监督训练。迄今为止,我已经拥有约 500 万个训练示例和约 500 万个用于交叉验证的示例。目前,每个示例都有 46 个特征,但我可能希望在不久的将来生成更多 10 个特征,因此任何解决方案都应该留有一些改进的空间。

我的问题如下:我该使用什么工具来解决这个问题?我想使用随机森林或 SVM,但我担心后者在我的情况下可能太慢。我曾考虑过 Mahout,但拒绝了,因为它似乎需要一定量的配置,再加上困惑的命令行脚本。我宁愿直接针对一些(有详细记录的!)库进行编码,或者使用 GUI 定义我的模型。

我还应该指出,我正在寻找可以在 Windows 上运行的东西(没有 cygwin 之类的东西),并且非常感谢与 .NET 兼容的解决方案。

您可以想象,当时机到来时,代码将在 Cluster Compute Eight Extra Large Instance 上运行 Amazon EC2 ,所以任何广泛使用 RAM 和多核 CPU 的东西都是受欢迎的。

最后但并非最不重要的一点是,我将指定我的数据集是密集的(因为没有缺失值/所有列的每个向量都有一个值)

最佳答案

我经常在 EC2 上的 R 中运行类似的行/特征计数数据集(您所指的 16 核/60 Gb 实例类型特别有用,如果您使用的方法可以多 CPU 的优势,例如包 caret。)正如您所提到的,并非所有学习方法(例如 SVM)都能在此类数据集上表现良好。

在切换到在完整数据集上运行之前,您可能需要考虑使用 10% 左右的样本进行快速原型(prototype)设计/性能基准测试。

如果您想要极高的性能,那么 Vowpal Wabbit 更适合(但它只支持广义线性学习器,因此没有 gbmRandom Forest。)此外,VW 是不太适合 Windows。

关于amazon-ec2 - 机器学习任务: what tool to use?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8624043/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com