gpt4 book ai didi

scikit-learn SVM 有很多样本/小批量可能吗?

转载 作者:行者123 更新时间:2023-12-04 18:12:53 25 4
gpt4 key购买 nike

根据 http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html我读:

“拟合时间复杂度与样本数量的二次方相比,这使得很难扩展到具有超过 10000 个样本的数据集。”

我目前有 350,000 个样本和 4,500 个类,这个数字将进一步增长到 1-2 百万个样本和 10k + 个类。

我的问题是我的内存不足。当我只使用少于 1000 个类的 200,000 个样本时,一切正常。

有没有办法在 SVM 中内置或使用类似 minibatches 的东西?我看到存在 MiniBatchKMeans 但我不认为它适用于 SVM?

欢迎任何输入!

最佳答案

我在 answer 中提到了这个问题至 this题。

您可以将大型数据集拆分为 SVM 算法可以安全使用的批次,然后分别找到每个批次的支持向量,然后在包含所有批次中找到的所有支持向量的数据集上构建生成的 SVM 模型。

此外,如果在您的情况下不需要使用内核,那么您可以使用 sklearn 的 SGDClassifier ,它实现了随机梯度下降。默认情况下它适合线性 SVM。

关于scikit-learn SVM 有很多样本/小批量可能吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40737750/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com