- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
每当我开始拥有更多的类(1000 或更多)时,MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perceptron)的 scikit learn 分类算法也是如此。使用卷积神经网络时,10000 个类别没有问题。但是当我想在相同的数据上训练 MultinominalNB 时,我的 12GB RAM 不够用,而且速度非常慢。根据我对朴素贝叶斯的理解,即使有很多类,它也应该快很多。这可能是 scikit-learn 实现的问题(可能是 .partial_fit() 函数的问题)?如何在 10000 多个类上训练 MultinominalNB/SGDClassifier/Perceptron(批量)?
最佳答案
简短回答,没有太多信息:
MultinomialNB 将独立模型拟合到每个类,因此,如果您有 C=10000+
它适合的类(class) C=10000+
模型,因此,只有模型参数将为 [n_classes x n_features]
,如果 n_features
则内存相当大很大。
scikits-learn 的 SGDClassifier 使用 OVA(一对一)策略来训练多类模型(因为 SGDC 本质上不是多类),因此,另一个 C=10000+
模型需要经过训练。
Perceptron,来自 scikits-learn 的文档:
Perceptron and SGDClassifier share the same underlying implementation. In fact, Perceptron() is equivalent to SGDClassifier(loss=”perceptron”, eta0=1, learning_rate=”constant”, penalty=None).
因此,您提到的所有 3 个分类器都不能很好地处理大量类别,因为需要为每个类别训练一个独立的模型。我建议您尝试一些本质上支持多类分类的方法,例如 RandomForestClassifier .
关于machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34659367/
我是一名优秀的程序员,十分优秀!