gpt4 book ai didi

machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)

转载 作者:行者123 更新时间:2023-11-30 09:55:04 28 4
gpt4 key购买 nike

每当我开始拥有更多的类(1000 或更多)时,MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perceptron)的 scikit learn 分类算法也是如此。使用卷积神经网络时,10000 个类别没有问题。但是当我想在相同的数据上训练 MultinominalNB 时,我的 12GB RAM 不够用,而且速度非常慢。根据我对朴素贝叶斯的理解,即使有很多类,它也应该快很多。这可能是 scikit-learn 实现的问题(可能是 .partial_fit() 函数的问题)?如何在 10000 多个类上训练 MultinominalNB/SGDClassifier/Perceptron(批量)?

最佳答案

简短回答,没有太多信息:

  • MultinomialNB 将独立模型拟合到每个类,因此,如果您有 C=10000+它适合的类(class) C=10000+模型,因此,只有模型参数将为 [n_classes x n_features] ,如果 n_features 则内存相当大很大。

  • scikits-learn 的 SGDClassifier 使用 OVA(一对一)策略来训练多类模型(因为 SGDC 本质上不是多类),因此,另一个 C=10000+模型需要经过训练。

  • Perceptron,来自 scikits-learn 的文档:

Perceptron and SGDClassifier share the same underlying implementation. In fact, Perceptron() is equivalent to SGDClassifier(loss=”perceptron”, eta0=1, learning_rate=”constant”, penalty=None).

因此,您提到的所有 3 个分类器都不能很好地处理大量类别,因为需要为每个类别训练一个独立的模型。我建议您尝试一些本质上支持多类分类的方法,例如 RandomForestClassifier .

关于machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34659367/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com