gpt4 book ai didi

python - Scikit-learn 分类 : binomial log regression?

转载 作者:行者123 更新时间:2023-11-28 17:40:17 25 4
gpt4 key购买 nike

我有从 -100 到 +100 连续评分的文本。我试图将它们归类为正面或负面。

如何执行二项式对数回归以获得测试数据为 -100 或 +100 的概率?

我得到的最接近的是 SGDClassifier( penalty='l2',alpha=1e-05, n_iter=10),但这并没有提供与 SPSS 相同的结果当我使用二项式对数回归来预测 -100 和 +100 的概率时。所以我猜这不是正确的功能?

最佳答案

SGDClassifier 提供对几个线性分类器的访问,所有这些分类器都经过随机梯度下降训练。它将默认为线性支持向量机,除非您使用不同的损失函数调用它。 loss='log' 将提供概率逻辑回归。

请参阅文档: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

或者,您可以使用 sklearn.linear_model.LogisticRegression 通过逻辑回归对文本进行分类。

由于实现方式的差异,我不清楚您是否会获得与使用 SPSS 时完全相同的结果。但是,我不希望看到统计上的显着差异。

编辑添加:

我怀疑您使用 SPSS 逻辑回归获得的 99% 准确度是训练集准确度,而您使用 scikits-learn 逻辑回归看到的 87% 是测试集准确度。我在 datascience stack exchange 上发现了这个问题,其中一个不同的人正在尝试解决极其相似的问题,并且在训练集上获得了 ~99% 的准确率,在测试集上获得了 90% 的准确率。

https://datascience.stackexchange.com/questions/987/text-categorization-combining-different-kind-of-features

我推荐的前进路径如下:在 scikits-learn 中尝试几种不同的基本分类器,包括标准逻辑回归和线性 SVM,并使用数据的不同训练/测试子集重新运行 SPSS 逻辑回归数次,比较结果。如果您继续看到无法通过确保类似的训练/测试数据拆分来解决分类器之间的巨大差异,请将您看到的结果发布到您的问题中,我们可以从那里继续前进。

祝你好运!

关于python - Scikit-learn 分类 : binomial log regression?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25334334/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com