python - 总是百分百的概率 : predict

python - 总是百分百的概率 : predict_proba, sklearn

转载作者：太空宇宙更新时间：2023-11-04 03:01:32

28

4

我正在使用 Python 的 sklearn 对文本进行分类。

我调用函数 predict_proba，它看起来像这样:

[[  6.74918834e-53   1.59981248e-51   2.74934762e-26   1.24948745e-43
    2.93801753e-48   3.43788315e-18   1.00000000e+00   2.96818867e-20]]

即使我尝试输入歧义数据，它看起来也总是这样。在我看来，分类器总是百分百确定的可能性不大，那有什么问题呢？

目前我正在使用MultinomialNB 分类器，它是关于文本分类的。我正在使用新闻报纸文章和体育、经济等类(class)来训练我的模型。训练样例大小为175，分布如下:

    {'business': 27,
     'economy': 20,
     'lifestyle': 22,
     'opinion': 11,
     'politics': 30,
     'science': 21,
     'sport': 21,
     'tech': 23}

我的流水线看起来像这样，我的特征主要是词袋和一些语言关键指标，如文本长度。

cv = CountVectorizer(min_df=1, ngram_range=(1,1), max_features=1000)
tt = TfidfTransformer()
lv = LinguisticVectorizer() # custom class
clf = MultinomialNB()

pipeline = Pipeline([
('features', FeatureUnion([
  ('ngram_tf_idf', Pipeline([
    ('counts', cv),
    ('tf_idf', tt),
  ])),
('linguistic', lv),
])),
 ('scaler', StandardScaler(with_mean=False)),
 ('classifier', clf)
])

如果您想看一下我的训练示例，我已将其上传到此处:wetransfer.com

更新:也许值得一提的是当前设置在测试样本上的得分为 0.67。但在使用 StandardScaler 之前，概率的分布更加真实(即并不总是 100%)——但它的得分仅为 0.2。

更新:在管道中添加 MaxAbsScaler 后，它似乎可以正常工作。有人可以解释这种奇怪的行为吗？

最佳答案

这意味着，特别是考虑到至少有一个是朴素贝叶斯:

您的数据处理例程中有一个错误，也许您将整个文档转换为一个单词，而不是将其实际分成多个部分？检查每一个步骤，以确保您的文档实际上是在单词级别编码的。
你的数据是“损坏的”(有唯一标识你的类的唯一词)，例如新闻组数据集最初由标题信息组成，其中类名是按字面指定的(因此每个文档关于运动有“group:sport@...”等)
你有巨大的类比例失调，而你的模型只是一直在预测多数类。

关于python - 总是百分百的概率 : predict_proba, sklearn，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40747857/

28

4

0

文章推荐： python - pandas 使用 if/truth 语句在数据框的列上应用函数

文章推荐： html - CSS 菜单有问题

文章推荐： html - 空的 div 不会增长

文章推荐： python - 找不到满足 Pillow==2.7.0 要求的版本

Python Predict_proba 类识别
假设我的标记数据有两个类 1 和 0。当我在测试集上运行 Predict_proba 时，它返回一个包含两列的数组。哪一列对应哪个类？最佳答案第 0 列对应于类 0，第 1 列对应于类 1。关于
python - 回归与分类器 predict_proba
只是一个简单的问题，如果我想将对象分类为 0 或 1，但我希望模型返回一个“可能性”概率，例如，如果一个对象是 0.7，这意味着它有 0.7 的机会进入第 1 类，我是做回归还是坚持使用分类器并使用
python - predict_proba 用于交叉验证模型
我想通过交叉验证从逻辑回归模型预测概率。我知道您可以获得交叉验证分数，但是否可以从 predict_proba 返回值而不是分数？ # imports from sklearn.linear_mode
python - sklearn Predict_proba 不匹配类标签
我在我的数据集上训练了一个 RandomForestClassifier，可以从文本正文中预测 8 个不同的主题。对于给定示例，数据集如下所示 X_train = [[0,0,0,0,0,1,0,0,
python - 总是百分百的概率 : predict_proba, sklearn
我正在使用 Python 的 sklearn 对文本进行分类。我调用函数 predict_proba，它看起来像这样: [[ 6.74918834e-53 1.59981248e-51 2
python - 为什么 predict_proba 函数以相反的顺序打印概率？
我正在使用 scikit-learn 通过逻辑回归来实现分类。使用 predict() 函数预测类标签，而使用 predict_proba() 函数打印预测概率。下面粘贴了代码片段: # Parti
python - 随机森林 : predict vs predict_proba
我正在处理一个多类、高度不平衡的分类问题。我使用随机森林作为基础分类器。我必须在考虑多个标准(指标:精度、召回 conf_matrix、roc_auc)的情况下给出模型性能报告。模型火车: rf
machine-learning - XGBoost predict_proba 推理性能慢
我使用 Scikit-learn 和 XGBoost 在同一数据上训练了 2 个梯度提升模型。 Scikit-learn 模型 GradientBoostingClassifier( n_es
python - DecisionTreeRegressor 的 Predict_proba 的等效项
scikit-learn 的 DecisionTreeClassifier 支持通过 predict_proba() 函数预测每个类的概率。 DecisionTreeRegressor 中不存在这一点
Python:如何解释和改进 RandomForest 中的 Predict_proba()
所以我使用 sci-kit learns RandomForestClassifier 将天文来源的数据分为三类。为了让我的问题更简单，我在测试集中仅使用了两个来源，并获得了 predict_prob
python - 带有 predict_proba 的 SGDClassifier
我正在使用 sklearn 库来训练和测试我的数据。 targetDataCsv = pd.read_csv("target.csv","rt")) testNormalizedCsv = csv.
python - Keras 模型的 predict_proba() 方法不存在
我试图通过调用 Keras 模型的 predict_proba() 生成类(class)分数，但似乎没有这个函数!它是否因为我在谷歌中看到一些例子而被弃用？我正在使用 Keras 2.2.2。最佳答
python - Predict_proba 不适用于我的高斯混合模型(sklearn，python)
运行Python 3.7.3 我制作了一个简单的 GMM 并将其拟合到一些数据。使用predict_proba方法，返回的是1和0，而不是属于每个高斯的输入的概率。我最初在更大的数据集上尝试过这个，
python - Keras，模型 predict_proba 的输出
在docs , predict_proba(self, x, batch_size=32, verbose=1) 是 Generates class probability predictions f
python - AttributeError :'LinearSVC' 对象没有属性 'predict_proba'
我正在尝试使用LinearSVC 分类器更新:添加了导入 import nltk from nltk.tokenize import word_tokenize from nltk.classify
python - Scikit-learn predict_proba 给出错误答案
这是来自 How to know what classes are represented in return array from predict_proba in Scikit-learn 的后续
python - 如何在 clf.predict_proba() 中找到对应的类
我有许多类和对应的特征向量，当我运行 predict_proba() 时，我会得到这个: classes = ['one','two','three','one','three'] feature =
python - sklearn 的 MLP predict_proba 函数在内部是如何工作的？
我正在尝试了解如何 sklearn's MLP Classifier检索其 predict_proba 函数的结果。该网站仅列出: Probability estimates 还有很多其他的，例如
tensorflow - 属性错误 : 'Sequential' object has no attribute 'predict_proba'
predict_proba 返回神经网络中的误差我在这个链接上看到了例子 https://machinelearningmastery.com/how-to-make-classification-
python - 为什么随机森林分类器 .predict() 和 .predict_proba() 的预测不匹配？
我训练了一个简单的随机森林分类器，然后当我使用相同的测试输入测试预测时: rf_clf.predict([[50,0,500,0,20,0,250000,1.5,110,0,0,2]]) rf_clf

首页

博学

6Ren·AI

商城

python - 总是百分百的概率 : predict_proba, sklearn