gpt4 book ai didi

python - 如何使用 sklearn 的 SGDClassifier 获得前 N 个预测

转载 作者:行者123 更新时间:2023-12-01 08:57:27 25 4
gpt4 key购买 nike

我尝试使用 scikit 的 SGDClassifier 设置一个简单的文本分类任务,并尝试获取前 N 个预测,包括它们的概率。作为示例训练数据,我有三个类别

  • 苹果
  • 柠檬
  • 橙子

每个类一个文档:

  • 在苹果中:“苹果和柠檬”
  • 柠檬:“柠檬和橙子”
  • 橙子:“橙子和苹果”

我现在想要预测三个测试文档“apple”、“lemon”和“orange”,并希望获得每个文档的 Top-2-Predictions,包括它们的概率。到目前为止我的代码如下所示:

from sklearn.linear_model import SGDClassifier
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
import numpy as np

train = load_files('data/test/')

text_clf_svm = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
('clf-svm', SGDClassifier(loss='modified_huber', penalty='l2',alpha=1e-3, n_iter=5, random_state=42))])
text_clf_svm = text_clf_svm.fit(train.data, train.target)

docs=['apple', 'orange', 'lemon']
predicted = text_clf_svm.predict(docs)
#Perform a Top 1 prediction
for doc, category in zip(docs, predicted):
print('%r => %s' % (doc, train.target_names[category]))

# Perform a top 2 prediction
print(np.argsort(text_clf_svm.predict_proba(docs), axis=1)[-2:])

我的输出如下:

'apple' => apples
'orange' => lemons
'lemon' => lemons
[[1 2 0]
[0 1 2]]

我现在很难解释数据。我真正想要得到的是:

'apple' => apples (0.54...), lemons (0.43...)
'orange' => apples (0.48...), oranges (0.43...)
'lemon' => lemons (0.48...), oranges (0.43...)

有人可以告诉我该怎么做吗?预先感谢您的帮助!

最佳答案

你正在使用argsort,argsort的作用是给你排序数组的索引,所以你应该做如下:

preds = text_clf_svm.predict_proba(docs)
preds_idx = np.argsort(preds, axis=1)[-2:]

for i,d in enumerate(docs):
print d,"=>"
for p in preds_idx[i]:
print(text_clf_svm.classes_[p],"(",preds[i][p],")")

只需根据您的风格重新格式化打印,您就会得到您想要的:)

关于python - 如何使用 sklearn 的 SGDClassifier 获得前 N 个预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52698815/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com