- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
所以我使用 sci-kit learns RandomForestClassifier 将天文来源的数据分为三类。为了让我的问题更简单,我在测试集中仅使用了两个来源,并获得了 predict_prob()
分数:
predictions = rf_model.predict(data_test)
probab = rf_model.predict_proba(data_test)
print(probab)
print('True Classifications:', classif_test.values)
print('Predictions', predictions)
给我以下内容:
[[0.29 0.69 0.02]
[0.08 0.92 0. ]]
True Classifications: ['HMXB' 'AGN']
Predictions ['HMXB' 'HMXB']
其中类别顺序为[AGN、HMXB、SNR]
。问题是这些预测之一是错误的,而另一个是正确的。
我有几个问题。(a) 如何判断哪个 predict_prob()
分数对应于错误的预测?(b) predict_prob()
到底描述了什么?模型的分类被认为是正确的可能性有多大还是其他什么?(b) 导致预测不准确的类的高概率得分意味着什么?我的数据集是否太小,或者有什么方法可以提高预测概率?
因此,对于我的数据,我有 46 个 HMXB、17 个 AGN 和 3 个 SNR。每个来源都具有三个属性。我知道这是一个很小的数据集,但我想知道它是否太小,以至于随机森林或其他机器学习算法无法给出准确的结果。
最佳答案
对于问题(b)predict_prob() 到底描述了什么?
predict_prob() 将给出标签的概率。
例如,如果您有三个标签 ['A','B','C'] 并且 Predict_prob() 给出 [0.29,0.69,.02],则意味着该特定数据的结果有 0.29 的概率成为 'A' ,“B”的概率为 0.69,“C”的概率为 0.02。
对于问题(a)我如何判断哪个predict_prob()分数对应于错误的预测?
从您发布的输出
[[0.29 0.69 0.02]
[0.08 0.92 0. ]]
Predictions ['HMXB' 'HMXB']
它清楚地表明每个列表中的第二项对应于“HMXB”。另外两个概率(第一项和最后一项)我们需要查看数据并判断。
是的,你的数据很小而且很不平衡。因为与其他两个相比,您有很多“HMXB”样本。尝试为其他标签获取更多样本。
关于Python:如何解释和改进 RandomForest 中的 Predict_proba(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59960506/
假设我的标记数据有两个类 1 和 0。当我在测试集上运行 Predict_proba 时,它返回一个包含两列的数组。哪一列对应哪个类? 最佳答案 第 0 列对应于类 0,第 1 列对应于类 1。 关于
只是一个简单的问题,如果我想将对象分类为 0 或 1,但我希望模型返回一个“可能性”概率,例如,如果一个对象是 0.7,这意味着它有 0.7 的机会进入第 1 类,我是做回归还是坚持使用分类器并使用
我想通过交叉验证从逻辑回归模型预测概率。我知道您可以获得交叉验证分数,但是否可以从 predict_proba 返回值而不是分数? # imports from sklearn.linear_mode
我在我的数据集上训练了一个 RandomForestClassifier,可以从文本正文中预测 8 个不同的主题。对于给定示例,数据集如下所示 X_train = [[0,0,0,0,0,1,0,0,
我正在使用 Python 的 sklearn 对文本进行分类。 我调用函数 predict_proba,它看起来像这样: [[ 6.74918834e-53 1.59981248e-51 2
我正在使用 scikit-learn 通过逻辑回归来实现分类。使用 predict() 函数预测类标签,而使用 predict_proba() 函数打印预测概率。 下面粘贴了代码片段: # Parti
我正在处理一个多类、高度不平衡的分类问题。我使用随机森林作为基础分类器。 我必须在考虑多个标准(指标:精度、召回 conf_matrix、roc_auc)的情况下给出模型性能报告。 模型火车: rf
我使用 Scikit-learn 和 XGBoost 在同一数据上训练了 2 个梯度提升模型。 Scikit-learn 模型 GradientBoostingClassifier( n_es
scikit-learn 的 DecisionTreeClassifier 支持通过 predict_proba() 函数预测每个类的概率。 DecisionTreeRegressor 中不存在这一点
所以我使用 sci-kit learns RandomForestClassifier 将天文来源的数据分为三类。为了让我的问题更简单,我在测试集中仅使用了两个来源,并获得了 predict_prob
我正在使用 sklearn 库来训练和测试我的数据。 targetDataCsv = pd.read_csv("target.csv","rt")) testNormalizedCsv = csv.
我试图通过调用 Keras 模型的 predict_proba() 生成类(class)分数,但似乎没有这个函数!它是否因为我在谷歌中看到一些例子而被弃用?我正在使用 Keras 2.2.2。 最佳答
运行Python 3.7.3 我制作了一个简单的 GMM 并将其拟合到一些数据。使用predict_proba方法,返回的是1和0,而不是属于每个高斯的输入的概率。 我最初在更大的数据集上尝试过这个,
在docs , predict_proba(self, x, batch_size=32, verbose=1) 是 Generates class probability predictions f
我正在尝试使用LinearSVC 分类器 更新:添加了导入 import nltk from nltk.tokenize import word_tokenize from nltk.classify
这是来自 How to know what classes are represented in return array from predict_proba in Scikit-learn 的后续
我有许多类和对应的特征向量,当我运行 predict_proba() 时,我会得到这个: classes = ['one','two','three','one','three'] feature =
我正在尝试了解如何 sklearn's MLP Classifier检索其 predict_proba 函数的结果。 该网站仅列出: Probability estimates 还有很多其他的,例如
predict_proba 返回神经网络中的误差 我在这个链接上看到了例子 https://machinelearningmastery.com/how-to-make-classification-
我训练了一个简单的随机森林分类器,然后当我使用相同的测试输入测试预测时: rf_clf.predict([[50,0,500,0,20,0,250000,1.5,110,0,0,2]]) rf_clf
我是一名优秀的程序员,十分优秀!