gpt4 book ai didi

python - 为什么 CalibratedClassifierCV 不如直接分类器?

转载 作者:太空狗 更新时间:2023-10-29 17:06:37 24 4
gpt4 key购买 nike

我注意到当 base_estimatorGradientBoostingClassifer 时,sklearn 的新 CalibratedClassifierCV 似乎表现不如直接 base_estimator,(我没有测试其他分类器)。有趣的是,如果 make_classification 的参数是:

n_features = 10
n_informative = 3
n_classes = 2

那么 CalibratedClassifierCV 似乎略胜一筹(对数损失评估)。

但是,在以下分类数据集下,CalibratedClassifierCV 似乎通常表现不佳:

from sklearn.datasets import make_classification
from sklearn import ensemble
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import log_loss
from sklearn import cross_validation
# Build a classification task using 3 informative features

X, y = make_classification(n_samples=1000,
n_features=100,
n_informative=30,
n_redundant=0,
n_repeated=0,
n_classes=9,
random_state=0,
shuffle=False)

skf = cross_validation.StratifiedShuffleSplit(y, 5)

for train, test in skf:

X_train, X_test = X[train], X[test]
y_train, y_test = y[train], y[test]

clf = ensemble.GradientBoostingClassifier(n_estimators=100)
clf_cv = CalibratedClassifierCV(clf, cv=3, method='isotonic')
clf_cv.fit(X_train, y_train)
probas_cv = clf_cv.predict_proba(X_test)
cv_score = log_loss(y_test, probas_cv)

clf = ensemble.GradientBoostingClassifier(n_estimators=100)
clf.fit(X_train, y_train)
probas = clf.predict_proba(X_test)
clf_score = log_loss(y_test, probas)

print 'calibrated score:', cv_score
print 'direct clf score:', clf_score
print

一次运行产生了:

enter image description here

也许我遗漏了一些关于 CalibratedClassifierCV 工作原理的信息,或者我没有正确使用它,但我的印象是,如果有的话,将分类器传递给 CalibratedClassifierCV相对于单独使用 base_estimator 会导致性能提高。

谁能解释这种观察到的表现不佳?

最佳答案

概率校准本身需要交叉验证,因此 CalibratedClassifierCV 每次折叠训练一个校准分类器(在本例中使用 StratifiedKFold),并取预测的平均值调用 predict_proba() 时每个分类器的概率。这可能导致对效果的解释。

我的假设是,如果训练集相对于特征和类的数量较小,则每个子分类器的减少训练集会影响性能,而集成不会弥补它(或使它变得更糟)。此外,GradientBoostingClassifier 可能从一开始就提供非常好的概率估计,因为它的损失函数针对概率估计进行了优化。

如果那是正确的,那么集成分类器的方式与 CalibratedClassifierCV 相同但没有校准应该比单个分类器差。此外,当使用大量折叠进行校准时,效果应该会消失。

为了对此进行测试,我扩展了您的脚本以增加折叠数并包含未经校准的集成分类器,并且我能够确认我的预测。一个 10 倍校准的分类器总是比单个分类器表现更好,而未校准的集成明显更差。在我的运行中,3 倍校准分类器的性能也并不真正比单一分类器差,因此这也可能是一个不稳定的效果。这些是同一数据集的详细结果:

Log-loss results from cross-validation

这是我实验的代码:

import numpy as np
from sklearn.datasets import make_classification
from sklearn import ensemble
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import log_loss
from sklearn import cross_validation

X, y = make_classification(n_samples=1000,
n_features=100,
n_informative=30,
n_redundant=0,
n_repeated=0,
n_classes=9,
random_state=0,
shuffle=False)

skf = cross_validation.StratifiedShuffleSplit(y, 5)

for train, test in skf:

X_train, X_test = X[train], X[test]
y_train, y_test = y[train], y[test]

clf = ensemble.GradientBoostingClassifier(n_estimators=100)
clf_cv = CalibratedClassifierCV(clf, cv=3, method='isotonic')
clf_cv.fit(X_train, y_train)
probas_cv = clf_cv.predict_proba(X_test)
cv_score = log_loss(y_test, probas_cv)
print 'calibrated score (3-fold):', cv_score


clf = ensemble.GradientBoostingClassifier(n_estimators=100)
clf_cv = CalibratedClassifierCV(clf, cv=10, method='isotonic')
clf_cv.fit(X_train, y_train)
probas_cv = clf_cv.predict_proba(X_test)
cv_score = log_loss(y_test, probas_cv)
print 'calibrated score (10-fold:)', cv_score

#Train 3 classifiers and take average probability
skf2 = cross_validation.StratifiedKFold(y_test, 3)
probas_list = []
for sub_train, sub_test in skf2:
X_sub_train, X_sub_test = X_train[sub_train], X_train[sub_test]
y_sub_train, y_sub_test = y_train[sub_train], y_train[sub_test]
clf = ensemble.GradientBoostingClassifier(n_estimators=100)
clf.fit(X_sub_train, y_sub_train)
probas_list.append(clf.predict_proba(X_test))
probas = np.mean(probas_list, axis=0)
clf_ensemble_score = log_loss(y_test, probas)
print 'uncalibrated ensemble clf (3-fold) score:', clf_ensemble_score

clf = ensemble.GradientBoostingClassifier(n_estimators=100)
clf.fit(X_train, y_train)
probas = clf.predict_proba(X_test)
score = log_loss(y_test, probas)
print 'direct clf score:', score
print

关于python - 为什么 CalibratedClassifierCV 不如直接分类器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30285551/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com