python - 在 scikit-learn GridSearchCV 中评估交叉验证分数的均值、stddev-6ren

python - 在 scikit-learn GridSearchCV 中评估交叉验证分数的均值、stddev

转载作者：太空宇宙更新时间：2023-11-04 00:54:25

27

4

我正在使用 Python 2.7 和 scikit-learn 进行一些机器学习。我正在使用网格搜索来确定我的数据集和随机森林分类器的最佳超参数。我使用留一法交叉验证和 ROC 曲线下的面积作为评估每组超参数的指标。我的代码运行了，但我对 clf.grid_scores_ 的输出有点困惑。据我了解，应该在所有数据折叠中评估每组超参数，以查看使用在所有其他折叠上训练的模型预测遗漏折叠的效果如何。这将为您提供每次折叠的 AUROC。 Gridsearch 然后应该报告每组超参数的所有折叠的平均值和标准差。然后，使用 .grid_scores_，我们可以查看每组超参数的 auroc 的平均值、stddev 和原始值。

我的问题是，为什么报告的交叉验证分数的平均值和 stddev 不等同于在所有折叠中实际采用报告的 auroc 值的 .mean() 和 .std()？

代码:

from sklearn import cross_validation, grid_search
from sklearn.ensemble import RandomForestClassifier

lol = cross_validation.LeaveOneLabelOut(group_labels)
rf = RandomForestClassifier(random_state=42, n_jobs=96)

parameters = {'min_samples_leaf':[500,1000],
              'n_estimators': [100],
              'criterion': ['entropy',],
              'max_features': ['sqrt']
             }

clf = grid_search.GridSearchCV(rf, parameters, scoring='roc_auc', cv=lol)
clf.fit(train_features, train_labels)

for params, mean_score, scores in clf.grid_scores_:
    print("%0.3f (+/-%0.3f) for %r" % (scores.mean(), scores.std(), params))
print

for g in clf.grid_scores_: print g
print

print clf.best_score_
print clf.best_estimator_

输出:

0.603 (+/-0.108) for {'max_features': 'sqrt', 'n_estimators': 100, 'criterion': 'entropy', 'min_samples_leaf': 500}
0.601 (+/-0.108) for {'max_features': 'sqrt', 'n_estimators': 100, 'criterion': 'entropy', 'min_samples_leaf': 1000}

mean: 0.60004, std: 0.10774, params: {'max_features': 'sqrt', 'n_estimators': 100, 'criterion': 'entropy', 'min_samples_leaf': 500}
mean: 0.59705, std: 0.10821, params: {'max_features': 'sqrt', 'n_estimators': 100, 'criterion': 'entropy', 'min_samples_leaf': 1000}

0.600042993354
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='entropy',
            max_depth=None, max_features='sqrt', max_leaf_nodes=None,
            min_samples_leaf=500, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=96,
            oob_score=False, random_state=42, verbose=0, warm_start=False)

为什么我计算第一个分类器的平均值为 0.603 而 gridsearch 报告为 0.60004？ (对于第二个均值也有类似的分歧？)我觉得要么我错过了一些重要的东西来帮助我找到最好的超参数集，要么 sklearn 中有一个错误。

最佳答案

起初我也很困惑，所以我看了一下 source code .这两行将阐明如何计算交叉验证错误:

this_score *= this_n_test_samples 
n_test_samples += this_n_test_samples

当网格搜索计算平均值时，它是加权平均值。您的 LeaveOneLabelOut CV 很可能是不平衡的，即每个标签的样本数量不同。要计算平均验证分数，您需要将每个分数乘以折叠包含的总样本的比例，然后将所有分数相加。

关于python - 在 scikit-learn GridSearchCV 中评估交叉验证分数的均值、stddev，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35706433/

27

4

0

文章推荐： Python Flask 将表单数据保存到数据库

文章推荐： c - malloc 和 free 在 C 中是如何实现的？

python - 运行Python代码时如何从Pylint获取报告+分数？
直接从 Python 代码运行 pylint 时，我似乎无法获得任何返回值。从命令行运行它会生成一个漂亮的报告，在底部有一个总结分数。我已经尝试将“Run”的返回值放入一个变量中，并获取它的“rep
python - 如何根据数据框中的单词检测分配点数/分数？
我是 Python 新手，正在尝试学习单词检测。我有一个带有单词的数据框 sharina['transcript'] Out[25]: 0 thank you for calling my
javascript - 分数 - 显示分数
http://jsfiddle.net/q8P7Y/ 我在最后显示最终分数时遇到问题，有很多方法可以做到这一点，但我不确定什么是最好的。正如你所看到的，下一个按钮只是 div 的显示/隐藏，而不是页
javascript - 滑动滑动自定义计数器(分数)
我使用滑动 slider 并有计数器分数。它计数很好，但我需要计数 =(所有幻灯片 - 1)。例如，如果我有 20 张幻灯片，我想显示总数 19。有什么办法可以做到这一点吗？我使用他们网站上的常规 j
javascript - 滑动滑动自定义计数器(分数)
我使用滑动 slider 并有计数器分数。它计数很好，但我需要计数 =(所有幻灯片 - 1)。例如，如果我有 20 张幻灯片，我想显示总数 19。有什么办法可以做到这一点吗？我使用他们网站上的常规 j
java - 分数++不起作用
我试图在按下按钮时添加分数，分数显示在 JTextField 中，但是当按下按钮时，分数会添加，它显示为 0。我有一个存储分数的整数字段 private int score=0; yesButton
java - 计算测验游戏的分数/分数
我可以在选项(单选按钮)随机播放之前计算分数/分数，如下面的代码所示。在Collection.shuffle()之前，选项是固定的，因为 CorrectChoice将始终分配给c2单选按钮。那么我可以
java - 胶粘剂作业1，分数
我在这里的代码只能得到87％的代码，因为“带有非正参数的加法参数什么也没做。我该如何解决呢？我尝试了更多的方法，但是我什至无法解决此错误在同学的帮助下说明是：对于此分配，您将创建一个存储分数的类。
再次 Java 分数
昨天，我尝试以一种方式执行此操作...今天我尝试另一种方式，但仍然卡住了。我必须找到一种使用整数除法和取模来做到这一点的方法。这是我的代码，后面是错误消息。 public int evaluateFr
php - 特殊字符显示为 ?分数
我这里有一些特殊字符: http://209.141.56.244/test/char.php 但是当我在这里通过 ajax 抓取这个文件时，它们显示为 back ?标记: http://209.14
algorithm - 获取图中的最大节点(分数)
我得到了一张图表 G与 n顶点，标记自 1至 n (2 a_1 -> a_2 -> ... a_k -> n A然后将占据 1 的所有“子节点”节点, a_1 , ... a_x (其中 x = ce
mongodb - 获取最近的名字，分数
我有一个看起来像这样的 mongodb 集合: db.scores.insert({"name": "Bob", value: 96.3, timeStamp:'2010-9-27 9:32:00'}
solr/lucene idf 分数
我试图更好地了解 lucene 如何对我的搜索进行评分，以便我可以对我的搜索配置或文档内容进行必要的调整。以下是分数明细的一部分。产品: 0.34472802 = queryWeight,
math - 我应该如何订购这些 "helpful"分数？
在我网站上用户生成的帖子下，我有一个类似亚马逊的评级系统: Was this review helpful to you: Yes | No 如果有投票，我会在该行上方显示结果，如下所示:
elasticsearch - 如何标准化 ElasticSearch 分数？
对于我的项目，我需要找出哪些搜索结果被视为“良好”匹配。目前，分数因查询而异，因此需要以某种方式对它们进行标准化。标准化分数将允许选择高于给定阈值的结果。我为 Lucene 找到了几个解决方案: h
r - 创建 z 分数
我有一个由 57 个变量组成的数据文件。由于测量水平不均匀，我想将其中的大约 12 个转换为 z 分数。我查找了互联网资源和帮助文件。一个互联网资源建议我需要 Rbasic 包(不存在)。我使用了 s
solr - 获得稳定的 SOLR 分数
我对 SOLR 核心运行查询并使用过滤器限制结果例如 fq: {!frange l=0.7 }query($q)。我知道 SOLR 分数不有绝对意义，但是0.7(只是一个例子)是计算出来的基于用户输入
SQL 查询从列表中获取最高 "n"分数
我想找到不同的方法来解决我遇到的现实生活问题:想象一下进行一场比赛或一场游戏，在此期间用户收集积分。您必须构建一个查询来显示具有最佳“n”分数的用户列表。我举一个例子来澄清。假设这是用户表，其中包含
lucene - 获取检索到的文档的一部分的 Lucene 分数
我有很多 wiki 页面，我想训练一个分类器，看看是否可以通过一些特征(包括段落的位置和段落的 lucene 分数)来确定重点搜索的位置。我尝试将每个段落视为一个文档，这使我能够获得每个段落的 luc
r - 为行子集创建 z 分数
我是 R 编程新手，在使用一些基本代码时遇到问题。我有一个包含以下列的数据框:条件(因子)、用户(因子)和灵敏度(int)。对于每个用户有 20 个敏感项。我需要为每个用户创建一个具有标准化敏感度分

首页

博学

6Ren·AI

商城

python - 在 scikit-learn GridSearchCV 中评估交叉验证分数的均值、stddev