python - 在 h2o AutoML 上检索 h2o AutoML 的交叉验证性能 (AUC) for holdout dataset-6ren

python - 在 h2o AutoML 上检索 h2o AutoML 的交叉验证性能 (AUC) for holdout dataset

转载作者：行者123 更新时间：2023-12-04 15:17:33

27

4

我正在使用默认交叉验证 (nfolds=5) 使用 h2o AutoML 训练二元分类模型。我需要获得每个保留折叠的 AUC 分数，以便计算可变性。

这是我使用的代码:

h2o.init()

prostate = h2o.import_file("https://h2o-public-test-data.s3.amazonaws.com/smalldata/prostate/prostate.csv")
# convert columns to factors
prostate['CAPSULE'] = prostate['CAPSULE'].asfactor()
prostate['RACE'] = prostate['RACE'].asfactor()
prostate['DCAPS'] = prostate['DCAPS'].asfactor()
prostate['DPROS'] = prostate['DPROS'].asfactor()

# set the predictor and response columns
predictors = ["AGE", "RACE", "VOL", "GLEASON"]
response_col = "CAPSULE"

# split into train and testing sets
train, test = prostate.split_frame(ratios = [0.8], seed = 1234)


aml = H2OAutoML(seed=1, max_runtime_secs=100, exclude_algos=["DeepLearning", "GLM"],
                    nfolds=5, keep_cross_validation_predictions=True)

aml.train(predictors, response_col, training_frame=prostate)

leader = aml.leader

我检查 leader 不是 StackedEnsamble 模型(验证指标不可用)。无论如何，我无法检索到五个 AUC 分数。

知道怎么做吗？

最佳答案

这是它是如何完成的:

import h2o
from h2o.automl import H2OAutoML

h2o.init()

# import prostate dataset
prostate = h2o.import_file("https://h2o-public-test-data.s3.amazonaws.com/smalldata/prostate/prostate.csv")
# convert columns to factors
prostate['CAPSULE'] = prostate['CAPSULE'].asfactor()
prostate['RACE'] = prostate['RACE'].asfactor()
prostate['DCAPS'] = prostate['DCAPS'].asfactor()
prostate['DPROS'] = prostate['DPROS'].asfactor()

# set the predictor and response columns
predictors = ["AGE", "RACE", "VOL", "GLEASON"]
response_col = "CAPSULE"

# split into train and testing sets
train, test = prostate.split_frame(ratios = [0.8], seed = 1234)

# run AutoML for 100 seconds
aml = H2OAutoML(seed=1, max_runtime_secs=100, exclude_algos=["DeepLearning", "GLM"],
                    nfolds=5, keep_cross_validation_predictions=True)
aml.train(x=predictors, y=response_col, training_frame=prostate)

# Get the leader model
leader = aml.leader

这里有一个关于交叉验证 AUC 的注意事项——H2O 目前存储了 CV AUC 的两个计算。一个是聚合版本(采用聚合 CV 预测的 AUC)，另一个是交叉验证 AUC 的“真实”定义(来自 k 折交叉验证的 k AUC 的平均值)。后者存储在一个对象中，该对象还包含各个折叠 AUC 以及折叠之间的标准差。

如果您想知道我们为什么这样做，有一些历史和技术原因导致我们有两个版本，以及一个仅对每个报告开放的 ticket 后者。

第一个是执行此操作时获得的结果(以及 AutoML 排行榜上显示的结果)。

# print CV AUC for leader model
print(leader.model_performance(xval=True).auc())

如果您想要折叠 AUC 以便计算或查看它们的均值和变异性(标准差)，您可以通过查看此处来实现:

# print CV metrics summary
leader.cross_validation_metrics_summary()

输出:

Cross-Validation Metrics Summary:
             mean        sd           cv_1_valid    cv_2_valid    cv_3_valid    cv_4_valid    cv_5_valid
-----------  ----------  -----------  ------------  ------------  ------------  ------------  ------------
accuracy     0.71842104  0.06419111   0.7631579     0.6447368     0.7368421     0.7894737     0.65789473
auc          0.7767409   0.053587236  0.8206676     0.70905924    0.7982079     0.82538515    0.7303846
aucpr        0.6907578   0.0834025    0.78737605    0.7141305     0.7147677     0.67790955    0.55960524
err          0.28157896  0.06419111   0.23684211    0.35526314    0.2631579     0.21052632    0.34210527
err_count    21.4        4.8785243    18.0          27.0          20.0          16.0          26.0
---          ---         ---          ---           ---           ---           ---           ---
precision    0.61751753  0.08747421   0.675         0.5714286     0.61702126    0.7241379     0.5
r2           0.20118153  0.10781976   0.3014902     0.09386432    0.25050205    0.28393403    0.07611712
recall       0.84506994  0.08513061   0.84375       0.9142857     0.9354839     0.7241379     0.8076923
rmse         0.435928    0.028099842  0.41264254    0.47447023    0.42546       0.41106534    0.4560018
specificity  0.62579334  0.15424488   0.70454544    0.41463414    0.6           0.82978725    0.58

See the whole table with table.as_data_frame()

这是排行榜的样子(存储汇总的 CV AUC)。在这种情况下，由于数据非常小(300 行)，因此两个报告的 CV AUC 值之间存在明显差异，但是对于较大的数据集，它们应该是更接近的估计值。

# print the whole Leaderboard (all CV metrics for all models)
lb = aml.leaderboard
print(lb)

这将打印排行榜的顶部:

model_id                                                  auc    logloss     aucpr    mean_per_class_error      rmse       mse
---------------------------------------------------  --------  ---------  --------  ----------------------  --------  --------
XGBoost_grid__1_AutoML_20200924_200634_model_2       0.769716   0.565326  0.668827                0.290806  0.436652  0.190665
GBM_grid__1_AutoML_20200924_200634_model_4           0.762993   0.56685   0.666984                0.279145  0.437634  0.191524
XGBoost_grid__1_AutoML_20200924_200634_model_9       0.762417   0.570041  0.645664                0.300121  0.440255  0.193824
GBM_grid__1_AutoML_20200924_200634_model_6           0.759912   0.572651  0.636713                0.30097   0.440755  0.194265
StackedEnsemble_BestOfFamily_AutoML_20200924_200634  0.756486   0.574461  0.646087                0.294002  0.441413  0.194845
GBM_grid__1_AutoML_20200924_200634_model_7           0.754153   0.576821  0.641462                0.286041  0.442533  0.195836
XGBoost_1_AutoML_20200924_200634                     0.75411    0.584216  0.626074                0.289237  0.443911  0.197057
XGBoost_grid__1_AutoML_20200924_200634_model_3       0.753347   0.57999   0.629876                0.312056  0.4428    0.196072
GBM_grid__1_AutoML_20200924_200634_model_1           0.751706   0.577175  0.628564                0.273603  0.442751  0.196029
XGBoost_grid__1_AutoML_20200924_200634_model_8       0.749446   0.576686  0.610544                0.27844   0.442314  0.195642

[28 rows x 7 columns]

关于python - 在 h2o AutoML 上检索 h2o AutoML 的交叉验证性能 (AUC) for holdout dataset，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64032018/

27

4

0

文章推荐： typescript - 通过 nodegit 克隆 repo 时如何获得状态进度？

文章推荐： python - 使用 python 3.8 在 docker 中安装 scikit-learn

文章推荐： c# - EPPlus - 行超出范围异常

gcc - 如何使用单个 GCC(交叉)编译器(交叉)编译为 ARM 硬浮点和软浮点 (softfp)？
我想使用单个(交叉)编译器来编译不同 ARM 调用约定的代码:因为我总是想使用浮点和 NEON 指令，所以我只想选择硬浮点调用约定或软浮点(softfp)调用约定。我的编译器默认为硬浮点，但它支持我
Java共享(交叉)依赖管理
假设我正在构建一个依赖于两个库的 java 应用程序:A 和 B。A 和 B 都依赖于库 C。管理 A 和 B 使用相同版本的最佳方法是什么所以他们不冲突？我正在使用 Gradle。最佳答案从 G
交叉(错误符号)图像下的android按钮文本
我想在按钮的文本上添加图像。如果我将图像添加为按钮的背景，它就会添加到文本下方。预期结果作为图像添加。请帮忙更新:我需要以编程方式执行此操作。最佳答案在 XML 中， * 在代码中
css - 如何制作汉堡菜单的动画 - 交叉
我已经开始使用 CSS3 制作动画了。我尝试创建一个动画汉堡菜单，但结果有点难看。顶部和底部的条向右平移一点。所以旋转动画不是很流畅和正确。这是结果 => 这是我的代码: /* HTML */
python - 如何使用opencv或python检测2条相交(交叉)的曲线？
给定一个具有2条相交曲线的图像，如下图所示，我如何使用opencv或python检测和区分2条曲线？ (所以我需要2条单独的曲线) 最佳答案您可以扫描每一列，并从连接的零件中识别出簇。伪算法: l
gcc - 交叉 mingw 编译因未知伪操作而失败
我正在尝试在 redhat 集群(x86_64 主机)上设置 cross-mingw。我没有 root 访问权限，并且可用的 mingw 二进制文件不起作用(坏 glibc 版本等)。我正在阅读本教程
java - JavaFX 中的图像碰撞/交叉
我正在尝试在javaFX中开发一个游戏，当两个图像相交时，分数将被更新，并且障碍物将不可见。但不幸的是，在游戏中分数不断更新。我想我无法在游戏中正确地使图像不可见。以下是相关类的完整代码: pac
css - 固定位置展开并从右侧主 div 交叉
pikastar dot com 是网站，当向下滚动它然后在导航菜单展开固定位置时它 > 将穿过主 div。我该如何修复它。 #topNav.sticky { box-shadow: 0 10
c++ - 交叉 g++ 编译器链接器错误
我正在使用 Eclipse为 ARM 处理器交叉编译 g++ 项目。我在 Windows 环境中使用 yagarto 工具链。我对 C 项目没有问题，但是对于 C++，我一直收到错误: libc.a(
ruby - 如何从两个哈希数组中获取联合/交叉/差异并忽略一些键
我想从两个哈希数组中获取并集/交集/差集，例如: array1 = [{:name =>'Guy1', :age => 45},{:name =>'Guy2', :age => 45}] array2
Grails - 交叉 Controller 代码，在每个请求上执行
有没有办法在调用任何 Controller 操作之前执行一些代码？我需要根据 get 参数的值设置 session 变量，而不考虑调用哪个 Controller 。当然，一旦这个处理完成，请求需要
python - 交叉 3D 网格 python
我刚开始使用 3D 网格，面向用于有限元分析。我想在立方体状矩阵中模拟 Material 的夹杂物(任何形状，但主要对球体和椭圆体感兴趣)。这些夹杂物不应彼此重合。所以我想为python使用某种包，
sharedpreferences - Xamarin Forms Sharedpreferences 交叉
我想知道以跨平台方式操作应用程序设置的最佳解决方案是什么。在 iOS 中，我们可以在设置屏幕中更改应用程序外部的设置，但在 windows phone 和 android 中我们没有。所以，我的想
javascript - knockout 交叉 View 模型
var barcodeNum = ko.observable(""); VelocityMeetings.scan = function (params) { var errorMessage = k
r - 将(交叉)表转换为 ListView
这个问题在这里已经有了答案: Transforming data.frame in R (2 个答案) 关闭10 年前。过去我问过一个关于如何create cross tables from a
javascript - Angularjs - 交叉 Controller 工厂更新
我有两个共享同一个工厂的 Controller 。其中一个 Controller 正在更新工厂变量。其他人应该注意该变化并稍后显示。我是这样尝试的: http://plnkr.co/edit/q1N
mysql - SQL - 交叉 'Crossed' 表
标题不好，但这是我发现的将我的问题与简单的表格交叉区分开来的方式，因为我之前的研究总是让我接触到这类主题。我有几个表 - 为了简化起见，我们只用 3 个表来命名它们:A、B、C。我想将它们全部放在一
mysql - SELECT JOIN 与条件 (OR) 交叉
我需要做这样的事情(在 MySQL 中)，我使用 UNION 的尝试直到现在才奏效。理论上: SELECT * FROM tableA A JOIN tableB B ON A.tableAId =
c++ - SDL 交叉 header 渲染
注意:使用SDL 2.0，Cross header class问题我在类之间进行交叉引用，主要是我的类初始化渲染器和我的纹理类引用渲染初始化。现在，我已经能够运行该程序，直到我开始放入纹理类，代码也
javascript - 检查数组中匹配字母的算法(之前，之后，交叉)
我有一个这样的字母数组 var letters = ["Y", "X", "A", "Y", "O", "H", "A", "O", "O"]; 我创建了一个循环来

首页

博学

6Ren·AI

商城

python - 在 h2o AutoML 上检索 h2o AutoML 的交叉验证性能 (AUC) for holdout dataset