gpt4 book ai didi

machine-learning - 交叉验证分数的标准差是多少?

转载 作者:行者123 更新时间:2023-12-05 06:43:01 25 4
gpt4 key购买 nike

在做模型选择的交叉验证时,我发现有很多方法可以引用交叉验证分数的“标准差”(这里的“分数”是指评估指标,例如准确率、AUC、损失等)

1) 一种方法是计算 K 折分数的平均值的标准差(= K 折的标准差/sqrt(K))。

2) 第二种方式是只计算K折分数的标准差。可以在此处找到示例:

http://scikit-learn.org/stable/auto_examples/svm/plot_svm_anova.html

3) 另一种我不完全理解的方式。它似乎计算了 K folds/sqrt(N) 的标准偏差,其中 N 是数据集的大小......

http://scikit-learn.org/stable/auto_examples/exercises/plot_cv_diabetes.html

我个人认为 1) 是正确的,因为我们更关心样本均值的标准误差(这里 = K 折验证的平均分数)而不是样本的标准差。谁能解释首选哪种方式?

最佳答案

这些情况并没有太大的矛盾。

  1. K 折的标准差/sqrt(K) 是分数的标准误差
  2. 在提到的链接中,他们使用标准偏差而不是分数的标准误差。
  3. 在此链接中,他们像 1) 中一样计算标准误差,但他们使用变量名称“n_folds”而不是“k”。在这种情况下,N (n_folds) 不是数据集的大小。

标准偏差是分数变化的度量(如果计算一个分数(对于 k 折之一))。标准误差是衡量 k 倍分数平均值变化的指标。

在寻找分数的“真实”值时,以这种方式使用标准误差:

分数的真实值为

  • 在(平均值 - 标准误差)到(平均值 + 标准误差)范围内的概率约为 68%
  • 大约 95% 的概率在(平均值 - 2* 标准误差)到(平均值 + 2 标准误差)范围内

(这些范围称为置信区间。)

关于machine-learning - 交叉验证分数的标准差是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34914229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com