gpt4 book ai didi

machine-learning - 样本量不是 10 倍的 10 倍交叉验证

转载 作者:行者123 更新时间:2023-11-30 08:52:26 25 4
gpt4 key购买 nike

我看到一些论文对数据集使用 10 倍交叉验证,这些数据集的样本数量不能被 10 整除。

我找不到他们解释如何选择每个子集的任何案例。

我的假设是他们在某种程度上使用了重采样,但如果是这种情况,那么样本可能会出现在两个子集中,从而使模型产生偏差。

论文为例:http://www.biomedcentral.com/1471-2105/9/319

是否建议执行以下操作;

  • 给定样本大小为 86,取 8 个样本作为保留集。
  • 使用剩余的样本进行训练。
  • 重复 10 次。

这样做会使每个样本都是训练集,但只有 80/86 个样本用作保留样本,并且不会出现在训练集和保留集中都出现这种情况的偏差。

如有任何见解,我们将不胜感激。

最佳答案

您希望折叠具有相同的大小,或尽可能接近相等。

为此,如果您有 86 个样本并希望使用 10 折 CV,则第一个 86 % 10 = 6 折叠的大小将为 86/10 + 1 = 9 其余部分的大小为 86/10 = 8:

6 * 9 = 54
4 * 8 = 32 +
--------------
86

一般来说,如果您有 n 个样本和 n_folds 个折叠,您想要执行的操作 scikit-learn does :

The first n % n_folds folds have size n // n_folds + 1, other folds have size n // n_folds.

注://代表整数除法

我不知道这有什么适当的科学引用,但这似乎是惯例。请参阅this question还有this one对于同样的建议。至少有两个主要的机器学习库是这样做的。

关于machine-learning - 样本量不是 10 倍的 10 倍交叉验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32305683/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com