gpt4 book ai didi

machine-learning - 不使用开发集时的偏差

转载 作者:行者123 更新时间:2023-11-30 09:13:24 25 4
gpt4 key购买 nike

我正在 Weka 中使用 10 倍交叉验证进行小型分类任务。为了进行特征选择和调整分类器的参数,我使用了一小部分数据。我知道通常应该使用训练集和开发集。但是由于缺乏时间和计算能力,我只使用了所有数据的一小部分。这会对结果产生任何偏差吗?谢谢!

最佳答案

是的。根据偏差的定义,使用较小的集合意味着您对决定训练的任何部分都会有更高的偏差。如果您从较大的数据集中随机选择小样本,这种偏差将大大减少。

如果您只使用一小部分数据,10 倍交叉验证没有多大意义。交叉验证的想法是将大型数据集分成多个部分,用其中的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案。

如果您没有太多时间或计算能力,我的第一个建议是减少 10 倍的简历检查。这意味着您可以在相同的计算时间内包含更大部分的数据集,并在 Weka 中快速评估许多不同的模型,然后再决定哪个更有希望继续推进。

如果您可以选择,对于最终的数据运行,我强烈建议使用全套算法,但是当您决定使用哪种算法时,使用全套算法的一部分并不可怕。设置。

关于machine-learning - 不使用开发集时的偏差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18262209/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com