gpt4 book ai didi

machine-learning - 在整个训练集上评估模型,无需交叉验证

转载 作者:行者123 更新时间:2023-11-30 09:56:17 24 4
gpt4 key购买 nike

我们有一个包含 10,000 个手动标记实例的数据集,以及一个根据所有这些数据进行训练的分类器。然后根据所有这些数据对分类器进行评估,以获得 95% 的成功率。

这种方法到底有什么问题?难道只是因为 95% 的统计数据在此设置中信息量不大吗?这个95%的数字还有值(value)吗?虽然我明白,理论上这不是一个好主意,但我在这方面没有足够的经验来确定。另请注意,我既没有构建也没有评估相关分类器。

抛开常识不谈,有人能给我一个非常可靠、权威的引用资料,说这个设置有问题吗?

例如,this page确实说

Evaluating model performance with the data used for training is not acceptable in data mining because it can easily generate overoptimistic and overfitted models.

但是,这并不是一个权威的引用。事实上,这句话显然是错误的,因为评估与生成过度拟合的模型无关。它可能会产生过度乐观的数据科学家,他们会选择错误的模型,但特定的评估策略本身与过度拟合模型没有任何关系。

最佳答案

问题是overfitting的可能性。这并不意味着您报告的整个数据集的准确性没有值(value),因为它可以被视为对新数据上分类器性能上限的估计。

说谁构成“非常可靠、权威的引用”是很主观的;然而,Tom Mitchell 的《机器学习》(ISBN 978-0070428072)是一本被广泛阅读和经常引用的文本,它讨论了一般性的过度拟合问题,特别是关于决策树和人工神经网络的过度拟合问题。除了讨论过度拟合之外,本文还讨论了训练和验证集方法的各种方法(例如交叉验证)。

关于machine-learning - 在整个训练集上评估模型,无需交叉验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27745033/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com