gpt4 book ai didi

machine-learning - 为什么 Monk 的问题的测试集比他们的训练集大?

转载 作者:行者123 更新时间:2023-11-30 08:58:55 26 4
gpt4 key购买 nike

我意识到所有的Monk's problems测试集比训练集大。为什么这个数据集是这样组织的?我认为这很奇怪,即使它是用于模型比较的虚拟数据集。

和尚1训练样本:124测试样本:432

和尚2训练样本:169测试样本:432

和尚3训练样本:122测试样本:432

最佳答案

从机器学习的角度来看,测试集有多大绝对不重要。为什么它让你烦恼?现实世界看起来完全相同:你有 N 个标记样本用于训练,但是有 N*10、N*1000、N*10^9 或更多真实案例,因此每个(手动标记、固定)测试集将必然太小。我们的目标是拥有一个代表性的集,涵盖我们在现实世界中期望的一切,如果这意味着拥有一个 YUGE™ 测试集,那么你能做的最好的事情就是拥有一个比训练集更大的测试集。

在这种特殊情况下(我不熟悉这个特殊任务),您引用的网站看起来像是这样的

There are three MONK's problems. The domains for all MONK's problems are the same (described below). One of the MONK's problems has noise added. For each problem, the domain has been partitioned into a train and test set.

下面链接的论文

Wnek, J. and Michalski, R.S., "Comparing Symbolic and Subsymbolic Learning: Three Studies," in Machine Learning: A Multistrategy Approach, Vol. 4., R.S. Michalski and G. Tecuci (Eds.), Morgan Kaufmann, San Mateo, CA, 1993.

第 20 页内容如下:

enter image description here

因此,在这个特定场景中,作者选择了不同的训练条件,从而选择了三个训练集。根据

Leondes, Cornelius T. Image processing and pattern recognition. Vol. 5. Elsevier, 1998, pp 307

他们使用了全部 432 个可用样本进行训练,并针对该数据的子集进行了训练。

训练和测试数据之间存在重叠被认为是不好的做法,但我有什么资格评判 25 年前在我不熟悉的领域进行的研究。也许获取更多数据并进行干净的分割太困难了。

关于machine-learning - 为什么 Monk 的问题的测试集比他们的训练集大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48479952/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com