gpt4 book ai didi

algorithm - 数据集大小会影响机器学习算法吗?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:23:17 26 4
gpt4 key购买 nike

<分区>

因此,想象一下可以访问足够质量的数据(数百万个用于训练和测试的数据点)。请暂时忽略概念漂移并假设数据是静态的并且不会随时间变化。就模型质量而言,使用所有这些数据是否有意义?

Brain 和 Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) 包含了一些使用不同数据集大小进行实验的结果。他们测试的算法在使用 16,000 或 32,000 个数据点进行训练后趋于稳定。然而,由于我们生活在大数据世界中,我们可以访问数百万点的数据集,因此这篇论文有些相关但已经过时了。

是否有关于数据集大小对学习算法(朴素贝叶斯、决策树、SVM、神经网络等)影响的最新研究?

  1. 学习算法何时会收敛到某个稳定的模型,而更多的数据不会再提高质量?
  2. 它会在 50,000 个数据点之后发生,还是可能在 200,000 之后或仅在 1,000,000 之后发生?
  3. 有经验法则吗?
  4. 或者算法可能无法收敛到稳定模型,达到某种平衡?

我为什么要问这个?想象一个存储空间有限且具有大量独特模型(数千个具有自己独特数据集的模型)且无法增加存储空间的系统。因此限制数据集的大小很重要。

对此有什么想法或研究吗?

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com