gpt4 book ai didi

machine-learning - 在机器学习中,可以采取哪些措施来限制所需训练样本的数量?

转载 作者:行者123 更新时间:2023-11-30 08:31:34 25 4
gpt4 key购买 nike

在许多应用程序中,创建大型训练数据集即使不是完全不可能,也是非常昂贵的。那么可以采取哪些步骤来限制获得良好准确度所需的大小呢?

最佳答案

嗯,机器学习有一个分支专门致力于解决这个问题(标记数据集的成本很高):semi-supervised learning

老实说,根据我的经验,计算时间非常长,而且与完全标记的数据集相比,结果显得苍白......但是最好在大型未标记数据集上进行训练,而不是什么都没有!

<小时/>

编辑:嗯,我首先将问题理解为“标记数据集很昂贵”,而不是“无论如何,数据集的大小都会很小”

嗯,除其他外,我会:

  • 使用 leave one out cross validation 调整我的参数。计算成本最高,但却是最好的。

  • 选择收敛速度相当快的算法。 (你需要一个对照表,我现在没有)

  • 需要非常好的泛化特性。在这种情况下,弱分类器的线性组合非常好。 kNN(k 个最近邻)非常糟糕。

  • 偏置“泛化”参数。大多数算法都是在泛化(规律性)和质量(训练集是否被分类器很好地分类?)之间进行折衷。如果您的数据集很小,您应该使算法偏向于泛化(在通过交叉验证调整参数之后)

关于machine-learning - 在机器学习中,可以采取哪些措施来限制所需训练样本的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7011971/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com