gpt4 book ai didi

machine-learning - 对不同回归量使用嵌套交叉验证

转载 作者:行者123 更新时间:2023-11-30 09:39:50 29 4
gpt4 key购买 nike

我正在做一项作业,其中我必须比较使用 scikit-learn 实现的两个回归器(随机森林和 svr)。我想评估这两个回归量,我在谷歌上搜索了很多,发现了嵌套交叉验证,您使用内部循环来调整超参数,使用外部循环来验证训练集的 k 倍。我想使用内部循环来调整我的回归器,并使用外部循环来验证两者,这样我将为两个回归器进行相同的测试和训练折叠。
这是比较两种机器学习算法的正确方法吗?有没有更好的方法来比较两种算法?特别是回归量?

我在博客中找到了一些条目,但我找不到任何科学论文表明这是一种相互比较两种算法的好技术,这对我来说很重要。如果有一些当前论文的链接,如果您也能发布它们,我会很高兴。感谢您提前的帮助!

编辑
我的数据量非常少(大约200个样本),但特征量很大(使用特征选择后大约250个样本,否则大约4500个),所以我决定使用交叉验证。我的因变量是从0到1的连续值。该问题是一个推荐问题,因此在这种情况下测试准确性是没有意义的。由于这只是一项作业,我只能用统计方法来衡量机器学习算法,而不是询问用户的意见或衡量他们的购买行为。

最佳答案

我认为这取决于您想要比较的内容。如果您只想比较不同模型的预测能力(分类器和回归器等),则嵌套交叉验证通常很好,以免报告过于乐观的指标:https://scikit-learn.org/stable/auto_examples/model_selection/plot_nested_cross_validation_iris.html同时允许您找到最佳的超参数集。

但是,有时看起来有点矫枉过正:https://arxiv.org/abs/1809.09446

此外,根据机器学习算法的行为方式、您谈论的数据集、它们的特征等,也许您的“比较”可能需要考虑很多其他事情,而不仅仅是预测能力。也许如果您提供更多详细信息,我们将能够提供更多帮助。

关于machine-learning - 对不同回归量使用嵌套交叉验证,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59534265/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com