gpt4 book ai didi

machine-learning - 在特征选择中,我应该分别在训练和测试数据集上使用 SelectKBest 吗?

转载 作者:行者123 更新时间:2023-11-30 08:54:07 24 4
gpt4 key购买 nike

我的问题是我应该首先对整个数据集执行 selectkbest sklearn 函数进行特征选择,然后将数据集划分为训练集和测试集,还是应该执行 selectkbest训练和测试数据集分区后?在第二个中,是否有可能为测试数据集选择与训练所用的不同的 k 个特征?我对机器学习非常陌生,最近刚刚了解了一些关于特征选择的知识。

我在这里使用单变量特征选择示例来了解 selectkbest - http://scikit-learn.org/stable/modules/feature_selection.html例如

最佳答案

从技术上讲,您应该在训练集上拟合 selectKbest,然后使用拟合的选择器“转换”测试集。这是因为您不应在训练过程的任何部分使用测试数据。

想象一下稍后将模型应用于新数据。在这种情况下,您必须使用您在训练数据上训练的 selectKbest 模型来“转换”这些数据。因此,这是获得更准确的性能估计的正确过程。

如果您实现某种交叉验证方案,则应该对每个 CV 折叠重复此过程,以便获得有关分类器(或回归器)性能的正确估计。

关于machine-learning - 在特征选择中,我应该分别在训练和测试数据集上使用 SelectKBest 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44199739/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com