gpt4 book ai didi

machine-learning - 在回归任务中,如何找到哪些自变量要被忽略或不重要?

转载 作者:行者123 更新时间:2023-11-30 09:31:07 27 4
gpt4 key购买 nike

在我正在处理的回归问题中,有五个独立列和一个从属列。由于隐私原因,我无法直接共享数据集详细信息,但自变量之一是 ID 字段,该字段对于每个示例都是唯一的。我觉得我不应该使用 ID 字段来估计因变量。但这只是一种直觉。我没有充分的理由这样做。我该怎么办?有什么方法可以决定使用哪些变量以及忽略哪些变量?

最佳答案

嗯,我同意@desertnaut 。创建模型时,Id 属性似乎不相关,并且对预测没有提供任何帮助。

您要查找的术语是特征选择。由于这是一个综合性的部分,所以我只会告诉您数据科学家最常使用的方法。

对于回归问题,您可以尝试使用相关热图来查找与目标高度相关的特征。

sns.heatmap(df.corr())

还有其他几种方法,例如 PCA,使用树内置的特征选择方法来为您的模型找到正确的特征。

您也可以尝试James Phillips方法。 这种方法有局限性,因为模型时间复杂度将随着特征的增加而线性增加。但如果您只有四个功能需要比较,您可以尝试一下。您可以通过递归删除四个特征之一,将使用所有四个特征训练的回归模型与仅使用三个特征训练的模型进行比较。这意味着训练四个回归模型并比较它们。

关于machine-learning - 在回归任务中,如何找到哪些自变量要被忽略或不重要?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57538799/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com