gpt4 book ai didi

machine-learning - 机器学习 - 按算法进行特征排名

转载 作者:行者123 更新时间:2023-11-30 08:39:33 26 4
gpt4 key购买 nike

我有一个包含大约 30 个特征的数据集,我想找出哪些特征对结果贡献最大。我有 5 种算法:

  1. 神经网络
  2. 物流
  3. 天真
  4. 随机森林
  5. Adaboost

我读了很多有关信息增益技术的内容,它似乎独立于所使用的机器学习算法。这就像一种预处理技术。

我的问题如下,最佳实践是独立地为每个算法执行特征重要性还是仅使用信息增益。如果是的话,每种技术使用什么技术?

最佳答案

首先,值得强调的是,您必须仅基于训练数据执行特征选择,即使它是一个单独的算法。在测试过程中,您可以从测试数据集中选择相同的特征。

我想到的一些方法:

  1. 基于互信息的特征选择(例如 here ),独立于分类器。
  2. 向后或向前选择(请参阅 stackexchange question ),适用于任何分类器,但可能成本高昂,因为您需要训练/测试许多模型。
  3. 作为分类器优化一部分的正则化技术,例如 Lassoelastic net 。后者在共线性高的数据集中效果更好。
  4. 主成分分析或任何其他对特征进行分组的降维技术 ( example )。
  5. 某些模型会计算潜在变量,您可以将其用于解释而不是原始特征(例如 Partial Least SquaresCanonical Correlation Analysis )。

特定的分类器可以通过提供有关特征/预测变量的额外信息来帮助解释,这是我突然想到的:

  • 逻辑回归:您可以获得每个特征的 p 值。在您的解释中,您可以关注那些“显着”的内容(例如 p 值<0.05)。 (二类线性判别分析相同)
  • 随机森林:可以返回一个变量重要性指数,将变量从最重要到最不重要进行排名。

I have a dataset that contains around 30 features and I want to find out which features contribute the most to the outcome.

这取决于算法。如果您有 5 种算法,您可能会得到 5 个略有不同的答案,除非您在分类之前执行特征选择(例如使用互信息)。原因之一是随机森林和神经网络会拾取非线性关系,而逻辑回归则不会。此外,朴素贝叶斯对交互视而不见。因此,除非您的研究明确涉及这 5 个模型,否则我宁愿选择一个模型并继续进行。

关于machine-learning - 机器学习 - 按算法进行特征排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54034392/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com