gpt4 book ai didi

machine-learning - sklearn 中的哪些预测模型受训练数据框中列顺序的影响?

转载 作者:行者123 更新时间:2023-12-05 03:50:01 26 4
gpt4 key购买 nike

我想知道 Sci-kit Learn 提供的任何估计器是否会受到训练它的数据框中列顺序的影响。我尝试使用 ExtraTreesRegressor 建立基线,结果有 3 个不同的分数:

  • .531687 用于常规订单
  • .535309 为逆序
  • .554458 用于常规订单

显然 ExtraTreesRegressor 在这里不是一个很好的例子,所以我尝试了 LinearRegression,但无论列的顺序如何,它都给出了 .295898。

我想知道的是,是否有任何受列顺序影响的估算器,如果没有,那么您能否以某种方式指出我的方向,或提供一些代码,我可以使用它们确保列的顺序重要吗?

最佳答案

任何在构建模型时选择特征时涉及随机性的算法都会受到顺序的影响; AFAIK,scikit-learn 中存在的唯一情况是额外树和随机森林(在它们作为分类器或回归器的化身中),它们确实共享一些 similarities .

这种行为的确凿证据是参数 max_features;来自 RF docs (描述在 Extra Trees 中也是相同的):

max_features : {“auto”, “sqrt”, “log2”} int or float, default=”auto”

The number of features to consider when looking for the best split

我不知道其他算法涉及这种随机特征选择(线性模型、决策树、支持向量机、朴素贝叶斯、神经网络和梯度提升树没有),但如果你在文档,您可以打赌相应的算法也受特征顺序的影响。

请记住,在随机性从太多角度进入的模型中,这种理论上不应该发生的微小差异是可以预期的。对于 R 中 RF 的类似情况(询问 importance=TRUE 时结果略有不同),查看我在 Why does the importance parameter influence performance of Random Forest in R? 中的回答

关于machine-learning - sklearn 中的哪些预测模型受训练数据框中列顺序的影响?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63689173/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com