gpt4 book ai didi

python - 分类变量的缩放

转载 作者:行者123 更新时间:2023-12-05 05:00:02 25 4
gpt4 key购买 nike

  1. 分类变量是否需要在模型构建之前进行缩放?我已经使用 StandardScalear 缩放了我所有的连续数值变量现在所有连续变量都在 -1 和 1 之间,因为分类列是二进制的。

  2. 它将如何影响我的模型?

  3. 有人可以解释一下,缩放的分类变量将如何影响 DecisionTreeClassifier 中的节点拆分

最佳答案

当您对分类变量进行单热编码时,编码变量中的值变为 0 和 1。因此,编码变量不会对您的模型产生负面影响。您对变量进行编码并将它们传递给 ML 学习算法这一事实很好,因为您可以从 ML 模型中获得更多见解。

缩放数据集时,请务必注意两件事:

  1. 有些 ML 算法需要缩放数据,有些则不需要。最好只为对未缩放数据敏感的模型缩放数据,例如 kNN。

  2. 缩放数据的方法有多种。 StandardScaler() 是其中之一,但它容易受到异常值的影响。因此,请确保您使用的缩放方法最适合您的业务需求。您可以在此处了解有关不同缩放方法的更多信息:https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html

编码的分类变量包含 0 和 1 上的值。因此,甚至不需要对它们进行缩放。但是,当您选择在将数据与缩放敏感的 ML 模型一起使用之前缩放整个数据集时,缩放方法将应用于它们。

关于python - 分类变量的缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63304223/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com