gpt4 book ai didi

python - 处理缺失的分类值 ML

转载 作者:行者123 更新时间:2023-12-04 09:59:04 26 4
gpt4 key购买 nike

我经历过replace missing values in categorical data关于处理分类数据中的缺失值。

数据集大约有 6 categorical columnsmissing values .这将用于二分类问题

我看到了不同的方法,其中一种方法是 just leave the missing values in category column as such , 其他使用 from sklearn.preprocessing import Imputer 进行估算,但不确定哪个更好。

如果 imputing是更好的选择,在应用像 LR,Decision Tree, RandomForest 这样的模型之前我可以使用哪些库.

谢谢!

最佳答案

有多种方法可以处理丢失的数据:

  • 有些模型会处理它(例如 XGBoost、LightGBM)
  • 您可以尝试使用模型来估算它们。您应该将数据分成训练集和测试集,并尝试不同的模型来衡量哪个最有效。但更多时候不是,它不能很好地工作。有一个KNNImputer在 sklearn 中实现
  • 您还可以定义规则:根据您的数据集,将缺失值设置为 0、平均值、中位数或任何有效值。这是一个 SimpleImputer在 sklearn 中实现
  • 如果以上方法都不适合您,您还可以去掉缺失值的行。

  • 有关 sklearn 中值的更多详细信息: https://scikit-learn.org/stable/modules/impute.html

    关于python - 处理缺失的分类值 ML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61868829/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com