gpt4 book ai didi

python - 如何预处理具有太多 NAN 值的列?

转载 作者:行者123 更新时间:2023-11-30 09:45:37 27 4
gpt4 key购买 nike

我有一个形状为 (596000, 58) 的训练数据,下面的图像使用 train.isnull( 有一些特征与特征/行中的“NAN”数量对比).sum().

考虑到每个特征具有同等重要性并且是分类值我应该删除列 cat6 和 cat8 吗? 对于 cat6 411792/596000 是 NaN,而对于 cat8 266928/596000 是 NaN。

有办法处理这种情况吗?或者我必须删除这两列?

<小时/>

输入[12]:train.isnull().sum()

输出[12]:

enter image description here

最佳答案

几乎没有可能的策略会导致分类特征缺失值:

  • 删除功能;
  • 对于 NaN 值,设置此功能最常见的值;
  • NaN 值设置新类(例如 nan_value);
  • 最复杂的方法 - 创建一个单独的模型来预测当前特征的缺失值;

什么最适合?更深入地查看您的数据。构建一个简单的基线模型并尝试所有方法。这应该有助于回答您的问题。

就您的情况而言,似乎是的,cat6 和 cat8 功能对您来说毫无用处,但您仍然需要对这个问题进行简短的调查。

关于python - 如何预处理具有太多 NAN 值的列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53031742/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com